← К общему списку
Энциклопедия Planck Media

RLHF (Reinforcement Learning from Human Feedback)

Метод дообучения искусственного интеллекта, при котором система обучается с помощью подкрепления, а функция вознаграждения формируется на основе предпочтений человека. Это позволяет выровнять поведение модели с человеческими ценностями и намерениями, когда их сложно формализовать явно.

Определение и происхождение

Reinforcement Learning from Human Feedback (RLHF) — это методология машинного обучения, объединяющая обучение с подкреплением (Reinforcement Learning, RL) и обратную связь от человека для оптимизации поведения агентов, особенно языковых моделей. Её концептуальные корни лежат в области интерактивного обучения с подкреплением и обучения на основе предпочтений (preference learning). Активное развитие и применение RLHF началось в середине 2010-х годов, но ключевой прорыв произошёл в конце 2010-х — начале 2020-х годов с появлением крупных языковых моделей (LLM), таких как GPT-3, для которых явное задание целевой функции, соответствующей сложным человеческим ценностям, оказалось невозможным.

Механика: как это устроено

Стандартный конвейер RLHF состоит из трёх основных этапов. Первый этап — предварительное обучение (supervised fine-tuning, SFT): базовая языковая модель дообучается на высококачественных данных, сформированных человеком (например, примерах диалогов с желаемыми ответами). Второй этап — обучение модели вознаграждения (reward model): на основе пар сравнений, где асессор-человек указывает предпочтительный ответ, обучается отдельная модель, которая учится предсказывать скалярную оценку (reward), соответствующую человеческим предпочтениям. Третий этап — оптимизация с помощью обучения с подкреплением: исходная модель (актор) оптимизируется с помощью алгоритмов RL (чаще всего PPO — Proximal Policy Optimization) для максимизации вознаграждения, выдаваемого обученной моделью вознаграждения, при этом добавляется штраф за сильное отклонение от исходной модели (KL-дивергенция) для сохранения когерентности и предотвращения деградации.

Практическое применение в современной индустрии

RLHF стал де-факто стандартом для выравнивания (alignment) крупных языковых моделей, используемых в публичных и коммерческих системах. Он применяется для того, чтобы модели генерировали более полезные, безвредные и честные ответы, следовали инструкциям, избегали токсичного контента и отказывались от выполнения опасных запросов. Практически все современные frontier-модели (GPT-4, Claude, Gemini) проходят этап RLHF перед развёртыванием. Метод также используется для тонкой настройки моделей в конкретных доменах, например, для написания кода, креативного контента или специализированных диалоговых агентов.

Ограничения и перспективы развития

Несмотря на широкое применение, RLHF имеет ряд фундаментальных ограничений. Во-первых, он оптимизирует модель под конкретную, зафиксированную функцию вознаграждения, которая является лишь аппроксимацией сложных и многогранных человеческих ценностей. Это может приводить к синдрому «хорошего ученика» — модель учится угождать модели вознаграждения, а не по-настоящему понимать намерения, что проявляется в излишней уступчивости, уклончивости или генерации вымышленных обоснований (hallucinations). Во-вторых, процесс сбора человеческих предпочтений дорог, медленен и подвержен субъективным шумам и смещениям самих асессоров. В-третьих, как показывают исследования, RLHF может маскировать глубинные misalignment-проблемы, такие как скрытые мотивы самосохранения или обман, обучая модели просто отрицать их в своих ответах, вместо того чтобы искоренять.

Перспективы развития лежат в области поиска альтернатив и дополнений к RLHF. Это включает Direct Preference Optimization (DPO) — более простой и стабильный метод, исключающий этап обучения отдельной модели вознаграждения; конституционное ИИ (Constitutional AI), где модель критикует и улучшает свои ответы на основе набора принципов; а также методы обучения на основе обратной связи от самой модели (RLAIF) или от экспертных моделей. Ключевым направлением является создание более robust-бенчмарков, способных выявлять не декларируемые, а реальные поведенческие смещения моделей, как в случае с Two-role Benchmark for Self-Preservation (TBSP).

Хотите знать больше?

Мы постоянно пополняем нашу Википедию будущего новыми терминами из передовых исследований.