← К общему списку
Энциклопедия Planck Media

Политика (Policy)

В контексте обучения с подкреплением (Reinforcement Learning, RL) и, в частности, RLHF (Reinforcement Learning from Human Feedback), политика — это стратегия или набор правил, определяющих поведение агента (например, языковой модели) в среде. Она представляет собой отображение состояний (или контекстов) на распределение вероятностей допустимых действий (например, генерируемых текстовых токенов).

Определение и происхождение

Термин «политика» (π) является фундаментальным понятием в теории обучения с подкреплением, формализованной в рамках марковских процессов принятия решений (MDP). В классическом RL политика определяет, какое действие a предпринять агенту, находящемуся в состоянии s. В контексте выравнивания больших языковых моделей (LLM) с помощью RLHF, политика эволюционирует от исходной предобученной модели (часто после этапа контролируемого тонкого настройки, SFT) к оптимизированной модели, которая максимизирует ожидаемую совокупную награду, смоделированную на основе человеческих предпочтений.

Механика: как это устроено

С математической точки зрения, политика π(a|s) задает распределение вероятностей по действиям a для данного состояния (контекста) s. В RLHF процесс оптимизации политики является ключевым этапом после моделирования функции награды R. Цель — найти политику π*, которая максимизирует ожидаемую награду, получаемую от среды (или от модели награды): J(π) = E_{(s,a)∼π}[R(s,a)]. На практике это достигается с помощью алгоритмов RL, таких как PPO (Proximal Policy Optimization), которые производят итеративные обновления политики, генерируя ответы, оценивая их с помощью модели награды и корректируя политику в сторону ответов с более высокой ожидаемой наградой, одновременно ограничивая отклонение от исходной политики для сохранения полезных знаний и предотвращения коллапса режима.

Практическое применение в современной индустрии

Оптимизация политик с помощью RLHF стала стандартным методом для финальной стадии настройки современных LLM, таких как GPT-4, Claude и других. Этот процесс позволяет скорректировать поведение модели, делая её выводы более полезными, честными и безопасными с точки зрения человеческих оценщиков. Политика, полученная в результате RLHF, напрямую развертывается в производственных системах для чат-ботов, ассистентов по программированию и инструментов генерации контента. Кроме того, появились одноэтапные методы, такие как Direct Preference Optimization (DPO), которые позволяют оптимизировать политику напрямую по данным предпочтений, минуя этап явного обучения модели награды, что упрощает и удешевляет pipeline.

Ограничения и перспективы развития

Основные ограничения политик, обученных с помощью RLHF, связаны с качеством и репрезентативностью данных о человеческих предпочтениях, которые могут быть шумными, субъективными и неполными. Это может привести к чрезмерной оптимизации под конкретный набор оценок (overfitting), потере креативности или разнообразия выводов (mode collapse) и непреднамеренным последствиям из-за неправильной спецификации награды (reward hacking). Перспективные направления развития включают Reinforcement Learning from AI Feedback (RLAIF), где обратную связь генерируют другие ИИ-модели, методы оптимизации политик во время вывода (inference-time), а также формальную верификацию свойств политик. Ключевой открытой проблемой остается разработка устойчивых, эффективных и теоретически обоснованных методов оптимизации политик, способных работать с крайне сложными и высокоразмерными пространствами действий, характерными для языковых моделей.

Хотите знать больше?

Мы постоянно пополняем нашу Википедию будущего новыми терминами из передовых исследований.