Direct Preference Optimization (DPO)
Direct Preference Optimization (DPO) — это метод выравнивания больших языковых моделей (LLM) с человеческими предпочтениями, который обходит этап обучения отдельной модели вознаграждения. Вместо этого DPO напрямую оптимизирует политику модели, используя данные о парных предпочтениях, что упрощает и стабилизирует традиционный конвейер RLHF.
Определение и происхождение
Direct Preference Optimization (DPO) — это метод машинного обучения, разработанный для выравнивания поведения больших языковых моделей (LLM) с человеческими предпочтениями. Он возник как альтернатива стандартному конвейеру Reinforcement Learning from Human Feedback (RLHF), который требует многоэтапного обучения, включающего создание модели вознаграждения и последующую оптимизацию политики с помощью алгоритмов обучения с подкреплением. DPO был предложен для устранения сложностей и нестабильностей, присущих двухэтапному процессу RLHF. Его теоретическая основа была представлена в научной литературе, включая препринт arXiv:2305.18290, и он быстро стал ключевым подходом в области тонкой настройки LLM.
Механика: как это устроено
Математический аппарат DPO основан на аналитическом выводе оптимальной политики для заданной функции вознаграждения в рамках модели Брэдли-Терри. Вместо того чтобы явно обучать параметризованную модель вознаграждения, DPO переформулирует задачу максимизации предпочтений как задачу максимизации правдоподобия. Метод использует данные в виде пар ответов (предпочтительный и отвергнутый), сгенерированных исходной моделью. Целевая функция DPO максимизирует вероятность того, что предпочтительный ответ будет иметь более высокий неявный «вознаграждающий» балл, чем отвергнутый, при этом ограничивая отклонение обновленной политики от исходной эталонной модели. Это ограничение, выраженное через расхождение Кульбака-Лейблера, предотвращает чрезмерную оптимизацию и деградацию модели.
Практическое применение в современной индустрии
DPO широко применяется для тонкой настройки больших языковых моделей, таких как GPT, Llama и их производных, чтобы их выходные данные были более полезными, честными и безопасными. Его одноэтапный характер делает его более вычислительно эффективным и простым в реализации по сравнению с RLHF, что способствовало его быстрому внедрению в индустрии. DPO является центральным компонентом многих открытых фреймворков для выравнивания ИИ, таких как TRL (Transformer Reinforcement Learning) от Hugging Face. Он используется для создания чат-ботов, ассистентов по программированию и моделей для генерации контента, которые напрямую обучаются на наборах данных человеческих предпочтений, таких как Anthropic's HH-RLHF.
Ограничения и перспективы развития
Основное ограничение DPO заключается в его зависимости от качества и репрезентативности данных о парных предпочтениях. Метод предполагает, что предпочтения могут быть смоделированы статической функцией вознаграждения, что может не учитывать контекстуальную или многоаспектную природу человеческих суждений. Кроме того, DPO, как правило, менее гибок, чем RLHF, в сценариях, где требуется активное исследование или где функция вознаграждения должна динамически обновляться. Перспективы развития включают интеграцию DPO с обучением на основе обратной связи от ИИ (RLAIF), расширение для работы с более сложными формами обратной связи (например, ранжированием или числовыми оценками) и разработку более устойчивых целевых функций для лучшего управления компромиссом между полезностью и безопасностью.
Хотите знать больше?
Мы постоянно пополняем нашу Википедию будущего новыми терминами из передовых исследований.