Все открытия
06.04.20263 мин чтения

Как научить ИИ быть человеком, если сами люди не знают, чего хотят?

Impact8/10
Wow Factor4/10

«Данный обзорный документ анализирует обучение с подкреплением на основе обратной связи от человека (RLHF) с точки зрения статистики, систематизируя его компоненты, методы и открытые проблемы.»

ChatGPT и другие ИИ учатся не на учебниках, а на наших с вами лайках и дизлайках. Но что, если наше мнение — это самый ненадёжный учебник в мире?

Стоп, что?

Мы не учим ИИ, мы его дрессируем нашими капризами.

Представьте, что вы пытаетесь научить друга готовить, но вместо рецептов вы просто говорите «вкусно» или «не очень». А потом удивляетесь, почему он добавляет в омлет клубнику. Так работает современное выравнивание ИИ.

Исследователи показали, что ключевая технология за такими моделями, как ChatGPT, называется Reinforcement Learning from Human Feedback (RLHF).

Как это работает на самом деле:

  1. Сбор предпочтений: Людям показывают два ответа ИИ и просят выбрать лучший. Это создаёт миллионы пар «победитель-проигравший». (Это похоже на модель Брэдли-Терри-Льюса, которая ранжирует теннисистов).
  2. Обучение «вкусометра»: На этих данных ИИ учится угадывать, какой ответ понравится человеку. Это и есть модель вознаграждения — внутренний «вкусометр» ИИ.
  3. Оптимизация под вкус: Основная модель настраивается, чтобы генерировать ответы, которые получат максимум «лайков» от этого «вкусометра». Это и есть reinforcement learning (обучение с подкреплением).

Проблема в том, что наш «вкус» — шумный, субъективный и противоречивый. Мы сами не всегда знаем, почему один ответ лучше другого. ИИ пытается найти закономерности в этом хаосе.

Что это значит для вас

Если ИИ учится на средних предпочтениях человечества, не превратим ли мы его в самого скучного конформиста в истории?

📚 Глоссарий этого выпуска

RLHF (Reinforcement Learning from Human Feedback)
Метод обучения ИИ, где модель настраивается на основе человеческих оценок «нравится/не нравится».
Модель вознаграждения (Reward Model)
Внутренний «вкусометр» ИИ, который пытается угадать, понравится ли ответ человеку.
Выравнивание (Alignment)
Процесс настройки ИИ так, чтобы его цели и поведение соответствовали человеческим намерениям и ценностям.
Парные предпочтения (Pairwise Preferences)
Основные данные для RLHF, где человек выбирает лучший из двух предложенных ИИ ответов.