Как научить ИИ быть человеком, если сами люди не знают, чего хотят?

Impact8/10

Wow Factor4/10

«Данный обзорный документ анализирует обучение с подкреплением на основе обратной связи от человека (RLHF) с точки зрения статистики, систематизируя его компоненты, методы и открытые проблемы.»

Представьте, что вы пытаетесь научить друга готовить, но вместо рецептов вы просто говорите «вкусно» или «не очень». А потом удивляетесь, почему он добавляет в омлет клубнику. Так работает современное выравнивание ИИ.

Исследователи показали, что ключевая технология за такими моделями, как ChatGPT, называется Reinforcement Learning from Human Feedback (RLHF).

Как это работает на самом деле:

Сбор предпочтений: Людям показывают два ответа ИИ и просят выбрать лучший. Это создаёт миллионы пар «победитель-проигравший». (Это похоже на модель Брэдли-Терри-Льюса, которая ранжирует теннисистов).
Обучение «вкусометра»: На этих данных ИИ учится угадывать, какой ответ понравится человеку. Это и есть модель вознаграждения — внутренний «вкусометр» ИИ.
Оптимизация под вкус: Основная модель настраивается, чтобы генерировать ответы, которые получат максимум «лайков» от этого «вкусометра». Это и есть reinforcement learning (обучение с подкреплением).

Проблема в том, что наш «вкус» — шумный, субъективный и противоречивый. Мы сами не всегда знаем, почему один ответ лучше другого. ИИ пытается найти закономерности в этом хаосе.

Как научить ИИ быть человеком, если сами люди не знают, чего хотят?

Стоп, что?

Что это значит для вас

📚 Глоссарий этого выпуска