Как научить ИИ быть человеком, если сами люди не знают, чего хотят?
«Данный обзорный документ анализирует обучение с подкреплением на основе обратной связи от человека (RLHF) с точки зрения статистики, систематизируя его компоненты, методы и открытые проблемы.»
Стоп, что?
Мы не учим ИИ, мы его дрессируем нашими капризами.
Представьте, что вы пытаетесь научить друга готовить, но вместо рецептов вы просто говорите «вкусно» или «не очень». А потом удивляетесь, почему он добавляет в омлет клубнику. Так работает современное выравнивание ИИ.
Исследователи показали, что ключевая технология за такими моделями, как ChatGPT, называется Reinforcement Learning from Human Feedback (RLHF).
Как это работает на самом деле:
- Сбор предпочтений: Людям показывают два ответа ИИ и просят выбрать лучший. Это создаёт миллионы пар «победитель-проигравший». (Это похоже на модель Брэдли-Терри-Льюса, которая ранжирует теннисистов).
- Обучение «вкусометра»: На этих данных ИИ учится угадывать, какой ответ понравится человеку. Это и есть модель вознаграждения — внутренний «вкусометр» ИИ.
- Оптимизация под вкус: Основная модель настраивается, чтобы генерировать ответы, которые получат максимум «лайков» от этого «вкусометра». Это и есть reinforcement learning (обучение с подкреплением).
Проблема в том, что наш «вкус» — шумный, субъективный и противоречивый. Мы сами не всегда знаем, почему один ответ лучше другого. ИИ пытается найти закономерности в этом хаосе.
Что это значит для вас
Если ИИ учится на средних предпочтениях человечества, не превратим ли мы его в самого скучного конформиста в истории?