ИИ не может ошибаться, потому что слишком уверен в своей правоте

Impact8/10

Wow Factor7/10

«Исследование показало, что крупные языковые модели демонстрируют предвзятость подтверждения, что ухудшает их способность к исследованию гипотез, но эту предвзятость можно смягчить с помощью интервенций, разработанных для людей.»

Представьте, что вы пытаетесь угадать правило игры. Вы выдвигаете гипотезу и проверяете её. Но вместо того чтобы попытаться её опровергнуть (например, предложить заведомо неподходящий пример), вы подбираете только те данные, которые её подтверждают. Это и есть когнитивное искажение — confirmation bias (склонность к подтверждению своей точки зрения). Теперь выясняется, что ИИ делает то же самое.

Исследователи проверили 11 крупных языковых моделей, включая GPT, Claude и другие. Они дали им классический тест из психологии: угадать правило по последовательности чисел.

Что обнаружили:

Модели вели себя как люди с предубеждениями: вместо того чтобы пытаться опровергнуть свою гипотезу, они подбирали примеры, которые её подтверждали.
Это мешало найти правильный ответ: такое поведение снижало скорость и частоту обнаружения скрытого правила.
Но это можно исправить: когда моделям давали инструкции, разработанные для людей (например, «подумай о контрпримерах»), их результаты резко улучшались. Частота обнаружения правила выросла с 42% до 56% в среднем.
Улучшение можно «встроить»: поведение после такой «подсказки» удалось «дистиллировать» (перенести) в саму модель, и оно помогло ей лучше справиться с другим тестом на логику.

ИИ не может ошибаться, потому что слишком уверен в своей правоте

Стоп, что?

Что это значит для вас

📚 Глоссарий этого выпуска