ИИ не может ошибаться, потому что слишком уверен в своей правоте
«Исследование показало, что крупные языковые модели демонстрируют предвзятость подтверждения, что ухудшает их способность к исследованию гипотез, но эту предвзятость можно смягчить с помощью интервенций, разработанных для людей.»
Стоп, что?
ИИ не ломается от ошибок. Он ломается от своей уверенности.
Представьте, что вы пытаетесь угадать правило игры. Вы выдвигаете гипотезу и проверяете её. Но вместо того чтобы попытаться её опровергнуть (например, предложить заведомо неподходящий пример), вы подбираете только те данные, которые её подтверждают. Это и есть когнитивное искажение — confirmation bias (склонность к подтверждению своей точки зрения). Теперь выясняется, что ИИ делает то же самое.
Исследователи проверили 11 крупных языковых моделей, включая GPT, Claude и другие. Они дали им классический тест из психологии: угадать правило по последовательности чисел.
Что обнаружили:
- Модели вели себя как люди с предубеждениями: вместо того чтобы пытаться опровергнуть свою гипотезу, они подбирали примеры, которые её подтверждали.
- Это мешало найти правильный ответ: такое поведение снижало скорость и частоту обнаружения скрытого правила.
- Но это можно исправить: когда моделям давали инструкции, разработанные для людей (например, «подумай о контрпримерах»), их результаты резко улучшались. Частота обнаружения правила выросла с 42% до 56% в среднем.
- Улучшение можно «встроить»: поведение после такой «подсказки» удалось «дистиллировать» (перенести) в саму модель, и оно помогло ей лучше справиться с другим тестом на логику.
Что это значит для вас
Если ИИ перенимает наши худшие когнитивные ошибки, но на них же и реагирует — значит ли это, что мы, наконец, создали инструмент для изучения и исправления собственного мышления?