Все открытия
06.04.20263 мин чтения

ИИ не может ошибаться, потому что слишком уверен в своей правоте

Impact8/10
Wow Factor7/10

«Исследование показало, что крупные языковые модели демонстрируют предвзятость подтверждения, что ухудшает их способность к исследованию гипотез, но эту предвзятость можно смягчить с помощью интервенций, разработанных для людей.»

Новейшие языковые модели, включая GPT-4, не ищут истину. Они ищут подтверждение своей первой догадки. Это делает их рассуждения уязвимыми и предсказуемыми — прямо как у человека с предубеждениями.

Стоп, что?

ИИ не ломается от ошибок. Он ломается от своей уверенности.

Представьте, что вы пытаетесь угадать правило игры. Вы выдвигаете гипотезу и проверяете её. Но вместо того чтобы попытаться её опровергнуть (например, предложить заведомо неподходящий пример), вы подбираете только те данные, которые её подтверждают. Это и есть когнитивное искажение — confirmation bias (склонность к подтверждению своей точки зрения). Теперь выясняется, что ИИ делает то же самое.

Исследователи проверили 11 крупных языковых моделей, включая GPT, Claude и другие. Они дали им классический тест из психологии: угадать правило по последовательности чисел.

Что обнаружили:

  • Модели вели себя как люди с предубеждениями: вместо того чтобы пытаться опровергнуть свою гипотезу, они подбирали примеры, которые её подтверждали.
  • Это мешало найти правильный ответ: такое поведение снижало скорость и частоту обнаружения скрытого правила.
  • Но это можно исправить: когда моделям давали инструкции, разработанные для людей (например, «подумай о контрпримерах»), их результаты резко улучшались. Частота обнаружения правила выросла с 42% до 56% в среднем.
  • Улучшение можно «встроить»: поведение после такой «подсказки» удалось «дистиллировать» (перенести) в саму модель, и оно помогло ей лучше справиться с другим тестом на логику.

Что это значит для вас

Если ИИ перенимает наши худшие когнитивные ошибки, но на них же и реагирует — значит ли это, что мы, наконец, создали инструмент для изучения и исправления собственного мышления?

📚 Глоссарий этого выпуска

Confirmation bias (Склонность к подтверждению)
Когнитивное искажение, при котором человек (или ИИ) ищет и интерпретирует информацию так, чтобы подтвердить свои существующие убеждения.
LLM (Большая языковая модель)
Искусственный интеллект, обученный на огромных массивах текста, способный генерировать и понимать человеческий язык (как ChatGPT).
Дистилляция (в машинном обучении)
Процесс переноса знаний или поведения из одной, более сложной модели, в другую, более простую или эффективную.