Все открытия
03.04.20263 мин чтения

ИИ может решить сложную задачу, но не понимает, что вы на это ответите

Impact8/10
Wow Factor8/10

«Исследование показывает, что способность языковых моделей генерировать осмысленные ответы пользователя в диалоге (осознание взаимодействия) не коррелирует с их точностью в стандартных задачах.»

Представьте, что вы задали ИИ сложный вопрос, и он дал идеальный ответ. Но если бы вы сейчас заговорили — он бы не понял, что это реакция на его же слова.

Стоп, что?

Точность ответа не равна пониманию диалога.

Это как если бы вы блестяще сдали экзамен по физике, но не смогли поддержать разговор о погоде после него. Одно дело — знать факты, другое — чувствовать контекст беседы.

Исследователи из MIT и других центров проверили 11 популярных языковых моделей (включая Qwen3.5, GPT-OSS, GLM). Они измерили не точность ответов, а взаимодействующую осознанность — способность модели генерировать логичное продолжение диалога от лица пользователя.

Что обнаружили:

  • Модель Qwen3.5 с 397 миллиардами параметров решала математические задачи с точностью 96.8%, но её способность генерировать осмысленные реплики-продолжения от «пользователя» в детерминированном режиме была близка к нулю.
  • Осознанность спрятана внутри: при включении «творческого» режима (высокая температура сэмплирования) эта способность просыпалась, и модели начинали генерировать уместные ответы в 22% случаев.
  • Это свойство не зависит от общей «умности» модели. Маленькая модель, дообученная на диалогах, может быть осознаннее в общении, чем гигант, знающий всё, но не понимающий контекста.

Что это значит для вас

Значит ли это, что мы годами измеряли у ИИ не ту «умность»? И что важнее завтра: безошибочный ответ или диалог, в котором вас слышат?

📚 Глоссарий этого выпуска

Взаимодействующая осознанность (Interaction Awareness)
Способность ИИ понимать, что его ответ — часть диалога, и генерировать уместное продолжение от лица собеседника.
Детерминированный режим
Режим работы ИИ, при котором на один и тот же запрос он всегда даёт один и тот же, самый вероятный ответ.
Температура сэмплирования
Настройка «креативности» ИИ: высокая температура делает ответы разнообразнее, но менее предсказуемыми.
Пользовательский ход (User Turn)
Реплика, которую генерирует ИИ, притворяясь пользователем, который реагирует на свой же предыдущий ответ-помощника.