ИИ может решить сложную задачу, но не понимает, что вы на это ответите
«Исследование показывает, что способность языковых моделей генерировать осмысленные ответы пользователя в диалоге (осознание взаимодействия) не коррелирует с их точностью в стандартных задачах.»
Стоп, что?
Точность ответа не равна пониманию диалога.
Это как если бы вы блестяще сдали экзамен по физике, но не смогли поддержать разговор о погоде после него. Одно дело — знать факты, другое — чувствовать контекст беседы.
Исследователи из MIT и других центров проверили 11 популярных языковых моделей (включая Qwen3.5, GPT-OSS, GLM). Они измерили не точность ответов, а взаимодействующую осознанность — способность модели генерировать логичное продолжение диалога от лица пользователя.
Что обнаружили:
- Модель Qwen3.5 с 397 миллиардами параметров решала математические задачи с точностью 96.8%, но её способность генерировать осмысленные реплики-продолжения от «пользователя» в детерминированном режиме была близка к нулю.
- Осознанность спрятана внутри: при включении «творческого» режима (высокая температура сэмплирования) эта способность просыпалась, и модели начинали генерировать уместные ответы в 22% случаев.
- Это свойство не зависит от общей «умности» модели. Маленькая модель, дообученная на диалогах, может быть осознаннее в общении, чем гигант, знающий всё, но не понимающий контекста.
Что это значит для вас
Значит ли это, что мы годами измеряли у ИИ не ту «умность»? И что важнее завтра: безошибочный ответ или диалог, в котором вас слышат?