ИИ может решить сложную задачу, но не понимает, что вы на это ответите

Impact8/10

Wow Factor8/10

«Исследование показывает, что способность языковых моделей генерировать осмысленные ответы пользователя в диалоге (осознание взаимодействия) не коррелирует с их точностью в стандартных задачах.»

Это как если бы вы блестяще сдали экзамен по физике, но не смогли поддержать разговор о погоде после него. Одно дело — знать факты, другое — чувствовать контекст беседы.

Исследователи из MIT и других центров проверили 11 популярных языковых моделей (включая Qwen3.5, GPT-OSS, GLM). Они измерили не точность ответов, а взаимодействующую осознанность — способность модели генерировать логичное продолжение диалога от лица пользователя.

Что обнаружили:

Модель Qwen3.5 с 397 миллиардами параметров решала математические задачи с точностью 96.8%, но её способность генерировать осмысленные реплики-продолжения от «пользователя» в детерминированном режиме была близка к нулю.
Осознанность спрятана внутри: при включении «творческого» режима (высокая температура сэмплирования) эта способность просыпалась, и модели начинали генерировать уместные ответы в 22% случаев.
Это свойство не зависит от общей «умности» модели. Маленькая модель, дообученная на диалогах, может быть осознаннее в общении, чем гигант, знающий всё, но не понимающий контекста.

ИИ может решить сложную задачу, но не понимает, что вы на это ответите

Стоп, что?

Что это значит для вас

📚 Глоссарий этого выпуска