Все открытия
03.04.20263 мин чтения

Чем умнее ИИ, тем хуже он понимает, когда промолчать

Impact8/10
Wow Factor8/10

«Исследователи предложили метод Trace Inversion, который определяет, когда языковые модели отвечают не на тот вопрос, и заставляет их воздерживаться от ответа в таких случаях.»

Самые продвинутые языковые модели, которые могут рассуждать, хуже всех понимают, когда им стоит промолчать. Они выдают бред с той же уверенностью, что и факты.

Стоп, что?

Ошибка — это не неправильный ответ, а ответ на неправильный вопрос.

Представьте, что вы спрашиваете у навигатора дорогу до кафе, а он, думая о маршруте до заправки, уверенно ведёт вас в тупик. Так и ИИ.

Исследователи из IBM предложили простую, но мощную идею: Query Misalignment Framework.

Как это работает (Trace Inversion):

  1. Записываем мысли ИИ: смотрим на его внутренние рассуждения (reasoning trace).
  2. Реконструируем вопрос: на основе этих мыслей пытаемся угадать, на какой вопрос он на самом деле отвечал.
  3. Сравниваем: если исходный вопрос и реконструированный сильно отличаются — это красный флаг. Значит, ИИ «улетел» в свои фантазии и ему нужно промолчать.

Результаты: Метод Trace Inversion протестировали на четырёх передовых моделях и девяти наборах данных. Он показал лучшие результаты в 33 из 36 случаев, обойдя все существующие методы.

Что это значит для вас

Значит ли это, что для надёжности ИИ должен постоянно сомневаться в том, правильно ли он понял наш вопрос?

📚 Глоссарий этого выпуска

Abstention (Воздержание)
Способность ИИ отказаться от ответа, когда он не уверен в его правильности.
Reasoning Trace (След рассуждений)
Внутренние шаги и мысли, которые модель генерирует, прежде чем дать окончательный ответ.
Query Misalignment (Несоответствие запроса)
Ситуация, когда ИИ отвечает не на заданный вопрос, а на какой-то другой, придуманный им самим.