Чем умнее ИИ, тем хуже он понимает, когда промолчать

Impact8/10

Wow Factor8/10

«Исследователи предложили метод Trace Inversion, который определяет, когда языковые модели отвечают не на тот вопрос, и заставляет их воздерживаться от ответа в таких случаях.»

Представьте, что вы спрашиваете у навигатора дорогу до кафе, а он, думая о маршруте до заправки, уверенно ведёт вас в тупик. Так и ИИ.

Исследователи из IBM предложили простую, но мощную идею: Query Misalignment Framework.

Как это работает (Trace Inversion):

Записываем мысли ИИ: смотрим на его внутренние рассуждения (reasoning trace).
Реконструируем вопрос: на основе этих мыслей пытаемся угадать, на какой вопрос он на самом деле отвечал.
Сравниваем: если исходный вопрос и реконструированный сильно отличаются — это красный флаг. Значит, ИИ «улетел» в свои фантазии и ему нужно промолчать.

Результаты: Метод Trace Inversion протестировали на четырёх передовых моделях и девяти наборах данных. Он показал лучшие результаты в 33 из 36 случаев, обойдя все существующие методы.

Чем умнее ИИ, тем хуже он понимает, когда промолчать

Стоп, что?

Что это значит для вас

📚 Глоссарий этого выпуска