Все открытия
03.04.20263 мин чтения

ИИ видит кота, но не понимает, что это «тот самый, который сейчас нападет»

Impact7/10
Wow Factor9/10

«Исследователи представили новый эталонный тест и метод для визуального заземления, где цель нужно вывести из ролей, намерений и контекста, а не из прямого именования объектов.»

Современный ИИ может найти на фото «красную чашку». Но он не поймет, что это «чашка, из которой только что пролили кофе на важные документы». И это огромная проблема.

Стоп, что?

Мы учим ИИ искать предметы по названиям, а не по смыслу.

Это как если бы вы в кризисной ситуации крикнули другу: «Дай то, чем можно вытереть!» — и он, вместо того чтобы схватить тряпку, начал перечислять все предметы в комнате, которые теоретически могут впитывать жидкость.

Исследователи создали новый тест — Referring Scenario Comprehension (RSC). Вместо простых запросов вроде «синяя машина» ИИ получает целые абзацы с описанием ролей, намерений и контекста.

  • Пример задачи: «Найди предмет, который человек использует, чтобы дотянуться до высокой полки, пока его ребенок пытается схватить его за ногу». Это может быть табуретка, стул или коробка — но не диван или ковер.
  • Сложность помечена: Каждый пример имеет теги сложности: уникальность объекта, загроможденность сцены, размер, перекрытие с другими объектами. Это помогает понять, где именно ИИ ошибается.
  • Метод ScenGround: Ученые предложили метод обучения, где ИИ сначала «разминается» на простых задачах, а затем с помощью проб и ошибок (reinforcement learning) учится решать сложные, начиная с тех, что помечены как легкие.
  • Результат: Оказалось, что современные модели, блестяще справляющиеся со стандартными тестами, систематически проваливаются на таких сценариях. Обучение по новой методике не только улучшает результаты на сложных случаях, но и помогает в традиционных задачах.

Что это значит для вас

Завтра ваш голосовой помощник сможет не просто включить свет по команде, а понять, что вы имеете в виду под «сделай тут поуютнее», оценив беспорядок на столе и время суток. Или нет?

📚 Глоссарий этого выпуска

Визуальное заземление (Visual Grounding)
Задача ИИ найти в изображении объект, соответствующий текстовому описанию.
Referring Scenario Comprehension (RSC)
Новый тест, где ИИ должен найти объект, исходя из его роли в описанной ситуации, а не по прямому названию.
Обучение с подкреплением (Reinforcement Learning)
Метод, где ИИ учится методом проб и ошибок, получая «поощрение» за правильные действия.