ИИ видит кота, но не понимает, что это «тот самый, который сейчас нападет»
«Исследователи представили новый эталонный тест и метод для визуального заземления, где цель нужно вывести из ролей, намерений и контекста, а не из прямого именования объектов.»
Стоп, что?
Мы учим ИИ искать предметы по названиям, а не по смыслу.
Это как если бы вы в кризисной ситуации крикнули другу: «Дай то, чем можно вытереть!» — и он, вместо того чтобы схватить тряпку, начал перечислять все предметы в комнате, которые теоретически могут впитывать жидкость.
Исследователи создали новый тест — Referring Scenario Comprehension (RSC). Вместо простых запросов вроде «синяя машина» ИИ получает целые абзацы с описанием ролей, намерений и контекста.
- Пример задачи: «Найди предмет, который человек использует, чтобы дотянуться до высокой полки, пока его ребенок пытается схватить его за ногу». Это может быть табуретка, стул или коробка — но не диван или ковер.
- Сложность помечена: Каждый пример имеет теги сложности: уникальность объекта, загроможденность сцены, размер, перекрытие с другими объектами. Это помогает понять, где именно ИИ ошибается.
- Метод ScenGround: Ученые предложили метод обучения, где ИИ сначала «разминается» на простых задачах, а затем с помощью проб и ошибок (reinforcement learning) учится решать сложные, начиная с тех, что помечены как легкие.
- Результат: Оказалось, что современные модели, блестяще справляющиеся со стандартными тестами, систематически проваливаются на таких сценариях. Обучение по новой методике не только улучшает результаты на сложных случаях, но и помогает в традиционных задачах.
Что это значит для вас
Завтра ваш голосовой помощник сможет не просто включить свет по команде, а понять, что вы имеете в виду под «сделай тут поуютнее», оценив беспорядок на столе и время суток. Или нет?