ИИ, который видит, но не понимает: как модели зрения и языка игнорируют картинку ради слов

Impact7/10

Wow Factor9/10

«Исследование показывает, что языковые модели зрения (VLMs) игнорируют тонкие визуальные детали, полагаясь на семантические ярлыки, что ограничивает их способность решать задачи, требующие точного визуального восприятия.»

Представьте, что вы показываете другу два почти одинаковых фото кошек и просите найти отличия. А он вместо этого начинает рассказывать вам всё, что знает о кошках вообще. Примерно так работают самые продвинутые мультимодальные ИИ.

Исследователи обнаружили фундаментальную проблему в Vision Language Models (VLMs) — моделях, которые обрабатывают и картинки, и текст.

Что происходит на самом деле:

Короткое замыкание: Вместо того чтобы анализировать визуальные детали (форму, текстуру, расположение), модель ищет на изображении объекты, которые можно легко назвать словами ("кошка", "стол", "яблоко").
Слепые зоны: Если на картинке что-то новое, незнакомое или безымянное, модель не может это корректно обработать. Она либо игнорирует, либо "галлюцинирует" — придумывает описание на основе похожих знакомых понятий.
Эксперимент: В тестах на визуальное соответствие (найти одинаковые объекты на двух картинках) модели справлялись хорошо, только если объекты можно было назвать. Безымянные формы или абстракции ставили их в тупик.

Почему так вышло? Потому что их учили неправильно. Тренировочный процесс был сфокусирован на одном: перевести визуальную информацию в текстовую. ИИ научился не видеть, а быстро подбирать ярлыки.

ИИ, который видит, но не понимает: как модели зрения и языка игнорируют картинку ради слов

Стоп, что?

Что это значит для вас

📚 Глоссарий этого выпуска