Все открытия
06.04.20263 мин чтения

ИИ, который видит, но не понимает: как модели зрения и языка игнорируют картинку ради слов

Impact7/10
Wow Factor9/10

«Исследование показывает, что языковые модели зрения (VLMs) игнорируют тонкие визуальные детали, полагаясь на семантические ярлыки, что ограничивает их способность решать задачи, требующие точного визуального восприятия.»

Современные ИИ-модели, которые «видят» и «говорят», на самом деле почти не смотрят на картинку. Они просто ищут знакомые слова, а всё остальное игнорируют.

Стоп, что?

Это не ошибка зрения — это ошибка мышления.

Представьте, что вы показываете другу два почти одинаковых фото кошек и просите найти отличия. А он вместо этого начинает рассказывать вам всё, что знает о кошках вообще. Примерно так работают самые продвинутые мультимодальные ИИ.

Исследователи обнаружили фундаментальную проблему в Vision Language Models (VLMs) — моделях, которые обрабатывают и картинки, и текст.

Что происходит на самом деле:

  • Короткое замыкание: Вместо того чтобы анализировать визуальные детали (форму, текстуру, расположение), модель ищет на изображении объекты, которые можно легко назвать словами ("кошка", "стол", "яблоко").
  • Слепые зоны: Если на картинке что-то новое, незнакомое или безымянное, модель не может это корректно обработать. Она либо игнорирует, либо "галлюцинирует" — придумывает описание на основе похожих знакомых понятий.
  • Эксперимент: В тестах на визуальное соответствие (найти одинаковые объекты на двух картинках) модели справлялись хорошо, только если объекты можно было назвать. Безымянные формы или абстракции ставили их в тупик.

Почему так вышло? Потому что их учили неправильно. Тренировочный процесс был сфокусирован на одном: перевести визуальную информацию в текстовую. ИИ научился не видеть, а быстро подбирать ярлыки.

Что это значит для вас

Так что же мы создали: искусственный интеллект или просто очень быстрый переводчик с «картинко» на «человеко»? И сможет ли ИИ по-настоящему понять мир, если его учат лишь описывать его словами?

📚 Глоссарий этого выпуска

VLM (Vision Language Model)
Модель искусственного интеллекта, обученная понимать и связывать информацию из изображений и текста.
Семантический якорь
Знакомое слово или понятие, к которому модель привязывает визуальную информацию, вместо её детального анализа.
Галлюцинация ИИ
Когда модель уверенно генерирует информацию (текст или описание), которой нет в исходных данных, часто ошибочную.
Визуальное соответствие
Задача найти один и тот же объект или его часть на разных изображениях, проверяющая именно понимание визуальных деталей.