ИИ, который видит, но не понимает: как модели зрения и языка игнорируют картинку ради слов
«Исследование показывает, что языковые модели зрения (VLMs) игнорируют тонкие визуальные детали, полагаясь на семантические ярлыки, что ограничивает их способность решать задачи, требующие точного визуального восприятия.»
Стоп, что?
Это не ошибка зрения — это ошибка мышления.
Представьте, что вы показываете другу два почти одинаковых фото кошек и просите найти отличия. А он вместо этого начинает рассказывать вам всё, что знает о кошках вообще. Примерно так работают самые продвинутые мультимодальные ИИ.
Исследователи обнаружили фундаментальную проблему в Vision Language Models (VLMs) — моделях, которые обрабатывают и картинки, и текст.
Что происходит на самом деле:
- Короткое замыкание: Вместо того чтобы анализировать визуальные детали (форму, текстуру, расположение), модель ищет на изображении объекты, которые можно легко назвать словами ("кошка", "стол", "яблоко").
- Слепые зоны: Если на картинке что-то новое, незнакомое или безымянное, модель не может это корректно обработать. Она либо игнорирует, либо "галлюцинирует" — придумывает описание на основе похожих знакомых понятий.
- Эксперимент: В тестах на визуальное соответствие (найти одинаковые объекты на двух картинках) модели справлялись хорошо, только если объекты можно было назвать. Безымянные формы или абстракции ставили их в тупик.
Почему так вышло? Потому что их учили неправильно. Тренировочный процесс был сфокусирован на одном: перевести визуальную информацию в текстовую. ИИ научился не видеть, а быстро подбирать ярлыки.
Что это значит для вас
Так что же мы создали: искусственный интеллект или просто очень быстрый переводчик с «картинко» на «человеко»? И сможет ли ИИ по-настоящему понять мир, если его учат лишь описывать его словами?