Как заставить ИИ думать дешевле, спрятав текст в картинку

Представьте, что вы платите таксисту не только за километры, но и за каждое слово в вашем разговоре с ним. Примерно так работают большие мультимодальные модели (ИИ, понимающие и текст, и картинки): каждый «токен» (кусочек текста или изображения) в запросе стоит денег. Чем сложнее задача — тем дороже.

Исследователи придумали Image Prompt Packaging (IPPg) — метод, который встраивает текстовые инструкции прямо в пиксели изображения, которое загружается в модель.

Что это даёт?

Экономия: Сокращение токенов (и, следовательно, стоимости вычислений) на 35.8–91.0%.
Сжатие: В некоторых случаях текстовые токены сокращались на 96%.
Результаты: Точность моделей часто оставалась на прежнем уровне, а в задачах со структурированными данными (например, генерация SQL-кода) даже росла.

Но есть нюансы:

Модели ведут себя по-разному. GPT-4.1 выигрывал и в стоимости, и в точности, а Claude 3.5 иногда становился дороже.
Не все задачи одинаковы. Метод хорошо работает со схемами и кодом, но может «ломаться» на пространственном мышлении, неанглийском тексте или когда важна каждая буква.
Визуальное кодирование — это новый параметр настройки. Просто изменив шрифт, цвет или расположение текста на картинке, можно изменить точность модели на 10–30 процентных пунктов.

Как заставить ИИ думать дешевле, спрятав текст в картинку

Стоп, что?

Что это значит для вас

📚 Глоссарий этого выпуска