Как заставить ИИ думать дешевле, спрятав текст в картинку
«Исследователи предложили метод встраивания структурированного текста в изображения для сокращения токенных затрат при работе с большими мультимодальными моделями.»
Стоп, что?
Токены — это не просто слова, это деньги.
Представьте, что вы платите таксисту не только за километры, но и за каждое слово в вашем разговоре с ним. Примерно так работают большие мультимодальные модели (ИИ, понимающие и текст, и картинки): каждый «токен» (кусочек текста или изображения) в запросе стоит денег. Чем сложнее задача — тем дороже.
Исследователи придумали Image Prompt Packaging (IPPg) — метод, который встраивает текстовые инструкции прямо в пиксели изображения, которое загружается в модель.
Что это даёт?
- Экономия: Сокращение токенов (и, следовательно, стоимости вычислений) на 35.8–91.0%.
- Сжатие: В некоторых случаях текстовые токены сокращались на 96%.
- Результаты: Точность моделей часто оставалась на прежнем уровне, а в задачах со структурированными данными (например, генерация SQL-кода) даже росла.
Но есть нюансы:
- Модели ведут себя по-разному. GPT-4.1 выигрывал и в стоимости, и в точности, а Claude 3.5 иногда становился дороже.
- Не все задачи одинаковы. Метод хорошо работает со схемами и кодом, но может «ломаться» на пространственном мышлении, неанглийском тексте или когда важна каждая буква.
- Визуальное кодирование — это новый параметр настройки. Просто изменив шрифт, цвет или расположение текста на картинке, можно изменить точность модели на 10–30 процентных пунктов.
Что это значит для вас
Если стоимость «разговора» с ИИ можно так радикально снизить, просто меняя форму вопроса, — не превратится ли дизайн промптов (запросов) в новую высокооплачиваемую профессию?