Все открытия
06.04.20263 мин чтения

Как заставить ИИ думать дешевле, спрятав текст в картинку

Impact8/10
Wow Factor8/10

«Исследователи предложили метод встраивания структурированного текста в изображения для сокращения токенных затрат при работе с большими мультимодальными моделями.»

Платить за каждое слово, которое «видит» ИИ, — это новая реальность. Но что, если можно спрятать половину инструкций прямо в картинку, чтобы он их не «считал»?

Стоп, что?

Токены — это не просто слова, это деньги.

Представьте, что вы платите таксисту не только за километры, но и за каждое слово в вашем разговоре с ним. Примерно так работают большие мультимодальные модели (ИИ, понимающие и текст, и картинки): каждый «токен» (кусочек текста или изображения) в запросе стоит денег. Чем сложнее задача — тем дороже.

Исследователи придумали Image Prompt Packaging (IPPg) — метод, который встраивает текстовые инструкции прямо в пиксели изображения, которое загружается в модель.

Что это даёт?

  • Экономия: Сокращение токенов (и, следовательно, стоимости вычислений) на 35.8–91.0%.
  • Сжатие: В некоторых случаях текстовые токены сокращались на 96%.
  • Результаты: Точность моделей часто оставалась на прежнем уровне, а в задачах со структурированными данными (например, генерация SQL-кода) даже росла.

Но есть нюансы:

  • Модели ведут себя по-разному. GPT-4.1 выигрывал и в стоимости, и в точности, а Claude 3.5 иногда становился дороже.
  • Не все задачи одинаковы. Метод хорошо работает со схемами и кодом, но может «ломаться» на пространственном мышлении, неанглийском тексте или когда важна каждая буква.
  • Визуальное кодирование — это новый параметр настройки. Просто изменив шрифт, цвет или расположение текста на картинке, можно изменить точность модели на 10–30 процентных пунктов.

Что это значит для вас

Если стоимость «разговора» с ИИ можно так радикально снизить, просто меняя форму вопроса, — не превратится ли дизайн промптов (запросов) в новую высокооплачиваемую профессию?

📚 Глоссарий этого выпуска

Токен
Условная единица, на которую ИИ-модель разбивает текст или изображение для обработки; чем их больше в запросе, тем дороже обходится ответ.
Мультимодальная модель
Искусственный интеллект, который понимает и обрабатывает информацию из разных источников одновременно — например, текст и картинки.
Image Prompt Packaging (IPPg)
Метод «упаковки» текстовой инструкции прямо в изображение, чтобы ИИ-модель считала её частью картинки и не тратила дорогие текстовые токены.