Все открытия
06.04.20263 мин чтения

ИИ-режиссёр, который не видит свой фильм, пока не закончит его снимать

Impact7/10
Wow Factor8/10

«Предложен первый фреймворк для оптимизации визуальных предпочтений генераторов траекторий камеры, который использует рендеринг в реальном времени и оценку с помощью дообученной модели «визуальный язык» для улучшения качества кадрирования и эстетики.»

Современный ИИ для создания камеры в играх и видео умеет двигать виртуальную камеру, но не понимает, красиво ли это выглядит. В итоге он часто «теряет» героев за кадром или создаёт откровенно уродливые планы.

Стоп, что?

Вместо того чтобы учить ИИ правилам композиции, исследователи заставили его учиться на собственных ошибках — как настоящий режиссёр.

Представьте, что вы даёте оператору-роботу задание «сними драматичное приближение к лицу героя». Он технически выполнит движение, но может снять ухо или пустой стул. Потому что у него нет «взгляда» — он не видит итоговую картинку.

Система VERTIGO исправляет это, добавляя ИИ «глаза» и «вкус». Вот как это работает:

  1. Генерация → Превью: ИИ сначала создаёт траекторию движения камеры.
  2. Рендер → Оценка: Траектория мгновенно превращается в 2D-видео в игровом движке (Unity).
  3. «Критик» смотрит ролик: Специально обученная модель (что-то вроде кинокритика-ИИ) оценивает, насколько красив и уместен получившийся кадр, сверяя его с текстовым запросом.
  4. Обучение на вкусе: Эти оценки «красиво/некрасиво» используются для тонкой настройки (Direct Preference Optimization), чтобы в следующий раз ИИ предлагал более удачные ракурсы.

Результаты:

  • Герои в кадре: Ключевая метрика — частота, когда персонаж «убегает» за границы кадра, упала с 38% почти до 0%.
  • Человеческий выбор: В пользовательских тестах люди последовательно предпочитали видео от VERTIGO по композиции, эстетике и соответствию описанию.

Что это значит для вас

Когда ИИ для генерации видео начнёт не просто «двигать камеру», а «ставить кадр» с хорошим вкусом — что останется творческим людям: рутинная работа или сама суть режиссуры?

📚 Глоссарий этого выпуска

Direct Preference Optimization (DPO)
Метод обучения ИИ, где система учится на сравнении «хороших» и «плохих» результатов, а не на абстрактных оценках.
Визуальное предпочтение
Обучение ИИ пониманию того, что люди считают визуально привлекательным, а что — нет.
Кинематографическая fine-tuned модель
ИИ-модель, дополнительно обученная на данных о кино и визуальной эстетике, чтобы лучше понимать запросы вроде «драматичный крупный план».