ИИ-режиссёр, который не видит свой фильм, пока не закончит его снимать
«Предложен первый фреймворк для оптимизации визуальных предпочтений генераторов траекторий камеры, который использует рендеринг в реальном времени и оценку с помощью дообученной модели «визуальный язык» для улучшения качества кадрирования и эстетики.»
Стоп, что?
Вместо того чтобы учить ИИ правилам композиции, исследователи заставили его учиться на собственных ошибках — как настоящий режиссёр.
Представьте, что вы даёте оператору-роботу задание «сними драматичное приближение к лицу героя». Он технически выполнит движение, но может снять ухо или пустой стул. Потому что у него нет «взгляда» — он не видит итоговую картинку.
Система VERTIGO исправляет это, добавляя ИИ «глаза» и «вкус». Вот как это работает:
- Генерация → Превью: ИИ сначала создаёт траекторию движения камеры.
- Рендер → Оценка: Траектория мгновенно превращается в 2D-видео в игровом движке (Unity).
- «Критик» смотрит ролик: Специально обученная модель (что-то вроде кинокритика-ИИ) оценивает, насколько красив и уместен получившийся кадр, сверяя его с текстовым запросом.
- Обучение на вкусе: Эти оценки «красиво/некрасиво» используются для тонкой настройки (Direct Preference Optimization), чтобы в следующий раз ИИ предлагал более удачные ракурсы.
Результаты:
- Герои в кадре: Ключевая метрика — частота, когда персонаж «убегает» за границы кадра, упала с 38% почти до 0%.
- Человеческий выбор: В пользовательских тестах люди последовательно предпочитали видео от VERTIGO по композиции, эстетике и соответствию описанию.
Что это значит для вас
Когда ИИ для генерации видео начнёт не просто «двигать камеру», а «ставить кадр» с хорошим вкусом — что останется творческим людям: рутинная работа или сама суть режиссуры?