ИИ-режиссёр, который не видит свой фильм, пока не закончит его снимать

Impact7/10

Wow Factor8/10

«Предложен первый фреймворк для оптимизации визуальных предпочтений генераторов траекторий камеры, который использует рендеринг в реальном времени и оценку с помощью дообученной модели «визуальный язык» для улучшения качества кадрирования и эстетики.»

Представьте, что вы даёте оператору-роботу задание «сними драматичное приближение к лицу героя». Он технически выполнит движение, но может снять ухо или пустой стул. Потому что у него нет «взгляда» — он не видит итоговую картинку.

Система VERTIGO исправляет это, добавляя ИИ «глаза» и «вкус». Вот как это работает:

Генерация → Превью: ИИ сначала создаёт траекторию движения камеры.
Рендер → Оценка: Траектория мгновенно превращается в 2D-видео в игровом движке (Unity).
«Критик» смотрит ролик: Специально обученная модель (что-то вроде кинокритика-ИИ) оценивает, насколько красив и уместен получившийся кадр, сверяя его с текстовым запросом.
Обучение на вкусе: Эти оценки «красиво/некрасиво» используются для тонкой настройки (Direct Preference Optimization), чтобы в следующий раз ИИ предлагал более удачные ракурсы.

Результаты:

Герои в кадре: Ключевая метрика — частота, когда персонаж «убегает» за границы кадра, упала с 38% почти до 0%.
Человеческий выбор: В пользовательских тестах люди последовательно предпочитали видео от VERTIGO по композиции, эстетике и соответствию описанию.

ИИ-режиссёр, который не видит свой фильм, пока не закончит его снимать

Стоп, что?

Что это значит для вас

📚 Глоссарий этого выпуска