Чтобы удалить объект, нужно изменить мир
«Предложен новый метод удаления объектов из видео, который корректирует не только визуальные артефакты, но и физические взаимодействия объектов.»
Стоп, что?
Редактирование видео — это не задача графического дизайна. Это задача симуляции физики.
Это разница между ретушью фотографии и переписыванием истории. Ты можешь убрать танк с архивной пленки, но если этот танк только что проехал по грязи, грязь останется. Существующие методы удаляют пиксели, но оставляют их причинно-следственные следы — тени, отражения, последствия столкновений. Мир на видео продолжает жить по законам, которые уже не существуют.
VOID (Video Object and Interaction Deletion) — это фреймворк, который удаляет не только объект, но и его влияние на мир.
Как это работает:
- Создание контрефактуальной реальности. Для обучения модели исследователи сгенерировали датасет в Kubric и HUMOTO, где удаление объекта (например, шара) автоматически меняет всю цепочку последующих взаимодействий (падение кеглей, изменение траекторий).
- Детекция последствий. Vision-Language Model (VLM) сканирует кадр и находит не только сам объект, но и все области, которые он мог задеть, осветить или сдвинуть.
- Генерация правдоподобного исхода. Видеодиффузионная модель, направляемая этой картой последствий, не просто закрашивает дыру. Она генерирует физически последовательный контрефактуал: как выглядел бы мир, если бы этого объекта никогда не было.
Результат: На синтетических и реальных данных VOID показал превосходство над предыдущими методами в сохранении последовательной динамики сцены. Мяч исчезает — и шары, которые он должен был толкнуть, остаются на месте.
Что это значит для вас
Следующий рубеж — удаление людей. Не просто вырезание фигуры из кадра, а пересчет того, как изменился бы разговор, куда упал бы не переданный стакан и куда пошел бы не обнятый человек. ИИ для редактирования видео становится симулятором альтернативных вселенных.