Все открытия
03.04.20263 мин чтения

Чтобы удалить объект, нужно изменить мир

Impact8/10
Wow Factor9/10

«Предложен новый метод удаления объектов из видео, который корректирует не только визуальные артефакты, но и физические взаимодействия объектов.»

Современный ИИ может безупречно закрасить удаленный объект в видео. И так же безупречно сломать физику реальности. Мяч исчезает, а бильярдные шары продолжают катиться по несуществующей траектории — это стандартный результат работы всех существующих моделей.

Стоп, что?

Редактирование видео — это не задача графического дизайна. Это задача симуляции физики.

Это разница между ретушью фотографии и переписыванием истории. Ты можешь убрать танк с архивной пленки, но если этот танк только что проехал по грязи, грязь останется. Существующие методы удаляют пиксели, но оставляют их причинно-следственные следы — тени, отражения, последствия столкновений. Мир на видео продолжает жить по законам, которые уже не существуют.

VOID (Video Object and Interaction Deletion) — это фреймворк, который удаляет не только объект, но и его влияние на мир.

Как это работает:

  1. Создание контрефактуальной реальности. Для обучения модели исследователи сгенерировали датасет в Kubric и HUMOTO, где удаление объекта (например, шара) автоматически меняет всю цепочку последующих взаимодействий (падение кеглей, изменение траекторий).
  2. Детекция последствий. Vision-Language Model (VLM) сканирует кадр и находит не только сам объект, но и все области, которые он мог задеть, осветить или сдвинуть.
  3. Генерация правдоподобного исхода. Видеодиффузионная модель, направляемая этой картой последствий, не просто закрашивает дыру. Она генерирует физически последовательный контрефактуал: как выглядел бы мир, если бы этого объекта никогда не было.

Результат: На синтетических и реальных данных VOID показал превосходство над предыдущими методами в сохранении последовательной динамики сцены. Мяч исчезает — и шары, которые он должен был толкнуть, остаются на месте.

Что это значит для вас

Следующий рубеж — удаление людей. Не просто вырезание фигуры из кадра, а пересчет того, как изменился бы разговор, куда упал бы не переданный стакан и куда пошел бы не обнятый человек. ИИ для редактирования видео становится симулятором альтернативных вселенных.

📚 Глоссарий этого выпуска

Контрфактуальный (Counterfactual)
Описание события или реальности, которая могла бы произойти при других условиях. «Что, если бы этого объекта не было?»
Видеодиффузионная модель
Тип ИИ, который генерирует или изменяет видео, постепенно преобразуя шум в последовательные кадры.
Vision-Language Model (VLM)
Модель, которая понимает связь между изображением (видео) и текстом. Может отвечать на вопросы о контенте кадра.