Самый простой способ понять видео оказался лучшим
«Исследование показывает, что простой метод скользящего окна с использованием только последних N кадров и стандартной VLM сопоставим или превосходит сложные модели потокового видео.»
Стоп, что?
Сложность — не синоним эффективности.
Представьте, что вы пытаетесь понять сюжет фильма, перематывая его туда-сюда и записывая конспект. А ваш друг просто смотрит последние 5 минут и всё понимает. Исследование говорит: в мире ИИ «друг» часто оказывается прав.
Учёные протестировали 13 продвинутых моделей для анализа потокового видео (то, что нужно для автономных машин или умных камер).
Их простой базовый метод, SimpleStream, показал:
- На OVO-Bench: 67.7% средней точности.
- На StreamingBench: 80.59% точности.
Главный вывод: Для понимания того, что происходит прямо сейчас, ИИ часто не нужна долгая память. Достаточно последних 4 кадров. Более того, добавление «воспоминаний» (прошлых кадров) может даже ухудшить восприятие текущей сцены.
Что это значит для вас
Значит ли это, что последние годы разработки сложных систем памяти для видео-ИИ были потрачены впустую? Или мы просто неправильно ставили задачи?