03.04.2026 • 3 мин чтения
Слепой дрон, который видит лучше пилота
Impact7/10
Wow Factor8/10
«Предложена улучшенная модель Vision-Language-Action для точного и эффективного слежения с БПЛА в динамичных городских сценариях с семантическими требованиями.»
Беспилотники тупеют в городе. Их камеры захлебываются в рекламе, пешеходах и машинах, как оператор в панике.
Стоп, что?
Забудьте про ручное управление. Новый ИИ не следит за объектом — он его допрашивает.
Механика передачи команд дрону сейчас — это крик в рацию сквозь шум ветра. Инженеры из Китая заменили рацию на протокол допроса: 10 коротких вопросов на естественном языке вместо тысячи строк кода.
UAV-Track VLA — это не апгрейд, а пересборка мозга дрона с нуля.
- Проблема старых систем: Они обрабатывали каждый кадр видео как отдельную фотографию, теряя связь между ними. Это как пытаться понять фильм, глядя на случайные стоп-кадры. Временная избыточность данных заставляла ИИ «тормозить» и терять цель.
- Решение — «Сетка временного сжатия»: Модель научили выжимать из видеофида не картинки, а нарратив движения. Она выделяет не объект в кадре, а траекторию его намерений в пространстве.
- Архитектура «двойного декодера»: Одна нейросеть (Spatial-aware Auxiliary Grounding Head) отвечает на вопрос «ГДЕ?», строя 3D-карту окружения. Вторая (Flow Matching Action Expert) решает «КУДА ЛЕТЕТЬ?», просчитывая плавную траекторию. Это разделение труда — как тактик и пилот в одной кабине.
Цифры, которые меняют правила:
- Успешность в 61.76% при слежке за пешеходом на предельной дистанции. Для индустрии это прорыв из «лабораторной игрушки» в «рабочий инструмент».
- 269.65 средних кадров непрерывного трекинга — дрон не моргает.
- Сокращение времени инференса на 33.4%, до 0.0571 секунды на решение. Это билет в реальное время, где задержка в 0.1 секунды — это уже авария.
- Датасет-монстр: 890 000+ кадров, 176 задач, 85 типов объектов. Обучали не на котиках, а на симуляторе CARLA, максимально близком к хаосу реального города.
Что это значит для вас
Оператор БПЛА — умирающая профессия. Скоро его место займет лингвист, который будет формулировать для ИИ не команды, а юрисдикцию полета.