Все открытия
03.04.20263 мин чтения

ИИ научился управлять толпой, но забыл, кто из них главный

Impact7/10
Wow Factor8/10

«Предложена модель ActionParty, которая решает проблему связывания действий с конкретными субъектами в видео, позволяя одновременно управлять несколькими агентами в сцене.»

Представьте, что вы говорите ИИ: «Алиса, беги направо, Боб, стреляй влево». А он отправляет Алису стрелять, а Боба — бежать. Это не баг — это фундаментальная слепота современных мировых моделей.

Стоп, что?

ИИ видеоигры не понимают, кто есть кто.

Это как если бы тренер кричал футбольной команде «пас!», и все 11 игроков одновременно били по мячу в разные стороны. Беспорядок. Современные генеративные видеоигры страдают ровно этой проблемой: они не умеют привязывать действие к конкретному персонажу.

Исследователи из Оксфорда, Snap и других институтов создали ActionParty — первую мировую модель (генеративную видеоигру на ИИ), которая понимает разницу между субъектами.

Как это работает?

  • Вводят «токены состояния субъекта» — это как цифровая карточка для каждого персонажа, которая постоянно помнит, кто он и что делает.
  • Используют механизм пространственного смещения, чтобы отделить рендеринг всей сцены от управления каждым персонажем по отдельности.

Что показали тесты? Модель проверили на бенчмарке Melting Pot (46 разных игровых сред). Результаты:

  • ActionParty стала первой моделью, способной одновременно контролировать до 7 игроков.
  • Значительно улучшила точность выполнения команд и сохранение идентичности персонажей в кадре.
  • Может надежно отслеживать субъектов через сложные взаимодействия в авторегрессивном режиме (то есть, по кадру за кадром).

Что это значит для вас

Это шаг к симуляторам, где каждый NPC будет иметь свою память и агентность. Что, если завтра мы сможем генерировать целые сериалы, где вы отдаете команды всем героям одновременно?

📚 Глоссарий этого выпуска

Мировая модель (World Model)
ИИ, который может симулировать окружающую среду и предсказывать, что в ней произойдет.
Видеодиффузионная модель
Тип ИИ, который генерирует видео из шума, постепенно «угадывая» каждый следующий кадр.
Диссоциация (Disentanglement)
Разделение в модели разных аспектов сцены (например, фон и персонажей), чтобы управлять ими независимо.
Авторегрессивное отслеживание
Способность модели предсказывать следующее состояние системы (например, кадр видео), опираясь на предыдущие.