ИИ научился управлять толпой, но забыл, кто из них главный
«Предложена модель ActionParty, которая решает проблему связывания действий с конкретными субъектами в видео, позволяя одновременно управлять несколькими агентами в сцене.»
Стоп, что?
ИИ видеоигры не понимают, кто есть кто.
Это как если бы тренер кричал футбольной команде «пас!», и все 11 игроков одновременно били по мячу в разные стороны. Беспорядок. Современные генеративные видеоигры страдают ровно этой проблемой: они не умеют привязывать действие к конкретному персонажу.
Исследователи из Оксфорда, Snap и других институтов создали ActionParty — первую мировую модель (генеративную видеоигру на ИИ), которая понимает разницу между субъектами.
Как это работает?
- Вводят «токены состояния субъекта» — это как цифровая карточка для каждого персонажа, которая постоянно помнит, кто он и что делает.
- Используют механизм пространственного смещения, чтобы отделить рендеринг всей сцены от управления каждым персонажем по отдельности.
Что показали тесты? Модель проверили на бенчмарке Melting Pot (46 разных игровых сред). Результаты:
- ActionParty стала первой моделью, способной одновременно контролировать до 7 игроков.
- Значительно улучшила точность выполнения команд и сохранение идентичности персонажей в кадре.
- Может надежно отслеживать субъектов через сложные взаимодействия в авторегрессивном режиме (то есть, по кадру за кадром).
Что это значит для вас
Это шаг к симуляторам, где каждый NPC будет иметь свою память и агентность. Что, если завтра мы сможем генерировать целые сериалы, где вы отдаете команды всем героям одновременно?