ИИ научился управлять толпой, но забыл, кто из них главный

Impact7/10

Wow Factor8/10

«Предложена модель ActionParty, которая решает проблему связывания действий с конкретными субъектами в видео, позволяя одновременно управлять несколькими агентами в сцене.»

Это как если бы тренер кричал футбольной команде «пас!», и все 11 игроков одновременно били по мячу в разные стороны. Беспорядок. Современные генеративные видеоигры страдают ровно этой проблемой: они не умеют привязывать действие к конкретному персонажу.

Исследователи из Оксфорда, Snap и других институтов создали ActionParty — первую мировую модель (генеративную видеоигру на ИИ), которая понимает разницу между субъектами.

Как это работает?

Вводят «токены состояния субъекта» — это как цифровая карточка для каждого персонажа, которая постоянно помнит, кто он и что делает.
Используют механизм пространственного смещения, чтобы отделить рендеринг всей сцены от управления каждым персонажем по отдельности.

Что показали тесты? Модель проверили на бенчмарке Melting Pot (46 разных игровых сред). Результаты:

ActionParty стала первой моделью, способной одновременно контролировать до 7 игроков.
Значительно улучшила точность выполнения команд и сохранение идентичности персонажей в кадре.
Может надежно отслеживать субъектов через сложные взаимодействия в авторегрессивном режиме (то есть, по кадру за кадром).

ИИ научился управлять толпой, но забыл, кто из них главный

Стоп, что?

Что это значит для вас

📚 Глоссарий этого выпуска