Наука, которую
хочется читать.
Мы переводим сложнейшие открытия человечества на язык, понятный каждому.
Planck.Media — твой квантовый скачок в мир большой науки.
ИИ научился видеть то, чего нет. И добавлять это на фото.
«Исследователи разработали метод генерации реалистичных отражений для объектов, вставленных в составные изображения, с использованием диффузионной модели.»
Дрон, который понимает команды на русском, не умея его учить
«Предложена улучшенная модель Vision-Language-Action для точного и эффективного слежения с БПЛА в динамичных городских сценариях с семантическими требованиями.»
Как создать 3D-вселенную, если у вас почти нет 3D-данных?
«Предложена 3D-нативная базовая модель Omni123, которая объединяет генерацию 2D и 3D объектов из текста в единой авторегрессионной архитектуре, используя обильные 2D-данные как геометрический приор для компенсации нехватки 3D-данных.»
Удалить объект из видео — просто. Удалить его влияние на мир — вот где начинается магия.
«Предложен новый метод удаления объектов из видео, который корректирует не только визуальные артефакты, но и физические взаимодействия объектов.»
Самый простой способ понять видео оказался лучшим
«Исследование показывает, что простой метод скользящего окна с использованием только последних N кадров и стандартной VLM сопоставим или превосходит сложные модели потокового видео.»
Как создать идеального 3D-двойника: нужно сначала сделать его плохим
«Предложен новый метод создания высококачественных 3D-аватаров, который сочетает предобучение на миллионе видеороликов из реального мира с последующим дообучением на студийных данных для достижения высокой детализации и широкой обобщающей способности.»
ИИ видит кота, но не понимает, что это «тот самый, который сейчас нападет»
«Исследователи представили новый эталонный тест и метод для визуального заземления, где цель нужно вывести из ролей, намерений и контекста, а не из прямого именования объектов.»
Чтобы научить ИИ видеть реальный мир, его кормят видеоиграми
«Создан крупномасштабный динамический датасет из видеоигр AAA-класса и предложен новый метод оценки для улучшения инверсного и прямого рендеринга в реальных условиях.»
ИИ научился управлять толпой, но забыл, кто из них главный
«Предложена модель ActionParty, которая решает проблему связывания действий с конкретными субъектами в видео, позволяя одновременно управлять несколькими агентами в сцене.»