Как создать 3D-вселенную, если у вас почти нет 3D-данных?

Impact8/10

Wow Factor8/10

«Предложена 3D-нативная базовая модель Omni123, которая объединяет генерацию 2D и 3D объектов из текста в единой авторегрессионной архитектуре, используя обильные 2D-данные как геометрический приор для компенсации нехватки 3D-данных.»

Представьте, что вы пытаетесь собрать LEGO-замок, глядя только на одну его фотографию сбоку. Примерно так же сложно ИИ создавать 3D-объекты — данных о форме со всех сторон катастрофически не хватает.

Omni123 — это новая модель, которая учится создавать 3D-объекты из текста, используя косвенные подсказки.

Как это работает?

Единый язык: Всё — текст, 2D-изображение и 3D-объект — превращается в последовательность «токенов» (как слова в предложении).
Обучение на чём придётся: Модель учится не на идеальных тройках «текст-фото-3D», а на разрозненных данных: где-то есть только текст и картинка, где-то — только 3D-модель.
Цикл согласованности: ИИ проходит семантико-визуально-геометрические циклы (например, «текст → изображение → 3D → снова изображение»), чтобы итоговый 3D-объект был и похож на описание, и геометрически цельным со всех ракурсов.

Что это даёт? Исследователи показали, что такой подход значительно улучшает качество и согласованность 3D-генерации и редактирования по текстовому описанию. Это шаг к созданию универсальных 3D-миров силами ИИ.

Как создать 3D-вселенную, если у вас почти нет 3D-данных?

Стоп, что?

Что это значит для вас

📚 Глоссарий этого выпуска