Как создать 3D-вселенную, если у вас почти нет 3D-данных?
«Предложена 3D-нативная базовая модель Omni123, которая объединяет генерацию 2D и 3D объектов из текста в единой авторегрессионной архитектуре, используя обильные 2D-данные как геометрический приор для компенсации нехватки 3D-данных.»
Стоп, что?
Исследователи из Китая научили ИИ «воображать» третье измерение, глядя на плоские фотографии.
Представьте, что вы пытаетесь собрать LEGO-замок, глядя только на одну его фотографию сбоку. Примерно так же сложно ИИ создавать 3D-объекты — данных о форме со всех сторон катастрофически не хватает.
Omni123 — это новая модель, которая учится создавать 3D-объекты из текста, используя косвенные подсказки.
Как это работает?
- Единый язык: Всё — текст, 2D-изображение и 3D-объект — превращается в последовательность «токенов» (как слова в предложении).
- Обучение на чём придётся: Модель учится не на идеальных тройках «текст-фото-3D», а на разрозненных данных: где-то есть только текст и картинка, где-то — только 3D-модель.
- Цикл согласованности: ИИ проходит семантико-визуально-геометрические циклы (например, «текст → изображение → 3D → снова изображение»), чтобы итоговый 3D-объект был и похож на описание, и геометрически цельным со всех ракурсов.
Что это даёт? Исследователи показали, что такой подход значительно улучшает качество и согласованность 3D-генерации и редактирования по текстовому описанию. Это шаг к созданию универсальных 3D-миров силами ИИ.
Что это значит для вас
Если ИИ действительно научится «понимать» 3D-пространство через 2D-картинки, кто будет проектировать виртуальные миры завтра — архитекторы или промпт-инженеры?