Все открытия
03.04.20263 мин чтения

Как создать 3D-вселенную, если у вас почти нет 3D-данных?

Impact8/10
Wow Factor8/10

«Предложена 3D-нативная базовая модель Omni123, которая объединяет генерацию 2D и 3D объектов из текста в единой авторегрессионной архитектуре, используя обильные 2D-данные как геометрический приор для компенсации нехватки 3D-данных.»

Создание 3D-объектов из текста — это боль. Данных мало, а результат часто кривой и несобранный. Но что, если обучить ИИ на 2D-картинках, чтобы он сам понял, как устроено 3D-пространство?

Стоп, что?

Исследователи из Китая научили ИИ «воображать» третье измерение, глядя на плоские фотографии.

Представьте, что вы пытаетесь собрать LEGO-замок, глядя только на одну его фотографию сбоку. Примерно так же сложно ИИ создавать 3D-объекты — данных о форме со всех сторон катастрофически не хватает.

Omni123 — это новая модель, которая учится создавать 3D-объекты из текста, используя косвенные подсказки.

Как это работает?

  1. Единый язык: Всё — текст, 2D-изображение и 3D-объект — превращается в последовательность «токенов» (как слова в предложении).
  2. Обучение на чём придётся: Модель учится не на идеальных тройках «текст-фото-3D», а на разрозненных данных: где-то есть только текст и картинка, где-то — только 3D-модель.
  3. Цикл согласованности: ИИ проходит семантико-визуально-геометрические циклы (например, «текст → изображение → 3D → снова изображение»), чтобы итоговый 3D-объект был и похож на описание, и геометрически цельным со всех ракурсов.

Что это даёт? Исследователи показали, что такой подход значительно улучшает качество и согласованность 3D-генерации и редактирования по текстовому описанию. Это шаг к созданию универсальных 3D-миров силами ИИ.

Что это значит для вас

Если ИИ действительно научится «понимать» 3D-пространство через 2D-картинки, кто будет проектировать виртуальные миры завтра — архитекторы или промпт-инженеры?

📚 Глоссарий этого выпуска

3D-native foundation model
Большая ИИ-модель, изначально созданная для работы с трёхмерными данными, а не адаптированная под них.
Авторегрессивная модель
Модель, которая предсказывает следующий элемент последовательности (например, слово или визуальный токен), опираясь на предыдущие.
Токен
Здесь — базовый фрагмент данных (кусочек текста, изображения или 3D-модели), на который ИИ разбивает информацию для обработки.