Эта нейросеть проектирует себя сама. И это не метафора.
«Предложена самоорганизующаяся архитектура трансформера, которая автоматически определяет необходимое количество слоёв и голов внимания в процессе обучения, формируя минимальную и достаточную для задачи иерархическую структуру.»
Стоп, что?
Архитектура — это не то, что ты проектируешь. Это то, что ты выводишь.
Представьте, что вы строите дом, не зная, для чего он: для семьи, для офиса или для склада. Вы на всякий случай закладываете лишние комнаты, этажи и окна. Именно так мы сегодня создаем ИИ — с огромным запасом, который потом приходится вручную «обрезать».
Ученые представили модель DDCL-INCRT, которая определяет свою собственную структуру в процессе обучения. Вместо того чтобы заранее задавать количество «внимания» (attention heads) и слоев, она начинает с минимума и наращивает сложность только тогда, когда это действительно нужно.
Как это работает?
- DDCL (Deep Dual Competitive Learning): Заменяет стандартные блоки на «словарь» из прототипов — ключевых паттернов в данных. Эти прототипы автоматически отталкиваются друг от друга, выстраивая четкую иерархию.
- INCRT (Incremental Transformer): Начинает с одного «внимания» и добавляет новое только тогда, когда текущих уже не хватает, чтобы уловить важную информацию.
Главный теоретический результат: Эти два механизма усиливают друг друга. Каждый новый «уровень внимания» улучшает разделение прототипов, что, в свою очередь, сигнализирует о необходимости добавить еще один. В итоге сеть самоорганизуется в уникальную и минимальную иерархию — ровно такую, какая нужна для задачи. Исследователи дали формальные гарантии ее стабильности и сходимости.
Что это значит для вас
Если ИИ будущего сможет проектировать сам себя, не станет ли наша роль — не инженеров, а садовников, которые лишь задают условия для роста?