Все открытия
03.04.20263 мин чтения

Чем глубже ИИ, тем проще его мозг

Impact7/10
Wow Factor9/10

«Исследование случайной модели глубокого многоголового self-attention через предельный переход к гомогенизированной динамике на сфере.»

Математики доказали: если взять случайный ИИ и сделать его очень глубоким, он превратится в простую физическую систему. Это не метафора — это уравнение.

Стоп, что?

Ваш ChatGPT — это не интеллект, а стая частиц на сфере.

Представьте, что вы бросаете горсть шариков в бассейн. Сначала они летят хаотично, но через несколько секунд их движение описывается простыми законами физики. То же самое происходит в мозге ИИ, когда он становится слишком глубоким.

Исследователи изучили, как работает механизм внимания (self-attention) в трансформерах — архитектуре GPT и других ИИ. Они взяли модель, где веса в разных слоях и «головах» внимания случайны, как при старте обучения.

Что обнаружили:

  • Глубину сети можно рассматривать как время, а поток данных (residual stream) — как систему взаимодействующих частиц на сфере.
  • При определённых условиях (масштабировании глубины, шага и числа «голов») эта сложная система сводится к простому предельному уравнению.
  • В некоторых режимах это уравнение детерминированное, в других — стохастическое (случайное), но с общим для всех «шумом». В пределе получается уравнение Фоккера—Планка.
  • В гауссовском случае дрейф исчезает, и можно явно изучать коллапс представлений — когда разные входные данные начинают выглядеть для модели одинаково.

Что это значит для вас

Значит ли это, что мы упёрлись в потолок сложности ИИ, и дальнейшее увеличение моделей лишь упрощает их внутренний мир? Что важнее — глубина или разнообразие?

📚 Глоссарий этого выпуска

Трансформер
Архитектура нейросети, лежащая в основе GPT и других языковых моделей.
Self-attention
Механизм, позволяющий модели обращать внимание на разные части входных данных (например, слов в предложении).
Коллапс представлений
Когда модель начинает воспринимать разные по смыслу входные данные как очень похожие, теряя нюансы.
Уравнение Фоккера—Планка
Уравнение, описывающее, как меняется во времени распределение вероятности для случайного процесса (например, движение частиц).