Чем глубже ИИ, тем проще его мозг
«Исследование случайной модели глубокого многоголового self-attention через предельный переход к гомогенизированной динамике на сфере.»
Стоп, что?
Ваш ChatGPT — это не интеллект, а стая частиц на сфере.
Представьте, что вы бросаете горсть шариков в бассейн. Сначала они летят хаотично, но через несколько секунд их движение описывается простыми законами физики. То же самое происходит в мозге ИИ, когда он становится слишком глубоким.
Исследователи изучили, как работает механизм внимания (self-attention) в трансформерах — архитектуре GPT и других ИИ. Они взяли модель, где веса в разных слоях и «головах» внимания случайны, как при старте обучения.
Что обнаружили:
- Глубину сети можно рассматривать как время, а поток данных (residual stream) — как систему взаимодействующих частиц на сфере.
- При определённых условиях (масштабировании глубины, шага и числа «голов») эта сложная система сводится к простому предельному уравнению.
- В некоторых режимах это уравнение детерминированное, в других — стохастическое (случайное), но с общим для всех «шумом». В пределе получается уравнение Фоккера—Планка.
- В гауссовском случае дрейф исчезает, и можно явно изучать коллапс представлений — когда разные входные данные начинают выглядеть для модели одинаково.
Что это значит для вас
Значит ли это, что мы упёрлись в потолок сложности ИИ, и дальнейшее увеличение моделей лишь упрощает их внутренний мир? Что важнее — глубина или разнообразие?