Чем глубже ИИ, тем проще его мозг

Представьте, что вы бросаете горсть шариков в бассейн. Сначала они летят хаотично, но через несколько секунд их движение описывается простыми законами физики. То же самое происходит в мозге ИИ, когда он становится слишком глубоким.

Исследователи изучили, как работает механизм внимания (self-attention) в трансформерах — архитектуре GPT и других ИИ. Они взяли модель, где веса в разных слоях и «головах» внимания случайны, как при старте обучения.

Что обнаружили:

Глубину сети можно рассматривать как время, а поток данных (residual stream) — как систему взаимодействующих частиц на сфере.
При определённых условиях (масштабировании глубины, шага и числа «голов») эта сложная система сводится к простому предельному уравнению.
В некоторых режимах это уравнение детерминированное, в других — стохастическое (случайное), но с общим для всех «шумом». В пределе получается уравнение Фоккера—Планка.
В гауссовском случае дрейф исчезает, и можно явно изучать коллапс представлений — когда разные входные данные начинают выглядеть для модели одинаково.

Чем глубже ИИ, тем проще его мозг

Стоп, что?

Что это значит для вас

📚 Глоссарий этого выпуска