Как заставить нейросеть «обманывать» математику и выигрывать в 10 раз быстрее

Impact8/10

Wow Factor7/10

«Предложен новый метод точной параметризации дважды стохастических матриц для смешивания потоков в нейросетях, который масштабируется как O(d³) и обеспечивает полную выразительность.»

Это как если бы вы пытались идеально перемешать краски на палитре, но кисть была либо слишком маленькой (медленно), либо слишком большой (грубо и неточно). Нейросети сталкиваются с той же дилеммой при смешивании потоков информации внутри себя.

Исследователи Торк Дандачи и София Диггс-Галлиган нашли элегантный выход, используя теорию обобщённых ортостохастических матриц.

Что они сделали:

Создали метод go-mHC, который точно параметризует «идеальное смешивание» (множество дважды стохастических матриц).
Раньше точные методы замедлялись факториально (катастрофически медленно), а быстрые — были неточными. Их метод масштабируется как 𝒪(d³), что практично.
Они ввели один гиперпараметр s, который плавно переключает режим: от «быстро, но просто» к «полная выразительность».

Результаты:

На синтетических задачах go-mHC достиг теоретически минимального уровня ошибки.
При этом сходился (обучался) до 10 раз быстрее, чем предыдущие подходы.
В 30-миллионной GPT-модели метод показал, что масштабирование количества внутренних «потоков» (d) — это новый практичный путь к увеличению мощности ИИ.

Как заставить нейросеть «обманывать» математику и выигрывать в 10 раз быстрее

Стоп, что?

Что это значит для вас

📚 Глоссарий этого выпуска