Как заставить нейросеть «обманывать» математику и выигрывать в 10 раз быстрее
«Предложен новый метод точной параметризации дважды стохастических матриц для смешивания потоков в нейросетях, который масштабируется как O(d³) и обеспечивает полную выразительность.»
Стоп, что?
Проблема была не в математике, а в том, как мы её задавали.
Это как если бы вы пытались идеально перемешать краски на палитре, но кисть была либо слишком маленькой (медленно), либо слишком большой (грубо и неточно). Нейросети сталкиваются с той же дилеммой при смешивании потоков информации внутри себя.
Исследователи Торк Дандачи и София Диггс-Галлиган нашли элегантный выход, используя теорию обобщённых ортостохастических матриц.
Что они сделали:
- Создали метод go-mHC, который точно параметризует «идеальное смешивание» (множество дважды стохастических матриц).
- Раньше точные методы замедлялись факториально (катастрофически медленно), а быстрые — были неточными. Их метод масштабируется как 𝒪(d³), что практично.
- Они ввели один гиперпараметр
s, который плавно переключает режим: от «быстро, но просто» к «полная выразительность».
Результаты:
- На синтетических задачах go-mHC достиг теоретически минимального уровня ошибки.
- При этом сходился (обучался) до 10 раз быстрее, чем предыдущие подходы.
- В 30-миллионной GPT-модели метод показал, что масштабирование количества внутренних «потоков» (d) — это новый практичный путь к увеличению мощности ИИ.
Что это значит для вас
Мы привыкли, что прогресс в ИИ — это больше данных и больше слоев. А если завтра он начнётся с того, что мы научимся по-новому *перемешивать* уже имеющуюся информацию внутри модели?