Новое исследование: чтобы ИИ стал умнее, его нужно... переучить?

Impact8/10

Wow Factor7/10

«Учёные представили законы масштабирования "от обучения к тестированию" (T²), которые совместно оптимизируют размер модели, количество токенов для обучения и количество сэмплов на инференсе при фиксированном общем бюджете вычислений.»

Представьте, что вы готовите студента к тесту. Можно вложить все силы в его обучение (претренинг). А можно дать ему на самом экзамене право пересдать вопрос несколько раз, чтобы выбрать лучший ответ (тестовое масштабирование). Исследователи посчитали, как распределить бюджет между этими двумя этапами.

Классические «законы масштабирования» (как знаменитый Chinchilla) говорят, сколько данных и параметров нужно для обучения. Но они не учитывают, что в реальности мы используем модель: например, просим её сгенерировать 5 ответов и выбрать лучший (pass@k). Это дорого и требует вычислительных ресурсов.

Новые Train-to-Test (T²) законы масштабирования оптимизируют всё вместе: размер модели, объём данных для обучения и количество попыток на этапе использования — в рамках фиксированного бюджета на всё.

Главный вывод: когда вы считаете стоимость использования (инференса), оптимальная стратегия обучения резко меняется. Оказывается, выгоднее «переучить» модель (выйти в режим overtraining), чем следовать старым правилам. Это радикально сдвигает точку оптимума.

Исследователи проверили это на восьми задачах и оттренировали модели в новом, «переученном» оптимуме. Их производительность оказалась существенно выше.

И что важно — этот эффект сохраняется даже после дообучения модели (post-training), которое проходят все современные большие модели.

Новое исследование: чтобы ИИ стал умнее, его нужно... переучить?

Стоп, что?

Что это значит для вас

📚 Глоссарий этого выпуска