Все открытия
03.04.20263 мин чтения

Новое исследование: чтобы ИИ стал умнее, его нужно... переучить?

Impact8/10
Wow Factor7/10

«Учёные представили законы масштабирования "от обучения к тестированию" (T²), которые совместно оптимизируют размер модели, количество токенов для обучения и количество сэмплов на инференсе при фиксированном общем бюджете вычислений.»

Все правила по созданию больших языковых моделей оказались неполными. Потому что они забыли про главное — как мы ими пользуемся.

Стоп, что?

Оптимальная модель — это не та, что лучше всего выучила уроки, а та, что лучше всего сдаёт экзамен.

Представьте, что вы готовите студента к тесту. Можно вложить все силы в его обучение (претренинг). А можно дать ему на самом экзамене право пересдать вопрос несколько раз, чтобы выбрать лучший ответ (тестовое масштабирование). Исследователи посчитали, как распределить бюджет между этими двумя этапами.

Классические «законы масштабирования» (как знаменитый Chinchilla) говорят, сколько данных и параметров нужно для обучения. Но они не учитывают, что в реальности мы используем модель: например, просим её сгенерировать 5 ответов и выбрать лучший (pass@k). Это дорого и требует вычислительных ресурсов.

Новые Train-to-Test (T²) законы масштабирования оптимизируют всё вместе: размер модели, объём данных для обучения и количество попыток на этапе использования — в рамках фиксированного бюджета на всё.

Главный вывод: когда вы считаете стоимость использования (инференса), оптимальная стратегия обучения резко меняется. Оказывается, выгоднее «переучить» модель (выйти в режим overtraining), чем следовать старым правилам. Это радикально сдвигает точку оптимума.

Исследователи проверили это на восьми задачах и оттренировали модели в новом, «переученном» оптимуме. Их производительность оказалась существенно выше.

И что важно — этот эффект сохраняется даже после дообучения модели (post-training), которое проходят все современные большие модели.

Что это значит для вас

Значит ли это, что все наши гиганты вроде GPT-4 и Gemini на самом деле... недотренированы? И что будет, если их «переучить» по новым правилам?

📚 Глоссарий этого выпуска

Законы масштабирования (Scaling Laws)
Математические правила, которые предсказывают, как производительность ИИ растёт с увеличением размера модели и объёма данных.
Претренинг (Pretraining)
Базовая «учеба» модели на огромном наборе текстов из интернета.
Инференс (Inference)
Процесс использования уже обученной модели для получения ответа — то, что делает ChatGPT, когда вы ему пишете.
Тестовое масштабирование (Test-Time Scaling)
Увеличение вычислительных затрат во время использования модели, например, генерация нескольких вариантов ответа для выбора лучшего.
Overtraining (Переобучение в данном контексте)
Обучение модели дольше или на больше данных, чем считается оптимальным по классическим меркам.
Post-training (Посттренинг)
Дообучение базовой модели для улучшения качества, безопасности или стиля ответов.