Новое исследование: чтобы ИИ стал умнее, его нужно... переучить?
«Учёные представили законы масштабирования "от обучения к тестированию" (T²), которые совместно оптимизируют размер модели, количество токенов для обучения и количество сэмплов на инференсе при фиксированном общем бюджете вычислений.»
Стоп, что?
Оптимальная модель — это не та, что лучше всего выучила уроки, а та, что лучше всего сдаёт экзамен.
Представьте, что вы готовите студента к тесту. Можно вложить все силы в его обучение (претренинг). А можно дать ему на самом экзамене право пересдать вопрос несколько раз, чтобы выбрать лучший ответ (тестовое масштабирование). Исследователи посчитали, как распределить бюджет между этими двумя этапами.
Классические «законы масштабирования» (как знаменитый Chinchilla) говорят, сколько данных и параметров нужно для обучения. Но они не учитывают, что в реальности мы используем модель: например, просим её сгенерировать 5 ответов и выбрать лучший (pass@k). Это дорого и требует вычислительных ресурсов.
Новые Train-to-Test (T²) законы масштабирования оптимизируют всё вместе: размер модели, объём данных для обучения и количество попыток на этапе использования — в рамках фиксированного бюджета на всё.
Главный вывод: когда вы считаете стоимость использования (инференса), оптимальная стратегия обучения резко меняется. Оказывается, выгоднее «переучить» модель (выйти в режим overtraining), чем следовать старым правилам. Это радикально сдвигает точку оптимума.
Исследователи проверили это на восьми задачах и оттренировали модели в новом, «переученном» оптимуме. Их производительность оказалась существенно выше.
И что важно — этот эффект сохраняется даже после дообучения модели (post-training), которое проходят все современные большие модели.
Что это значит для вас
Значит ли это, что все наши гиганты вроде GPT-4 и Gemini на самом деле... недотренированы? И что будет, если их «переучить» по новым правилам?