ИИ сдал экзамены лучше человека, но провалился на работе

Impact9/10

Wow Factor7/10

«Представлен новый бенчмарк XpertBench для оценки способностей больших языковых моделей решать сложные, открытые задачи из реальных профессиональных областей.»

Представьте, что вы нанимаете хирурга. Вам важно не то, как он сдал теорию, а как проведёт операцию. Примерно так же учёные решили проверить ИИ — дали ему 1346 задач из реальных профессиональных сфер.

Исследователи создали XpertBench — тест из задач, которые готовили настоящие эксперты: врачи, финансисты, учёные из топ-университетов. Каждое задание оценивалось по детальному чек-листу (от 15 до 40 пунктов), как на настоящем экзамене.

Что выяснилось:

Потолок производительности: Даже самые сильные модели (вроде GPT-4 или Claude) справились в среднем лишь с ~55% задач. Их лучший результат — около 66%.
Разные сильные стороны: Одни модели хорошо считали (финансы, STEM), но плохо писали аналитические тексты (юриспруденция, гуманитарные науки), и наоборот. Универсального гения нет.
Новый способ оценки: Чтобы избежать предвзятости, когда ИИ сам себя оценивает, придумали ShotJudge — систему, где ИИ-судью «калибруют» на примерах оценок от людей-экспертов.

ИИ сдал экзамены лучше человека, но провалился на работе

Стоп, что?

Что это значит для вас

📚 Глоссарий этого выпуска