Все открытия
06.04.20263 мин чтения

ИИ сдал экзамены лучше человека, но провалился на работе

Impact9/10
Wow Factor7/10

«Представлен новый бенчмарк XpertBench для оценки способностей больших языковых моделей решать сложные, открытые задачи из реальных профессиональных областей.»

ИИ уже обыгрывает нас в шахматы и пишет тексты. Но когда дело доходит до реальной работы эксперта — он спотыкается. Новый тест показал, что даже самые продвинутые модели не могут стать полноценными коллегами.

Стоп, что?

Мы тестировали ИИ не на школьных задачках, а на реальной работе.

Представьте, что вы нанимаете хирурга. Вам важно не то, как он сдал теорию, а как проведёт операцию. Примерно так же учёные решили проверить ИИ — дали ему 1346 задач из реальных профессиональных сфер.

Исследователи создали XpertBench — тест из задач, которые готовили настоящие эксперты: врачи, финансисты, учёные из топ-университетов. Каждое задание оценивалось по детальному чек-листу (от 15 до 40 пунктов), как на настоящем экзамене.

Что выяснилось:

  • Потолок производительности: Даже самые сильные модели (вроде GPT-4 или Claude) справились в среднем лишь с ~55% задач. Их лучший результат — около 66%.
  • Разные сильные стороны: Одни модели хорошо считали (финансы, STEM), но плохо писали аналитические тексты (юриспруденция, гуманитарные науки), и наоборот. Универсального гения нет.
  • Новый способ оценки: Чтобы избежать предвзятости, когда ИИ сам себя оценивает, придумали ShotJudge — систему, где ИИ-судью «калибруют» на примерах оценок от людей-экспертов.

Что это значит для вас

ИИ — уже не игрушка, но ещё не профессионал. Значит ли это, что наше место в будущем — не за компьютером, а рядом с ним, как у наставника у умного, но неопытного стажёра?

📚 Глоссарий этого выпуска

XpertBench
Тест для ИИ из 1346 реальных профессиональных задач, чтобы проверить, может ли он работать как эксперт.
Экологическая валидность
Степень, в которой тест отражает реальные условия и задачи (в данном случае — реальную работу врача, юриста и т.д.).
ShotJudge
Система оценки, где ИИ-судье дают несколько примеров правильных оценок от людей, чтобы его суждения были более человечными.
Экспертный разрыв (expert-gap)
Пробел между способностью ИИ решать общие задачи и его умением выполнять сложную, контекстную работу настоящего профессионала.