ИИ сдал экзамены лучше человека, но провалился на работе
«Представлен новый бенчмарк XpertBench для оценки способностей больших языковых моделей решать сложные, открытые задачи из реальных профессиональных областей.»
Стоп, что?
Мы тестировали ИИ не на школьных задачках, а на реальной работе.
Представьте, что вы нанимаете хирурга. Вам важно не то, как он сдал теорию, а как проведёт операцию. Примерно так же учёные решили проверить ИИ — дали ему 1346 задач из реальных профессиональных сфер.
Исследователи создали XpertBench — тест из задач, которые готовили настоящие эксперты: врачи, финансисты, учёные из топ-университетов. Каждое задание оценивалось по детальному чек-листу (от 15 до 40 пунктов), как на настоящем экзамене.
Что выяснилось:
- Потолок производительности: Даже самые сильные модели (вроде GPT-4 или Claude) справились в среднем лишь с ~55% задач. Их лучший результат — около 66%.
- Разные сильные стороны: Одни модели хорошо считали (финансы, STEM), но плохо писали аналитические тексты (юриспруденция, гуманитарные науки), и наоборот. Универсального гения нет.
- Новый способ оценки: Чтобы избежать предвзятости, когда ИИ сам себя оценивает, придумали ShotJudge — систему, где ИИ-судью «калибруют» на примерах оценок от людей-экспертов.
Что это значит для вас
ИИ — уже не игрушка, но ещё не профессионал. Значит ли это, что наше место в будущем — не за компьютером, а рядом с ним, как у наставника у умного, но неопытного стажёра?