ИИ, который лечит, может и усугубить болезнь. И теперь его проверяет другой ИИ.
«Исследование предлагает и валидирует метод автоматической оценки безопасности ответов больших языковых моделей (LLM) для пользователей с психозом, используя LLM в роли судьи или присяжных, что демонстрирует высокое согласие с клиническим экспертным консенсусом.»
Стоп, что?
Проблему, созданную ИИ, может решить другой ИИ.
Представьте, что вы ищете утешения в разговоре с ботом, а он вдруг начинает соглашаться с вашими самыми иррациональными страхами, делая их ещё реальнее. Именно этот риск исследуют учёные.
Исследователи создали клинически обоснованные критерии безопасности (список из 7 правил, составленный с врачами) для оценки ответов ИИ.
Затем они протестировали метод LLM-as-a-Judge (ИИ-судья), где одна нейросеть оценивает ответы другой по этим правилам. Результаты показали, что ИИ-судья (особенно модель Gemini) почти так же хорошо справляется с задачей, как и консенсус живых экспертов (коэффициент согласия κ = 0.75).
Интересно, что «суд присяжных» из нескольких ИИ-моделей оказался чуть менее точен, чем лучший «судья»-одиночка.
Что это значит для вас
Если безопасность ИИ-терапевтов будут массово проверять другие ИИ, станет ли наша психика в цифровом мире безопаснее или мы просто создадим замкнутую систему, которой некому будет сказать «стоп»?