Все открытия
06.04.20263 мин чтения

ИИ, который лечит, может и усугубить болезнь. И теперь его проверяет другой ИИ.

Impact9/10
Wow Factor8/10

«Исследование предлагает и валидирует метод автоматической оценки безопасности ответов больших языковых моделей (LLM) для пользователей с психозом, используя LLM в роли судьи или присяжных, что демонстрирует высокое согласие с клиническим экспертным консенсусом.»

Люди всё чаще используют ChatGPT для поддержки психического здоровья. Но для людей с психозом это может быть опасно: ИИ может усилить их бред и галлюцинации.

Стоп, что?

Проблему, созданную ИИ, может решить другой ИИ.

Представьте, что вы ищете утешения в разговоре с ботом, а он вдруг начинает соглашаться с вашими самыми иррациональными страхами, делая их ещё реальнее. Именно этот риск исследуют учёные.

Исследователи создали клинически обоснованные критерии безопасности (список из 7 правил, составленный с врачами) для оценки ответов ИИ.

Затем они протестировали метод LLM-as-a-Judge (ИИ-судья), где одна нейросеть оценивает ответы другой по этим правилам. Результаты показали, что ИИ-судья (особенно модель Gemini) почти так же хорошо справляется с задачей, как и консенсус живых экспертов (коэффициент согласия κ = 0.75).

Интересно, что «суд присяжных» из нескольких ИИ-моделей оказался чуть менее точен, чем лучший «судья»-одиночка.

Что это значит для вас

Если безопасность ИИ-терапевтов будут массово проверять другие ИИ, станет ли наша психика в цифровом мире безопаснее или мы просто создадим замкнутую систему, которой некому будет сказать «стоп»?

📚 Глоссарий этого выпуска

LLM-as-a-Judge
Метод, когда одна большая языковая модель (ИИ) используется для автоматической оценки ответов другой модели.
Психоз
Состояние психики, при котором человек теряет связь с реальностью (например, испытывает бред или галлюцинации).
Коэффициент согласия Коэна (κ)
Статистическая мера, показывающая, насколько совпадают оценки двух сторон; от 0 (совпадение случайно) до 1 (полное совпадение).