Латентная полезность (Latent Utility) — Простыми словами

Латентная полезность — это фундаментальное понятие в математической психологии, теории принятия решений и эконометрике, обозначающее гипотетическую, ненаблюдаемую напрямую величину, отражающую истинную ценность или привлекательность альтернативы для принимающего решение агента. Термин «латентный» подчеркивает, что эта полезность скрыта от наблюдателя; непосредственно фиксируются лишь конечные выборы, ранжирования или парные сравнения, которые являются стохастическим проявлением этих скрытых величин.

Математически латентные полезности часто моделируются как случайные величины. В широко используемой модели Брэдли–Терри–Льюса (BTL) для парных сравнений предполагается, что вероятность предпочтения альтернативы A над альтернативой B определяется через их латентные полезности (u_A) и (u_B), например, по формуле (P(A > B) = \sigma(u_A - u_B)), где (\sigma) — логистическая функция. Таким образом, задача сводится к статистическому выводу (оценке) параметров латентной полезности по набору наблюдаемых, зашумленных предпочтений.

В современной индустрии искусственного интеллекта, особенно в области выравнивания больших языковых моделей (LLM), концепция латентной полезности является краеугольным камнем этапа моделирования вознаграждения (reward modeling) в RLHF. На этом этапе собираются данные парных предпочтений человека относительно различных ответов модели. Каждому ответу приписывается латентная полезность, а обученная модель вознаграждения аппроксимирует функцию, отображающую ответ в оценку этой полезности. Эта модель затем используется в качестве суррогатной цели для оптимизации политики языковой модели с помощью методов обучения с подкреплением.

Основное ограничение подхода, основанного на латентной полезности, заключается в сильной зависимости от допущений порождающей модели (например, BTL) и качества данных. Человеческие предпочтения часто не транзитивны, контекстуально зависимы и неоднородны среди разных аннотаторов, что нарушает стандартные предположения о единой стабильной латентной полезности. Перспективы развития связаны с созданием более сложных вероятностных моделей, учитывающих неоднородность предпочтений, динамический контекст и активное обучение для более эффективного сбора данных, а также с переходом к одноэтапным методам (например, Direct Preference Optimization), которые обходят явное моделирование функции полезности, напрямую оптимизируя политику на основе предпочтений.

Хотите знать больше?