← К общему списку
Энциклопедия Planck Media

Латентная полезность (Latent Utility)

Латентная полезность — это ненаблюдаемая количественная мера предпочтения, лежащая в основе наблюдаемого выбора или ранжирования альтернатив. В контексте обучения с подкреплением на основе человеческих предпочтений (RLHF) она моделирует скрытое значение, которое человек присваивает тому или иному результату работы модели.

Латентная полезность — это фундаментальное понятие в математической психологии, теории принятия решений и эконометрике, обозначающее гипотетическую, ненаблюдаемую напрямую величину, отражающую истинную ценность или привлекательность альтернативы для принимающего решение агента. Термин «латентный» подчеркивает, что эта полезность скрыта от наблюдателя; непосредственно фиксируются лишь конечные выборы, ранжирования или парные сравнения, которые являются стохастическим проявлением этих скрытых величин.

Математически латентные полезности часто моделируются как случайные величины. В широко используемой модели Брэдли–Терри–Льюса (BTL) для парных сравнений предполагается, что вероятность предпочтения альтернативы A над альтернативой B определяется через их латентные полезности (u_A) и (u_B), например, по формуле (P(A > B) = \sigma(u_A - u_B)), где (\sigma) — логистическая функция. Таким образом, задача сводится к статистическому выводу (оценке) параметров латентной полезности по набору наблюдаемых, зашумленных предпочтений.

В современной индустрии искусственного интеллекта, особенно в области выравнивания больших языковых моделей (LLM), концепция латентной полезности является краеугольным камнем этапа моделирования вознаграждения (reward modeling) в RLHF. На этом этапе собираются данные парных предпочтений человека относительно различных ответов модели. Каждому ответу приписывается латентная полезность, а обученная модель вознаграждения аппроксимирует функцию, отображающую ответ в оценку этой полезности. Эта модель затем используется в качестве суррогатной цели для оптимизации политики языковой модели с помощью методов обучения с подкреплением.

Основное ограничение подхода, основанного на латентной полезности, заключается в сильной зависимости от допущений порождающей модели (например, BTL) и качества данных. Человеческие предпочтения часто не транзитивны, контекстуально зависимы и неоднородны среди разных аннотаторов, что нарушает стандартные предположения о единой стабильной латентной полезности. Перспективы развития связаны с созданием более сложных вероятностных моделей, учитывающих неоднородность предпочтений, динамический контекст и активное обучение для более эффективного сбора данных, а также с переходом к одноэтапным методам (например, Direct Preference Optimization), которые обходят явное моделирование функции полезности, напрямую оптимизируя политику на основе предпочтений.

Хотите знать больше?

Мы постоянно пополняем нашу Википедию будущего новыми терминами из передовых исследований.