Модель Брэдли-Терри-Льюса (BTL) — Простыми словами

Определение и происхождение

Модель Брэдли-Терри-Льюса (Bradley-Terry-Luce, BTL) — это математическая модель, описывающая вероятность исхода парного сравнения между двумя объектами. Она была независимо разработана Робертом Брэдли и Милтоном Терри в 1952 году, а затем обобщена Р. Дунканом Льюсом в 1959 году в рамках теории выбора. Первоначально модель применялась в спортивных соревнованиях для предсказания вероятности победы одного участника над другим на основе их силы или рейтинга. В основе модели лежит предположение о существовании у каждого объекта скрытого параметра — «силы» или «полезности» (utility), которая определяет исход сравнения.

Механика: как это устроено

Математически модель BTL определяет вероятность того, что объект (i) будет предпочтен объекту (j) в парном сравнении, как логистическую функцию от разности их скрытых полезностей. Формула имеет вид:

[ P(i > j) = \frac{\exp(\theta_i)}{\exp(\theta_i) + \exp(\theta_j)} = \frac{1}{1 + \exp(-(\theta_i - \theta_j))} ]

где (\theta_i) и (\theta_j) — скалярные параметры полезности объектов (i) и (j). Модель является частным случаем более общего класса моделей Мультиномиального Логита (MNL). Параметры (\theta) обычно оцениваются методом максимального правдоподобия по данным, состоящим из множества парных сравнений. Важным свойством модели является её идентифицируемость только относительно разностей параметров, поэтому для устранения неоднозначности часто накладывают ограничение, например, (\sum \theta_i = 0).

Практическое применение в современной индустрии

В современной индустрии, особенно в области машинного обучения и искусственного интеллекта, модель BTL получила широкое распространение в качестве фундаментального компонента для обучения на основе человеческих предпочтений (Preference Learning). Наиболее значимое применение — в рамках подхода Reinforcement Learning from Human Feedback (RLHF) для выравнивания больших языковых моделей (LLM). На этапе моделирования вознаграждения (reward modeling) модель BTL используется для обучения функции вознаграждения на основе датасетов, состоящих из парных предпочтений человека между различными ответами модели. Оценённые параметры полезности ((\theta)) интерпретируются как значения вознаграждения, которые затем используются для оптимизации политики языковой модели с помощью методов обучения с подкреплением.

Ограничения и перспективы развития

Ключевое ограничение классической модели BTL — предположение о стохастической транзитивности и независимости от нерелевантных альтернатив (IIA). На практике человеческие предпочтения могут нарушать это предположение, демонстрируя контекстно-зависимый выбор. Кроме того, базовая модель не учитывает возможную неоднородность или шум в данных, вызванных разными асессорами. Для преодоления этих ограничений разрабатываются расширенные версии модели, такие как модели с учётом индивидуальных особенностей асессоров (например, Plackett-Luce для ранжирований), модели, учитывающие контекст сравнения, или байесовские вариации для работы с неопределённостью. В контексте RLHF перспективным направлением является интеграция BTL-моделирования в более сложные схемы сбора данных (активное обучение, экспериментальный дизайн) и разработка одноэтапных методов (например, Direct Preference Optimization), которые обходят явное обучение модели вознаграждения, но концептуально опираются на те же вероятностные основы.

Определение и происхождение

Механика: как это устроено

Практическое применение в современной индустрии

Ограничения и перспективы развития

Хотите знать больше?