LoRA (Low-Rank Adaptation)
LoRA (Low-Rank Adaptation) — это метод параметр-эффективной тонкой настройки (Parameter-Efficient Fine-Tuning, PEFT) крупных языковых моделей (LLM). Он предполагает обучение не всех весов модели, а только небольших низкоранговых адаптеров, которые встраиваются в её слои. Это значительно сокращает вычислительные затраты и требования к памяти при адаптации модели под конкретную задачу или домен.
Определение и происхождение
LoRA (Low-Rank Adaptation) — это метод параметр-эффективной тонкой настройки (Parameter-Efficient Fine-Tuning, PEFT) крупных языковых моделей (LLM). Он был предложен в 2021 году исследователями из Microsoft как ответ на вычислительную сложность полной тонкой настройки моделей с миллиардами параметров. Ключевая идея LoRA основана на гипотезе о низком интрансивном ранге (low intrinsic rank) изменений весов во время адаптации: при обучении модели под новую задачу обновления весовых матриц имеют низкий ранг и могут быть эффективно аппроксимированы произведением матриц меньшей размерности.
Механика: как это устроено
Стандартный процесс тонкой настройки обновляет все параметры предобученной модели. LoRA предлагает альтернативный подход. Для каждой обучаемой весовой матрицы (W_0 \in \mathbb{R}^{d \times k}) исходной модели вводится низкоранговое разложение обновления: (\Delta W = B A), где (B \in \mathbb{R}^{d \times r}), (A \in \mathbb{R}^{r \times k}), а (r \ll \min(d, k)) — ранг разложения (гиперпараметр). Во время прямого прохода модифицированная матрица вычисляется как (W_0 + \Delta W = W_0 + BA). Исходные веса (W_0) замораживаются и не обновляются, обучаются только матрицы (A) и (B), которые инициализируются случайным образом и нулями соответственно. Это резко сокращает количество обучаемых параметров: вместо (d \times k) обучается лишь (r \times (d + k)) параметров.
Практическое применение в современной индустрии
LoRA стал де-факто стандартом для адаптации больших моделей, особенно в сценариях с ограниченными ресурсами. Он широко применяется для создания специализированных чат-ботов, донастройки моделей на корпоративные данные, адаптации под конкретные домены (например, медицина или юриспруденция) и генерации изображений (в Stable Diffusion). В контексте сжатия данных, как указано в предоставленном аннотации, доменно-адаптированные LoRA-адаптеры могут значительно улучшить эффективность арифметического кодирования на основе LLM, поскольку адаптер позволяет модели точнее оценивать вероятности символов в целевом домене, удваивая степень сжатия по сравнению с базовой моделью.
Ограничения и перспективы развития
Основное ограничение классической LoRA — потенциальная потеря производительности при очень малом ранге (r) из-за чрезмерной аппроксимации. Кроме того, LoRA может быть неоптимальной для задач, требующих глубоких структурных изменений в знаниях модели. Перспективы развития метода включают гибридные подходы (например, объединение LoRA с другими методами PEFT), автоматический подбор ранга (r) для разных слоев модели, а также интеграцию в более сложные протоколы, такие как интерактивное сжатие «вопрос-ответ» (QA), где компактная модель использует серию бинарных вопросов к мощной модели для эффективной передачи знаний при экстремально низких битрейтах.
Хотите знать больше?
Мы постоянно пополняем нашу Википедию будущего новыми терминами из передовых исследований.