LoRA-адаптер
LoRA-адаптер (Low-Rank Adaptation) — это параметрически эффективный метод тонкой настройки больших языковых моделей (LLM). Он обучает не все веса модели, а лишь небольшое количество дополнительных низкоранговых матриц, которые интегрируются в исходную архитектуру. Этот подход значительно снижает вычислительные и ресурсные затраты по сравнению с полной дообучкой.
Определение и происхождение
LoRA-адаптер (Low-Rank Adaptation) — это метод параметрически эффективной тонкой настройки (Parameter-Efficient Fine-Tuning, PEFT) больших моделей, впервые представленный в работе Microsoft Research «LoRA: Low-Rank Adaptation of Large Language Models» (arXiv:2106.09685). Метод был разработан как ответ на проблему непомерно высоких вычислительных затрат, связанных с полной дообучением моделей с миллиардами параметров для каждой новой задачи или домена. LoRA предлагает компромисс, позволяя адаптировать модель к специфическим данным, сохраняя при этом основную предобученную архитектуру неизменной и многократно используемой.
Механика: как это устроено
Механизм LoRA основан на гипотезе о низком интрансивном ранге изменений весов при адаптации модели к новой задаче. Вместо прямого обновления матриц весов (W \in \mathbb{R}^{d \times k}) исходной модели, LoRA вводит декомпозицию обновления через низкоранговые матрицы. Для каждого адаптируемого слоя (чаще всего слоев внимания) обучаются две небольшие матрицы: (A \in \mathbb{R}^{d \times r}) и (B \in \mathbb{R}^{r \times k}), где (r \ll \min(d, k)) — заданный ранг адаптации. Прямой проход через модифицированный слой описывается как (h = W_0 x + \Delta W x = W_0 x + BA x), где (W_0) — замороженные исходные веса, а (BA) — обучаемое низкоранговое обновление. В процессе обучения обновляются только матрицы (A) и (B), что сокращает количество обучаемых параметров на несколько порядков.
Практическое применение в современной индустрии
LoRA-адаптеры нашли широкое применение в задачах, требующих специализации больших моделей. Они используются для доменной адаптации (например, под медицинские, юридические или финансовые тексты), настройки стиля генерации и создания персональных ассистентов. В контексте сжатия данных, как отмечено в работе arXiv:2604.02343v1, доменно-адаптированные LoRA-адаптеры позволяют значительно улучшить эффективность арифметического кодирования на основе LLM. Интеграция такого адаптера в энкодер-декодерную пару для сжатия повышает сжатие в 2 раза по сравнению с использованием базовой модели, так как адаптер лучше моделирует статистику целевого домена. Это делает LoRA ключевым компонентом для эффективных схем сжатия с потерями и без потерь, основанных на языковых моделях.
Ограничения и перспективы развития
Основное ограничение классического подхода LoRA связано с выбором ранга (r) и слоев для адаптации, что требует эмпирической настройки. Существует также проблема интерференции при последовательном обучении нескольких адаптеров на одной базовой модели (catastrophic forgetting). Перспективные направления развития включают методы автоматического выбора ранга и целевых слоев, комбинацию LoRA с другими техниками PEFT (например, (IA)³), а также исследования в области составных адаптеров для мультизадачного обучения. Работы по интерактивным протоколам сжатия, таким как QA-сжатие, где небольшая модель задает бинарные вопросы большой модели, демонстрируют, что эффективная передача знаний может достигаться через крайне компактные представления, в которые LoRA-адаптеры могут быть органично встроены в качестве легковесных декодеров.
Хотите знать больше?
Мы постоянно пополняем нашу Википедию будущего новыми терминами из передовых исследований.