ESM (Evolutionary Scale Modeling)
ESM (Evolutionary Scale Modeling) — это семейство крупномасштабных языковых моделей, обученных на множественных выравниваниях последовательностей белков для получения высококачественных представлений (embeddings) их структуры и функции. В отличие от моделей, предсказывающих структуру напрямую, ESM извлекает эволюционные паттерны, закодированные в последовательностях, что делает их мощным инструментом для задач биоинформатики, где экспериментальные данные ограничены.
Определение и происхождение
Evolutionary Scale Modeling (ESM) — это метод глубокого обучения в структурной биоинформатике, основанный на применении архитектур трансформеров к множественным выравниваниям аминокислотных последовательностей белков. Модели серии ESM, разработанные исследовательской группой Meta AI (FAIR), обучаются на огромных эволюционных наборах данных, таких как база UniRef, содержащей сотни миллионов белковых последовательностей. Ключевая идея заключается в том, что эволюционное давление сохраняет информацию о трехмерной структуре и биологической функции в паттернах аминокислотных замен. Модель, обученная предсказывать маскированные аминокислоты в этих выравниваниях, неявно усваивает сложные правила, управляющие укладкой белка и белково-белковыми взаимодействиями.
Механика: как это устроено
В основе ESM лежит архитектура трансформера, адаптированная для обработки биологических последовательностей. Модель принимает на вход множественное выравнивание последовательностей (MSA), где каждая позиция представлена вектором из 20 стандартных аминокислот и специальных токенов (пропуск, маска). Во время предобучения случайные аминокислоты в последовательности маскируются, и модель обучается предсказывать их на основе контекста всего выравнивания. Этот процесс, аналогичный дообучению BERT в обработке естественного языка, заставляет модель извлекать глубокие статистические зависимости между позициями. В результате последний скрытый слой модели (embeddings) содержит сжатое, информативное представление эволюционных, структурных и функциональных ограничений, действующих на белок. Эти представления можно использовать как входные признаки для решения downstream-задач, таких как предсказание контактов между остатками, мутационного эффекта или, как в контексте ViraHinter, для кодирования белковых последовательностей при прогнозировании взаимодействий.
Практическое применение в современной индустрии
ESM-эмбеддинги стали стандартным инструментом в вычислительной биологии. Они широко применяются для: 1) Предсказания структуры белка: как входные данные для алгоритмов типа AlphaFold или RoseTTAFold, значительно улучшая их точность, особенно для белков с низкой гомологией. 2) Функциональной аннотации: классификации ферментативной активности или предсказания сайтов связывания. 3) Проектирования белков: направленной эволюции in silico для создания белков с новыми свойствами. 4) Изучения взаимодействий: в таких фреймворках, как ViraHinter, ESM-эмбеддинги вирусных и человеческих белков используются для обучения моделей, предсказывающих взаимодействия в системе вирус-хозяин, что позволяет проводить масштабный скрининг потенциальных мишеней для противовирусных препаратов, минуя дорогостоящие экспериментальные методы.
Ограничения и перспективы развития
Основное ограничение ESM связано с качеством и репрезентативностью обучающих данных. Модель может быть смещена в сторону хорошо представленных в базах данных семейств белков, что снижает её эффективность для редких или совершенно новых последовательностей. Кроме того, ESM фиксирует эволюционные паттерны, но не динамические аспекты, такие как конформационные изменения или аллостерическая регуляция. Перспективы развития лежат в области создания мультимодальных моделей, которые объединяют эволюционную информацию (ESM) с физическими принципами (силовые поля) и экспериментальными данными (крио-ЭМ, масс-спектрометрия). Также ведутся работы по обучению более крупных моделей на ещё более обширных наборах данных и по разработке специализированных ESM для конкретных задач, например, для предсказания взаимодействий РНК-белок или для работы с мембранными белками.
Хотите знать больше?
Мы постоянно пополняем нашу Википедию будущего новыми терминами из передовых исследований.