ИИ находит причину и следствие, не глядя на данные

Всё, от рекомендаций Netflix до прогнозов погоды, строится на поиске связей в данных. Но найти настоящую причину (почему A вызывает B) — это как искать иголку в стоге сена, который постоянно движется. Особенно когда данных тысячи, а примеров — сотни.

Исследователи из Университета Дьюка и MIT сделали хитрый ход. Они взяли диффузионные модели — ту же технологию, что стоит за DALL-E и Midjourney. Но не для создания, а для «разрушения».

Как это работает?

Проблема: Старые методы поиска причинно-следственных связей (вроде NOTEARS) «спотыкались» на больших данных. Их математика становилась нестабильной, обучение — медленным.
Решение из мира арта: Диффузионные модели учатся убирать шум из картинки. Учёные применили эту же логику к данным. Их алгоритм, DDCD, «зашумляет» предполагаемые причинные связи, а потом учится их «очищать», находя самую стабильную и правдоподобную структуру.
Ещё один лайфхак: Они придумали «адаптивное k-шаговое ограничение». Проще говоря, это умный фильтр, который отсекает невозможные циклы (вроде «дождь вызывает лужи, а лужи вызывают дождь») без сложных вычислений, которые тормозили все предыдущие модели.

Что показали тесты?

На синтетических данных DDCD показал конкурентную производительность с существующими методами.
Ключевое преимущество — скорость и стабильность на данных с дисбалансом (много параметров, мало наблюдений).
Метод опробовали на двух реальных наборах данных, подтвердив его практическую пользу.

Код уже в открытом доступе на GitHub.

ИИ находит причину и следствие, не глядя на данные

Стоп, что?

Что это значит для вас

📚 Глоссарий этого выпуска