Чтобы научить ИИ кликать мышкой, его заставили предсказывать будущее

Impact8/10

Wow Factor7/10

«Предложен фреймворк UI-Oceanus, который обучает GUI-агентов через предсказание динамики интерфейса на основе автономного исследования, преодолевая ограничения данных от человека и «потолок дистилляции» синтетического учителя.»

Всё обучение ИИ работе с интерфейсами (клики, формы, навигация) упиралось в «потолок дистилляции»: нельзя бесконечно копировать действия человека. Это как учить язык только по разговорникам, без понимания грамматики.

Исследователи из UI-Oceanus отказались от дорогих записей действий человека. Вместо этого они создали симулятор, где ИИ самостоятельно исследует интерфейсы и получает прямой отклик системы — как если бы вы нажимали кнопку и видели, что происходит.

Ключевое открытие: ИИ стал учиться не «угадывать следующий клик», а предсказывать, как изменится экран после его действия (это «прямая динамика»). Это оказалось в разы мощнее.

Результаты:

Модели, обученные на таких синтетических «предсказаниях», обогнали классические на 7% в стандартных тестах.
В реальной навигации по незнакомым сайтам и приложениям разрыв вырос до 16.8%.
Чем больше синтетических данных — тем лучше работает ИИ. Потолок исчез.

Чтобы научить ИИ кликать мышкой, его заставили предсказывать будущее

Стоп, что?

Что это значит для вас

📚 Глоссарий этого выпуска