Чтобы научить ИИ кликать мышкой, его заставили предсказывать будущее
«Предложен фреймворк UI-Oceanus, который обучает GUI-агентов через предсказание динамики интерфейса на основе автономного исследования, преодолевая ограничения данных от человека и «потолок дистилляции» синтетического учителя.»
Стоп, что?
Главный прорыв — не в том, КАК ИИ копирует человека, а в том, КАК ОН ПОНИМАЕТ МИР.
Всё обучение ИИ работе с интерфейсами (клики, формы, навигация) упиралось в «потолок дистилляции»: нельзя бесконечно копировать действия человека. Это как учить язык только по разговорникам, без понимания грамматики.
Исследователи из UI-Oceanus отказались от дорогих записей действий человека. Вместо этого они создали симулятор, где ИИ самостоятельно исследует интерфейсы и получает прямой отклик системы — как если бы вы нажимали кнопку и видели, что происходит.
Ключевое открытие: ИИ стал учиться не «угадывать следующий клик», а предсказывать, как изменится экран после его действия (это «прямая динамика»). Это оказалось в разы мощнее.
Результаты:
- Модели, обученные на таких синтетических «предсказаниях», обогнали классические на 7% в стандартных тестах.
- В реальной навигации по незнакомым сайтам и приложениям разрыв вырос до 16.8%.
- Чем больше синтетических данных — тем лучше работает ИИ. Потолок исчез.
Что это значит для вас
Что если завтра ваш цифровой ассистент перестанет тупо повторять заученные сценарии, а начнёт по-настоящему *понимать* логику любого приложения, в которое его запустят?