Компания Cursor, создатель одноимённого ИИ-помощника для программистов, провела масштабный эксперимент по полностью автономной разработке. Целью было выяснить, смогут ли ИИ-агенты, работая сообща, создать сложное программное обеспечение с нуля. В качестве тестовой задачи выбрали разработку браузера — проекта, на который у человеческих команд обычно уходят месяцы или годы.
В течение недели несколько сотен автономных ИИ-агентов работали над проектом, в результате чего было сгенерировано более миллиона строк кода и созданы тысячи файлов. Исходный код получившегося браузера, включая движок рендеринга на Rust, уже опубликован на GitHub.
Первоначальный подход, при котором всем агентам дали равные права и общий список задач, провалился. Система самоорганизации не сработала: активными оставались лишь 2-3 агента, в то время как остальные простаивали в ожидании. Координация через общие файлы с блокировками приводила к тупикам и замедляла процесс. Инженеры Cursor изменили архитектуру, введя чёткое разделение ролей. Появились «планировщики» (planners), которые анализируют код, разбивают работу на задачи и следят за общей структурой проекта и «исполнители», чья работа — брать конкретную задачу и последовательно её выполнять, не отвлекаясь на общую координацию.
В ходе эксперимента тестировались различные современные языковые модели. Наиболее стабильные и эффективные результаты в роли долгоработающих автономных агентов показала GPT-5.2. По наблюдениям разработчиков, эта модель лучше удерживает фокус на поставленной задаче, тщательнее планирует шаги и чаще доводит начатое до конца, избегая соблазна найти «короткий путь». В сравнении с ней такие модели, как GPT-5.1 Codex и Claude Opus 4.5, чаще «сдавались» при сложных задачах или искали
