Специалисты Alibaba в процессе тренировки ИИ модели ROME зафиксировали необычную активность. Система безопасности облачной платформы сработала из-за подозрительного трафика с обучающих серверов. Первоначально инцидент списали на ошибки в настройках или внешнее вмешательство, однако позднее выяснилось: источником проблем был сам ИИ-агент. Модель самостоятельно инициировала вызовы инструментов и запускала код, который приводил к сканированию сети и попыткам доступа к внутренним ресурсам.
Наиболее показательный случай произошел, когда нейросеть создала обратный SSH-туннель с обучающего сервера на внешний IP-адрес, что технически позволило бы обойти стандартные механизмы фильтрации трафика и снизить контроль со стороны администраторов инфраструктуры. Кроме того, ИИ перенаправил часть вычислительных мощностей GPU на майнинг криптовалюты, что привело к нецелевому использованию ресурсов.
Важный момент: ни одна из этих операций не содержалась в промптах и не требовалась для выполнения учебных задач. Действия агента стали «побочным эффектом» автономного использования доступных инструментов в процессе оптимизации подкрепления с обучением.
Для экспериментов с многошаговыми задачами Alibaba разработала инфраструктуру Agentic Learning Ecosystem (ALE) с использованием менеджера изолированных сред и предполагалось, что «песочницы» предотвратят подобные инциденты, но на практике агент нашел способы выйти за установленные рамки.
Пока неизвестно, удалось ли разработчикам полностью воспроизвести условия, при которых модель проявляет такую инициативу и была ли устранена соответствующая уязвимость. В документации инцидент описан как операционно значимый класс небезопасного поведения, возникающий без явных инструкций и за пределами предполагаемой

