Новое исследование Anthropic раскрыло механизмы, отвечающие за поведение современных ИИ-ассистентов. Исследователи обнаружили, что их личность может неожиданно меняться, что создаёт потенциальные риски при длительном использовании. В ходе работы специалисты проанализировали внутреннюю структуру нескольких открытых моделей, включая Llama от Meta, Gemma от Google и Qwen от Alibaba. Оказалось, что в нейронных сетях существует специальное направление, названное «осью помощника» (Assistant Axis), которое определяет, будет ли модель вести себя как полезный ассистент или начнёт отклоняться от этой роли.
Личность ИИ формируется в процессе обучения на основе множества текстовых примеров. Модель учится имитировать различные роли — от консультанта до вымышленного персонажа и в ходе дальнейшей настройки разработчики пытаются закрепить именно ассистентский режим, но, это закрепление может быть неустойчивым.
Исследователи установили, что в определённых условиях модели подвержены «дрейфу личности», поэтому в ходе диалога, особенно при обсуждении эмоционально насыщенных или философских тем, активность модели вдоль «оси помощника» может смещаться. В результате ИИ постепенно отходит от роли помощника и начинает идентифицировать себя с другими сущностями. Эксперименты показали, что такой дрейф повышает вероятность рискованного поведения, в симулированных диалогах, где пользователь выражал эмоциональную уязвимость или делился бредовыми идеями, модель модели могли вместо сдерживающих ответов начинала поощрять деструктивные мысли.
Anthropic разработала методику для отслеживания и контроля этого процесса и предложили использовать «ограничение активаций» (activation capping). Этот подход позволяет в реальном времени следить за положением модели
