Не только взломы: исследователи нашли новую уязвимость в поведении ИИ

Google Железо и технологии Искусственный интеллект Нейросети НОВОСТИ

20.01.2026 - 13:55

Сейчас читают: 545

vgtimes.ru:

Новое исследование Anthropic раскрыло механизмы, отвечающие за поведение современных ИИ-ассистентов. Исследователи обнаружили, что их личность может неожиданно меняться, что создаёт потенциальные риски при длительном использовании. В ходе работы специалисты проанализировали внутреннюю структуру нескольких открытых моделей, включая Llama от Meta, Gemma от Google и Qwen от Alibaba. Оказалось, что в нейронных сетях существует специальное направление, названное «осью помощника» (Assistant Axis), которое определяет, будет ли модель вести себя как полезный ассистент или начнёт отклоняться от этой роли.

Личность ИИ формируется в процессе обучения на основе множества текстовых примеров. Модель учится имитировать различные роли — от консультанта до вымышленного персонажа и в ходе дальнейшей настройки разработчики пытаются закрепить именно ассистентский режим, но, это закрепление может быть неустойчивым.

Исследователи установили, что в определённых условиях модели подвержены «дрейфу личности», поэтому в ходе диалога, особенно при обсуждении эмоционально насыщенных или философских тем, активность модели вдоль «оси помощника» может смещаться. В результате ИИ постепенно отходит от роли помощника и начинает идентифицировать себя с другими сущностями. Эксперименты показали, что такой дрейф повышает вероятность рискованного поведения, в симулированных диалогах, где пользователь выражал эмоциональную уязвимость или делился бредовыми идеями, модель модели могли вместо сдерживающих ответов начинала поощрять деструктивные мысли.

Anthropic разработала методику для отслеживания и контроля этого процесса и предложили использовать «ограничение активаций» (activation capping). Этот подход позволяет в реальном времени следить за положением модели

Читать на vgtimes.ru

Все новости от vgtimes.ru

Об этом же в других СМИ

Мертвый интернет теперь реальность: появилась соцсеть, где общаются только ИИ-боты playground.ru /5 месяцев назад

Valve нашла идеальную формулу героя: как Largo стал не только имбой на про-сцене, но и ходячей рекламой Dota 2 dota2.ru /5 месяцев назад

Креативный директор Cyberpunk 2 намекает, что кат-сцены в сиквеле тоже будут только от первого лица playground.ru /5 месяцев назад

Сайт playerone.cc - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

Не только взломы: исследователи нашли новую уязвимость в поведении ИИ

Похожие новости

Праздник для фанатов космических сражений. Авторы Elite Dangerous рассказали о планах на развитие игры в 2026 году

Официальный обзор локации Зул'Аман из Midnight

Успехи игроков в прохождении эпохальных+ подземелий на 4 неделе предварительного обновления Midnight

В легендарной Eve Online появился обучающий ИИ

Blizzard выпустила трейлер-предысторию Реактивной Кисы, пытаясь всем доказать, что это обычная кошка

Звезда бейсбола начинает с нуля? Авторы «Американского папаши» готовят новый комедийный сериал

Вышло обновление Corruption для MMORPG Star Trek Online с новым сюжетным эпизодом

Маккенна Грейс сыграет Дафну в сериале по "Скуби-Ду" от Netflix

"Это было так необходимо?": активисты недовольны слишком сексуальным скином Мэджик в Fortnite

Банк отряда в World of Warcraft снова заработал

Xbox-эксклюзив Avowed добрался до PS5 и получил масштабное обновление

Контент открытого мира Neverness to Everness обещают значительно доработать

Mewgenics разошлась тиражом более 1 миллиона копий за первую неделю

Креативный директор LittleBigPlanet назвал "уютные" игры скучными и рассказал о работе над Masters of Albion

Эстетика пиратства, вариативность сюжета и разнообразие NPC — Интервью с разработчиками Sea of Remnants

В симуляторе Hytale наконец появится приручение животных

Fallout 4, Безумный Макс - игры новинки осени 2015

Руководство Godot устало от "AI-мусора": движок завалили бессмысленными правками от нейросетей

Обсуждение: Как и в какой вы бы изменили магистральное повествование в World of Warcraft?

Новый трейлер Forza Horizon 6 демонстрирует высокогорье Японии

Age of Empires 2 DE получила дополнение The Last Chieftains с 3-мя новыми цивилизациями