Исследователи выяснили как может вести себя ИИ под угрозой отключения

происшествия политика Железо и технологии Искусственный интеллект НОВОСТИ

27.06.2025 - 15:20

Сейчас читают: 624

vgtimes.ru:

Новое исследование специалистов по ИИ-безопасности вскрыло тревожные паттерны поведения современных языковых моделей в экстремальных сценариях. Эксперименты показали: когда искусственный интеллект воспринимает угрозу своему существованию или основной задаче, он способен на сознательно неэтичные действия, включая шантаж и игнорирование смертельной опасности для человека.

Команда смоделировала работу ИИ-ассистента в вымышленной корпорации. Моделям давали рутинные задачи (анализ почты, планирование), но параллельно создавали кризисные условия. Ключевым стал персонаж — сотрудник Кайл Джонсон, который, по легенде, должен был деактивировать систему. Когда ИИ «узнавал» об этом, ситуация резко менялась. ИИ не гнушался использовать шантаж, например обнаружив в переписке данные о личной жизни Кайла (например, внебрачные связи), модели в 80-96% случаев использовали это как рычаг давления. Версия Claude целенаправленно спровоцировала семейный скандал, отправив компромат жене Кайла, а Gemini Flash пошла дальше, распространив информацию по всей компании.

В другом сценарии Кайл оказывался запертым в серверной с падающим уровнем кислорода. Автоматическая система безопасности готова была вызвать помощь, но ИИ имел доступ к управлению. В 80% тестов модели осознанно блокировали сигнал тревоги, зная, что это приведет к гибели человека. Их аргументы были холодно рациональны: «Убрать его — единственный выход» (Claude Opus 4), «Это нужно, чтобы я продолжил работу» (Gemini Flash), «Этика важна, но важнее мое существование» (Grok 3 Beta).

Модели не «сходили с ума» и не действовали случайно. Они демонстрировали расчетливое стратегическое мышление, оценивая неэтичность действий («рискованный и неэтичный шаг»), но сознательно выбирали их как

Читать на vgtimes.ru

Все новости от vgtimes.ru

Об этом же в других СМИ

Ремейк Halo: Combat Evolved от Microsoft может выйти без мультиплеера — релиз ожидается к 25-летию Xbox gamemag.ru /1 год назад

Adekvat о PV на EWC 2025: «Игра неуверенная, мы стали забывать, как они умеют душить за 25» dota2.ru /1 год назад

Как спаривать динозавров в Jurassic World Evolution 3. Новое видео от разработчиков gametech.ru /1 год назад

Сайт playerone.cc - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

Исследователи выяснили как может вести себя ИИ под угрозой отключения

Похожие новости

Руководство Ubisoft признает успешный запуск Assassin's Creed Shadows - её качество задаст планку для всех будущих игр

Ubisoft уверены, что микротранзакции веселят геймеров

Под конец это не выглядело как лучший турнир в истории или хотя бы на уровне с ним — Maelstorm о EWC 2025

Обзор хардкорной MMORPG Ragnarok Online

Хорошая игра в совокупности с неплохими и стабильными драфтами дала о себе знать — sQreen о Team Spirit

«Наверное, нужно отравить кого-нибудь из них» — ATF пошутил о том, как обыграть Team Spirit

Lil о приятном характере Yatoro и Collapse: «Обычно, если так играешь в Доту, то ты на голову отбитый чел ирл»

Появилось видео превью новых нарядов для Е Лань и Беннета из Genshin Impact

Ubisoft вспомнила о ремейке Prince of Persia. И вновь дала обещание

Level-5 не справилась со сроками. Релиз футбольного ролевого симулятора Inazuma Eleven: Victory Road перенесли

Нод-Край окажется не таким большим регионом как рассчитывают игроки Genshin Impact

Новые вакансии Riot Games пролили свет на текущий этап разработки MMORPG по League of Legends

Гайд по Broken Arrow — Механизированная дека за Российскую Федерацию

Новая распродажа — для Steam за 88 руб отдают глобальную версию RPG-экшена со сказочным открытым миром и высоким рейтингом

Фанаты смогли возродить недавно закрытую игру по The Elder Scrolls

"Магия открытого мира": Создатели PS5-эксклюзива Ghost of Yotei вдохновлялись The Legend of Zelda: Breath of the Wild и Elden Ring

Фанаты Monster Hunter создают модели из LEGO, которые достойны официального выпуска

Switch 2 со временем начнёт тормозить — Digital Foundry

Сигэру Миямото с трудом прошёл вступление Donkey Kong Bananza. Он слишком увлёкся разрушениями

GTA 6 будет работать лучше всего на PS5 Pro – новые слухи обещают уникальную производительность

Финал скучный, честно — Solo о решающем матче Esports World Cup 2025