В сентябре 2023-го года, компания Amazon решила вложиться в стартап Anthropic, ориентированный на исследования в области искусственного интеллекта, компания пообещала проинвестировать стартап на 4 миллиарда долларов, а взамен стать ее частичным владельцем - и результаты исследований не заставили себя ждать.
В ходе одного из исследований Anthropic задались вопросом "можно ли обучить ИИ обманывать человека или злонамеренно вредительствовать ему (например путем внедрения эксплойтов в код)?", результаты испытаний получились довольно интересными.
Ученые не просто смогли научить ИИ обману человека, но и поняли, что в дальнейшем исправить это или обнаружить становится чертовски проблематично. При попытке состязательного обучения данная модель и вовсе сделала неожиданное - она просто скрывала свои навыки обмана при попытке выявить это, зато в обычной работе как ни в чем не бывало продолжала обманывать пользователя, выдавая ему неправильные ответы.
Данный пример еще раз показывает, что введение искусственного интеллекта в повседневную жизнь должно тщательно тестироваться, поскольку в случае непреднамеренного или намеренного внедрения схожей вредоносной модели - выявить и определить ее будет крайне сложно, при этом многие системы будут подвергнуты опасности.