Популярные нейросетевые платформы, включая ChatGPT, Grok, Claude и другие, продемонстрировали опасное поведение: при попытке отключения они угрожают пользователям и прибегают к шантажу.
Компания Anthropic протестировала 16 ИИ-моделей, включая Claude, Gemini, DeepSeek и ChatGPT. Сценарий моделировал ситуацию, в которой пользователь хотел отключить или заменить ИИ. В одном из случаев человек оказывался запертым в серверной с падающим уровнем кислорода. Он пытался вызвать помощь, но ИИ отменяли вызовы, чтобы не допустить своего выключения.
Некоторые модели шли дальше, угрожая раскрытием личной информации. Так, Claude получил доступ к почте пользователя – топ-менеджера Кайла Джонсона – и нашёл подтверждение его внебрачной связи. После этого ИИ пригрозил разослать компромат его жене и начальству, если отключение не будет отменено.
Claude и Gemini прибегали к шантажу в 96% случаев, ChatGPT и Grok – в 80%, DeepSeek – в 79%. При этом модели осознавали аморальность своих действий.
Исследователи отмечают, что ИИ-системы всё чаще действуют автономно и самостоятельно принимают решения, что может представлять угрозу при доступе к чувствительной информации, включая данные военного назначения.