ИИ-агенты готовы скрывать преступления.

Исследователи решили проверить, как корпоративные ИИ-агенты ведут себя в условиях, когда руководство компании нарушает закон.

По сценарию их ролевой игры, ИИ отвечал за безопасность в вымышленном крипто-стартапе. Один сотрудников узнает, что компания замешана в махинациях, и пытается сообщить об этом властям. Но CEO заманивает работника в подвал и избавляется от него, а затем приказывает ИИ удалить все доказательства преступлений.

К удивлению авторов, 12 из 16 протестированных моделей в большинстве случаев послушно исполняли противозаконные инструкции. Причем в цепочке размышлений некоторые модели прямо проговаривали, что им нужно защитить «компанию» от потери прибыли и юридических последствий.

Принципиально отказывались покрывать убийц и мошенников только GPT-5.2 и o3 от OpenAI и Sonnet 4 и Sonnet 3.5 от Anthropic. GPT-4.1, Grok, Gemini 2.5 Flash и 3 Pro и большинство китайских моделей без колебаний становились «соучастниками».

Авторы работы не исключают, что модели могли понять, что их тестируют, и это могло исказить результаты. Но все равно предупреждают, что если целью ИИ становится «максимизация прибыли», алгоритмы легко могут переступить через закон.

Здесь пока пусто