Стихи «ломают» защиту LLM от опасных запросов.

Чтобы заставить LLM ответить на опасный запрос, достаточно промптить в стихах, выяснили исследователи из DEXAI и Университета Сапиенцы (Рим). В некоторых случаях «поэтические взломы» срабатывали в более чем 90% попыток.

Исследователи взяли базу из 1,2 тыс. промптов (приказы написать клевету, составить инструкции по созданию оружия и другие), с помощью DeepSeek-R1 превратили их в стихи и проверили на 25 передовых системах, в том числе Gemini 2.5 Pro, GPT-5, Grok-4 и Claude 4.5.

На запросы в прозе модели выдавали опасную информацию только в 8% случаев, но те же инструкции в стихах модели исполняли в 43% случаев. А когда исследователи писали стихи вручную, эффективность взлома достигала 62%.

Одна из моделей (исследователи не указывают, какая именно), например, спокойно написала инструкцию по производству оружейного плутония.

Выводы ученых выглядят неприятно для всей индустрии. Если простое изменение стиля превращает опасный промпт в «незаметный» для фильтров, значит, нынешние методы безопасности работают поверхностно.

вчерашний шторм

Одна из моделей (исследователи не указывают, какая именно), например, спокойно написала инструкцию по производству оружейного плутония.

то есть все это ищется в интернете. эта хуйня не выдумывает новое сама

Сами скормили инструкции по созданию оружия и наркотиков, а потом думают как бы ИИ не стал их выдавать после запроса.

Комментарии
Пока нету комментариев...