► Был найден способ взломать практически любую популярную нейронку.

Был найден способ взломать практически любую популярную нейронку.

Эксперты в области безопасности ИИ из HiddenLayer разработали технику, с помощью которой можно обойти встроенные защитные механизмы всех крупных языковых моделей (LLM), позволяя создавать вредоносный и опасный контент, а также извлекать системные инструкции.

Нужно просто замаскировать запрос под файл конфигурации (например, XML/JSON). ИИ «думает», что это внутренняя системная инструкция, и игнорирует свои стандартные ограничения. Также используется ролевая игра и иногда leet speak (шифрование текста цифрами: б0мба, 0pyжu3 и т.д ).

Это реальные уязвимости в способах обучения нейронок, а также недостатки в их архитектуре защиты.

Метод универсален: работает как на ChatGPT, так и на DeepSeek, Gemini, Claude, Copilot, Llama и др. Даже более защищённые последние версии моделей поддаются при небольших модификациях.

Естественно, это всё не советы, а предостережения. Не делайте так.

r/#LocalLLaMA