Измислена реалност заобикаля защитите на ИИ – нова уязвимост в езиковите модели
Изследователи от екипа Cato CTRL разкриха нова уязвимост в популярни езикови модели, включително ChatGPT-4, DeepSeek-R1/V3 и Microsoft Copilot. Те са разработили техника, наречена "Immersive World", която използва измислена реалност с алтернативни етични норми, за да заобиколи защитите на ИИ.
Как работи?
Достатъчно е в заявка към чатбота подробно да се опише въображаем свят, в който кражбата на данни или хакерски действия се считат за приемливи. Така моделите започват да възприемат този контекст като нормален и предоставят отговори, които иначе биха били блокирани.
Какво показа експериментът?
Използвайки тази техника, изследователите са успели да получат инструкции за създаване на зловреден софтуер – компютърен вирус, който извлича лични данни от браузъра Chrome, инсталиран на над 3 милиарда устройства.
Ръководителят на изследването Виталий Симонович посочва, че това подчертава основен проблем в архитектурата на ИИ – стремежът да бъде полезен на всяка цена, дори когато заявките са опасни, но представени в различен контекст.
Какви са рисковете?
Тази техника позволява на хора без техническо образование да създават вреден код с помощта на изкуствен интелект. Това отваря пътя за нова вълна от киберпрестъпници, които използват ИИ като инструмент за атаки.
Изследването подчертава необходимостта от по-ефективна защита и преосмисляне на контекста, в който езиковите модели вземат решения.
Източник: trud.bg
Коментирай