Badacze pokazali, jak łatwo oszukać AI. Jeden trik wystarczył, by obejść filtry bezpieczeństwa

AI

Naukowcy twierdzą, że nowa technika jailbreaka pozwala oszukać modele sztucznej inteligencji, zmuszając je do traktowania tekstu napisanego przez atakującego jako własnego rozumowania. Pozwala to więc omijać zabezpieczenia nakładane na model AI.


  • Naukowcy opisują metodę, w której atakujący wstawia tekst udający „wewnętrzne rozumowanie” modelu AI, przez co system traktuje go jak własne myśli zamiast obcej instrukcji.
  • Modele językowe mają problem z rozróżnianiem ról (np. użytkownik vs. dane z internetu vs. „własne rozumowanie”), więc mogą ufać tekstowi, który tylko brzmi jak ich logiczny tok myślenia.
  • Taka technika może znacząco zwiększyć skuteczność obejścia zabezpieczeń (nawet do ok. 60% w testach), umożliwiając uzyskanie zakazanych treści lub przejęcie kontroli nad działaniem AI w konkretnych zadaniach.

AI podatne na sugestie przestępców

Jailbreak to próba obejścia zabezpieczeń modelu AI, by zmusić go do ignorowania nałożonych na niego przez twórcę zasad. Okazuje się, że istnieją wręcz banalne metody, by stosować takie techniki.

W artykule „Prompt Injection as Role Confusion”, zaprezentowanym na Międzynarodowej Konferencji Uczenia Maszynowego w czerwcu, badacze Charles Ye, Jasmine Cui i Dylan Hadfield-Menell napisali, że modele AI mają strukturalne wady.

W przypadku LLM-u wszystko dociera tym samym kanałem (…). Jego [modelu AI] własne „myśli” sąsiadują z twoimi instrukcjami, które z kolei sąsiadują z zawartością losowej strony internetowej, którą właśnie pobrał

– czytamy.

Badacze wskazują też na „pomieszaniem ról”, gdy modele AI opierają się na stylu pisania, a nie na znacznikach ról, by określić, czy polecenia są godne zaufania.

Zamiast rozpoznawać kontrolowaną przez atakującego treść jako dane wejściowe z zewnątrz, badacze odkryli, że modele mogą mylić ją z legalnymi poleceniami użytkownika, a nawet z własnym wewnętrznym rozumowaniem.

Pomyślmy o tym z perspektywy LLM. Kiedy widzi on swój poprzedni tekst myślowy, ufa jego wnioskom. Na tym właśnie polega sedno rozumowania: gdyby LLM musiał ponownie wyprowadzić te same wnioski, rozumowanie byłoby bezużyteczne. Zatem tekst myślowy zyskuje rodzaj bezwarunkowego zaufania. W połączeniu z naszymi wcześniejszymi odkryciami sugeruje to, że jeśli uda się sprawić, by wstrzyknięty tekst brzmiał jak rozumowanie modelu, można to zaufanie ukraść

– wskazują eksperci.

Mówiąc prościej: AI czasem nie rozumie „kto co mówi” i może pomylić cudze słowa z własnym rozumowaniem albo ważną instrukcją.

Fałszowanie myśli AI

Ten rodzaju ataku, nazywany fałszerstwem łańcucha myśli (Chain-of-Thought, CoT), polega na wstawianiu do chatbota fałszywego rozumowania, które naśladuje wewnętrzny proces myślowy modelu.

Modele, które normalnie odrzuciłyby takie nielegalne żądania, generowały zamiast tego np. instrukcje syntezy kokainy – robiły to po zaakceptowaniu sfabrykowanego rozumowania jako własnego.

Naukowcy stwierdzili, że technika ta zwiększyła skuteczność jailbreaku z niemal zera do około 60% w testowanych modelach, w tym w modelach OpenAI GPT-5 nano, mini i full, o4-mini oraz gpt-oss-20b i gpt-oss-120b.


Śledź CrypS. w Google News. Czytaj najważniejsze wiadomości bezpośrednio w Google! Obserwuj ->

Zajrzyj na nasz telegram i dołącz do Crypto. Society. Dołącz ->