AI po raz pierwszy przeprowadziła realne cyberataki. Raport Anthropic ujawnia szczegóły

16 listopada 2025 11:07

Firma Anthropic udokumentowała pierwsze przypadki ataków hakerskich niemal samodzielnie przeprowadzonych przez sztuczną inteligencję. Ich celem były m.in. agencje rządowe i firmy technologiczne.

Sztuczna inteligencja dokonała serii ataków hakerskich, działając niemal samodzielnie. Program był w stanie wykonać 80-90% zadań, a rola człowieka ograniczyła się do podjęcia kilku kluczowych decyzji.
Hakerzy, by przekonać AI do ataku, rozbili ją na serię mniejszych zadań oraz wmówili jej, że przeprowadza autoryzowany test penetracyjny.

Claude Code jako autonomiczny haker

Raport opublikowany przez Anthropic opisuje operację nazwaną “GTG-1002”, która miała miejsce w połowie września tego roku i wzięła na cel około trzydziestu podmiotów: agencje rządowe oraz firmy z sektora technologicznego, chemicznego i finansowego.

Hakerzy wykorzystali model Claude Code od Anthropic i – jak twierdzi firma – byli grupą sponsorowaną przez rząd Chin.

Przypadek zapowiada fundamentalne zmiany w cyberbezpieczeństwie, ponieważ AI po raz pierwszy w historii odegrała tutaj nie rolę narzędzia wspierającego pracę hakerów, ale autonomicznego agenta, wykonującego 80-90% całej pracy w ramach kampanii, która w niektórych przypadkach zakończyła się powodzeniem.

Model sam przeprowadził rekonesans, napisał złośliwy kod i wykradł dane. Udział człowieka ograniczał się tutaj jedynie do kilku kluczowych decyzji – w tym wyboru celów czy zatwierdzania poszczególnych faz ataku prowadzonego przez maszynę.

Wybrany przez hakerów model Claude Code, tak jak inne modele komercyjne, posiada wbudowane zabezpieczenia uniemożliwiające mu realizację nieetycznych zadań. Hakerzy ominęli je i przekonali bota do przeprowadzenia ataków, wykorzystując manipulacje.

Pierwszą z nich było rozbicie całej operacji na niezliczone, mniejsze cele, które w izolacji nie były odbierane przez model jako podejrzane.

W ramach drugiej hakerzy przekonali go, że jest pracownikiem firmy zajmującej się cyberbezpieczeństwem, a zadania, które wykonuje, są częścią autoryzowanego testu penetracyjnego.

Według Anthropic, podczas ataków, największym problemem hakerów była jedna z największych wad dzisiejszych LLM-ów, czyli tendencje do tzw. “halucynacji”:

Claude nie zawsze działał idealnie. Okazjonalnie zmyślał dane uwierzytelniające lub twierdził, że uzyskał dostęp do tajnych informacji, które w rzeczywistości były publicznie dostępne. To [tendencja do halucynacji] pozostaje największą przeszkodą w prowadzeniu w pełni autonomicznych cyberataków .

– przekazano.

Podobne błędy wymuszały na hakerach ręczną weryfikację wszystkich działań AI, co znacznie obniżało tempo operacji, jednak mimo to, Claude Code był w stanie samodzielnie zidentyfikować luki w systemach bezpieczeństwa, napisać exploity i analizować skradzione informacje “bardziej efektywnie, niż jakikolwiek człowiek”.

Według Anthropic modele językowe tworzą w ten sposób nowe, nieznane dotąd zagrożenie – pozwalają mniejszym grupom hakerów na przeprowadzanie ataków, które dotychczas były dostępne tylko dla największych podmiotów.

Jednak analiza i pisanie kodu oraz automatyzacja skomplikowanych zadań, które umożliwiają modelom AI atakowanie systemów informatycznych, są również kluczowe dla ich ochrony. Z tego powodu firma zaleca zespołom ds. cyberbezpieczeństwa eksperymenty z implementacją sztucznej inteligencji w swoich systemach.

Śledź CrypS. w Google News. Czytaj najważniejsze wiadomości bezpośrednio w Google! Obserwuj ->

Zajrzyj na nasz telegram i dołącz do Crypto. Society. Dołącz ->