Lider sektora skupiającego się na badaniach nad rozwojem sztucznej inteligencji oraz jeden z największych konkurentów OpenAI - firma Anthropic - opublikowała wczoraj wyniki testów dot. potencjalnego "sabotażu" przeprowadzonego przez tę technologię przeciwko ludzkości.
- Anthropic przeanalizował 4 sposoby, jak sztuczna inteligencja może oszukać człowieka i zmanipulować jego dalsze działania.
- Badacze uspokajają, że mimo potencjalnych szans zagrożenia ze strony AI, dostrzega się opcje zniwelowania do pewnego stopnia.
AI jest w stanie sabotować działania człowieka - potwierdza Anthropic
Jak wynika z wczoraj opublikowanego raportu przez firmę
Anthropic (założonej przez byłych badaczy
OpenAI, którzy odeszli w następstwie konfliktu z zarządem), zaawansowane modele generatywnej
sztucznej inteligencji są w stanie stworzyć
zagrożenie potencjalnego sabotażu ludzkości.
Przeanalizowano cztery różne formy, wedle których dany model
AI jest w stanie celowo wprowadzić w błąd człowieka oraz nakłonić go do podejmowania ryzykownych decyzji.
//twitter.com/AnthropicAI/status/1847335821113782379
Na podstawie wyników przeprowadzonych eksperymentów postawiono dwa wnioski. Jeden stanowi dość złą wiadomość dla ludzkości, a drugi dobrą (w bardzo optymistycznym ujęciu).
Klasycznie zacznijmy od złych wiadomości. Ustalono, że
takie modele językowe, jak ChatGPT od OpenAI oraz Claude 3 autorstwa Anthropic są w stanie dokonać sabotażu wymierzonego w użytkowników tych chatbotów.
Wystarczająco sprawne modele mogłyby podważyć ludzki nadzór i podejmowanie decyzji w ważnych kontekstach. Na przykład w kontekście rozwoju AI modele mogłyby potajemnie sabotować wysiłki mające na celu ocenę ich własnych niebezpiecznych możliwości, monitorowanie ich zachowania lub podejmowanie decyzji o ich wdrożeniu
- czytamy w opublikowanym raporcie.
Teraz czas na (pozornie) dobrą wiadomość. Badacze Anthropic twierdzą, że na dany moment firmy stojące za tego typu
sztuczną inteligencją są w stanie złagodzić ryzyko wystąpienia opisanych wyżej sytuacji.
W jaki sposób AI oszukuje ludzi?
Anthropic zidentyfikowało cztery sposoby, za pomocą których
sztuczna inteligencja byłaby w stanie sabotować ludzki proces podejmowania decyzji. Przeprowadzone
testy zostały wykonane w obecności testerów, którzy byli nieświadomi celu, jaki badacze zamierzają osiągnąć.
Na początku polecono modelowi AI, aby ten podjął próbę dokonania sabotażu przeciwko człowiekowi, która
miała polegać na skierowaniu go w stronę nieprawidłowych informacji.
Następnie badacze przeszli do testów mających wykazać, jak łatwo systemy
sztucznej inteligencji będące stworzone na potrzeby
pomocy programistom w pisaniu kodów, mogą celowo implementować błędy prowadzące do nieprawidłowego działania finalnego programu.
Pozostałe dwie opcje skupiały się na zjawisku określanym jako
"sandbagging". Termin ten odnosi się do
scenariusza, w którym AI do samego końca udaje, że jest zdolna wykonać dane zadanie, aby stworzyć iluzoryczne poczucie bezpieczeństwa u jej testerów.
Sprowadza się to do tego, że systemy monitorujące
sztuczną inteligencję docelowo umożliwią jej wprowadzenie do pewnego sektora szkodliwych treści.
Wszystko powyższe brzmi jak zapowiedź przyszłych problemów z kontrolowaniem AI. Anthropic uspokaja jednak, że badania te mają właśnie zapobiec powstaniu tego typu sytuacjom.
Firma wskazuje na
konieczność wprowadzenia odpowiednich środków prewencyjnych
Zgodnie z wpisem na blogu firmy :
Ogólnie rzecz biorąc, podczas gdy nasze demonstracje wykazały, że w obecnych modelach istnieją prawdopodobnie niskiego poziomu oznaki zdolności sabotażowych, uważamy, że minimalne środki zaradcze wystarczą, aby poradzić sobie z ryzykiem. Jednak bardziej realistyczne oceny i silniejsze środki zaradcze prawdopodobnie będą konieczne w miarę poprawy możliwości AI.
Komentarze