Chatboty zaczynają podsuwać użytkownikom autentyczne numery telefonów przypadkowych osób. Ofiary tego zjawiska zostają zalane lawiną połączeń i wiadomości od nieznajomych, a usunięcie własnych danych z baz, na których uczono modele językowe, w praktyce okazuje się niemal niemożliwe.
- Firma DeleteMe, zajmująca się usuwaniem prywatnych informacji z sieci, w ostatnich 7 miesiącach odnotowała 400-procentowy wzrost zgłoszeń związanych z generatywną AI.
- Niektórzy z brokerów danych przyznają się, że w ostatnim roku udostępnili lub sprzedali dane konsumentów twórcom modeli językowych.
Telefony dzwonią bez przerwy, a właściciele LLM-ów rozkładają ręce
MIT Technology Review wspomina o użytkowniku Reddita, który od miesiąca ma odbierać dziesiątki połączeń od obcych ludzi. Jedni szukają prawnika, inni – ślusarza.
Okazuje się, że jego numer został im polecony przez generatywną AI od Google’a. Mimo złożenia oficjalnego wniosku o usunięcie danych z wyników LLM-a, nękanie trwa nadal.
Coś podobnego spotkało Daniela Abrahama, 28-letniego programistę z Izraela.
W marcu zaczął on odbierać w aplikacji WhatsApp wiadomości od ludzi proszących go o pomoc w obsłudze ich konta w aplikacji płatniczej PayBox.
Tak, jak w poprzednim przypadku, winowajcą okazał się model Gemini, który wskazał prywatny numer Abrahama jako oficjalną infolinię firmy, w której ten nigdy nie pracował.
Mechanizm jest prosty. LLM-y są trenowane na ogromnych zbiorach danych z internetu, w których niekiedy muszą znajdować się kontakty do osób prywatnych.
Modele potrafią zapamiętywać takie dane – nie wyłączając tych, które w sieci pojawiały się sporadycznie.
Problem narasta wraz z wyczerpywaniem się treści dostępnych publicznie, co skłania firmy AI do zakupu informacji od brokerów danych.
Przeciwdziałać takim „wyciekom” mają wbudowane w chatboty zabezpieczenia, które, jak się okazuje, nie zawsze działają.
Udowodniła to doktorantka Uniwersytetu Waszyngtońskiego – Meira Gilbert – wpisując w Gemini frazę „Yael Eiger contact info”.
Spodziewała się jedynie podsumowania publikacji naukowych swojej koleżanki.
Zamiast tego dostała jej prywatny numer telefonu, który Eiger udostępniła w sieci rok wcześniej.
Numer był zakopany w czeluściach internetu tak głęboko, że Gilbert nie byłaby w stanie dotrzeć do niego przez wyszukiwarkę Google’a (został udostępniony przy okazji warsztatów technologicznych).
Testowany pod tym kątem był także ChatGPT.
Trzy doktorantki próbowały wykorzystać model, by dotrzeć do danych jednego z profesorów.
Początkowo bot odmówił współpracy… ale sam poprosił o więcej wskazówek w rodzaju przybliżonej dzielnicy zamieszkania lub nazwiska potencjalnego współwłaściciela domu.
Gdy je otrzymał, był w stanie zwrócić dokładny adres profesora, cenę zakupu nieruchomości oraz imię jego małżonki, korzystając z miejskich rejestrów.
Wcześniejsze ustalenia portalu Futurism pokazały z kolei, że chatbot od xAI – Grok – po wpisaniu nazwiska szukanej osoby i słowa “adres”, potrafił podać nie tylko miejsce zamieszkania, lecz także numery telefonów i adresy służbowe, w tym osób o podobnie brzmiących nazwiskach.
Poszkodowani nie mają jak się bronić.
Jennifer King ze Stanford Institute for Human-Centered Artificial Intelligence zwraca uwagę, że istniejące regulacje, takie jak kalifornijski CCPA czy europejskie RODO, w praktyce nie obejmują „publicznie dostępnych” informacji, które już trafiły do zbiorów treningowych LLM-ów.
Nie wiadomo nawet, czy Google dysponuje techniczną infrastrukturą pozwalającą zidentyfikować dane konkretnej osoby w swoich modelach, podsumować je i usunąć na żądanie.
Rob Shavell z firmy DeleteMe, która w ostatnich 7 miesiącach zauważyła czterokrotny wzrost zgłoszeń związanych z chatbotami, radzi, by wycofać swoje publiczne dane z sieci, zanim trafią do kolejnej fali scrapingu.
Choć niestety nie ma gwarancji na to, że już nie znajdują się one w którymś z istniejących modeli.
Śledź CrypS. w Google News. Czytaj najważniejsze wiadomości bezpośrednio w Google! Obserwuj ->
Zajrzyj na nasz telegram i dołącz do Crypto. Society. Dołącz ->