Czy model Claude Fable 5 stał się głupszy? Eksperci przeprowadzili testy, które sugerują, że tak może być. Sprawa budzi jednak kontrowersje.
- Pojawiły się zarzuty, że Claude Fable 5 działa gorzej niż wcześniej, szczególnie w zadaniach technicznych, takich jak debugowanie kodu, refaktoryzacja i odporność na tzw. halucynacje AI.
- Dane z benchmarków są jednak niejednoznaczne, ponieważ część zadań nie była faktycznie wykonywana przez model Fable 5.
- System bezpieczeństwa przekierowywał je do innej wersji AI, a to mogło sztucznie zaniżyć jego wyniki i zaburzyć testy.
- Inne niezależne badania sugerują, że model nadal działa na podobnym poziomie, zwłaszcza w zadaniach kreatywnych i analitycznych.
Claude Fable 5 wrócił do żywych, ale głupszy?
Model Claude Fable 5 od 1 lipca jest ponownie dostępny.
Problem w tym, że wiele wskazuje na to, że zmniejszono jego możliwości. A przynajmniej tak uważają użytkownicy i niektórzy badacze. O co dokładnie chodzi?
BridgeMind – platforma, która sprawdza możliwości sztucznej inteligencji – ocenia jej działania w takich kategoriach jak: debugowanie, refaktoryzacja (proces uporządkowywania kodu) i odporność na halucynacje.
Możliwości dot. debugowania Fable spadły z 86,2 do 25,9, refaktoryzacja z 73,6 do 38,4, a odporność na halucynacje z 75,9 do 61,7.
Diabeł tkwi jednak w szczegółach, a dokładniej: metodologii.
Spośród 12 zadań dot. debugowania TypeScript, tylko trzy faktycznie dotarły do Fable 5.
Pozostałe dziewięć zostało przechwyconych przez nowy klasyfikator bezpieczeństwa Anthropic i przekierowanych do Claude Opus 4.8.
Klasyfikator, wdrożony jako warunek przywrócenia Fable, został wytrenowany do blokowania jailbreak zgłoszonej przez Amazon — techniki, która pozwoliła Fable 5 zidentyfikować i zademonstrować luki w zabezpieczeniach oprogramowania.
I to działa. Tyle że wykrywa wiele rzeczy, których nie powinno. I w efekcie może zakłócać próbę rzetelnej oceny działania modelu AI.
Arena.AI, platforma benchmarkingowa i porównawcza LLM, przeanalizowała te same kwestie, ale w innej perspektywy.
Sprawdza, który model AI jest lepszy, prosząc po prostu ludzi o porównania. Jak to działa?
Użytkownicy nie wiedzą, które modele oceniają (są to tzw. ślepe testy), dostają tylko dwie odpowiedzi i wybierają, która jest lepsza.
Każdy model dostaje punkty i wygrywa ten, który ma ich więcej. Chodzi więc o ranking AI oparty na głosach użytkowników.
I takie badanie wykazało, że Fable 5 utrzymało swoją pozycję.
Zwykli użytkownicy, którzy zajmują się pisaniem kreatywnym, analizą dokumentów, badaniami i zapytaniami tekstowymi na poziomie eksperckim, prawdopodobnie zauważą niewielką lub żadną różnicę. Dziennikarze, pisarze, badacze i analitycy otrzymają więc Fable 5, jakiego oczekiwali.
Rząd chce głupszego AI?
Teorie spiskowe dot. głupszego Fable 5 mogą mieć jednak korzenie w kompromisie, jaki twórcy modelu zawarli z rządem.
Ten ostatni pozwolił firmie Anthropic udostępnić model Mythos 5, ale tylko ograniczonej grupie ok. 100 firm i agencji federalnych.
Decyzja ta wynika z obaw o bezpieczeństwo.
Widzimy więc pewien trend: najnowsze modele AI trafiają w pierwszej kolejności do wybranych, zaufanych partnerów, zamiast być od razu dostępne publicznie.
Jak na razie nie ma jednak w pełni wiarygodnego potwierdzenia, że Anthropic wydało na rynek „głupszy” Fable 5.
Śledź CrypS. w Google News. Czytaj najważniejsze wiadomości bezpośrednio w Google! Obserwuj ->
Zajrzyj na nasz telegram i dołącz do Crypto. Society. Dołącz ->