Claude Fable 5 jednak nie zgłupiał? Benchmarki pokazują zaskakujący trop

Czy model Claude Fable 5 stał się głupszy? Eksperci przeprowadzili testy, które sugerują, że tak może być. Sprawa budzi jednak kontrowersje.


  • Pojawiły się zarzuty, że Claude Fable 5 działa gorzej niż wcześniej, szczególnie w zadaniach technicznych, takich jak debugowanie kodu, refaktoryzacja i odporność na tzw. halucynacje AI.
  • Dane z benchmarków są jednak niejednoznaczne, ponieważ część zadań nie była faktycznie wykonywana przez model Fable 5.
  • System bezpieczeństwa przekierowywał je do innej wersji AI, a to mogło sztucznie zaniżyć jego wyniki i zaburzyć testy.
  • Inne niezależne badania sugerują, że model nadal działa na podobnym poziomie, zwłaszcza w zadaniach kreatywnych i analitycznych.

Claude Fable 5 wrócił do żywych, ale głupszy?

Model Claude Fable 5 od 1 lipca jest ponownie dostępny.

Problem w tym, że wiele wskazuje na to, że zmniejszono jego możliwości. A przynajmniej tak uważają użytkownicy i niektórzy badacze. O co dokładnie chodzi?

BridgeMind – platforma, która sprawdza możliwości sztucznej inteligencji – ocenia jej działania w takich kategoriach jak: debugowanie, refaktoryzacja (proces uporządkowywania kodu) i odporność na halucynacje.

Możliwości dot. debugowania Fable spadły z 86,2 do 25,9, refaktoryzacja z 73,6 do 38,4, a odporność na halucynacje z 75,9 do 61,7.

Diabeł tkwi jednak w szczegółach, a dokładniej: metodologii.

Spośród 12 zadań dot. debugowania TypeScript, tylko trzy faktycznie dotarły do ​​Fable 5.

Pozostałe dziewięć zostało przechwyconych przez nowy klasyfikator bezpieczeństwa Anthropic i przekierowanych do Claude Opus 4.8.

Klasyfikator, wdrożony jako warunek przywrócenia Fable, został wytrenowany do blokowania jailbreak zgłoszonej przez Amazon — techniki, która pozwoliła Fable 5 zidentyfikować i zademonstrować luki w zabezpieczeniach oprogramowania.

I to działa. Tyle że wykrywa wiele rzeczy, których nie powinno. I w efekcie może zakłócać próbę rzetelnej oceny działania modelu AI.

Arena.AI, platforma benchmarkingowa i porównawcza LLM, przeanalizowała te same kwestie, ale w innej perspektywy.

Sprawdza, który model AI jest lepszy, prosząc po prostu ludzi o porównania. Jak to działa?

Użytkownicy nie wiedzą, które modele oceniają (są to tzw. ślepe testy), dostają tylko dwie odpowiedzi i wybierają, która jest lepsza.

Każdy model dostaje punkty i wygrywa ten, który ma ich więcej. Chodzi więc o ranking AI oparty na głosach użytkowników.

I takie badanie wykazało, że Fable 5 utrzymało swoją pozycję.

Zwykli użytkownicy, którzy zajmują się pisaniem kreatywnym, analizą dokumentów, badaniami i zapytaniami tekstowymi na poziomie eksperckim, prawdopodobnie zauważą niewielką lub żadną różnicę. Dziennikarze, pisarze, badacze i analitycy otrzymają więc Fable 5, jakiego oczekiwali.

Rząd chce głupszego AI?

Teorie spiskowe dot. głupszego Fable  5 mogą mieć jednak korzenie w kompromisie, jaki twórcy modelu zawarli z rządem.

Ten ostatni pozwolił firmie Anthropic udostępnić model Mythos 5, ale tylko ograniczonej grupie ok. 100 firm i agencji federalnych.

Decyzja ta wynika z obaw o bezpieczeństwo.

Widzimy więc pewien trend: najnowsze modele AI trafiają w pierwszej kolejności do wybranych, zaufanych partnerów, zamiast być od razu dostępne publicznie.

Jak na razie nie ma jednak w pełni wiarygodnego potwierdzenia, że Anthropic wydało na rynek „głupszy” Fable 5.


Śledź CrypS. w Google News. Czytaj najważniejsze wiadomości bezpośrednio w Google! Obserwuj ->

Zajrzyj na nasz telegram i dołącz do Crypto. Society. Dołącz ->