Branża AI od lat chwali się wynikami w benchmarkach, które testują, ile zadań matematycznych rozwiąże dany model i jak poradzi sobie z zagadkami logicznymi. Problem w tym, że przedsiębiorstwa nie płacą ludziom za rozwiązywanie zagadek w kontrolowanych warunkach. Nowy benchmark – Agent’s Last Exam (ALE) – spróbował to naprawić, testując modele językowe na prawdziwych zadaniach. Wyniki były rozczarowujące.
- W nowym benchmarku Agent’s Last Exam (ALE), stworzonym przez zespół z Uniwersytetu Kalifornijskiego w Berkeley, agenci AI byłli testowani na ponad 1500 zadaniach z 55 zawodów.
- Modele radzą sobie ze znaczną częścią zadań, ale na najtrudniejszym poziomie, który wymaga głębokiej wiedzy – wszystkie, łącznie z Fable 5 od Anthropic, uzyskały 0% skuteczności.
LLM-y zawodzą przy wymagających zadaniach
Zamiast sprawdzać, czy dany model rozwiąże wyizolowane zadanie, Agent’s Last Exam weryfikuje, czy AI potrafi wykonać realną pracę, za którą rynek faktycznie płaci ludziom.
Za projektem stoi zespół kierowany przez Dawn Song – profesor informatyki na uniwersytecie w Berkeley.
Każdy chce wiedzieć, kiedy agenci AI będą gotowi do pracy zawodowej. Problem w tym, że nie mierzyliśmy tego, co potrzebne, by na to pytanie odpowiedzieć.
– tłumaczy Song, dodając, że każdy test w benchmarku pochodzi z realnej pracy, którą wykonują eksperci w różnych branżach.
Benchmark objął ponad 1500 realnych zadań z 55 różnych zawodów, a testowano na nim m.in. Fable 5 od Anthropic, GPT-5.5 czy Composer 2.5.
Sprawdził on też, ile czasu zajęło modelowi wykonanie danego zadania i jakiego poziomu wiedzy ono wymagało, co pomogło twórcom oszacować wartość pracy.
Dawn Song podsumowała pierwsze wyniki, określając je “imponującymi”, ale i “otrzeźwiającymi”.
Dzisiejsza technologia pozwala agentom realizować znaczną część zadań zawodowych, jednak w przypadku tych najtrudniejszych, wymagających głębszej wiedzy czy dłuższego myślenia, modelom wciąż jest bardzo daleko do poziomu człowieka.
A konkretniej – na najtrudniejszym poziomie benchmarku, każdy z testowanych agentów AI osiągnął 0% skuteczności.
Era użytecznych agentów już nadeszła. Era agentów naprawdę gotowych do pracy zawodowej – jeszcze nie.
– powiedziała badaczka.
W ten sposób ALE pokazał, że choć niektóre LLM-y potrafią już zastąpić pracownika w części zadań, najtrudniejsza (i najbardziej wartościowa) praca nadal pozostaje poza ich zasięgiem.
Śledź CrypS. w Google News. Czytaj najważniejsze wiadomości bezpośrednio w Google! Obserwuj ->
Zajrzyj na nasz telegram i dołącz do Crypto. Society. Dołącz ->
