Microsoft opublikował rodzinę modeli agentowych, które w testach surfowania po internecie pokonały rozwiązania od największych konkurentów z Google’a i OpenAI.
- Fara1.5-27B poprawnie rozwiązał 72% zadań w benchmarku Online-Mind2Web. Dla porównania, Operator od OpenAI osiągnął 58,3%, a Gemini 2.5 Computer Use od Google’a – 57,3%.
- Model 9B można przetestować samodzielnie na platformie Microsoft Azure AI Foundry.
Nowy agent Microsoftu bije płatne rozwiązania od Google i OpenAI
Computer use agents “patrzą” na ekran przeglądarki i nawigują w niej tak, jak zrobiłby to człowiek.
W ten sposób użytkownik może np. poprosić model, by zarezerwował za niego miejsce w hotelu.
Próby komercjalizacji takich agentów ma za sobą OpenAI – już w styczniu 2025 roku firma uruchomiła za 200 dolarów miesięcznie narzędzie Operator, które następnie zostało wchłonięte przez ChatGPT Agent. Rozwiązanie od Google to z kolei Gemini 2.5 Computer Use.
Oba działają w chmurze i wymagają dużych nakładów mocy obliczeniowej.
22 maja Microsoft wprowadził na rynek Fara1.5.
To rodzina mniejszych modeli, które w benchmarkach pokonują oba wcześniej wymienione narzędzia.
Microsoft stworzył trzy warianty, różniące się liczbą parametrów: 4, 9 i 27 miliardów.
Wszystkie zbudowano na bazie otwartego modelu Qwen3.5 od Alibaby, który zespół Microsoftu dostroił specjalnie pod obsługę przeglądarki.
Pierwszym benchmarkiem, w którym porównano modele, był Online-Mind2Web, testujący agenta w 300 różnych zadaniach.
Lista obejmuje różne czynności – od porównywania produktów, przez wypełnianie formularzy, aż po rezerwowanie usług, a wynik podawany jest jako procent zadań poprawnie wykonanych.
Największy model z trójki Microsoftu, czyli Fara1.5-27B osiągnął 72%.
Operator od OpenAI i Gemini 2.5 Computer Use od Google’a zdobyły kolejno 58,3% oraz 57,3%. Najlepsza zamknięta alternatywa, czyli Navigator n1 firmy Yutori, dobiła do 64,7%.
Co ciekawe, nawet wariant średniej wielkości – Fara1.5-9B, uzyskał wynik 63,4%, bijąc zarówno OpenAI, jak i Google.
Gorzej wypadli też konkurenci open source. GUI-Owl-1.5 od Alibaby uzyskał wynik 48,6%, a MolmoWeb od AI2 – 35,3%.
W teście drugim – WebVoyager, mierzącym skuteczność modeli w podobny sposób, Fara1.5-27B uzyskał 88,6%, nieznacznie wyprzedzając Operatora (z 87%) oraz model Holo2 firmy H Company (83%).
W całej historii najciekawsze są jednak nie suche wyniki z benchmarków, lecz sposób trenowania modeli.
Microsoft wykorzystał model OpenAI – GPT-5.4, jako agenta-nauczyciela dla Fary.
Płatny LLM demonstrował, jak prawidłowo realizować zadania w przeglądarce, a Microsoft wykorzystał te demonstracje jako materiały szkoleniowe dla własnego modelu.
Możliwości modelu 9B można już przetestować samodzielnie na platformie Microsoft Azure AI Foundry. Jak czytamy na blogu Microsoftu, dwa pozostałe warianty mają tam zostać udostępnione „już wkrótce”.
Śledź CrypS. w Google News. Czytaj najważniejsze wiadomości bezpośrednio w Google! Obserwuj ->
Zajrzyj na nasz telegram i dołącz do Crypto. Society. Dołącz ->
