Microsoft łączy GPT i Claude. Ta fuzja AI ma zmieść konkurencję

31 marca 2026 15:39

Microsoft połączył ChatGPT i Claude’a w jeden system, który w benchmarku pobił wszystkie dotychczasowe narzędzia badawcze oparte na jednym modelu.

Microsoft wprowadził do Copilota dwa tryby wielomodelowe: Critique i Council, w których konkurencyjne modele AI nawzajem weryfikują swoją pracę, eliminując błędy.
System Critique uzyska wynik 57,4 pkt w benchmarku DRACO, przewyższając samodzielne rozwiązania OpenAI, Google, Perplexity i Anthropic.
To dowodzi, że orkiestracja różnych LLM-ów daje wyniki lepsze, niż pojedynczy, najlepszy model.

Microsoft spróbował rozwiązać fundamentalny problem narzędzi AI typu deep research

Wszystkie dotychczasowe narzędzia “deep research” – od Google Gemini, aż po agentów badawczych od OpenAI czy Anthropic, działają według tego samego schematu.

Jeden model planuje zadanie, a następnie realizuje swój własny plan krok po kroku, przeszukując źródła i tworząc raport, który zwraca użytkownikowi.

Jako że w trakcie tego procesu nikt nie sprawdza, czy to, co robi LLM, jest w ogóle sensowne, efektem są halucynacje – błędne twierdzenia czy fałszywe cytowania, które użytkownik otrzymuje bez żadnego ostrzeżenia.

Microsoft słusznie zauważył, że brak weryfikacji jest słabością wszystkich narzędzi tego typu i postanowił odpowiedzieć prostym rozwiązaniem: rozdzieleniem generowania treści od jej oceny przy wykorzystaniu dwóch różnych modeli AI.

To Claude od Anthropic i ChatGPT od OpenAI, czyli produkty dwóch największych rywali, które Microsoft zaprzęgnął do pracy w trybie Critique, mającym odwzorowywać proces recenzji naukowej.

Cały cykl zaczyna się od powstania kompletnego szkicu, gdzie za zaplanowanie struktury raportu, zebranie materiałów źródłowych i stworzenie jego wstępnej wersji odpowiada ChatGPT.

Następnie dokument przesyłany jest do Claude’a, gdzie jest oceniany – Claude weryfikuje rzetelność faktów, jakość przywoływanych w raporcie źródeł czy trafność wnioskowania.

wykres microsoft copilot 365 deep research — Źródło: Microsoft

Oba modele wykorzystano także w drugim trybie – Council, gdzie pracują one równolegle nad tym samym zadaniem i tworzą dwie różne wersje raportów niezależnie od siebie.

Na końcowym etapie do gry wchodzi trzeci model, który analizuje oba opracowania, przygotowuje syntezę tych dwóch perspektyw, a użytkownik dowiaduje się, w których punktach dwa różne LLM-y doszły do sprzecznych wniosków.

Jak system radzi sobie praktyce? Microsoft przedstawił wyniki z benchmarka DRACO, który obejmuje 100 różnych zadań z 10 dziedzin, wśród których znajdziemy m.in. medycynę i prawo.

Działające w tandemie w trybie Critique modele GPT i Claude uzyskały w nim 57,4 pkt, co było wynikiem o 13,8% lepszym od dotychczasowego rekordu należącego do narzędzia Perplexity Deep Research wykorzystującego model Claude Opus 4,6.

Dla porównania działający samodzielnie Opus 4.6 otrzymał w nim 42,7 pkt, co sugeruje, że orkiestracja różnych modeli może dawać efekty przewyższające sumę ich indywidualnych możliwości.

Dostęp do nowych narzędzi Microsoftu wymaga udziału w programie Microsoft Frontier (early-access) oraz licencji Microsoft 365 Copilot.

Śledź CrypS. w Google News. Czytaj najważniejsze wiadomości bezpośrednio w Google! Obserwuj ->

Zajrzyj na nasz telegram i dołącz do Crypto. Society. Dołącz ->