Płakałem, SOTA to tylko fasada, prawdziwa praca wymaga "modelu byka i konia". Założyciel OpenRouter, Alex Atallah, właśnie opublikował tweet, w którym powiedział, że najczęściej używa Kimi-K2-0711 (Kimi-K2-Instruct z lipca). Następnie są openai-o4-mini-high, Claude-3.7-Sonnet, gpt-oss-120b, openai-o3. Kiedy to pierwszy raz zobaczyłem, pomyślałem, czy ta osoba nie straciła połączenia z internetem, bo od dawna nie używała nowych dużych modeli? Ale po chwili zastanowienia, nie, to nie tak. To jest prawdziwe zastosowanie Power Usera, zbyt prawdziwe. Jeśli w tym momencie szukać modelu, który ma wystarczający kontekst (128K), jest wydajny (SWE-Bench Verified > 65), ma silne zdolności agenta (Tau2-bench > 65), ogromną wiedzę (duża liczba parametrów) i odpowiada szybko (model nie myślący), to wydaje się, że tylko Kimi-K2-Instruct spełnia te wymagania. Z tego można wnioskować, że większość pracy Alexa Atallaha polega na przetwarzaniu dokumentów (długi kontekst, zwłaszcza przy użyciu 13.4M tokenów), analizowaniu narzędzi i pisaniu raportów (zdolności agenta). Wszystko to Kimi-K2-Instruct potrafi zrobić, a następnie pisaniu skryptów (o4 i Claude-3.7-Sonnet jako wsparcie, a nawet pakowanie ich w agenta, aby Kimi-k2 mogło korzystać z tych modeli do pisania skryptów). Na koniec Kimi-k2 spełnia również najważniejszy punkt, czyli prywatność danych, ponieważ model ma otwarte wagi, można go wdrożyć na własnym serwerze, a wszelkie wrażliwe informacje nie będą ujawniane OpenAI ani Anthropic. Nawet ten GPT-OSS-120B ma sens istnienia w tym kontekście. Mogę mniej więcej zrozumieć, dlaczego nowe duże modele rywalizują w zdolnościach agenta, ponieważ bezpośrednie korzystanie z AI to tylko etap pośredni, a zaawansowani użytkownicy już używają AI do obsługi AI. Model agenta specjalizujący się w odbieraniu i wysyłaniu wszystkich kontekstów AI z pewnością będzie na szczycie pod względem użycia.