Skoro agenci SI są niemal w realnym użyciu, skąd wiemy, co tak naprawdę potrafią? Wiarygodne testy porównawcze mają kluczowe znaczenie, ale testy agentów są zepsute! Przykład: WebArena oznacza "45 + 8 minut" w zadaniu obliczania czasu trwania jako poprawne (prawdziwa odpowiedź: "63 minuty"). Inne benchmarki błędnie szacują kompetencje agentów o 1,6-100%. Dlaczego podstawy oceny systemów agentowych są kruche? Zobacz poniżej wątek i linki 1/8
Oceny agentyczne różnią się od tradycyjnych testów porównawczych uczenia maszynowego pod względem formułowania zadań i wyników. Testy porównawcze często opierają się na delikatnych symulatorach (stronach internetowych z zabawkami, bazach danych) potencjalnie z błędami i skrótami, które mogą zniekształcić wyniki. Co więcej, wyniki testów porównawczych agentów nie mają ustalonych "złotych" etykiet i często muszą oceniać nieustrukturyzowane odpowiedzi (kod, wywołania API, długie teksty). 3/8
Aby sprostać tym wyzwaniom, agentyczne wskaźniki referencyjne powinny mieć na celu zapewnienie korelacji między pozytywnym wynikiem oceny a zdolnościami docelowych agentów SI. Cel ten rozkładamy na dwa zasadnicze kryteria trafności: 1. Ważność zadania: Zadanie można rozwiązać wtedy i tylko wtedy, gdy agent posiada docelową zdolność. 2. Trafność wyniku: Wynik oceny jest pozytywny wtedy i tylko wtedy, gdy zadanie zostanie rozwiązane. 4/8
Opierając się na 17 popularnych testach porównawczych (np. SWE-bench, OSWorld, TAU-bench itp.), opracowujemy 43-elementową listę kontrolną agentic benchmark (ABC), aby szybko określić, w jakim stopniu agent benchmark spełnia ważność zadania i wyniku ABECADŁO: 5/8
Zastosowaliśmy ABC do 10 wpływowych testów porównawczych, które zostały wykorzystane do oceny o3, Gemini 2.5 i Sonnet 4. Oto przegląd naszych ustaleń: 1. Testy porównawcze 7/10 nie dają ważności wyników 2. 7/10 zawiera ukryte skróty/nierozwiązywalne zadania 3. Tylko 2/10 ujawnia znane problemy Stay tuned. Wkrótce opublikujemy więcej szczegółów ilościowych i poprawek zidentyfikowanych błędów! 6/8
ABC umożliwia zarówno twórcom testów porównawczych, jak i modeli wykrywanie i naprawianie błędów - przed uzyskaniem głównych wyników. Zapoznaj się z pełną listą kontrolną, przykładami i wnieś swój wkład za pośrednictwem naszej witryny internetowej i repozytorium GitHub, aby wspólnie tworzyć testy porównawcze godne pionierskiej sztucznej inteligencji. 7/8
Jest to wspólna praca z @maxYuxuanZhu, @yadapruksachatk i innymi ludźmi ze Stanford, Berkeley, Yale, Princeton, MIT, Transluce, ML Commons, Amazon i UK AISI. 8/8
21,98K