Oznámení umělé analýzy Dlouhé kontextové uvažování (AA-LCR), nový benchmark pro hodnocení výkonu dlouhého kontextu prostřednictvím testování schopností uvažování napříč více dlouhými dokumenty (~100 tisíc tokenů) AA-LCR se zaměřuje na replikaci skutečných znalostních prací a úloh uvažování, testování schopností kritických pro moderní aplikace AI, které zahrnují analýzu dokumentů, porozumění kódové základně a komplexní vícekrokové pracovní postupy. AA-LCR je 100 pevných textových otázek, které vyžadují uvažování v několika reálných dokumentech, které představují ~100 tisíc vstupních tokenů. Otázky jsou navrženy tak, aby odpovědi nebylo možné najít přímo, ale musí být zdůvodněny z více informačních zdrojů, přičemž testování na lidech ověřuje, že každá otázka vyžaduje skutečné odvození, nikoli vyhledávání. Klíčové poznatky: ➤ Dnešní přední modely dosahují přesnosti ~70 %: první tři místa patří OpenAI o3 (69 %), xAI Grok 4 (68 %) a Qwen3 235B 2507 Thinking (67 %) 👀 ➤ Také již máme výsledky gpt-oss! 120B se blíží o4-mini (vysoký), což je v souladu s tvrzeními OpenAI týkajícími se výkonu modelu. Brzy na to navážeme indexem inteligence pro modely. ➤ 100 otázek založených na pevném textu v 7 kategoriích dokumentů (zprávy společnosti, zprávy z odvětví, vládní konzultace, akademická obec, právní informace, marketingové materiály a zprávy z průzkumů) ➤ ~100 tisíc tokenů vstupu na otázku, což vyžaduje, aby modely podporovaly minimálně 128 tisíc kontextových oken pro dosažení skóre v tomto benchmarku ➤ ~3 miliony celkových jedinečných vstupních tokenů zahrnujících ~230 dokumentů pro spuštění benchmarku (výstupní tokeny se obvykle liší podle modelu) ➤ Odkaz na dataset na 🤗 @HuggingFace je níže Přidáváme AA-LCR do indexu umělé analýzy a posouváme číslo verze na verzi 2.2. Artificial Analysis Intelligence Index v2.2 nyní obsahuje: MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode a AA-LCR. Všechna čísla jsou nyní na webu aktualizována. Zjistěte, které modely Umělá analýza Index v2.2 👇
28,22K