Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Oznámení umělé analýzy Dlouhé kontextové uvažování (AA-LCR), nový benchmark pro hodnocení výkonu dlouhého kontextu prostřednictvím testování schopností uvažování napříč více dlouhými dokumenty (~100 tisíc tokenů)
AA-LCR se zaměřuje na replikaci skutečných znalostních prací a úloh uvažování, testování schopností kritických pro moderní aplikace AI, které zahrnují analýzu dokumentů, porozumění kódové základně a komplexní vícekrokové pracovní postupy.
AA-LCR je 100 pevných textových otázek, které vyžadují uvažování v několika reálných dokumentech, které představují ~100 tisíc vstupních tokenů. Otázky jsou navrženy tak, aby odpovědi nebylo možné najít přímo, ale musí být zdůvodněny z více informačních zdrojů, přičemž testování na lidech ověřuje, že každá otázka vyžaduje skutečné odvození, nikoli vyhledávání.
Klíčové poznatky:
➤ Dnešní přední modely dosahují přesnosti ~70 %: první tři místa patří OpenAI o3 (69 %), xAI Grok 4 (68 %) a Qwen3 235B 2507 Thinking (67 %)
👀 ➤ Také již máme výsledky gpt-oss! 120B se blíží o4-mini (vysoký), což je v souladu s tvrzeními OpenAI týkajícími se výkonu modelu. Brzy na to navážeme indexem inteligence pro modely.
➤ 100 otázek založených na pevném textu v 7 kategoriích dokumentů (zprávy společnosti, zprávy z odvětví, vládní konzultace, akademická obec, právní informace, marketingové materiály a zprávy z průzkumů)
➤ ~100 tisíc tokenů vstupu na otázku, což vyžaduje, aby modely podporovaly minimálně 128 tisíc kontextových oken pro dosažení skóre v tomto benchmarku
➤ ~3 miliony celkových jedinečných vstupních tokenů zahrnujících ~230 dokumentů pro spuštění benchmarku (výstupní tokeny se obvykle liší podle modelu)
➤ Odkaz na dataset na 🤗 @HuggingFace je níže
Přidáváme AA-LCR do indexu umělé analýzy a posouváme číslo verze na verzi 2.2. Artificial Analysis Intelligence Index v2.2 nyní obsahuje: MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode a AA-LCR.
Všechna čísla jsou nyní na webu aktualizována. Zjistěte, které modely Umělá analýza Index v2.2 👇

28,22K
Top
Hodnocení
Oblíbené