Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Abbiamo vinto il primo posto al summit Berkeley AgentX per il track di benchmark e valutazioni! Congratulazioni al team :)


9 lug 2025
Poiché gli agenti di intelligenza artificiale vengono utilizzati quasi nel mondo reale, come facciamo a sapere cosa possono effettivamente fare? I benchmark affidabili sono fondamentali, ma i benchmark agentici non funzionano!
Esempio: WebArena contrassegna "45+8 minuti" su un'attività di calcolo della durata come corretto (risposta reale: "63 minuti"). Altri benchmark stimano erroneamente la competenza dell'agente dell'1,6-100%.
Perché le basi di valutazione per i sistemi agentici sono fragili? Vedi sotto per thread e collegamenti
1/8
1K
Principali
Ranking
Preferiti