Vyhráli jsme první místo na summitu Berkeley AgentX za benchmarky a hodnocení! Gratulujeme týmu :)
Daniel Kang
Daniel Kang9. 7. 2025
Jak můžeme vědět, co jako agenti umělé inteligence téměř v reálném světě dokážou? Spolehlivé benchmarky jsou kritické, ale agentické benchmarky jsou nefunkční! Příklad: WebArena označí "45+8 minut" v úloze výpočtu doby trvání jako správnou (skutečná odpověď: "63 minut"). Jiné benchmarky nesprávně odhadují kompetenci agenta o 1,6-100 %. Proč jsou základy hodnocení agentických systémů křehké? Vlákno a odkazy naleznete níže 1/8
1K