Kami memenangkan tempat pertama di KTT Berkeley AgentX untuk jalur tolok ukur dan evaluasi! Selamat kepada tim :)
Daniel Kang
Daniel Kang9 Jul 2025
Sebagai agen AI yang mendekati penggunaan dunia nyata, bagaimana kita tahu apa yang sebenarnya dapat mereka lakukan? Tolok ukur yang andal sangat penting tetapi tolok ukur agen rusak! Contoh: WebArena menandai "45+8 menit" pada tugas perhitungan durasi sebagai benar (jawaban nyata: "63 menit"). Tolok ukur lain salah menilai kompetensi agen sebesar 1,6-100%. Mengapa fondasi evaluasi untuk sistem agen rapuh? Lihat di bawah untuk utas dan tautan 1/8
1K