LiveCodeBench Pro 為編碼評估設定了新的標準,並被 @NeurIPSConf 接受。 🧵 LiveCodeBench Pro 在嚴格的評審、真實的資源限制和對抗性的隱藏測試下評估端到端的算法推理,因此分數真正反映了編碼能力。