Pasar Lightweight General Reasoning Benchmark secara resmi berlangsung. Eval 1 dari 11 ditayangkan di Delphi. Lihat hasil benchmarking lengkap sekarang: