Pas même en bronze : Évaluation des LLM sur l'Olympiade Internationale de Mathématiques 2025 🥉 Un excellent article de blog de l'équipe derrière MathArena : Évaluation des LLM sur des compétitions mathématiques non contaminées () fournissant une analyse indépendante des performances des LLM sur l'OIM.
Il semble qu’une version avancée de Gemini avec Deep Think vient de résoudre 5 des 6 problèmes de l’OMI, remportant 35 points au total et atteignant officiellement des performances de niveau médaille d’or. Félicitations pour la réalisation @lmthang❗️ J’ai hâte de jouer avec ce modèle
42,7K