Nicht einmal Bronze: Bewertung von LLMs bei der Internationalen Mathematik-Olympiade 2025 🥉 Schöner Blogbeitrag vom Team hinter MathArena: Bewertung von LLMs bei unkontaminierten Mathematikwettbewerben (), der eine unabhängige Analyse der LLM-Leistung bei der IMO bietet.
Es sieht so aus, als ob eine fortgeschrittene Version von Gemini mit Deep Think gerade 5 der 6 IMO-Probleme gelöst hat, 35 Gesamtpunkte erzielt und offiziell eine Leistung auf Goldmedaillenniveau erreicht hat. Herzlichen Glückwunsch zum Erfolg @lmthang❗️ Ich kann es kaum erwarten, mit diesem Modell zu spielen
42,7K