Nos lleva unos meses convertir la frontera de la investigación experimental en un producto. Pero el progreso es tan rápido que unos meses pueden significar una gran diferencia en las capacidades.
Ravid Shwartz Ziv
Ravid Shwartz Ziv19 jul 2025
So, all the models underperform humans on the new International Mathematical Olympiad questions, and Grok-4 is especially bad on it, even with best-of-n selection? Unbelievable!
128,79K