Mon avis sur LMArena est différent de la plupart. Le titre ici est 30 millions de dollars de revenus annuels récurrents en 4 mois. Mais je suis plus intéressé par le modèle économique sous-jacent. LMArena a construit quelque chose qui semble impossible. Une plateforme d'évaluation crowdsourcée qui est devenue le plus grand levier marketing dans l'IA, puis a trouvé comment facturer les laboratoires qui l'utilisent. Laissez-moi décomposer les chiffres. Ils sont passés de 600 millions de dollars à 1,7 milliard de dollars en 7 mois. C'est une croissance de valorisation de 183 %. À 30 millions de dollars de revenus annuels récurrents, ils se négocient à 57 fois les revenus. Mais le taux de croissance est passé de 0 à 30 millions de dollars en 4 mois. Cela représente 7,5 millions de dollars par mois de NOUVEAUX revenus dans une catégorie qui n'existait pas il y a 18 mois. La vraie histoire est le flywheel qu'ils ont construit. 35 millions d'utilisateurs se présentent pour jouer à un jeu. Deux réponses IA anonymes, choisissez votre préférée. Ces utilisateurs génèrent 60 millions de conversations par mois. Ces données deviennent la référence la plus fiable de l'industrie. OpenAI, Google, xAI ont tous besoin de leurs modèles sur ce tableau de classement. Donc, ils PAIENT pour être évalués. C'est génial parce que les clients sont aussi le produit testé. La question plus difficile est de savoir si cela va tenir. Cohere, AI2, Stanford et Waterloo ont publié un document de 68 pages en avril accusant LMArena d'avoir laissé Meta tester 27 variantes de modèles avant Llama 4 tout en cachant les pires scores. Le document "Leaderboard Illusion" disait essentiellement que le terrain de jeu était truqué en faveur des grands laboratoires. LMArena a qualifié cela d'inexact. Mais la situation de Llama 4 était compliquée. Meta a ajusté un modèle spécifiquement pour la performance d'Arena, a dominé le tableau de classement, puis a publié un modèle différent au public qui a moins bien performé. Voici où cela devient intéressant. La loi de Goodhart dit qu'une mesure devient une cible, elle cesse d'être une bonne mesure. LMArena est maintenant TELLEMENT important que les laboratoires s'optimisent spécifiquement pour cela. Les réponses plus longues gagnent. Les points de balle gagnent. La confiance gagne même quand elle est erronée. La plateforme a reconnu cela. Ils ont ajouté un score de "contrôle de style" pour pénaliser le désordre de markdown. Claude a progressé. GPT-4o-mini a reculé. ...