DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Mijn kijk op LMArena is anders dan de meeste. De kop hier is $30M ARR in 4 maanden. Maar ik ben meer geïnteresseerd in het businessmodel eronder. LMArena heeft iets gebouwd dat onmogelijk lijkt. Een crowdsourced evaluatieplatform dat de grootste marketinghefboom in AI werd, en vervolgens uitvond hoe ze de laboratoria die het gebruiken konden laten betalen. Laat me de cijfers uitleggen. Ze gingen van $600M naar $1.7B in 7 maanden. Dat is 183% waardegroei. Bij $30M ARR handelen ze tegen 57x de omzet. Maar de run rate groeide van $0 naar $30M in 4 maanden. Dat is $7.5M per maand aan NIEUWE omzet in een categorie die 18 maanden geleden niet bestond. Het echte verhaal is het vliegwiel dat ze hebben gebouwd. 35M gebruikers komen opdagen om een spel te spelen. Twee anonieme AI-antwoorden, kies je favoriet. Die gebruikers genereren 60M gesprekken per maand. Die data wordt de meest vertrouwde benchmark in de industrie. OpenAI, Google, xAI hebben allemaal hun modellen op die ranglijst nodig. Dus ze BETALEN om geëvalueerd te worden. Het is geniaal omdat de klanten ook het product zijn dat getest wordt. De moeilijkere vraag is of dit standhoudt. Cohere, AI2, Stanford en Waterloo hebben in april een 68-pagina's tellend document uitgebracht waarin LMArena beschuldigd wordt van het laten testen van 27 modelvarianten door Meta vóór Llama 4, terwijl de slechtste scores verborgen werden. Het "Leaderboard Illusion"-document zei in wezen dat het speelveld was gemanipuleerd ten gunste van grote laboratoria. LMArena noemde het onnauwkeurig. Maar de situatie rond Llama 4 was rommelig. Meta heeft een model specifiek afgestemd op Arena-prestaties, stond bovenaan de ranglijst en bracht vervolgens een ander model uit voor het publiek dat slechter presteerde. Hier wordt het interessant. De wet van Goodhart zegt dat wanneer een maatstaf een doel wordt, het ophoudt een goede maatstaf te zijn. LMArena is nu ZO belangrijk dat laboratoria specifiek voor het platform optimaliseren. Langere antwoorden winnen. Opsommingstekens winnen. Vertrouwen wint, zelfs als het fout is. Het platform erkende dit. Ze voegden "stijlcontrole" scoring toe om markdown slordigheid te bestraffen. Claude steeg. GPT-4o-mini daalde. ...

Boven

Positie

Favorieten