Ja, ik bedoel, voor mij zie ik niet eens wat ze doen om geld te verdienen, het voelt alsof ze een benchmark hebben gemaakt die populair is geworden en nu is het pay-to-win. Ik zie geen andere reden waarom ze zoveel inkomsten zouden kunnen genereren, maar ik heb geen details over wat klanten hen betalen. Het begon als een manier om open modellen te testen, maar onze laatste poging om daar op te komen werd genegeerd en maandenlang vertraagd, terwijl Meta honderden modellen testte om specifiek te optimaliseren voor het maximaliseren van de evaluaties. En daarna zijn we gewoon gestopt met indienen. Ik heb heel lang geleden opgegeven te geloven dat lmarena een nuttige maatstaf was en heb privé gehoord van grote Kansas dat ze het ding haten, dat het hun modellen naar lagere kwaliteit drijft om het te verslaan. Dus, ik weet het niet, dat is alles.
Aakash Gupta
Aakash Gupta7 jan, 08:47
Mijn kijk op LMArena is anders dan de meeste. De kop hier is $30M ARR in 4 maanden. Maar ik ben meer geïnteresseerd in het businessmodel eronder. LMArena heeft iets gebouwd dat onmogelijk lijkt. Een crowdsourced evaluatieplatform dat de grootste marketinghefboom in AI werd, en vervolgens uitvond hoe ze de laboratoria die het gebruiken konden laten betalen. Laat me de cijfers uitleggen. Ze gingen van $600M naar $1.7B in 7 maanden. Dat is 183% waardegroei. Bij $30M ARR handelen ze tegen 57x de omzet. Maar de run rate groeide van $0 naar $30M in 4 maanden. Dat is $7.5M per maand aan NIEUWE omzet in een categorie die 18 maanden geleden niet bestond. Het echte verhaal is het vliegwiel dat ze hebben gebouwd. 35M gebruikers komen opdagen om een spel te spelen. Twee anonieme AI-antwoorden, kies je favoriet. Die gebruikers genereren 60M gesprekken per maand. Die data wordt de meest vertrouwde benchmark in de industrie. OpenAI, Google, xAI hebben allemaal hun modellen op die ranglijst nodig. Dus ze BETALEN om geëvalueerd te worden. Het is geniaal omdat de klanten ook het product zijn dat getest wordt. De moeilijkere vraag is of dit standhoudt. Cohere, AI2, Stanford en Waterloo hebben in april een 68-pagina's tellend document uitgebracht waarin LMArena beschuldigd wordt van het laten testen van 27 modelvarianten door Meta vóór Llama 4, terwijl de slechtste scores verborgen werden. Het "Leaderboard Illusion"-document zei in wezen dat het speelveld was gemanipuleerd ten gunste van grote laboratoria. LMArena noemde het onnauwkeurig. Maar de situatie rond Llama 4 was rommelig. Meta heeft een model specifiek afgestemd op Arena-prestaties, stond bovenaan de ranglijst en bracht vervolgens een ander model uit voor het publiek dat slechter presteerde. Hier wordt het interessant. De wet van Goodhart zegt dat wanneer een maatstaf een doel wordt, het ophoudt een goede maatstaf te zijn. LMArena is nu ZO belangrijk dat laboratoria specifiek voor het platform optimaliseren. Langere antwoorden winnen. Opsommingstekens winnen. Vertrouwen wint, zelfs als het fout is. Het platform erkende dit. Ze voegden "stijlcontrole" scoring toe om markdown slordigheid te bestraffen. Claude steeg. GPT-4o-mini daalde. Maar de kernspanning blijft bestaan. LMArena verdient $30M+ per jaar van dezelfde laboratoria die het beoordeelt. OpenAI, Google, xAI zijn klanten. De scheidsrechter wordt betaald door de spelers. Ze zeggen dat de publieke ranglijst "een liefdadigheid" is en je kunt niet betalen voor plaatsing. Ik geloof ze. Maar de incentive-structuur is... gecompliceerd. De waardering zegt dat de markt denkt dat ze de naald kunnen doorprikken tussen commercieel succes en waargenomen neutraliteit. Peter Deng die bij de raad komt is interessant. Voormalig VP van Consumer Product bij OpenAI. Nu GP bij Felicis die deze ronde leidt. Hij weet precies hoe waardevol Arena-plaatsing is voor modelmarketing. Ion Stoica als medeoprichter is de geloofwaardigheidsanker. Professor aan Berkeley, creëerde Spark en Ray, runt het Sky Computing Lab. Dit is geen willekeurige startup. Het is infrastructuur gebouwd door onderzoekers die gedistribueerde systemen begrijpen. $250M opgehaald in 7 maanden. Team van 40+. 5M maandelijkse gebruikers in 150 landen. Evaluatie is net een miljard-dollar categorie geworden.
Van grote laboratoria, niet van groot Kansas, lmao. Ik denk dat iemand deze autocorrecties op veel meer tokens moet trainen…
23