Ja, jeg mener, for meg ser jeg ikke engang hva de gjør for å tjene penger, det føles som om de har laget en benchmark som ble populær, og nå er det pay to win, jeg ser ingen annen grunn til at de i det hele tatt skulle kunne kreve så mye inntekt for dette, men jeg har ikke detaljene om hva kundene betaler dem for i det hele tatt. Det startet som en måte å vibe-teste åpne modeller på, men vårt siste forsøk på å komme inn der ble ignorert og forsinket i flere måneder, mens Meta testet hundrevis av modeller for å optimalisere spesielt rundt å maksimere evalueringene, og etter det sluttet vi bare å sende inn. Jeg ga opp å tro at LMARENA var et nyttig mål for veldig lenge siden, og har hørt privat fra store Kansas at de hater det, at det driver modellene deres til lavere kvalitet for å slå det. Så, jeg vet ikke, det er alt
Aakash Gupta
Aakash Gupta7. jan., 08:47
Min tolkning av LMArena er annerledes enn de fleste. Overskriften her er 30 millioner ARR på 4 måneder. Men jeg er mer interessert i forretningsmodellen under. LMArena bygde noe som føles umulig. En crowdsourcet evalueringsplattform som ble den største markedsføringsmekanismen innen AI, og fant deretter ut hvordan de skulle belaste laboratoriene som brukte den. La meg bryte ned regnestykket. De gikk fra 600 millioner til 1,7 milliarder dollar på 7 måneder. Det er 183 % verdsettelsesvekst. Med 30 millioner dollar i ARR handles de til 57 ganger omsetningen. Men driftsprisen økte fra 0 til 30 millioner dollar på 4 måneder. Det er 7,5 millioner dollar per måned i NYE inntekter i en kategori som ikke eksisterte for 18 måneder siden. Den virkelige historien er svinghjulet de bygde. 35 millioner brukere møter opp for å spille et spill. To anonyme AI-svar, velg din favoritt. Disse brukerne genererer 60 millioner samtaler per måned. Disse dataene blir den mest pålitelige målestokken i bransjen. OpenAI, Google, xAI trenger alle modellene sine på topplisten. Så de BETALER for å bli evaluert. Det er genialt fordi kundene også er produktet som testes. Det vanskeligere spørsmålet er om dette holder. Cohere, AI2, Stanford og Waterloo la ut en 68-siders artikkel i april hvor de anklaget LMArena for å la Meta teste 27 modellvarianter før Llama 4, samtidig som de skjulte de dårligste poengsummene. "Leaderboard Illusion"-artikkelen sa i bunn og grunn at spillefeltet var rigget mot store laboratorier. LMArena kalte det unøyaktig. Men Llama 4-situasjonen var rotete. Meta justerte en modell spesifikt for Arena-ytelse, toppet leaderbaorden, og slapp deretter en annen modell til publikum som presterte dårligere. Her blir det interessant. Goodharts lov sier at når et tiltak blir et mål, slutter det å være et godt tiltak. LMArena er nå SÅ viktig at laboratorier optimaliserer spesifikt for det. Lengre svar vinner. Bullet points vinner. Selvtillit vinner selv når den tar feil. Plattformen anerkjente dette. De la til «stilkontroll»-poeng for å straffe for slat med nedslag. Claude beveget seg frem. GPT-4o-mini beveget seg nedover. Men kjernen i spenningen består. LMArena tjener 30 millioner dollar per år fra de samme laboratoriene de vurderer. OpenAI, Google, xAI er kunder. Dommeren får betalt av spillerne. De sier at den offentlige topplisten er «en veldedighet» og at du ikke kan betale for plassering. Jeg tror på dem. Men insentivstrukturen er... komplisert. Verdsettelsen sier at markedet tror de kan balansere mellom kommersiell suksess og oppfattet nøytralitet. Peter Deng som blir med i styret er interessant. Tidligere visepresident for forbrukerprodukter i OpenAI. Nå leder GP at Felicis denne runden. Han vet nøyaktig hvor verdifull Arena-plassering er for modellmarkedsføring. Ion Stoica som medgründer er troverdighetsankeret. Berkeley-professor, skapt Spark and Ray, driver Sky Computing Lab. Dette er ikke en tilfeldig oppstart. Det er infrastruktur bygget av forskere som forstår distribuerte systemer. 250 millioner dollar samlet inn på 7 måneder. Lag på 40+. 5 millioner månedlige brukere i 150 land. Evaluering har nettopp blitt en milliard-dollar-kategori.
Fra store laboratorier, ikke store Kansas, lmao, jeg tror noen må trene disse autokorrekturene på mange flere tokens...
8