Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Min tolkning av LMArena er annerledes enn de fleste.
Overskriften her er 30 millioner ARR på 4 måneder. Men jeg er mer interessert i forretningsmodellen under.
LMArena bygde noe som føles umulig. En crowdsourcet evalueringsplattform som ble den største markedsføringsmekanismen innen AI, og fant deretter ut hvordan de skulle belaste laboratoriene som brukte den.
La meg bryte ned regnestykket.
De gikk fra 600 millioner til 1,7 milliarder dollar på 7 måneder. Det er 183 % verdsettelsesvekst. Med 30 millioner dollar i ARR handles de til 57 ganger omsetningen. Men driftsprisen økte fra 0 til 30 millioner dollar på 4 måneder.
Det er 7,5 millioner dollar per måned i NYE inntekter i en kategori som ikke eksisterte for 18 måneder siden.
Den virkelige historien er svinghjulet de bygde.
35 millioner brukere møter opp for å spille et spill. To anonyme AI-svar, velg din favoritt. Disse brukerne genererer 60 millioner samtaler per måned. Disse dataene blir den mest pålitelige målestokken i bransjen. OpenAI, Google, xAI trenger alle modellene sine på topplisten. Så de BETALER for å bli evaluert.
Det er genialt fordi kundene også er produktet som testes.
Det vanskeligere spørsmålet er om dette holder.
Cohere, AI2, Stanford og Waterloo la ut en 68-siders artikkel i april hvor de anklaget LMArena for å la Meta teste 27 modellvarianter før Llama 4, samtidig som de skjulte de dårligste poengsummene. "Leaderboard Illusion"-artikkelen sa i bunn og grunn at spillefeltet var rigget mot store laboratorier.
LMArena kalte det unøyaktig. Men Llama 4-situasjonen var rotete. Meta justerte en modell spesifikt for Arena-ytelse, toppet leaderbaorden, og slapp deretter en annen modell til publikum som presterte dårligere.
Her blir det interessant.
Goodharts lov sier at når et tiltak blir et mål, slutter det å være et godt tiltak. LMArena er nå SÅ viktig at laboratorier optimaliserer spesifikt for det. Lengre svar vinner. Bullet points vinner. Selvtillit vinner selv når den tar feil.
Plattformen anerkjente dette. De la til «stilkontroll»-poeng for å straffe for slat med nedslag. Claude beveget seg frem. GPT-4o-mini beveget seg nedover.
...
Topp
Rangering
Favoritter
