Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Min tolkning av LMArena skiljer sig från de flesta.
Rubriken här är 30 miljoner ARR på 4 månader. Men jag är mer intresserad av affärsmodellen underliggande.
LMArena byggde något som känns omöjligt. En crowdsourcad utvärderingsplattform som blev den största marknadsföringshäststången inom AI, och som sedan listade ut hur man kunde ladda labben med den.
Låt mig förklara matematiken.
De gick från 600 miljoner dollar till 1,7 miljarder dollar på 7 månader. Det är en värderingstillväxt på 183%. Med 30 miljoner dollar i arr handlas de till 57 gånger intäkterna. Men driftskostnaden ökade från 0 till 30 miljoner dollar på 4 månader.
Det är 7,5 miljoner dollar per månad i NYA intäkter i en kategori som inte fanns för 18 månader sedan.
Den verkliga historien är svänghjulet de byggde.
35 miljoner användare dyker upp för att spela ett spel. Två anonyma AI-svar, välj din favorit. Dessa användare genererar 60 miljoner konversationer per månad. Den datan blir den mest betrodda referenspunkten i branschen. OpenAI, Google, xAI behöver alla sina modeller på den topplistan. Så de BETALAR för att bli utvärderade.
Det är genialt eftersom kunderna också är produkten som testas.
Den svårare frågan är om detta håller.
Cohere, AI2, Stanford och Waterloo släppte i april en 68-sidig artikel där de anklagade LMArena för att låta Meta testa 27 modellvarianter före Llama 4 samtidigt som de dolde de sämsta poängen. Artikeln "Leaderboard Illusion" sa i princip att spelplanen var riggad för stora laboratorier.
LMArena kallade det felaktigt. Men situationen med Llama 4 var rörig. Meta anpassade en modell specifikt för Arena-prestanda, toppade ledarbasen och släppte sedan en annan modell till allmänheten som presterade sämre.
Här blir det intressant.
Goodharts lag säger att när en åtgärd blir ett mål, slutar den att vara ett bra mått. LMArena är nu SÅ viktigt att labben optimerar specifikt för det. Längre svar vinner. Punktlistor vinner. Självförtroendet vinner även när det har fel.
Plattformen erkände detta. De lade till "style control"-poäng för att straffa markdown-slop. Claude flyttade sig fram. GPT-4o-mini flyttade ner.
...
Topp
Rankning
Favoriter
