Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ja, för mig ser jag inte ens vad de gör för att tjäna pengar, det känns som att de gjort en benchmark som blev populär och nu är det pay to win, jag ser ingen annan anledning till att de ens skulle kunna ta ut så mycket intäkter för detta men jag har inte alls detaljerna om vad kunderna betalar dem för.
Det började som ett sätt att testa öppna modeller i Vibe, men vårt senaste försök att komma in där ignorerades och försenades i månader medan Meta testade hundratals modeller för att optimera specifikt kring maxade utvärderingar, och efter det slutade vi bara skicka in. Jag gav upp tron på att Imarena var ett användbart mått för länge sedan och har hört privat från stora Kansas att de hatar saken, att den driver deras modeller till lägre kvalitet för att slå den. Så, jag vet inte, det var allt

7 jan. 08:47
Min tolkning av LMArena skiljer sig från de flesta.
Rubriken här är 30 miljoner ARR på 4 månader. Men jag är mer intresserad av affärsmodellen underliggande.
LMArena byggde något som känns omöjligt. En crowdsourcad utvärderingsplattform som blev den största marknadsföringshäststången inom AI, och som sedan listade ut hur man kunde ladda labben med den.
Låt mig förklara matematiken.
De gick från 600 miljoner dollar till 1,7 miljarder dollar på 7 månader. Det är en värderingstillväxt på 183%. Med 30 miljoner dollar i arr handlas de till 57 gånger intäkterna. Men driftskostnaden ökade från 0 till 30 miljoner dollar på 4 månader.
Det är 7,5 miljoner dollar per månad i NYA intäkter i en kategori som inte fanns för 18 månader sedan.
Den verkliga historien är svänghjulet de byggde.
35 miljoner användare dyker upp för att spela ett spel. Två anonyma AI-svar, välj din favorit. Dessa användare genererar 60 miljoner konversationer per månad. Den datan blir den mest betrodda referenspunkten i branschen. OpenAI, Google, xAI behöver alla sina modeller på den topplistan. Så de BETALAR för att bli utvärderade.
Det är genialt eftersom kunderna också är produkten som testas.
Den svårare frågan är om detta håller.
Cohere, AI2, Stanford och Waterloo släppte i april en 68-sidig artikel där de anklagade LMArena för att låta Meta testa 27 modellvarianter före Llama 4 samtidigt som de dolde de sämsta poängen. Artikeln "Leaderboard Illusion" sa i princip att spelplanen var riggad för stora laboratorier.
LMArena kallade det felaktigt. Men situationen med Llama 4 var rörig. Meta anpassade en modell specifikt för Arena-prestanda, toppade ledarbasen och släppte sedan en annan modell till allmänheten som presterade sämre.
Här blir det intressant.
Goodharts lag säger att när en åtgärd blir ett mål, slutar den att vara ett bra mått. LMArena är nu SÅ viktigt att labben optimerar specifikt för det. Längre svar vinner. Punktlistor vinner. Självförtroendet vinner även när det har fel.
Plattformen erkände detta. De lade till "style control"-poäng för att straffa markdown-slop. Claude flyttade sig fram. GPT-4o-mini flyttade ner.
Men kärnspänningen kvarstår.
LMArena tjänar 30 miljoner dollar per år från samma laboratorier som de bedömer. OpenAI, Google, xAI är kunder. Domaren får betalt av spelarna.
De säger att den offentliga topplistan är "en välgörenhetsorganisation" och att man inte kan betala för placering. Jag tror på dem. Men incitamentsstrukturen är... komplicerat.
Värderingen säger att marknaden tror att de kan balansera mellan kommersiell framgång och upplevd neutralitet.
Peter Deng som ansluter sig till styrelsen är intressant. Tidigare VP för konsumentprodukter på OpenAI. Nu leder GP i Felicis den här omgången. Han vet exakt hur värdefull Arena-placering är för modellmarknadsföring.
Ion Stoica som medgrundare är trovärdighetsankaret. Berkeley-professorn, grundad av Spark and Ray, driver Sky Computing Lab. Det här är inte en slumpmässig startup. Det är infrastruktur byggd av forskare som förstår distribuerade system.
250 miljoner dollar samlade in på 7 månader. Lag på 40+. 5 miljoner månatliga användare i 150 länder.
Utvärdering har precis blivit en miljardkategori.
Från stora laboratorier, inte stora Kansas, haha, jag tror någon behöver träna dessa autokorrigeringar på många fler tokens...
3
Topp
Rankning
Favoriter
