DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Da, pentru mine nici măcar nu văd ce fac ca să facă bani, simt că au făcut un reper care a devenit popular și acum e pay to win, nu văd alt motiv pentru care ar putea obține atâția venituri pentru asta, dar nu am detalii despre pentru ce plătesc clienții. A început ca o metodă de a testa modele deschise cu vibrație, dar ultima noastră încercare de a intra acolo a fost ignorată și amânată luni de zile, în timp ce Meta testa sute de modele pentru a optimiza în special pentru maximizarea evaluărilor, iar după aceea am încetat pur și simplu să mai trimitem. Am renunțat să mai cred că Marena este un indicator util de mult timp și am auzit în privat de la marile companii din Kansas că urăsc acest lucru, că îi împinge modelele spre o calitate mai slabă ca să-l depășească. Deci, nu știu, asta e tot

Interpretarea mea despre LMArena este diferită de a majorității. Titlul aici este 30 de milioane de dolari ARR în 4 luni. Dar sunt mai interesat de modelul de afaceri de dedesubt. LMArena a construit ceva care pare imposibil. O platformă de evaluare crowdsourcing, care a devenit cea mai mare pârghie de marketing în AI, apoi a descoperit cum să perceapă taxa laboratoarelor folosind aceasta. Lasă-mă să-ți explic matematica. Au trecut de la 600 de milioane de dolari la 1,7 miliarde în 7 luni. Aceasta înseamnă o creștere a evaluării de 183%. La 30M ARR, se tranzacționează la un venit de 57 de ori. Dar rata de rulare a crescut de la 0 la 30 milioane în 4 luni. Asta înseamnă 7,5 milioane de dolari pe lună din venituri NOI într-o categorie care nu exista acum 18 luni. Povestea reală este volanul pe care l-au construit. 35M de utilizatori vin să joace un joc. Două răspunsuri AI anonime, alege-ți preferatul tău. Acești utilizatori generează 60 de milioane de conversații pe lună. Aceste date devin cel mai de încredere reper din industrie. OpenAI, Google, xAI au nevoie ca modelele lor să fie în acel clasament. Așa că PLĂTESC pentru a fi evaluați. Este genial pentru că clienții sunt și produsul testat. Întrebarea mai dificilă este dacă acest lucru este valabil. Cohere, AI2, Stanford și Waterloo au publicat în aprilie un articol de 68 de pagini, acuzând LMArena că a permis Meta să testeze variante de model 27 înainte de Llama 4, ascunzând cele mai slabe scoruri. Articolul "Iluzia Clasamentului" spunea practic că terenul de joc era trucat în favoarea laboratoarelor mari. LMArena a numit-o inexactă. Dar situația cu Llama 4 a fost complicată. Meta a ajustat un model special pentru performanța din Arena, a depășit leaderbaord-ul, apoi a lansat un alt model publicului care a avut rezultate mai slabe. Aici devine interesant. Legea lui Goodhart spune că atunci când o măsură devine o țintă, aceasta încetează să mai fie o măsură bună. LMArena este acum FOARTE important ca laboratoarele să optimizeze special pentru asta. Răspunsurile mai lungi câștigă. Punctele puncte câștigă. Încrederea câștigă chiar și când greșește. Platforma a recunoscut acest lucru. Au adăugat punctaj de "control al stilului" pentru a penaliza slop-ul de marcare. Claude a urcat. GPT-4o-mini a coborât. Dar tensiunea de bază rămâne. LMArena câștigă 30 de milioane de dolari+ pe an din aceleași laboratoare pe care le evaluează. OpenAI, Google, xAI sunt clienți. Arbitrul este plătit de jucători. Se spune că clasamentul public este "o organizație caritabilă" și că nu poți plăti pentru plasare. Îi cred. Dar structura de stimulente este... complicat. Evaluarea arată că piața crede că poate echilibra succesul comercial și neutralitatea percepută. Intrarea lui Peter Deng în consiliu este interesantă. Fost vicepreședinte al Produsului de Consum la OpenAI. Acum GP la Felicis conduce această rundă. Știe exact cât de valoroasă este poziționarea în Arenă pentru marketingul modelelor. Ion Stoica, ca cofondator, este ancora credibilității. Profesor de la Berkeley, creat de Spark și Ray, conduce Sky Computing Lab. Nu este un startup oarecare. Este o infrastructură construită de cercetători care înțeleg sistemele distribuite. 250 de milioane de dolari strânși în 7 luni. Echipă de 40+. 5 milioane de utilizatori lunar în 150 de țări. Evaluarea a devenit tocmai o categorie de un miliard de dolari.

Din Big Labs, nu Big Kansas, haha, cred că cineva ar trebui să antreneze aceste autocorecturi pe mult mai multe token-uri...

Limită superioară

Clasament

Favorite