Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Моє розуміння LMArena відрізняється від більшості. Заголовок тут — $30 млн ARR за 4 місяці. Але мене більше цікавить бізнес-модель, що лежить під ним. LMArena створила щось, що здається неможливим. Краудсорсингова платформа оцінювання, яка стала найбільшим маркетинговим важелем у сфері ШІ, а потім знайшла спосіб заряджати лабораторії за її даними. Дозвольте розкласти математику. Вони зросли з $600 млн до $1,7 млрд за 7 місяців. Це зростання оцінки на 183%. З доходом у $30 млн ARR вони торгуються з доходом у 57 разів. Але темп пробігу зріс з $0 до $30 млн за 4 місяці. Це $7,5 млн НОВИХ доходів на місяць у категорії, якої не було 18 місяців тому. Справжня історія — це маховик, який вони побудували. 35 мільйонів користувачів приходять грати в гру. Дві анонімні AI-відповіді — оберіть улюблену. Ці користувачі генерують 60 мільйонів розмов на місяць. Ці дані стають найнадійнішим еталоном у галузі. OpenAI, Google, xAI — усі потребують своїх моделей у цій таблиці лідерів. Тож вони ПЛАТЯТЬ за оцінку. Це геніально, бо клієнти — це також продукт, який тестується. Складніше питання — чи це витримає. Cohere, AI2, Stanford і Waterloo у квітні опублікували 68-сторінкову статтю, в якій звинуватили LMArena у тому, що вона дозволила Meta тестувати 27 варіантів моделей перед Llama 4, приховуючи найгірші результати. Стаття «Ілюзія лідерборду» фактично стверджувала, що умови були налаштовані на користь великих лабораторій. LMArena назвала це неточним. Але ситуація з Llama 4 була заплутаною. Meta налаштувала модель спеціально для продуктивності Arena, очолила лідербаорд, а потім випустила іншу модель для публіки, яка показала гірші результати. Ось де виникає переплетення. Закон Гудхарта каже, що коли міра стає ціллю, вона перестає бути хорошою мірою. LMArena тепер НАСТІЛЬКИ важлива, що лабораторії спеціально оптимізують для неї. Довші відповіді — це перемога. Пункти перемагають. Впевненість перемагає, навіть коли помиляється. Платформа це визнала. Вони додали систему «контролю стилю», щоб покарати за markdown slop. Клод піднявся вгору. GPT-4o-mini опустився. ...

Найкращі

Рейтинг

Вибране