Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Так, для мене я навіть не бачу, як вони заробляють гроші, здається, що вони зробили орієнтир, який став популярним, і тепер це pay to win, я не бачу іншої причини, чому вони могли б отримувати такий дохід, але я не маю деталей, за що клієнти їм платять.
Спочатку це був спосіб тестувати відкриті моделі для вайбу, але наша остання спроба потрапити туди була проігнорована і відкладена місяцями, поки Meta тестувала сотні моделей, щоб оптимізувати саме максимальні оцінки, і після цього ми просто перестали подавати заявки. Я давно перестав вірити, що lmarena — корисна метрика, і чув приватно від великих штатів Канзасу, що вони ненавидять цю модель, що вона змушує їхні моделі знижувати якість, щоб її перевершити. Отже, не знаю, це все

7 січ., 08:47
Моє розуміння LMArena відрізняється від більшості.
Заголовок тут — $30 млн ARR за 4 місяці. Але мене більше цікавить бізнес-модель, що лежить під ним.
LMArena створила щось, що здається неможливим. Краудсорсингова платформа оцінювання, яка стала найбільшим маркетинговим важелем у сфері ШІ, а потім знайшла спосіб заряджати лабораторії за її даними.
Дозвольте розкласти математику.
Вони зросли з $600 млн до $1,7 млрд за 7 місяців. Це зростання оцінки на 183%. З доходом у $30 млн ARR вони торгуються з доходом у 57 разів. Але темп пробігу зріс з $0 до $30 млн за 4 місяці.
Це $7,5 млн НОВИХ доходів на місяць у категорії, якої не було 18 місяців тому.
Справжня історія — це маховик, який вони побудували.
35 мільйонів користувачів приходять грати в гру. Дві анонімні AI-відповіді — оберіть улюблену. Ці користувачі генерують 60 мільйонів розмов на місяць. Ці дані стають найнадійнішим еталоном у галузі. OpenAI, Google, xAI — усі потребують своїх моделей у цій таблиці лідерів. Тож вони ПЛАТЯТЬ за оцінку.
Це геніально, бо клієнти — це також продукт, який тестується.
Складніше питання — чи це витримає.
Cohere, AI2, Stanford і Waterloo у квітні опублікували 68-сторінкову статтю, в якій звинуватили LMArena у тому, що вона дозволила Meta тестувати 27 варіантів моделей перед Llama 4, приховуючи найгірші результати. Стаття «Ілюзія лідерборду» фактично стверджувала, що умови були налаштовані на користь великих лабораторій.
LMArena назвала це неточним. Але ситуація з Llama 4 була заплутаною. Meta налаштувала модель спеціально для продуктивності Arena, очолила лідербаорд, а потім випустила іншу модель для публіки, яка показала гірші результати.
Ось де виникає переплетення.
Закон Гудхарта каже, що коли міра стає ціллю, вона перестає бути хорошою мірою. LMArena тепер НАСТІЛЬКИ важлива, що лабораторії спеціально оптимізують для неї. Довші відповіді — це перемога. Пункти перемагають. Впевненість перемагає, навіть коли помиляється.
Платформа це визнала. Вони додали систему «контролю стилю», щоб покарати за markdown slop. Клод піднявся вгору. GPT-4o-mini опустився.
Але основна напруга залишається.
LMArena заробляє $30M+ на рік у тих самих лабораторіях, які вона оцінює. OpenAI, Google, xAI — це клієнти. Арбітр отримує оплату від гравців.
Вони кажуть, що публічний лідерборд — це «благодійна організація», і за розміщення не можна платити. Я їм вірю. Але структура стимулів така... складно.
Оцінка стверджує, що ринок вважає, що може балансувати між комерційним успіхом і уявною нейтральністю.
Приєднання Пітера Денга до ради — це цікаво. Колишній віце-президент з споживчих продуктів у OpenAI. Тепер GP у Felicis лідирує в цьому раунді. Він точно знає, наскільки цінним є розміщення Arena для маркетингу моделей.
Іон Стойка як співзасновник є опорою авторитету. Професор Берклі, створений Spark and Ray, керує Sky Computing Lab. Це не випадковий стартап. Це інфраструктура, створена дослідниками, які розуміють розподілені системи.
$250 млн зібрано за 7 місяців. Команда з 40+. 5 мільйонів користувачів щомісяця у 150 країнах.
Оцінка стала категорією на мільярд доларів.
З великих лабораторій, а не з Великого Канзасу, лол, думаю, хтось має навчити ці автокорекції на набагато більшій кількості жетонів...
3
Найкращі
Рейтинг
Вибране
