熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我對 LMArena 的看法與大多數人不同。
這裡的標題是 4 個月內達到 3000 萬美元的年經常性收入(ARR)。但我更感興趣的是其背後的商業模式。
LMArena 建立了一個感覺不可能的東西。一個眾包評估平台,成為 AI 中最大的營銷杠杆,然後找到了如何向使用它的實驗室收費的方法。
讓我來分解一下數據。
他們在 7 個月內從 6 億美元增長到 17 億美元。這是 183% 的估值增長。在 3000 萬美元的年經常性收入下,他們的交易倍數為 57 倍收入。但運行率在 4 個月內從 0 增長到 3000 萬美元。
這是每月 750 萬美元的新收入,這個類別在 18 個月前還不存在。
真正的故事是他們建立的飛輪。
3500 萬用戶來玩遊戲。兩個匿名的 AI 回應,選擇你最喜歡的。這些用戶每月產生 6000 萬次對話。這些數據成為行業中最受信任的基準。OpenAI、Google、xAI 都需要他們的模型在那個排行榜上。因此他們支付費用以獲得評估。
這是天才之舉,因為客戶也是被測試的產品。
更難的問題是這是否能持續。
Cohere、AI2、斯坦福和滑鐵盧在 4 月發表了一篇 68 頁的論文,指控 LMArena 讓 Meta 在 Llama 4 之前測試 27 種模型變體,同時隱藏最差的分數。這篇 "排行榜幻覺" 的論文基本上說比賽場地是偏向大實驗室的。
LMArena 稱這是不準確的。但 Llama 4 的情況很混亂。Meta 專門調整了一個模型以適應 Arena 的表現,登上了排行榜,然後向公眾發布了一個表現更差的不同模型。
這裡變得有趣了。
古德哈特法則說,當一個指標成為目標時,它就不再是一個好的指標。LMArena 現在是如此重要,以至於實驗室專門為其進行優化。更長的回應獲勝。要點獲勝。即使錯誤,自信也獲勝。
該平台承認了這一點。他們增加了 "風格控制" 評分以懲罰標記不當。Claude 上升了。GPT-4o-mini 下降了。
...
熱門
排行
收藏
