一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我對 LMArena 的看法與大多數人不同。這裡的標題是 4 個月內達到 3000 萬美元的年經常性收入（ARR）。但我更感興趣的是其背後的商業模式。 LMArena 建立了一個感覺不可能的東西。一個眾包評估平台，成為 AI 中最大的營銷杠杆，然後找到了如何向使用它的實驗室收費的方法。讓我來分解一下數據。他們在 7 個月內從 6 億美元增長到 17 億美元。這是 183% 的估值增長。在 3000 萬美元的年經常性收入下，他們的交易倍數為 57 倍收入。但運行率在 4 個月內從 0 增長到 3000 萬美元。這是每月 750 萬美元的新收入，這個類別在 18 個月前還不存在。真正的故事是他們建立的飛輪。 3500 萬用戶來玩遊戲。兩個匿名的 AI 回應，選擇你最喜歡的。這些用戶每月產生 6000 萬次對話。這些數據成為行業中最受信任的基準。OpenAI、Google、xAI 都需要他們的模型在那個排行榜上。因此他們支付費用以獲得評估。這是天才之舉，因為客戶也是被測試的產品。更難的問題是這是否能持續。 Cohere、AI2、斯坦福和滑鐵盧在 4 月發表了一篇 68 頁的論文，指控 LMArena 讓 Meta 在 Llama 4 之前測試 27 種模型變體，同時隱藏最差的分數。這篇 "排行榜幻覺" 的論文基本上說比賽場地是偏向大實驗室的。 LMArena 稱這是不準確的。但 Llama 4 的情況很混亂。Meta 專門調整了一個模型以適應 Arena 的表現，登上了排行榜，然後向公眾發布了一個表現更差的不同模型。這裡變得有趣了。古德哈特法則說，當一個指標成為目標時，它就不再是一個好的指標。LMArena 現在是如此重要，以至於實驗室專門為其進行優化。更長的回應獲勝。要點獲勝。即使錯誤，自信也獲勝。該平台承認了這一點。他們增加了 "風格控制" 評分以懲罰標記不當。Claude 上升了。GPT-4o-mini 下降了。 ...