我對 LMArena 的看法與大多數人不同。 這裡的標題是 4 個月內達到 3000 萬美元的年經常性收入(ARR)。但我更感興趣的是其背後的商業模式。 LMArena 建立了一個感覺不可能的東西。一個眾包評估平台,成為 AI 中最大的營銷杠杆,然後找到了如何向使用它的實驗室收費的方法。 讓我來分解一下數據。 他們在 7 個月內從 6 億美元增長到 17 億美元。這是 183% 的估值增長。在 3000 萬美元的年經常性收入下,他們的交易倍數為 57 倍收入。但運行率在 4 個月內從 0 增長到 3000 萬美元。 這是每月 750 萬美元的新收入,這個類別在 18 個月前還不存在。 真正的故事是他們建立的飛輪。 3500 萬用戶來玩遊戲。兩個匿名的 AI 回應,選擇你最喜歡的。這些用戶每月產生 6000 萬次對話。這些數據成為行業中最受信任的基準。OpenAI、Google、xAI 都需要他們的模型在那個排行榜上。因此他們支付費用以獲得評估。 這是天才之舉,因為客戶也是被測試的產品。 更難的問題是這是否能持續。 Cohere、AI2、斯坦福和滑鐵盧在 4 月發表了一篇 68 頁的論文,指控 LMArena 讓 Meta 在 Llama 4 之前測試 27 種模型變體,同時隱藏最差的分數。這篇 "排行榜幻覺" 的論文基本上說比賽場地是偏向大實驗室的。 LMArena 稱這是不準確的。但 Llama 4 的情況很混亂。Meta 專門調整了一個模型以適應 Arena 的表現,登上了排行榜,然後向公眾發布了一個表現更差的不同模型。 這裡變得有趣了。 古德哈特法則說,當一個指標成為目標時,它就不再是一個好的指標。LMArena 現在是如此重要,以至於實驗室專門為其進行優化。更長的回應獲勝。要點獲勝。即使錯誤,自信也獲勝。 該平台承認了這一點。他們增加了 "風格控制" 評分以懲罰標記不當。Claude 上升了。GPT-4o-mini 下降了。 ...