一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

是的，我的意思是，我甚至看不出他們是怎麼賺錢的，感覺他們創造了一個受歡迎的基準，現在變成了付費贏得的遊戲，我看不出他們能夠指揮這麼多收入的其他原因，但我完全不知道客戶為什麼付錢給他們。這開始是為了測試開放模型的氛圍，但我們最後一次嘗試進入那裡被忽視並延遲了幾個月，而在此期間，Meta正在測試數百個模型，專門優化以最大化評估，之後我們就停止提交了。我很久以前就放棄了相信lmarena是一個有用的指標，並且私下聽到來自堪薩斯的大人物說他們討厭這個東西，這讓他們的模型質量下降以擊敗它。所以，我不知道，這就是全部。

我對 LMArena 的看法與大多數人不同。這裡的標題是 4 個月內達到 3000 萬美元的年經常性收入（ARR）。但我更感興趣的是其背後的商業模式。 LMArena 建立了一個感覺不可能的東西。一個眾包評估平台，成為 AI 中最大的營銷杠杆，然後找到了如何向使用它的實驗室收費的方法。讓我來分解一下數據。他們在 7 個月內從 6 億美元增長到 17 億美元。這是 183% 的估值增長。在 3000 萬美元的年經常性收入下，他們的交易倍數為 57 倍收入。但運行率在 4 個月內從 0 增長到 3000 萬美元。這是每月 750 萬美元的新收入，這個類別在 18 個月前還不存在。真正的故事是他們建立的飛輪。 3500 萬用戶來玩遊戲。兩個匿名的 AI 回應，選擇你最喜歡的。這些用戶每月產生 6000 萬次對話。這些數據成為行業中最受信任的基準。OpenAI、Google、xAI 都需要他們的模型在那個排行榜上。因此他們支付費用以獲得評估。這是天才之舉，因為客戶也是被測試的產品。更難的問題是這是否能持續。 Cohere、AI2、斯坦福和滑鐵盧在 4 月發表了一篇 68 頁的論文，指控 LMArena 讓 Meta 在 Llama 4 之前測試 27 種模型變體，同時隱藏最差的分數。這篇 "排行榜幻覺" 的論文基本上說比賽場地是偏向大實驗室的。 LMArena 稱這是不準確的。但 Llama 4 的情況很混亂。Meta 專門調整了一個模型以適應 Arena 的表現，登上了排行榜，然後向公眾發布了一個表現更差的不同模型。這裡變得有趣了。古德哈特法則說，當一個指標成為目標時，它就不再是一個好的指標。LMArena 現在是如此重要，以至於實驗室專門為其進行優化。更長的回應獲勝。要點獲勝。即使錯誤，自信也獲勝。該平台承認了這一點。他們增加了 "風格控制" 評分以懲罰標記不當。Claude 上升了。GPT-4o-mini 下降了。但核心緊張依然存在。 LMArena 每年從同樣的實驗室中賺取超過 3000 萬美元的收入。OpenAI、Google、xAI 是客戶。裁判是由參賽者支付的。他們說公共排行榜是 "一項慈善事業"，你不能為排名付費。我相信他們。但激勵結構是... 複雜的。估值顯示市場認為他們可以在商業成功和感知中立性之間找到平衡。彼得·鄧加入董事會很有趣。前 OpenAI 消費產品副總裁。現在是 Felicis 的 GP，負責這一輪。他非常清楚 Arena 排名對模型營銷的價值。 Ion Stoica 作為聯合創始人是可信度的支柱。伯克利教授，創建了 Spark 和 Ray，運營 Sky Computing Lab。這不是一個隨便的初創公司。這是由理解分佈式系統的研究人員建立的基礎設施。在 7 個月內籌集了 2.5 億美元。團隊超過 40 人。150 個國家每月有 500 萬用戶。評估剛剛成為一個十億美元的類別。

來自大型實驗室，而不是大堪薩斯，哈哈，我覺得有人需要在更多的標記上訓練這些自動更正…