是的,我的意思是,我甚至看不出他們是怎麼賺錢的,感覺他們創造了一個受歡迎的基準,現在變成了付費贏得的遊戲,我看不出他們能夠指揮這麼多收入的其他原因,但我完全不知道客戶為什麼付錢給他們。 這開始是為了測試開放模型的氛圍,但我們最後一次嘗試進入那裡被忽視並延遲了幾個月,而在此期間,Meta正在測試數百個模型,專門優化以最大化評估,之後我們就停止提交了。我很久以前就放棄了相信lmarena是一個有用的指標,並且私下聽到來自堪薩斯的大人物說他們討厭這個東西,這讓他們的模型質量下降以擊敗它。所以,我不知道,這就是全部。
Aakash Gupta
Aakash Gupta1月7日 08:47
我對 LMArena 的看法與大多數人不同。 這裡的標題是 4 個月內達到 3000 萬美元的年經常性收入(ARR)。但我更感興趣的是其背後的商業模式。 LMArena 建立了一個感覺不可能的東西。一個眾包評估平台,成為 AI 中最大的營銷杠杆,然後找到了如何向使用它的實驗室收費的方法。 讓我來分解一下數據。 他們在 7 個月內從 6 億美元增長到 17 億美元。這是 183% 的估值增長。在 3000 萬美元的年經常性收入下,他們的交易倍數為 57 倍收入。但運行率在 4 個月內從 0 增長到 3000 萬美元。 這是每月 750 萬美元的新收入,這個類別在 18 個月前還不存在。 真正的故事是他們建立的飛輪。 3500 萬用戶來玩遊戲。兩個匿名的 AI 回應,選擇你最喜歡的。這些用戶每月產生 6000 萬次對話。這些數據成為行業中最受信任的基準。OpenAI、Google、xAI 都需要他們的模型在那個排行榜上。因此他們支付費用以獲得評估。 這是天才之舉,因為客戶也是被測試的產品。 更難的問題是這是否能持續。 Cohere、AI2、斯坦福和滑鐵盧在 4 月發表了一篇 68 頁的論文,指控 LMArena 讓 Meta 在 Llama 4 之前測試 27 種模型變體,同時隱藏最差的分數。這篇 "排行榜幻覺" 的論文基本上說比賽場地是偏向大實驗室的。 LMArena 稱這是不準確的。但 Llama 4 的情況很混亂。Meta 專門調整了一個模型以適應 Arena 的表現,登上了排行榜,然後向公眾發布了一個表現更差的不同模型。 這裡變得有趣了。 古德哈特法則說,當一個指標成為目標時,它就不再是一個好的指標。LMArena 現在是如此重要,以至於實驗室專門為其進行優化。更長的回應獲勝。要點獲勝。即使錯誤,自信也獲勝。 該平台承認了這一點。他們增加了 "風格控制" 評分以懲罰標記不當。Claude 上升了。GPT-4o-mini 下降了。 但核心緊張依然存在。 LMArena 每年從同樣的實驗室中賺取超過 3000 萬美元的收入。OpenAI、Google、xAI 是客戶。裁判是由參賽者支付的。 他們說公共排行榜是 "一項慈善事業",你不能為排名付費。我相信他們。但激勵結構是... 複雜的。 估值顯示市場認為他們可以在商業成功和感知中立性之間找到平衡。 彼得·鄧加入董事會很有趣。前 OpenAI 消費產品副總裁。現在是 Felicis 的 GP,負責這一輪。他非常清楚 Arena 排名對模型營銷的價值。 Ion Stoica 作為聯合創始人是可信度的支柱。伯克利教授,創建了 Spark 和 Ray,運營 Sky Computing Lab。這不是一個隨便的初創公司。這是由理解分佈式系統的研究人員建立的基礎設施。 在 7 個月內籌集了 2.5 億美元。團隊超過 40 人。150 個國家每月有 500 萬用戶。 評估剛剛成為一個十億美元的類別。
來自大型實驗室,而不是大堪薩斯,哈哈,我覺得有人需要在更多的標記上訓練這些自動更正…
35