トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
私のLMArenaに対する見解は多くの人とは違います。
ここでの見出しは、4か月で3,000万ドルのARRだ。しかし、私はむしろその下にあるビジネスモデルに興味があります。
LMArenaは不可能に感じるものを作り上げました。クラウドソースによる評価プラットフォームで、AIにおける最大のマーケティングレバーとなり、それを使ってラボに料金を課す方法を見つけ出しました。
計算を分解させてください。
7か月で6億ドルから17億ドルに膨れ上がりました。これは183%の評価成長率です。ARRは3,000万ドルで、売上高は57倍です。しかしランレートは4か月で0ドルから3000万ドルに上昇しました。
これは18ヶ月前には存在しなかったカテゴリーで、月間750万ドルの新規収益に相当します。
本当の物語は彼らが作ったフライホイールです。
3500万人のユーザーがゲームをプレイするために集まります。匿名のAI回答が2つあります。お気に入りを選んでください。これらのユーザーは月に6,000万件の会話を生み出しています。そのデータは業界で最も信頼されるベンチマークとなります。OpenAI、Google、xAIは、自分たちのモデルがリーダーボードに載ることを望んでいます。つまり、評価を受けるために支払っているのです。
これは天才的で、顧客はテスト対象の製品でもあります。
より難しい問題は、これが成り立つかどうかです。
Cohere、AI2、スタンフォード、ウォータールーは4月に68ページの論文を発表し、LMArenaがLlama 4の前に27のモデルバリアントをテストさせ、最悪のスコアを隠していると非難しました。「リーダーボード・イリュージョン」という論文は、競争の場が大規模な研究所に有利に仕組まれていると言っていました。
LMArenaはそれを不正確だと指摘しました。しかし、ラマ4の件は混乱していました。MetaはArenaのパフォーマンス専用モデルをチューニングし、リーダーボードでトップに立ちましたが、その後、パフォーマンスが悪い別のモデルを一般向けにリリースしました。
ここからが興味深いところです。
グッドハートの法則は、ある措置が標的になった時点で、それは良い措置ではなくなると言っています。LMArenaは今や非常に重要で、ラボはそれに特化して最適化しています。長い回答が勝ちます。ポイントが勝ちます。間違っても自信は勝つ。
プラットフォームもこれを認めました。彼らはマークダウンの不当さにペナルティを与えるために「スタイルコントロール」スコアを追加しました。クロードが前に出た。GPT-40-miniは下に移動しました。
...
トップ
ランキング
お気に入り
