トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
だから死を選ぶんだ

オブジェクトレベルで応答すること@TheZvi
技術的には、DSAはジェミニスケールのコンテキストを前世代モデルでも簡単に安価にする大きな飛躍かもしれません。注意 事項:
- 1M+にスケールできるかどうかは不明ですが(ただし、同じ事前訓練にもかかわらずV3.2の経験値≥V3.1、V3.2>>の経験値は高いので、非常に高い確率で可能です)
- 密集した注意からブートストラップなしで訓練する方法はわからない。もしかしたらDeepSeekは知っているかもしれません。V4はDSAを使わないと思います。明確にプロトタイプと呼ばれています。最悪の場合、全注意を集中して事前学習するのも賢明です => extend => sparsify(スパーシファイ)。これにより、推論を永続的に安くするために事前訓練のコストが増えます。
- KimiのKDAやQwenのGDN+などは、DSA+/NSA+よりも優れているかもしれません
これらの注意点を踏まえると、これは2倍の値下げではありません。皮肉を言っているだけです。むしろ10倍くらいです。劣化しないまばらな注意はかなり大きな問題です。
速度に関しては、モデルの観点からは空虚なポイントです。DeepSeekは最高の製品を提供することには関心がありません。H800やAscendsから大量生産で運用されています。アメリカのハードウェアで60〜150 t/sを出したり、CerebrasでGLMのような1000 t/sを出せばコストが大きく上がらない。このアーキテクチャは本質的に高速(浅く、安易な注意)ですが、DeepSeekはそれをゆっくりと提供しているだけです。
フロンティアインテリジェンスについて言えば、フロンティアの「ユースマックス」の利点――主にエージェントコーディングですが、同じようにより多くのドメインをカバーすることも可能です――は、強化学習ステップや合成環境を反復する計算費の産物です。レシピは持っています。彼らはSpecialeにかかる事前研修費用の≈10%を報告しています。それは≈60万ドルだ。Grok 4はGrok 3の100%、つまり数千億人を使い果たしたと報告されています。Grokでは明らかに非常に非効率でしたが、DeepSeekなら簡単に100%にできると思います。レシピは知られています。彼らは、知識のボトルネックが依然として存在しているため、時代遅れの基地に無駄遣いしたくないのでしょう。
IMOグレードの数学成績(あるいはエルドス問題をゼロショットで解くと人間の解答者が「はい、それが基本的に私の解法です」と言うレベル)に対する軽率な態度は面白いです。私たちは皆、独立した数学研究からAGIを期待すべきではなかったのでしょうか。それとも今はコーディングだけなのでしょうか。おそらく、離陸速度を推定する最も興味深い機能はそれでしょう。でもまあ、私はゆっくり離陸するのが好きだと思いますし、自己改善はどこから始めても物流的な問題に直面するものです。
ここでの主な貢献は、先ほど述べたように、彼らは根本的に2025年末のフロンティア型LLMのトレーニングを研究プログラムとして解決し、より多くの計算量を投入(トークン効率に関する小さな調整を加える)だけで現在の西洋レベル、あるいはそれ以上のレベルに到達できると発表したことです。理論的には、最終的に大規模な訓練に取り組むと発表したことは「そして今まさにそれをやっている」と解釈できます。しかし、それはまだ分からない。
@TheZvi >同じ事前訓練を受けているにもかかわらず
および訓練後の矯正
3.6K
トップ
ランキング
お気に入り

