メインコンテンツへスキップ
マーケット
Meme Pump
トラッカー
シグナル
リーダーボード
スワップ
ポートフォリオ
紹介
さらに見る
商品
DeFi
マケプレ
インサイトハブ
エコシステム案内所
セキュリティ
開発者向け
X Layer
X Layer について学ぶ
X Layer エクスプローラー
チェーン間取引
開発者向けテクニカルドキュメント
テストネットフォーセット
GitHub
ウォレット API
ウォレット API を発見する
API ドキュメント
API キーを管理する
ブロックチェーンエクスプローラー
DAppでウォレットを連携する
Boost
X Launch
参加してトークンを獲得しよう
プロジェクト特典
タスクを完了してエアドロップを手に入れよう
取引コンペティション
トレンドのトークンを取引して賞金を獲得しよう
報酬センター
ボーナスとエアドロップを受け取る
アラート
言語
通貨
OKX ウォレットをダウンロード
Web3 の詳細
お知らせ
戻る
日本語
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
Norsk (bokmål)
Suomi
Svenska
戻る
戻る
詳しく知る
サポートセンター
What can I do with Discover
トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
Hosico
+18.95%
USELESS
+21.33%
IKUN
+3.63%
gib
-0.75%
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
Bonk
+9.88%
ALON
+8.36%
LAUNCHCOIN
+0.03%
GOONC
+5.68%
KLED
-5.08%
#
Boop.Fun leading the way with a new launchpad on Solana.
BOOP
+2.41%
Boopa
+11.57%
PORK
+7.1%
Profile
Dwarkesh Patel
Dwarkesh Patel
19時間前
明日
1.13M
13.21K
Dwarkesh Patel
11月19日 01:52
「私たちの合格率フレームワークは、なぜ自己プレイがRLの歴史において非常に生産的だったのかを直感的に理解させてくれます。もし自分とほぼ同じくらいの実力を持つプレイヤーと競うなら、合格率は50%前後でバランスを取ることになり、ランダムな二進変数から得られる部分がピークを出します。」
Dwarkesh Patel
11月18日 01:09
新しいブログ記事です。最近、RLで単一のサンプルを取得するのに事前学習よりもはるかに多くの計算が必要だと話されています。 しかし、これは問題の半分に過ぎません。 強化学習では、その高価なサンプルは通常、ビット数が大幅に減っています。 これはRLVRのスケーリング効果に影響を与え、自己プレイやカリキュラム学習がなぜ強化学習に非常に役立つのか、強化学習モデルがなぜ奇妙にギザギザしているのか、そして人間が何を違うかを考える助けとなります。 以下にリンクがあります。
35.14K
139
Dwarkesh Patel
11月19日 00:49
RLVRによって引き起こされる極端なギザギザはどのように説明しますか? なぜ、コーディングコンペティションで世界クラスのモデルを持ちながら、コードベース全体に非常に予見可能なバグや技術的な負債を残してしまうのでしょうか?
Dwarkesh Patel
11月18日 01:09
新しいブログ記事です。最近、RLで単一のサンプルを取得するのに事前学習よりもはるかに多くの計算が必要だと話されています。 しかし、これは問題の半分に過ぎません。 強化学習では、その高価なサンプルは通常、ビット数が大幅に減っています。 これはRLVRのスケーリング効果に影響を与え、自己プレイやカリキュラム学習がなぜ強化学習に非常に役立つのか、強化学習モデルがなぜ奇妙にギザギザしているのか、そして人間が何を違うかを考える助けとなります。 以下にリンクがあります。
32.91K
136
トップ
ランキング
お気に入り