メインコンテンツへスキップ
マーケット
Meme Pump
トラッカー
シグナル
リーダーボード
スワップ
ポートフォリオ
紹介
さらに見る
商品
DeFi
マケプレ
インサイトハブ
エコシステム案内所
セキュリティ
開発者向け
X Layer
X Layer について学ぶ
X Layer エクスプローラー
チェーン間取引
開発者向けテクニカルドキュメント
テストネットフォーセット
GitHub
ウォレット API
ウォレット API を発見する
API ドキュメント
API キーを管理する
ブロックチェーンエクスプローラー
DAppでウォレットを連携する
Boost
X Launch
参加してトークンを獲得しよう
プロジェクト特典
タスクを完了してエアドロップを手に入れよう
取引コンペティション
トレンドのトークンを取引して賞金を獲得しよう
報酬センター
ボーナスとエアドロップを受け取る
アラート
言語
通貨
OKX ウォレットをダウンロード
Web3 の詳細
お知らせ
戻る
日本語
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
Norsk (bokmål)
Suomi
Svenska
戻る
戻る
詳しく知る
サポートセンター
What can I do with Discover
トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
Hosico
+2.57%
USELESS
+1.79%
IKUN
+3.17%
gib
+11.24%
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
Bonk
+2.34%
ALON
+22.16%
LAUNCHCOIN
-4.16%
GOONC
-2.8%
KLED
+25.92%
#
Boop.Fun leading the way with a new launchpad on Solana.
BOOP
-3.52%
Boopa
-15.03%
PORK
+6.93%
Profile
Ethan Mollick
Ethan Mollick
2時間前
AIは芸術の全体系で訓練されているので、デザインの歴史について自分で知っていると役立ちます。 こちらは「自由意志の概念を宣伝するポスター」で、サクプラカット風、1970年代ポーランド映画のポスター風、構成主義、国際タイポグラフィスタイルで表現されています
5.48K
79
Ethan Mollick
15時間前
「巨大なグーグリーアイズを何にでも加えるのがファッションの頂峰とされる世界のホームデコマガジンのページ」
12.19K
162
Ethan Mollick
18時間前
まだ全文を読んでおらず、まだ公開されていないので詳細はわかりませんが、LLMが審査員としてより厳密な方法論的厳密さを適用しているのを見るのは嬉しいことです。LLM評価は多くのベンチマークの中心であり、明確な統計的検証なしに使われることも多いです。
Kangwook Lee
11月26日 05:56
LLMは、テストセットなしで機能し、答えが一意でない場合にも対応できるため、審査員としてのモデルの課題解決能力を評価する主要な方法となっています。 しかし、この方法が広く使われているにもかかわらず、報告されたほとんどの結果は非常に偏っています。 裁判官としてLLMを正しく活用する方法についてのプレプリントを共有できることを楽しみにしています。 🧵 === では、実際に人々は裁判官としてどのようにLLMを活用しているのでしょうか? ほとんどの人はLLMを評価者として使い、LLMが答えが正しいと言う経験的な確率を報告します。 LLMが完璧であれば問題なく機能し、偏りのない推定量が得られます。 LLMが完璧でなければ、このシステムは壊れます。 LLMが80%の確率で正しく評価するケースを考えてみましょう。 より具体的には、答えが正解であればLLMは80%の確率で「これは正しい」と言い、実際に誤りでも同じ80%の確率が適用されます。 この場合、経験的確率は偏っているため報告すべきではありません。なぜでしょうか。 テストモデルが正しい真の確率をpとします。 このとき、LLMが「正しい」と言う経験的確率(=q)は次の通りです q = 0.8p + 0.2(1 - p) = 0.2 + 0.6p したがって、偏りのない推定値は次のようになります (q - 0.2) / 0.6 誤差パターンが非対称であったり、誤差率を事前に知らない場合、さらに興味深いです。 === では、これはどういう意味なのでしょうか? まず、プレプリントの推奨ガイドラインに従いましょう。 無料の昼食なんてない。あなたのモデルの良さを評価するには、LLMが審査に完璧であることが知られている場合のみです。 完璧な評価者にどれだけ近いかによっては、評価者の誤差率を推定するのに十分なテストセット(=校正セット)が必要であり、その後それを補正しなければなりません。 第二に、非常に残念ながら、過去数年の論文で見られた多くの発見を再検討する必要があります。 同じLLMを審査員として使った論文が二本でなければ、結果を比較すると誤った主張が生まれる可能性があります。改善は評価の流れを少し変えるだけでも得られるかもしれません。厳密なメタ研究が緊急に必要とされています。 === 要約: (1) 過去数年のLLMアジャッジ評価のほとんどは偏った推定量で報告されていました。 (2) 修正は簡単なので、フルプレプリントまでお待ちください。 (3) 多くのLLMの判事としての結果は、話半分に受け止めるべきです。 数日後に完全なプレプリントが公開されますので、どうぞご期待ください! 私の学生や協力者たちの素晴らしい仕事です。 @chungpa_lee @tomzeng200 @jongwonjeong123と@jysohn1108
22.15K
126
トップ
ランキング
お気に入り