トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
小さなモデルは、まったく間違った理由で正しいこともあります。
精度指標は、モデルが正解を得たことを示しています。理由が正当かどうかは教えてくれません。自律エージェントにとって、この区別は非常に重要です。
この新しい研究は、7〜9Bパラメータモデルの正解のうち50〜69%が根本的に誤った推論を含んでいることを明らかにしています。研究者たちはこれを「正しい理由で間違った理由を取る」現象と呼んでいます。
財務的な計算を考えてみましょう。モデルは「12」に「80の15%は何?」と答えます。しかし、その推論では0.15ではなく0.2倍であることが示されています。出力は正しいです。論理は壊れています。導入時には、こうした隠れた失敗が壊滅的に重なっていきます。
この研究は、Llama-3-8B、Mistral-7B、Qwen-2.5-7Bにわたる10,734件の推論痕跡を数学、マルチホップQA、常識課題で分析しました。彼らは、最終的な出力だけでなく各ステップを評価するプロセスベースの指標である推論整合性スコア(RIS)を導入します。
RAGは中〜大効果量(コーエンのd = 0.23-0.93)で推論の完全性を一貫して改善します。これは、外部の足場を提供し、計算を取得した証拠に基づいて行うことで、計算誤差を7.6%削減します。
しかし驚くべき発見があります。自己批判と検証の促しはパフォーマンスに積極的に悪影響を及ぼします(d = -0.14から-0.33)。研究者たちはこれを「疑似反射」と呼んでいます。小規模モデルには本物のメタ認知能力が欠けています。論理を批判するよう促されても、実際には振り返りません。彼らは反射のように見える文章を作り、もっともらしいが誤った正当化を作り出します。
展開を可能にするために、検証機能を軽量なニューラル分類器に凝縮し、LLMジャッジに比べて100倍の高速化で0.86 F1を実現しました。これによりリアルタイムの信頼評価が実用的になります。
ここでの教訓は、精度だけでは小型モデルエージェントを展開するには危険なほど不十分だということです。プロセスベースの検証は標準的な安全層となる必要があります。
論文:
私たちのアカデミーで効果的なAIエージェントの構築方法を学びましょう:

トップ
ランキング
お気に入り
