スタンフォード大学CS 25での私の講義「LLM推論」のスライド: キーポイント: 1. LLM における推論とは、最終的な答えを生成する前に一連の中間トークンを生成することを意味します。これが人間の推論に似ているかどうかは関係ありません。重要な洞察は、トランスフォーマー モデルは、モデル サイズをスケーリングする必要がなく、多くの中間トークンを生成することでほぼ任意に強力になる可能性があるということです ( 2. 事前トレーニング済みのモデルは、微調整を行わなくても推論が可能です。課題は、推論ベースの出力が出力分布の先頭に表示されないことが多いため、標準的な貪欲なデコードでは出力を表面化できないことです ( 3. 推論を引き出すために、プロンプト手法 (思考連鎖プロンプトや「段階的に考えてみましょう」など) と教師ありの微調整が一般的に使用されました。現在、RL の微調整が最も強力な方法として浮上しています。このトリックは、いくつかの研究所によって独自に発見されました。Google では、私のチームの Jonathan Lai のおかげです。私たちの理論(ポイント1を参照)に基づいて、RLのスケーリングは、他のものではなく、長い応答を生成することに重点を置く必要があります。 4. LLM の推論は、単一の応答 (
177.29K