有名なポッドキャストブロガーのドワーケシュ・パテルは最近、AKとのインタビューに応じ、次のように説明しています。 私にとって最も興味深いのは、大規模言語モデル (LLM) が人間のように学習できない理由を説明する Andrej Karpathy (「Kashen」と呼ばれる AI 専門家) でした。 案の定、Kashenは強化学習(RL)を説明するために、「ストローで教師ありデータを吸収する」という特に鮮やかな言葉を作り出しました。 これはどういう意味ですか? つまり、試みが成功した場合 (AI がチェスのゲームに勝つなど)、 「勝った」ことに対する最終的な報酬は、そのステップと生成するすべての単語に均等に分散されます。 途中のステップの一部が間違っていたり、無関係だったりしても、最終結果が正しい限り、これらのステップはすべてアルゴリズムによって「追加」されます。 > 「人間は強化学習を使わないと以前にも言いました。 人間は全然違う学習方法だと思います。 強化学習は、一般の人が考えるよりもはるかに悪いです。 集中的な学習は最悪です。 ただ、以前に持っていた他のアルゴリズムはそれよりもはるかに悪かっただけです。 ” では、人間はどのように学習するのでしょうか? > 「私にとって、頭の中で『合成データ生成』をさせるための一連の『プロンプト』である本を読みました。 本当に知識を得るには、この情報を積極的に活用する必要があります。 ただし、大規模言語モデル (LLM) には対応するメカニズムがありません。 彼らは本当にそんなことはしません。 ” > 「モデルの事前トレーニング段階で、モデルが読み取った内容を「熟考」し、すでに知っているものと「一致」させようとするリンクが欲しいです。 現在、そのようなメカニズムはまったくありません。 これはまだ研究段階にあります。 ” では、なぜ今、この種の「思考」トレーニングを大規模言語モデルに追加できないのでしょうか? > 「これには非常に微妙で理解できない理由があり、それがそれほど単純ではありません。 モデルに本について「考え」、合成データを生成してもらうと、一見すると「これは素晴らしい!」と思うでしょう。 なぜトレーニングに使えないのですか? 試してみることもできますが、これを続けると、モデルのパフォーマンスは実際に悪くなります。 ” > 「本の一章を取り上げて、大規模な言語モデルに「考える」ように頼んだとします。 それはあなたに非常に合理的に見える段落を与えるでしょう。 しかし、10回答えてもらうと、その10回の答えはほぼ同じであることがわかります。 ” > 「これらのモデルからは、人間の思考の豊かさ、多様性、『エントロピー』(この場合は思考の混沌と創造性)は得られません。 人のようにいろいろと突飛なアイデアを浮かべることはできません。 では、モデルが「崩壊」する傾向がある(つまり、答えが単一になり、多様性が欠けることを意味します)場合、合成データはどのように機能し、この「エントロピー」を維持できるのでしょうか? これはまだ研究上の問題です。 ” では、人間はこの「思考の崩壊」をどうやって回避できるのでしょうか。 > (人とモデルの類推の)アイデアは驚くほど良いです。 人間は自分の人生の中で、実際に「崩壊」します。 子供たちはまだ「オーバーフィット」(硬直した思考を指し、特定のパターンにのみ適応することを指します)。 彼らはあなたに衝撃を与えるようなことを言うでしょう。 それは、彼らがまだ「崩壊」していないからです。 しかし、私たち大人は「崩壊」しました。 私たちは同じことを何度も繰り返し考え、自分の言うことがますます収束し、学習率が低下し、「崩壊」がどんどんひどくなり、最終的にはすべてが劣化します。 ” 実際、興味深い論文(エリック・ホエルの「過剰適合した脳」)は、人間の夢機能の進化は、私たちが「一般化」(推論を導き出す能力)を向上させ、日々の学習によってもたらされる「過剰適合」に抵抗するのに役立つことを示唆しています。 ...