DeepMind の AI がより良い学習方法を発明: 強化学習のブレークスルー DeepMind の研究者らは、人工知能が人間が細心の注意を払って作成したアルゴリズムよりも優れた強化学習 (RL) アルゴリズムを自律的に発見できることを実証しました。 この進歩は、RL ルールが手動で設計される従来のパラダイムに挑戦し、機械が経験のみから独自の学習戦略を進化させる道を開きます。 中核となるイノベーションは、AI システムが複雑な環境をナビゲートする複数のエージェントの集合的な経験から学習する「方法」を学習する技術であるメタ強化学習にあります。 AI は、事前定義されたルールに依存するのではなく、ポリシーと予測を更新するための新しい方法を繰り返し改良します。RL のパフォーマンスを評価するために使用される一連のビデオ ゲームである古典的な Atari ベンチマークでテストしたところ、発見されたアルゴリズムは、既存の人間が設計したルールを上回っただけでなく、トレーニング中に遭遇したことのないまったく新しい困難なタスクでも優れていました。 段階的な改善ではなく、概念の変化です。AI は、ロボット工学から科学的発見に至るまで、適応知能を必要とする分野の進歩を加速する可能性があります。 発見プロセスを自動化することで、AI システムが独自の進歩をブートストラップし、人間の介入の必要性を減らし、より堅牢で一般化可能な人工知能につながる可能性があります。 紙: