DeepMind 的 AI 發明了更好的學習方式:強化學習的突破 DeepMind 的研究人員已經證明,人工智慧可以自主發現超越人類精心設計的強化學習 (RL) 演算法。 這一進展挑戰了傳統的範式,在這種範式中,RL 規則是手動設計的,為機器從經驗中演變出自己的學習策略鋪平了道路。 核心創新在於元強化學習,這是一種技術,AI 系統通過借鑒多個代理在複雜環境中導航的集體經驗來學習 *如何* 學習。 AI 不是依賴預定義的規則,而是迭代地完善更新政策和預測的新方法。在經典的 Atari 基準測試中進行測試——這是一套用於評估 RL 性能的視頻遊戲——所發現的演算法不僅超越了現有的人類設計規則,還在從未在訓練中遇到的全新挑戰任務上表現出色。 這不是一個漸進的改進,而是一個概念上的轉變。AI 可能會加速需要自適應智能的領域的進展,從機器人技術到科學發現。 通過自動化發現過程,我們可能很快會看到 AI 系統自我啟動其進步,減少對人類干預的需求,並可能導致更強大和可泛化的人工智慧。 論文: