DeepMind的AI发明了一种更好的学习方式:强化学习的突破 DeepMind的研究人员展示了人工智能可以自主发现超越人类精心设计的强化学习(RL)算法。 这一进展挑战了传统的范式,在这种范式中,RL规则是手动设计的,为机器从经验中演变出自己的学习策略铺平了道路。 核心创新在于元强化学习,这是一种技术,AI系统通过借鉴多个代理在复杂环境中导航的集体经验来学习*如何*学习。 AI不是依赖于预定义的规则,而是迭代地完善更新策略和预测的新方法。在经典的Atari基准测试中——一套用于评估RL性能的视频游戏——发现的算法不仅超越了现有的人类设计规则,还在完全新颖、具有挑战性的任务上表现出色,这些任务在训练期间从未遇到过。 这不是一个渐进的改进,而是一个概念上的转变。AI可能会加速需要自适应智能的领域的进展,从机器人技术到科学发现。 通过自动化发现过程,我们可能很快会看到AI系统自我引导其进步,减少对人类干预的需求,并可能导致更强大和更具普遍性的人工智能。 论文: