每个人都在谈论强化学习环境。此时你可能太害怕去问了,"什么是强化学习环境"? 可以把它想象成一个代理生活的世界,其中定义了当前状态、奖励和目标。这是一种扩展智能的新方式。 定义强化学习环境最困难的部分是让上下文和动作有意义。对于大多数从业者来说,就像任何新技术一样,这一点不会。 定义观察/动作空间 + 奖励函数完全是一个数据问题... 👀