每個人都在談論強化學習環境。此時你可能太害怕去問了,"什麼是強化學習環境"? 可以把它想像成一個代理生活的世界,其中定義了當前狀態、獎勵和目標。這是一種擴展智能的新方式。 定義強化學習環境最困難的部分是讓上下文和動作有意義。對於大多數從業者來說,就像任何新技術一樣,這一點不會。 定義觀察/動作空間 + 獎勵函數完全是一個數據問題... 👀
15.94K