在與 @JeffDean 的走廊討論中,有幾個要點引起了我的注意: 1. 在部署時使用用戶偏好的強化學習/微調可能是危險的,因為我們無法控制代理的行為。 2. 我們需要新的前訓練範式,以促進代理的持續學習。 3. 不過,谷歌並沒有看到當前前訓練擴展法則的放緩。 以上所有要點並不是互相排斥的。我們需要更多的實地技術討論,而不是僅僅瀏覽標題。