熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
在與 @JeffDean 的走廊討論中,有幾個要點引起了我的注意:
1. 在部署時使用用戶偏好的強化學習/微調可能是危險的,因為我們無法控制代理的行為。
2. 我們需要新的前訓練範式,以促進代理的持續學習。
3. 不過,谷歌並沒有看到當前前訓練擴展法則的放緩。
以上所有要點並不是互相排斥的。我們需要更多的實地技術討論,而不是僅僅瀏覽標題。

熱門
排行
收藏
