熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我們在Meta的FAIR團隊正在招聘一名博士後研究員!
我們的研究主題包括推理、對齊和記憶/架構(RAM)。
在這裡申請:
地點:紐約、西雅圖或門洛帕克。
以下是我們最近的一些工作,供您參考:
共同改進(職位):
SPICE(語料環境中的自我遊玩):
自我挑戰代理:
來自人類互動的強化學習:
AggLM(並行聚合):
StepWiser(CoT-PRM強化學習):
DARLING(多樣性訓練的強化學習):
J1(強化學習訓練的LLM作為評判):
CoT-自我指導:
多標記注意力:
熱門
排行
收藏
