我們在Meta的FAIR團隊正在招聘一名博士後研究員! 我們的研究主題包括推理、對齊和記憶/架構(RAM)。 在這裡申請: 地點:紐約、西雅圖或門洛帕克。 以下是我們最近的一些工作,供您參考: 共同改進(職位): SPICE(語料環境中的自我遊玩): 自我挑戰代理: 來自人類互動的強化學習: AggLM(並行聚合): StepWiser(CoT-PRM強化學習): DARLING(多樣性訓練的強化學習): J1(強化學習訓練的LLM作為評判): CoT-自我指導: 多標記注意力: