Meta的FAIR团队正在招聘一名博士后研究员! 我们专注于推理、对齐和记忆/架构(RAM)等主题。 申请链接: 地点:纽约、西雅图或门洛帕克。 以下是我们最近的一些工作,以供参考: 共同改进(职位): SPICE(语料环境中的自我游戏): 自我挑战代理: 来自人类互动的强化学习: AggLM(并行聚合): StepWiser(CoT-PRM强化学习): DARLING(多样性训练的强化学习): J1(强化学习训练的LLM作为评判者): CoT-自我指导: 多标记注意力: