我们知道离线训练——预训练,dpo……数据是提前明确的。 我们也知道在线训练——ppo,grpo……数据是在训练过程中构建的。 新:Humanline训练——任何数据(离线/在线)被塑造成匹配人类感知→可以以更低的成本实现在线性能