我們知道離線訓練——預訓練、dpo……數據是提前明確的。 我們也知道在線訓練——ppo、grpo……數據是在訓練過程中建立的。 新:Humanline訓練——任何數據(離線/在線)都被塑造成符合人類感知的方式→可以以較低的成本產生在線性能