私たちはオフライントレーニングを知っています -- 事前トレーニング、dpo...データは事前に明確です。 オンライントレーニング(ppo、grpo)も知っています。データはトレーニング中に構築されます。 新機能:ヒューマンライントレーニング -- 人間の知覚→に合わせて形成されたデータ(オフライン/オンライン)は、より低コストでオンラインパフォーマンスを生み出すことができます