Nous connaissons l'entraînement hors ligne -- préentraînement, dpo… les données sont claires à l'avance. Nous connaissons également l'entraînement en ligne -- ppo, grpo... les données sont construites pendant l'entraînement. Nouveau : entraînement Humanline -- toutes les données (hors ligne/en ligne) façonnées pour correspondre à la perception humaine → peuvent offrir des performances en ligne à moindre coût.