Sappiamo che l'addestramento offline -- pre-addestramento, dpo... i dati sono chiari in anticipo. Sappiamo anche che l'addestramento online -- ppo, grpo... i dati vengono costruiti durante l'addestramento. Nuovo: addestramento Humanline -- qualsiasi dato (offline/online) modellato per corrispondere alla percezione umana → può fornire prestazioni online a un costo inferiore.