Sappiamo che l'addestramento offline -- pre-addestramento, dpo... i dati sono chiari in anticipo.
Sappiamo anche che l'addestramento online -- ppo, grpo... i dati vengono costruiti durante l'addestramento.
Nuovo: addestramento Humanline -- qualsiasi dato (offline/online) modellato per corrispondere alla percezione umana → può fornire prestazioni online a un costo inferiore.