Conocemos el entrenamiento offline -- preentrenamiento, dpo… los datos son claros de antemano. También conocemos el entrenamiento online -- ppo, grpo... los datos se generan mientras se entrena. Nuevo: Entrenamiento Humanline -- cualquier dato (offline/online) moldeado para coincidir con la percepción humana → puede ofrecer rendimiento online a un costo menor