Sabemos que o treinamento offline -- pré-treinamento, dpo... os dados são claros antecipadamente. Também sabemos que o treinamento online -- ppo, grpo... os dados são construídos durante o treinamento. Novo: Treinamento Humanline -- quaisquer dados (offline/online) moldados para corresponder à percepção humana → podem gerar desempenho online a um custo mais baixo