Une autre observation intéressante effectuer un SGD sur la perte d'entropie croisée sur votre corpus de texte est équivalent à REINFORCE, c'est-à-dire, un gradient de politique en ligne, avec une récompense binaire "Mon modèle a-t-il généré du texte du corpus"