Feinabstimmung mit GRPO, visuell erklärt: