1/ Kann codebase-spezifisches RL die Grenzen für Code-LLMs verschieben? Bei @cgftlabs haben wir einem Kunden geholfen, Qwen-2.5-7B auf seiner internen Codebasis für die Erstellung von Unit-Tests mit abdeckungsgesteuertem GRPO zu optimieren. Das Ergebnis? Es schlägt o4-mini & o3. So funktioniert's (Link zum vollständigen Blog in der Biografie) 🧵
7,96K