Neuer Beitrag zum RL-Skalieren: Eine sorgfältige Analyse der öffentlichen Benchmarks von OpenAI zeigt, dass RL viel schlechter skaliert als Inferenz: Um jeden 10-fachen Anstieg der Inferenz-Rechenleistung auszugleichen, benötigt man 100-fache Rechenleistung für das RL-Training. Der einzige Grund, warum es kosteneffektiv war, ist, dass es von einer winzigen Basis ausgeht. 🧵