"Eine der sehr verwirrenden Dinge an den Modellen im Moment: wie man die Tatsache in Einklang bringt, dass sie bei den Bewertungen so gut abschneiden. Und man schaut sich die Bewertungen an und denkt: 'Das sind ziemlich schwierige Bewertungen.' Aber der wirtschaftliche Einfluss scheint dramatisch hinterherzuhinken. Es gibt [eine mögliche] Erklärung. Als die Leute mit dem Pre-Training beschäftigt waren, wurde die Frage, welche Daten man verwenden sollte, beantwortet, denn die Antwort war alles. Man muss also nicht darüber nachdenken, ob es diese Daten oder jene Daten sein werden. Wenn die Leute RL-Training durchführen, sagen sie: 'Okay, wir wollen diese Art von RL-Training für das eine und jene Art von RL-Training für das andere.' Man sagt: 'Hey, ich würde mir wünschen, dass unser Modell wirklich gut abschneidet, wenn wir es veröffentlichen. Ich möchte, dass die Bewertungen großartig aussehen. Was wäre ein RL-Training, das bei dieser Aufgabe helfen könnte?' Wenn man dies mit der Tatsache kombiniert, dass die Generalisierung der Modelle tatsächlich unzureichend ist, könnte das viel von dem erklären, was wir sehen, diese Diskrepanz zwischen der Bewertungsleistung und der tatsächlichen Leistung in der realen Welt."