M-am săturat de înclinarea orizontului de timp al METR. Acest benchmark este la fel ca orice alt benchmark de codare complex, doar că cu rezultate redate creativ, are un plafon (100% și 16 ore) și nu sugerează nimic ce nu ar fi trebuit să fi concluzionat deja din cele "saturate".