鳥からいくつかのささやきを聞いて、内部評価はgpt5をgrok 4 Heavyより少し持っています。 評価はモデルの片側だけを伝えますが、エージェントやその他の大きな改善が得られるかどうかに興味があります。
277.1K