GPT-5 は幻覚を軽減すると宣伝されていましたが、それは実現しているようです。99.5 -> 99.9 はエラーが 80% 少ないです。 なぜ人々がこのことをもっと大騒ぎしないのかわかりません。幻覚はLLMの最大の問題の1つであり、解決できないと考える人もいました。
OpenRouter
OpenRouter8月15日 00:29
1週間後、GPT-5はツール呼び出しの精度🥇で独自のモデルチャートのトップになりました 2位はClaude 4.1 Opusで、99.5%です 細部 👇
135.34K