ここでの本当のトリックは、Qwen 2.5 7BやLlama 3.1 8Bで現象を探して見つからず、そこからそれが起こらない、あるいは起こりえないと結論づけてしまうことです。 反過大評価を信じないでください!