Ich möchte darauf hinweisen, dass Kimi K2 bei den Aufgaben in der realen Welt (nicht bei Benchmarks) besser abschneidet als Gemini. Dabei handelt es sich um Telemetriedaten für alle @cline Benutzer, die die Fehlerrate bei der Diff-Bearbeitung anzeigen. Beachten Sie, dass Kimi eine Fehlerquote von etwa 6 % hat, was deutlich besser ist als die Fehlerquote von Gemini von ~ 10 %. Bemerkenswerterweise übertraf Kimi sogar Claude 4 für den größten Teil dieser Woche und erreichte eine Durchfallquote von unter 4 %!
Paul Gauthier
Paul Gauthier18. Juli 2025
Kimi K2 erzielte 59 % beim Aider Polyglot Coding Benchmark. Vollständige Rangliste:
In unserem internen Benchmark für "Hard"-Diff-Bearbeitung, in Fällen, in denen ein Frontier-Modell zuvor einen Diff-Edit nicht bestanden hat (vor unseren Updates des Diff-Algorithmus), hat Kimi Claude 3.5 übertroffen. Es wird interessant sein, die Ergebnisse unserer Benchmarks zur "Nightmare Difficulty" in den nächsten Wochen zu sehen.
176,64K