Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ich möchte darauf hinweisen, dass Kimi K2 bei den Aufgaben in der realen Welt (nicht bei Benchmarks) besser abschneidet als Gemini.
Dabei handelt es sich um Telemetriedaten für alle @cline Benutzer, die die Fehlerrate bei der Diff-Bearbeitung anzeigen. Beachten Sie, dass Kimi eine Fehlerquote von etwa 6 % hat, was deutlich besser ist als die Fehlerquote von Gemini von ~ 10 %.
Bemerkenswerterweise übertraf Kimi sogar Claude 4 für den größten Teil dieser Woche und erreichte eine Durchfallquote von unter 4 %!

In unserem internen Benchmark für "Hard"-Diff-Bearbeitung, in Fällen, in denen ein Frontier-Modell zuvor einen Diff-Edit nicht bestanden hat (vor unseren Updates des Diff-Algorithmus), hat Kimi Claude 3.5 übertroffen.
Es wird interessant sein, die Ergebnisse unserer Benchmarks zur "Nightmare Difficulty" in den nächsten Wochen zu sehen.

176,64K
Top
Ranking
Favoriten