Mens Moonshot AIs Kimi k2 er den ledende ikke-resonnerende modellen med åpne vekter i Artificial Analysis Intelligence Index, sender den ut ~3 ganger flere tokens enn andre ikke-resonnerende modeller, og visker ut grensene mellom resonnement og ikke-resonnement Kimi k2 er den største store åpne vektmodellen til nå - 1T totale parametere med 32B aktiv (dette krever massive 1 TB minne ved native FP8 for å holde vektene). Vi har k2 på 57 i Artificial Analysis Intelligence Index, en imponerende poengsum som setter den over modeller som GPT-4.1 og DeepSeek V3, men bak ledende resonneringsmodeller. Til nå har det vært et klart skille mellom resonneringsmodell og ikke-resonnerende modeller i våre vurderinger - definert ikke bare av om modellen bruker <reasoning> tagger, men først og fremst av tokenbruk. Median antall tokens som brukes til å svare på alle vurderingene i Artificial Analysis Intelligence Index er ~10 ganger høyere for resonnerende modeller enn for ikke-resonnerende modeller. @Kimi_Moonshot er Kimi k2 bruker ~3 ganger antallet tokens som medianmodellen uten resonnement bruker. Tokenbruken er bare opptil 30 % lavere enn Claude 4 Sonnet og Opus når den kjøres i deres maksimale budsjettutvidede tenkemodus, og er nesten tredoblet tokenbruken til både Claude 4 Sonnet og Opus med resonnement slått av. Vi anbefaler derfor at Kimi k2 sammenlignes med Claude 4 Sonnet og Opus i deres maksimale budsjettutvidede tenkemoduser, ikke med de ikke-resonnerende poengsummene for Claude 4-modellene. Kimi k2 er tilgjengelig på @Kimi_Moonshot førsteparts API samt @FireworksAI_HQ, @togethercompute, @novita_labs og @parasail_io. Se nedenfor og på kunstig analyse for videre analyse 👇
60,42K