Veldig interessant tabell fra Deepseek v3.2 som sammenligner antall utdatatoken på ulike benchmarks, DSV3.2 Speciale-versjonen tenker mye mer enn noen annen modell, MEN siden de bruker sparsom oppmerksomhet vil slutningskostnaden fortsatt være ok?
Mistral ser ut til å være i ferd med å lansere to nye modeller: Ministral 3 og Mistral Large 3.
Arkitektonisk sett ser det ut til å være:
> nøyaktig det samme som lama2/3 for Ministral, som er veldig lik (selv om de legger til SWA) med den første Mistral 7B-utgivelsen for 2 år siden.
> nøyaktig samme arkitektur som DeepSeek V3 for den store (som ser ut til å være en MoE)
for begge bruker de også llama4 tau-skalering (i stedet for garn), og for den store ser det ut til at de implementerer spekulativ dekoding med eagle
Lenke til PRS i tråden
Bro, dette er en artikkel fra Fair i 2024, Llama 2/3 ble utviklet av Genai (ikke samme klynge, kodebase,... de er åpne om MFU/gjennomstrømning i motsetning til andre laboratorietreningsmodeller i denne skalaen, og det finnes faktiske tall i Llama 3-artikkelen.