Velmi zajímavá tabulka z deepseek v3.2, která porovnává počet výstupních tokenů v různých benchmarkech, DSV3.2 Speciale verze myslí mnohem víc než jakýkoli jiný model, ALE protože používají málo pozornosti, náklady na inferenci budou stále v pořádku?
Mistral se chystá vydat dva nové modely: Ministral 3 a Mistral Large 3.
Co se týče architektury, zdá se, že je:
> přesně stejné jako llama2/3 pro Ministral, což je velmi podobné (i když přidají SWA) k prvnímu vydání Mistral 7B před 2 lety.
> přesně stejnou architekturu jako DeepSeek V3 pro ten velký (který se zdá být MoE)
pro oba také používají škálování lanem llama4 (místo příze) a u Large se zdá, že implementují spekulativní dekódování pomocí orla
Odkaz na PRS ve vlákně
Brácho, tohle je článek z Fair z roku 2024, Llama 2/3 vyvinul Genai (není to stejný cluster, kód,...), jsou transparentní ohledně MFU/propustnosti, na rozdíl od jiných laboratorních tréninkových modelů v tomto měřítku, a v článku o Llama 3 jsou skutečná čísla.