DApp Store | Web3 Hub for hendelser og spill

Hva kan jeg gjøre med Discover

Populære emner

Bonk Eco continues to show strength amid $USELESS rally

Pump.fun to raise $1B token sale, traders speculating on airdrop

Boop.Fun leading the way with a new launchpad on Solana.

elie

Veldig interessant tabell fra Deepseek v3.2 som sammenligner antall utdatatoken på ulike benchmarks, DSV3.2 Speciale-versjonen tenker mye mer enn noen annen modell, MEN siden de bruker sparsom oppmerksomhet vil slutningskostnaden fortsatt være ok?

25,83K

elie1. des., 17:38

Mistral ser ut til å være i ferd med å lansere to nye modeller: Ministral 3 og Mistral Large 3. Arkitektonisk sett ser det ut til å være: > nøyaktig det samme som lama2/3 for Ministral, som er veldig lik (selv om de legger til SWA) med den første Mistral 7B-utgivelsen for 2 år siden. > nøyaktig samme arkitektur som DeepSeek V3 for den store (som ser ut til å være en MoE) for begge bruker de også llama4 tau-skalering (i stedet for garn), og for den store ser det ut til at de implementerer spekulativ dekoding med eagle Lenke til PRS i tråden

132,85K

elie1. des., 06:06

Bro, dette er en artikkel fra Fair i 2024, Llama 2/3 ble utviklet av Genai (ikke samme klynge, kodebase,... de er åpne om MFU/gjennomstrømning i motsetning til andre laboratorietreningsmodeller i denne skalaen, og det finnes faktiske tall i Llama 3-artikkelen.

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)1. des., 03:35

> Meta Fraværende @suchenzang tøyset ikke De kan virkelig ikke skalere pretrains

18,4K

Topp

Rangering

Favoritter