Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
quindi scegli la morte

Per rispondere a livello oggettivo @TheZvi
Tecnicamente, il DSA potrebbe essere un grande salto che rende i contesti su scala Gemini trivially economici, anche per i modelli di generazione precedente. Avvertenze:
- non siamo sicuri *se* si scalano a 1M+ (ma V3.2 exp≥V3.1 nonostante l'identico pre-addestramento, e V3.2>> exp, quindi è altamente probabile di sì)
- non siamo sicuri di come possa essere addestrato senza bootstrap da attenzione densa. Forse DeepSeek lo sa. Penso che V4 non utilizzerà DSA, è esplicitamente chiamato un prototipo. Nel peggiore dei casi è anche sensato pre-addestrare con attenzione completa => estendere => rendere sparsa, si sostiene un costo maggiore in pre-addestramento per un'inferenza permanentemente più economica.
- Il KDA di Kimi o il GDN+ di Qwen o qualcosa del genere potrebbero essere anche migliori di DSA+/NSA+
Modulo queste avvertenze, non si tratta di una riduzione del prezzo del 2x, sto essendo sarcastico. Più come 10x. L'attenzione sparsa che non degrada è un grosso affare.
Sulla velocità, è un punto vacuo dalla prospettiva del modello. DeepSeek non è interessato a fornire il miglior prodotto. Servono con enormi batch su H800s/Ascends. Puoi metterlo su hardware americano e ottenere 60-150 t/s, o su Cerebras e ottenere 1000 t/s simile a GLM, senza far lievitare i costi. Questa architettura è intrinsecamente veloce (attenzione superficiale e economica), è solo che DeepSeek la serve lentamente.
Sull'intelligenza di frontiera, sto dicendo che questi vantaggi di «massimizzazione dell'uso» della frontiera – principalmente codifica agentica, ma puoi coprire più domini allo stesso modo – sono un prodotto della spesa computazionale sui passi di RL e sull'iterazione attraverso ambienti sintetici. Hanno la ricetta. Riportano che ≈10% del costo di pre-addestramento è stato speso su Speciale. Sono ≈600K$. Grok 4 ha riportato di aver utilizzato il 100% di Grok 3, o decine-centinaia di milioni. È chiaramente stato molto inefficiente con Grok, ma penso che DeepSeek potrebbe facilmente arrivare al 100%, la ricetta è nota. Probabilmente non vogliono sprecarlo su una base obsoleta, poiché notano che rimane bloccata nella conoscenza.
Trovo divertente l'atteggiamento spensierato nei confronti delle prestazioni matematiche di livello IMO (o risolvere problemi di Erdos a zero colpo al livello che il risolutore umano dice «sì, questa è fondamentalmente la mia soluzione»). Non eravamo tutti supposti a aspettarci AGI dalla ricerca matematica indipendente. O è solo programmazione ora. Arguabilmente, questa è la capacità più interessante per stimare le velocità di decollo. Ma comunque, credo in un decollo lento, l'auto-miglioramento si scontrerà con problemi logistici indipendentemente da dove iniziamo.
Il principale contributo qui, come ho detto, è che annunciano la convinzione di aver fondamentalmente risolto l'addestramento dei LLM di frontiera per la fine del 2025 come programma di ricerca, e potrebbero raggiungere il livello attuale occidentale o oltre semplicemente versando più calcolo (più piccole modifiche intorno all'efficienza dei token). In teoria, il loro annuncio di guardare a un addestramento su scala più ampia alla fine può essere interpretato come «e questo è ciò che stiamo facendo ora». Ma resta da vedere.
@TheZvi > nonostante il pre-addestramento e il post-addestramento identici, correzione
3,54K
Principali
Ranking
Preferiti

