Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

jack morris
ricerca @cornell @meta // modelli linguistici, teoria dell'informazione, scienza dell'IA
ho capito come "annullare" il RL e riportare gpt-oss a un modello di base
rilascio i pesi domani
buonanotte


jack morris9 ago, 03:21
curioso riguardo ai dati di addestramento dei nuovi modelli gpt-oss di OpenAI? Lo ero anche io.
Così ho generato 10 milioni di esempi da gpt-oss-20b, ho eseguito alcune analisi e i risultati erano... piuttosto bizzarri.
È tempo di un approfondimento 🧵

180,26K
ok, ho bisogno di aiuto! Ho provato a fare il finetuning di GPT-OSS durante il fine settimana. Funziona per circa 100 passi, poi genera un errore di memoria CUDA esaurita.
La mia ipotesi è che di tanto in tanto, tutti i token vengano indirizzati a un singolo esperto. Poi l'addestramento si interrompe.
C'è una soluzione semplice? Non ho mai fatto finetuning di un MoE prima.
86,16K
quale modello dovremmo fare dopo?

jack morris9 ago, 03:21
curioso riguardo ai dati di addestramento dei nuovi modelli gpt-oss di OpenAI? Lo ero anche io.
Così ho generato 10 milioni di esempi da gpt-oss-20b, ho eseguito alcune analisi e i risultati erano... piuttosto bizzarri.
È tempo di un approfondimento 🧵

22,18K
spiegazione più breve di GPT-5: questo è esattamente ciò che le leggi di scalabilità prevedevano!
il modello è migliore, i ritorni stanno diminuendo e, sfortunatamente, i miglioramenti dell'intelligenza generale assoluta diventeranno sempre più piccoli
la buona notizia è che c'è ancora molto da fare. personalità, ragionamento, memoria e creatività sono ancora problemi aperti.
26,54K
il mondo del VC offre molto valore, ma a volte sembra che stiano solo bruciando soldi.
Diverse startup che conosco hanno raccolto circa 100 milioni in totale tre anni fa per sviluppare AI, hanno creato software che nessuno ha mai usato, e ora lavorano tutti altrove su cose non correlate.
Dove sono finiti tutti quei soldi?
18,45K
è strano nell'era dei social media sentire che tutti stanno lavorando alle recensioni e ai controricorsi di NeurIPS rn, ma nessuno ne parla pubblicamente.
ho contribuito a tre controricorsi. uno dei tre è stato estremamente frustrante.
chi altro sta lavorando ai controricorsi? come sta andando per voi?
12,71K
Principali
Ranking
Preferiti
On-chain di tendenza
Di tendenza su X
Principali fondi recenti
Più popolari