Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Costruire @EurekaLabsAI. In precedenza Direttore di AI @ Tesla, team fondatore @ OpenAI, CS231n/PhD @ Stanford. Mi piace addestrare grandi reti neurali profonde.
Mi piace abbastanza il nuovo documento DeepSeek-OCR. È un buon modello OCR (forse un po' peggiore di dots), e sì, la raccolta dei dati ecc., ma comunque non importa.
La parte più interessante per me (soprattutto essendo un appassionato di visione artificiale che si sta temporaneamente spacciando per una persona di linguaggio naturale) è se i pixel siano migliori input per i LLM rispetto al testo. Se i token di testo siano spreconi e semplicemente terribili, come input.
Forse ha più senso che tutti gli input ai LLM dovrebbero essere solo immagini. Anche se ti capita di avere input di puro testo, forse preferiresti renderizzarlo e poi fornirlo:
- maggiore compressione delle informazioni (vedi documento) => finestre di contesto più brevi, maggiore efficienza
- flusso di informazioni significativamente più generale => non solo testo, ma ad esempio testo in grassetto, testo colorato, immagini arbitrarie.
- l'input può ora essere elaborato facilmente e per default con attenzione bidirezionale, non attenzione autoregressiva - molto più potente.
- elimina il tokenizer (all'input)!! Ho già lamentato quanto disprezzi il tokenizer. I tokenizer sono brutti, separati, non sono una fase end-to-end. "Importano" tutta la bruttezza di Unicode, delle codifiche byte, ereditano un sacco di bagagli storici, rischi di sicurezza/jailbreak (ad esempio, byte di continuazione). Fanno sembrare due caratteri che appaiono identici all'occhio come due token completamente diversi internamente nella rete. Un'emoji sorridente sembra un token strano, non un... vero volto sorridente, pixel e tutto, e tutto l'apprendimento trasferito che porta con sé. Il tokenizer deve andare.
L'OCR è solo uno dei tanti compiti utili di visione -> testo. E i compiti di testo -> testo possono essere trasformati in compiti di visione -> testo. Non viceversa.
Quindi molti messaggi dell'utente sono immagini, ma il decodificatore (la risposta dell'assistente) rimane testo. È molto meno ovvio come output realisticamente i pixel... o se lo vorresti.
Ora devo anche combattere l'impulso di deviare in una versione di nanochat solo con input di immagini...

vLLM20 ott, 19:31
🚀 DeepSeek-OCR — la nuova frontiera dell'OCR di @deepseek_ai, che esplora la compressione del contesto ottico per i LLM, sta funzionando a velocità fulminea su vLLM ⚡ (~2500 token/s su A100-40G) — alimentato da vllm==0.8.5 per il supporto del modello day-0.
🧠 Comprimi i contesti visivi fino a 20× mantenendo il 97% di accuratezza OCR a <10×.
📄 Supera GOT-OCR2.0 e MinerU2.0 su OmniDocBench utilizzando meno token visivi.
🤝 Il team di vLLM sta collaborando con DeepSeek per portare il supporto ufficiale di DeepSeek-OCR nella prossima versione di vLLM — rendendo l'inferenza multimodale ancora più veloce e facile da scalare.
🔗
#vLLM #DeepSeek #OCR #LLM #VisionAI #DeepLearning



2,91M
Bel post breve che illustra quanto possa essere semplice la diffusione del testo (discreta).
La diffusione (cioè, denoising parallelo e iterato, top) è il paradigma generativo pervasivo nell'immagine/video, ma l'autoregressione (cioè, andare da sinistra a destra in basso) è il paradigma dominante nel testo. Per l'audio ho visto un po' di entrambi.
Molti articoli sulla diffusione sembrano un po' densi, ma se si rimuove il formalismo matematico, si finisce con semplici algoritmi di base, ad esempio qualcosa di molto più vicino al flow matching in continuo, o qualcosa del genere in discreto. È il tuo transformer vaniglia ma con attenzione bidirezionale, dove si ri-campionano e ri-mascherano iterativamente tutti i token nel tuo "canvas di token" in base a un programma di rumore fino a ottenere il campione finale all'ultimo passo. (L'attenzione bidirezionale è molto più potente, e ottieni modelli di linguaggio autoregressivi molto più forti se ti alleni con essa, sfortunatamente rende l'addestramento molto più costoso perché ora non puoi parallelizzare lungo la dimensione della sequenza).
Quindi l'autoregressione sta facendo un `.append(token)` al canvas di token mentre si concentra solo all'indietro, mentre la diffusione sta aggiornando l'intero canvas di token con un `.setitem(idx, token)` mentre si concentra in modo bidirezionale. Il pensiero umano sembra naivemente un po' più simile all'autoregressione, ma è difficile dire che non ci siano componenti più simili alla diffusione in qualche spazio latente di pensiero. Sembra abbastanza possibile che tu possa ulteriormente interpolare tra di loro, o generalizzarli ulteriormente. Ed è un componente dello stack LLM che sembra ancora un po' fungibile.
Ora devo resistere all'impulso di deviare nel addestrare nanochat con la diffusione.

Nathan Barry21 ott, 00:52
BERT è solo un singolo passo di diffusione del testo! (1/n)
Quando ho letto per la prima volta dei modelli di diffusione del linguaggio, sono rimasto sorpreso di scoprire che il loro obiettivo di addestramento era solo una generalizzazione del masked language modeling (MLM), qualcosa che facciamo dal 2018 con BERT.
Il primo pensiero che ho avuto è stato: "possiamo affinare un modello simile a BERT per generare testo?"
619,98K
È stato un piacere partecipare a Dwarkesh la scorsa settimana, pensavo che le domande e la conversazione fossero davvero buone.
Ho appena riguardato il podcast. Prima di tutto, sì lo so, e mi dispiace di parlare così veloce :). È a mio svantaggio perché a volte il mio filo di discorso supera il mio filo di pensiero, quindi penso di aver rovinato alcune spiegazioni a causa di ciò, e a volte ero anche nervoso di andare troppo fuori tema o troppo in profondità su qualcosa di relativamente spinoso. Comunque, alcune note/indicazioni:
Tempistiche dell'AGI. I miei commenti sulle tempistiche dell'AGI sembrano essere la parte più discussa della risposta iniziale. Questo è il "decennio degli agenti", un riferimento a questo tweet precedente. Fondamentalmente, le mie tempistiche sull'AI sono circa 5-10 volte più pessimistiche rispetto a ciò che troverai alla tua festa di quartiere sull'AI a SF o sulla tua timeline di Twitter, ma comunque piuttosto ottimistiche rispetto a un aumento di negazionisti e scettici dell'AI. Il conflitto apparente non è: imo abbiamo contemporaneamente 1) visto un enorme progresso negli ultimi anni con i LLM mentre 2) c'è ancora molto lavoro da fare (lavoro di base, lavoro di integrazione, sensori e attuatori nel mondo fisico, lavoro sociale, lavoro di sicurezza e protezione (jailbreak, avvelenamento, ecc.)) e anche ricerca da completare prima di avere un'entità che preferiresti assumere rispetto a una persona per un lavoro arbitrario nel mondo. Penso che, in generale, 10 anni dovrebbero essere altrimenti una tempistica molto ottimista per l'AGI, è solo in contrasto con l'attuale hype che non sembra così.
Animali vs Fantasmi. Il mio precedente scritto sul podcast di Sutton. Sono sospettoso che ci sia un singolo algoritmo semplice che puoi lasciare libero nel mondo e che impari tutto da zero. Se qualcuno costruisce una cosa del genere, mi sbaglierò e sarà la scoperta più incredibile nell'AI. Nella mia mente, gli animali non sono affatto un esempio di questo - sono preconfezionati con un sacco di intelligenza dall'evoluzione e l'apprendimento che fanno è piuttosto minimo nel complesso (esempio: Zebra alla nascita). Mettendo i nostri cappelli da ingegneri, non rifaremo l'evoluzione. Ma con i LLM abbiamo inciampato in un approccio alternativo per "preconfezionare" un sacco di intelligenza in una rete neurale - non tramite evoluzione, ma prevedendo il prossimo token su Internet. Questo approccio porta a un tipo diverso di entità nello spazio dell'intelligenza. Distinto dagli animali, più simile a fantasmi o spiriti. Ma possiamo (e dovremmo) farli diventare più simili agli animali nel tempo e in alcuni modi questo è ciò di cui si occupa gran parte del lavoro di frontiera.
Sull'RL. Ho criticato l'RL un paio di volte già. Prima di tutto, stai "succhiando supervisione attraverso una cannuccia", quindi penso che il segnale/flop sia molto scarso. L'RL è anche molto rumoroso perché un completamento potrebbe avere molti errori che potrebbero essere incoraggiati (se ti capita di inciampare nella risposta giusta), e viceversa, token di intuizione brillanti che potrebbero essere scoraggiati (se ti capita di sbagliare dopo). Anche la supervisione del processo e i giudici LLM hanno problemi. Penso che vedremo paradigmi di apprendimento alternativi. Sono favorevole all'"interazione agentica" ma scettico sull'"apprendimento per rinforzo". Ho visto un certo numero di articoli apparire recentemente che, imo, stanno seguendo la strada giusta lungo le linee di ciò che ho chiamato "apprendimento tramite prompt di sistema", ma penso che ci sia anche un divario tra le idee su arxiv e l'implementazione effettiva, su larga scala, in un laboratorio di frontiera LLM che funzioni in modo generale. Sono complessivamente piuttosto ottimista che vedremo buoni progressi su questa dimensione del lavoro rimanente piuttosto presto, e ad esempio direi anche che la memoria di ChatGPT e così via sono esempi primordiali di nuovi paradigmi di apprendimento.
Nucleo cognitivo. Il mio precedente post sul "nucleo cognitivo": l'idea di ridurre i LLM, di rendere più difficile per loro memorizzare, o di rimuovere attivamente la loro memoria, per renderli migliori nella generalizzazione. Altrimenti si appoggiano troppo su ciò che hanno memorizzato. Gli esseri umani non possono memorizzare così facilmente, il che ora sembra più una caratteristica che un difetto in confronto. Forse l'incapacità di memorizzare è una sorta di regolarizzazione. Anche il mio post di un po' di tempo fa su come la tendenza nella dimensione del modello sia "all'indietro" e perché "i modelli devono prima diventare più grandi prima di poter diventare più piccoli".
Viaggio nel tempo a Yann LeCun 1989. Questo è il post che ho descritto in modo molto affrettato/scadente nel podcast: fondamentalmente - quanto potresti migliorare i risultati di Yann LeCun con la conoscenza di 33 anni di progresso algoritmico? Quanto erano vincolati i risultati da ciascuno degli algoritmi, dati e calcoli? Studio di caso lì.
nanochat. La mia implementazione end-to-end del pipeline di addestramento/inferenza di ChatGPT (le basi essenziali).
Sugli agenti LLM. La mia critica all'industria è più nel superare gli strumenti rispetto alle capacità attuali. Vivo in quello che vedo come un mondo intermedio dove voglio collaborare con i LLM e dove i nostri pro e contro sono allineati. L'industria vive in un futuro in cui entità completamente autonome collaborano in parallelo per scrivere tutto il codice e gli esseri umani sono inutili. Ad esempio, non voglio un agente che vada via per 20 minuti e torni con 1.000 righe di codice. Certamente non mi sento pronto a supervisionare un team di 10 di loro. Vorrei procedere a blocchi che posso tenere in mente, dove un LLM spiega il codice che sta scrivendo. Vorrei che dimostrasse a me che ciò che ha fatto è corretto, voglio che estragga la documentazione API e mi mostri che ha usato le cose correttamente. Voglio che faccia meno assunzioni e chieda/collabori con me quando non è sicuro di qualcosa. Voglio imparare lungo il cammino e diventare migliore come programmatore, non solo ricevere montagne di codice che mi viene detto funzionano. Penso solo che gli strumenti dovrebbero essere più realistici rispetto alle loro capacità e a come si inseriscono nell'industria oggi, e temo che se questo non viene fatto bene potremmo finire con montagne di spazzatura che si accumulano nel software, e un aumento delle vulnerabilità, delle violazioni della sicurezza, ecc.
Automazione del lavoro. Come i radiologi stanno andando alla grande e quali lavori sono più suscettibili all'automazione e perché.
Fisica. I bambini dovrebbero imparare la fisica nell'istruzione precoce non perché continuino a fare fisica, ma perché è la materia che meglio avvia un cervello. I fisici sono le cellule staminali embrionali intellettuali. Ho un post più lungo che è stato scritto a metà nei miei draft per circa un anno, che spero di finire presto.
Grazie ancora Dwarkesh per avermi ospitato!

Dwarkesh Patel18 ott, 01:16
L'intervista di @karpathy
0:00:00 – L'AGI è ancora a un decennio di distanza
0:30:33 – Deficit cognitivi degli LLM
0:40:53 – L'RL è terribile
0:50:26 – Come apprendono gli esseri umani?
1:07:13 – L'AGI si fonderà con una crescita del PIL del 2%
1:18:24 – ASI
1:33:38 – Evoluzione dell'intelligenza e della cultura
1:43:43 - Perché la guida autonoma ha impiegato così tanto
1:57:08 - Futuro dell'istruzione
Cerca il Dwarkesh Podcast su YouTube, Apple Podcasts, Spotify, ecc. Buon ascolto!
3,36M
Principali
Ranking
Preferiti

