Mi piace abbastanza il nuovo documento DeepSeek-OCR. È un buon modello OCR (forse un po' peggiore di dots), e sì, la raccolta dei dati ecc., ma comunque non importa. La parte più interessante per me (soprattutto essendo un appassionato di visione artificiale che si sta temporaneamente spacciando per una persona di linguaggio naturale) è se i pixel siano migliori input per i LLM rispetto al testo. Se i token di testo siano spreconi e semplicemente terribili, come input. Forse ha più senso che tutti gli input ai LLM dovrebbero essere solo immagini. Anche se ti capita di avere input di puro testo, forse preferiresti renderizzarlo e poi fornirlo: - maggiore compressione delle informazioni (vedi documento) => finestre di contesto più brevi, maggiore efficienza - flusso di informazioni significativamente più generale => non solo testo, ma ad esempio testo in grassetto, testo colorato, immagini arbitrarie. - l'input può ora essere elaborato facilmente e per default con attenzione bidirezionale, non attenzione autoregressiva - molto più potente. - elimina il tokenizer (all'input)!! Ho già lamentato quanto disprezzi il tokenizer. I tokenizer sono brutti, separati, non sono una fase end-to-end. "Importano" tutta la bruttezza di Unicode, delle codifiche byte, ereditano un sacco di bagagli storici, rischi di sicurezza/jailbreak (ad esempio, byte di continuazione). Fanno sembrare due caratteri che appaiono identici all'occhio come due token completamente diversi internamente nella rete. Un'emoji sorridente sembra un token strano, non un... vero volto sorridente, pixel e tutto, e tutto l'apprendimento trasferito che porta con sé. Il tokenizer deve andare. L'OCR è solo uno dei tanti compiti utili di visione -> testo. E i compiti di testo -> testo possono essere trasformati in compiti di visione -> testo. Non viceversa. Quindi molti messaggi dell'utente sono immagini, ma il decodificatore (la risposta dell'assistente) rimane testo. È molto meno ovvio come output realisticamente i pixel... o se lo vorresti. Ora devo anche combattere l'impulso di deviare in una versione di nanochat solo con input di immagini...