Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Awni Hannun
AI @apple
Awni Hannun ha ripubblicato
Il mio prossimo post sul blog uscirà questa settimana e sarà un'analisi molto più approfondita del solito.
Camminerò attraverso come ho ottimizzato il Phi-3-mini-4k-instruct (3.8B) di Microsoft con LoRA sul mio Mac utilizzando MLX.
L'esperimento: esplorare se un modello da 3.8B che gira localmente può essere ottimizzato per "parlare come me" addestrandolo sui miei stessi post del blog.
Ho già caricato i pesi dell'adattatore LoRA su Hugging Face.
Ma, cosa più importante, il post condividerà l'intero processo affinché le persone più tecniche possano imparare come iniziare con l'ottimizzazione:
- Preparare i dati di addestramento
- Addestrare il modello e i parametri iper
- Valutare i risultati
- Pubblicare su Hugging Face
E condividerò tutto il codice necessario per farlo da soli.

2,04K
GPT-OSS utilizza la quantizzazione MXFP4 (che ora è supportata da MLX).
Attualmente ci sono due formati FP4 in circolazione: MXFP4 e NVFP4 (NV per Nvidia).
Dall'osservazione di come GPT-OSS utilizza MXFP4, risulta essere piuttosto subottimale. Penso che NVFP4 sarà il formato più comunemente utilizzato in futuro.
Maggiori dettagli di seguito:
Entrambi i formati quantizzano i pesi a 4 bit in virgola mobile (e2 m1) con una scala unica per gruppo.
La differenza sta nella dimensione del gruppo e nel modo in cui la scala per ciascun gruppo è codificata.
- MXFP4 utilizza una scala e8m0 (fisso, 8 bit) con una dimensione del gruppo di 32. Viene elevata alla potenza di 2 prima di moltiplicare il peso.
- NVFP4 utilizza una scala e4m3 (fp8) con una dimensione del gruppo di 16. Viene moltiplicata direttamente con il peso.
La codifica della scala in MXFP4 è piuttosto subottimale perché non ha rappresentazioni per molti valori nell'intervallo di cui abbiamo bisogno.
Infatti, se guardi la distribuzione delle scale per GPT-OSS, è estremamente concentrata attorno a solo un paio di valori. Ad esempio, per il secondo strato MoE che sto esaminando, solo 8/256 valori possibili sono anche utilizzati. (Vedi grafico).

16,6K
Principali
Ranking
Preferiti