Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Avi Chawla
Tutorial giornalieri e approfondimenti su DS, ML, LLM e RAG • Co-fondatore @dailydoseofds_ • IIT Varanasi • ex-AI Engineer @ MastercardAI
Questo dovrebbe essere impossibile!
Puoi pulire qualsiasi dataset ML in sole tre righe di codice. Segnala gli outlier, trova errori di etichettatura e altro, su:
- Qualsiasi dato (tabellare, testo, immagine, ecc.)
- Qualsiasi compito (classificazione, riconoscimento di entità, ecc.)
100% open-source, creato da ricercatori del MIT.

1,04K
I ricercatori di Meta hanno sviluppato un nuovo approccio RAG che:
- supera LLaMA in 16 benchmark RAG.
- ha un tempo di attesa per il primo token 30,85 volte più veloce.
- gestisce finestre di contesto 16 volte più grandi.
- e utilizza da 2 a 4 volte meno token.
Ecco il problema principale con una configurazione RAG tipica che Meta risolve:
La maggior parte di ciò che recuperiamo nelle configurazioni RAG non aiuta mai realmente il LLM.
Nella RAG classica, quando arriva una query:
- La codifichi in un vettore.
- Recuperi chunk simili dal DB vettoriale.
- Scarichi il contesto recuperato nel LLM.
Funziona tipicamente, ma a un costo enorme:
- La maggior parte dei chunk contiene testo irrilevante.
- Il LLM deve elaborare molti più token.
- Paghi per il calcolo, la latenza e il contesto.
Questo è esattamente il problema che il nuovo metodo REFRAG di Meta AI risolve.
Riconsidera fondamentalmente il recupero e il diagramma qui sotto spiega come funziona.
Essenzialmente, invece di fornire al LLM ogni chunk e ogni token, REFRAG comprime e filtra il contesto a livello di vettore:
- Compressione dei chunk: Ogni chunk è codificato in un singolo embedding compresso, piuttosto che in centinaia di embedding di token.
- Politica di rilevanza: Una politica leggera addestrata tramite RL valuta gli embedding compressi e mantiene solo i chunk più rilevanti.
- Espansione selettiva: Solo i chunk scelti dalla politica RL vengono espansi di nuovo nei loro embedding completi e passati al LLM.
In questo modo, il modello elabora solo ciò che conta e ignora il resto.
Ecco la procedura passo-passo:
- Passo 1-2) Codifica i documenti e memorizzali in un database vettoriale.
- Passo 3-5) Codifica l'intera query dell'utente e trova chunk rilevanti. Inoltre, calcola gli embedding a livello di token sia per la query (passo 7) che per i chunk corrispondenti.
- Passo 6) Usa una politica di rilevanza (addestrata tramite RL) per selezionare i chunk da mantenere.
- Passo 8) Concatenare le rappresentazioni a livello di token della query di input con l'embedding a livello di token dei chunk selezionati e una rappresentazione compressa a vettore singolo dei chunk rifiutati.
- Passo 9-10) Invia tutto ciò al LLM.
Il passo RL rende REFRAG un pipeline RAG più consapevole della rilevanza.
Basato sul documento di ricerca, questo approccio:
- ha un tempo di attesa per il primo token 30,85 volte più veloce (3,75 volte migliore rispetto al precedente SOTA)
- fornisce finestre di contesto 16 volte più grandi
- supera LLaMA in 16 benchmark RAG utilizzando da 2 a 4 volte meno token di decodifica.
- non porta a perdite di accuratezza in RAG, sintesi e compiti di conversazione multi-turno
Ciò significa che puoi elaborare 16 volte più contesto a 30 volte la velocità, con la stessa accuratezza.
Il codice non è stato ancora rilasciato da Meta. Hanno intenzione di farlo presto.

71,91K
Principali
Ranking
Preferiti