DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Avi Chawla

Tutorial giornalieri e approfondimenti su DS, ML, LLM e RAG • Co-fondatore @dailydoseofds_ • IIT Varanasi • ex-AI Engineer @ MastercardAI

I ricercatori di Meta hanno sviluppato un nuovo approccio RAG che: - supera LLaMA in 16 benchmark RAG. - ha un tempo di attesa per il primo token 30,85 volte più veloce. - gestisce finestre di contesto 16 volte più grandi. - e utilizza da 2 a 4 volte meno token. Ecco il problema principale con una configurazione RAG tipica che Meta risolve: La maggior parte di ciò che recuperiamo nelle configurazioni RAG non aiuta mai realmente il LLM. Nella RAG classica, quando arriva una query: - La codifichi in un vettore. - Recuperi chunk simili dal DB vettoriale. - Scarichi il contesto recuperato nel LLM. Funziona tipicamente, ma a un costo enorme: - La maggior parte dei chunk contiene testo irrilevante. - Il LLM deve elaborare molti più token. - Paghi per il calcolo, la latenza e il contesto. Questo è esattamente il problema che il nuovo metodo REFRAG di Meta AI risolve. Riconsidera fondamentalmente il recupero e il diagramma qui sotto spiega come funziona. Essenzialmente, invece di fornire al LLM ogni chunk e ogni token, REFRAG comprime e filtra il contesto a livello di vettore: - Compressione dei chunk: Ogni chunk è codificato in un singolo embedding compresso, piuttosto che in centinaia di embedding di token. - Politica di rilevanza: Una politica leggera addestrata tramite RL valuta gli embedding compressi e mantiene solo i chunk più rilevanti. - Espansione selettiva: Solo i chunk scelti dalla politica RL vengono espansi di nuovo nei loro embedding completi e passati al LLM. In questo modo, il modello elabora solo ciò che conta e ignora il resto. Ecco la procedura passo-passo: - Passo 1-2) Codifica i documenti e memorizzali in un database vettoriale. - Passo 3-5) Codifica l'intera query dell'utente e trova chunk rilevanti. Inoltre, calcola gli embedding a livello di token sia per la query (passo 7) che per i chunk corrispondenti. - Passo 6) Usa una politica di rilevanza (addestrata tramite RL) per selezionare i chunk da mantenere. - Passo 8) Concatenare le rappresentazioni a livello di token della query di input con l'embedding a livello di token dei chunk selezionati e una rappresentazione compressa a vettore singolo dei chunk rifiutati. - Passo 9-10) Invia tutto ciò al LLM. Il passo RL rende REFRAG un pipeline RAG più consapevole della rilevanza. Basato sul documento di ricerca, questo approccio: - ha un tempo di attesa per il primo token 30,85 volte più veloce (3,75 volte migliore rispetto al precedente SOTA) - fornisce finestre di contesto 16 volte più grandi - supera LLaMA in 16 benchmark RAG utilizzando da 2 a 4 volte meno token di decodifica. - non porta a perdite di accuratezza in RAG, sintesi e compiti di conversazione multi-turno Ciò significa che puoi elaborare 16 volte più contesto a 30 volte la velocità, con la stessa accuratezza. Il codice non è stato ancora rilasciato da Meta. Hanno intenzione di farlo presto.

Principali

Ranking

Preferiti