Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
I ricercatori di Meta hanno sviluppato un nuovo approccio RAG che:
- supera LLaMA in 16 benchmark RAG.
- ha un tempo di attesa per il primo token 30,85 volte più veloce.
- gestisce finestre di contesto 16 volte più grandi.
- e utilizza da 2 a 4 volte meno token.
Ecco il problema principale con una configurazione RAG tipica che Meta risolve:
La maggior parte di ciò che recuperiamo nelle configurazioni RAG non aiuta mai realmente il LLM.
Nella RAG classica, quando arriva una query:
- La codifichi in un vettore.
- Recuperi chunk simili dal DB vettoriale.
- Scarichi il contesto recuperato nel LLM.
Funziona tipicamente, ma a un costo enorme:
- La maggior parte dei chunk contiene testo irrilevante.
- Il LLM deve elaborare molti più token.
- Paghi per il calcolo, la latenza e il contesto.
Questo è esattamente il problema che il nuovo metodo REFRAG di Meta AI risolve.
Riconsidera fondamentalmente il recupero e il diagramma qui sotto spiega come funziona.
Essenzialmente, invece di fornire al LLM ogni chunk e ogni token, REFRAG comprime e filtra il contesto a livello di vettore:
- Compressione dei chunk: Ogni chunk è codificato in un singolo embedding compresso, piuttosto che in centinaia di embedding di token....

Principali
Ranking
Preferiti