Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cercetătorii de la Meta au construit o nouă abordare RAG care:
- depășește LLaMA la 16 benchmark-uri RAG.
- are un timp de 30,85 ori mai rapid până la primul token.
- gestionează ferestre contextuale de 16 ori mai mari.
- și utilizează de 2-4 ori mai puține jetoane.
Iată problema principală cu o configurație tipică RAG pe care Meta o rezolvă:
Cea mai mare parte a ceea ce recuperăm în configurațiile RAG nu ajută niciodată LLM.
În RAG clasic, când sosește o interogare:
- Îl codificați într-un vector.
- Preluați bucăți similare din baza de date vectorială.
- Descărcați contextul preluat în LLM.
De obicei funcționează, dar la un cost uriaș:
- Majoritatea bucăților conțin text irelevant.
- LLM trebuie să proceseze mult mai multe token-uri.
- Plătiți pentru calcul, latență și context.
Aceasta este exact problema pe care o rezolvă noua metodă REFRAG a Meta AI.
Regândește fundamental recuperarea, iar diagrama de mai jos explică cum funcționează.
În esență, în loc să alimenteze LLM fiecare bucată și fiecare token, REFRAG comprimă și filtrează contextul la nivel vectorial:
- Compresie de bucăți: Fiecare bucată este codificată într-o singură încorporare comprimată, mai degrabă decât sute de încorporari de jetoane....

Limită superioară
Clasament
Favorite