Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Forskare från Meta skapade en ny RAG-metod som:
- överträffar LLaMA på 16 RAG-riktmärken.
- har 30,85 gånger snabbare tid till första token.
- Hanterar 16x större kontextfönster.
- Och den använder 2-4 gånger färre tokens.
Här är kärnproblemet med en typisk RAG-installation som Meta löser:
Det mesta av vad vi hämtar i RAG-inställningar hjälper faktiskt aldrig LLM.
När en fråga tas emot i klassisk RAG:
- Du kodar den till en vektor.
- Hämta liknande segment från vektor DB.
- Dumpa den hämtade kontexten i LLM.
Det fungerar vanligtvis, men till en enorm kostnad:
- De flesta segment innehåller irrelevant text.
- LLM måste bearbeta mycket fler tokens.
- Du betalar för beräkning, svarstid och kontext.
Det är precis det problemet som Meta AI:s nya metod REFRAG löser.
Det tänker om i grunden när det gäller hämtning och diagrammet nedan förklarar hur det fungerar.
I huvudsak, istället för att mata LLM varje bit och varje token, komprimerar och filtrerar REFRAG kontext på vektornivå:
- Segmentkomprimering: Varje segment kodas till en enda komprimerad inbäddning i stället för hundratals tokeninbäddningar....

Topp
Rankning
Favoriter