Forskare från Meta skapade en ny RAG-metod som: - överträffar LLaMA på 16 RAG-riktmärken. - har 30,85 gånger snabbare tid till första token. - Hanterar 16x större kontextfönster. - Och den använder 2-4 gånger färre tokens. Här är kärnproblemet med en typisk RAG-installation som Meta löser: Det mesta av vad vi hämtar i RAG-inställningar hjälper faktiskt aldrig LLM. När en fråga tas emot i klassisk RAG: - Du kodar den till en vektor. - Hämta liknande segment från vektor DB. - Dumpa den hämtade kontexten i LLM. Det fungerar vanligtvis, men till en enorm kostnad: - De flesta segment innehåller irrelevant text. - LLM måste bearbeta mycket fler tokens. - Du betalar för beräkning, svarstid och kontext. Det är precis det problemet som Meta AI:s nya metod REFRAG löser. Det tänker om i grunden när det gäller hämtning och diagrammet nedan förklarar hur det fungerar. I huvudsak, istället för att mata LLM varje bit och varje token, komprimerar och filtrerar REFRAG kontext på vektornivå: - Segmentkomprimering: Varje segment kodas till en enda komprimerad inbäddning i stället för hundratals tokeninbäddningar....