Forscher von Meta haben einen neuen RAG-Ansatz entwickelt, der: - LLaMA in 16 RAG-Benchmarks übertrifft. - eine 30,85-fach schnellere Zeit bis zum ersten Token hat. - 16x größere Kontextfenster verarbeitet. - und 2-4x weniger Tokens verwendet. Hier ist das Kernproblem mit einem typischen RAG-Setup, das Meta löst: Die meisten Informationen, die wir in RAG-Setups abrufen, helfen dem LLM nie wirklich. In klassischem RAG, wenn eine Anfrage eintrifft: - Sie kodieren sie in einen Vektor. - Ähnliche Abschnitte aus der Vektor-Datenbank abrufen. - Den abgerufenen Kontext in das LLM einfüllen. Es funktioniert typischerweise, aber zu hohen Kosten: - Die meisten Abschnitte enthalten irrelevanten Text. - Das LLM muss viel mehr Tokens verarbeiten. - Sie zahlen für Rechenleistung, Latenz und Kontext. Das ist genau das Problem, das die neue Methode REFRAG von Meta AI löst. Es denkt das Abrufen grundlegend neu, und das Diagramm unten erklärt, wie es funktioniert. Im Wesentlichen, anstatt dem LLM jeden Abschnitt und jedes Token zu füttern, komprimiert und filtert REFRAG den Kontext auf Vektorebene: - Abschnittskompression: Jeder Abschnitt wird in ein einzelnes komprimiertes Embedding kodiert, anstatt in Hunderte von Token-Embeddings....