Des chercheurs de Meta ont développé une nouvelle approche RAG qui : - surpasse LLaMA sur 16 benchmarks RAG. - a un temps jusqu'au premier jeton 30,85 fois plus rapide. - gère des fenêtres de contexte 16 fois plus grandes. - et utilise 2 à 4 fois moins de jetons. Voici le problème central d'une configuration RAG typique que Meta résout : La plupart de ce que nous récupérons dans les configurations RAG n'aide jamais réellement le LLM. Dans le RAG classique, lorsqu'une requête arrive : - Vous l'encodez en un vecteur. - Récupérez des morceaux similaires depuis la base de données vectorielle. - Déversez le contexte récupéré dans le LLM. Cela fonctionne généralement, mais à un coût énorme : - La plupart des morceaux contiennent du texte non pertinent. - Le LLM doit traiter beaucoup plus de jetons. - Vous payez pour le calcul, la latence et le contexte. C'est exactement le problème que la nouvelle méthode REFRAG de Meta AI résout. Elle repense fondamentalement la récupération et le diagramme ci-dessous explique comment cela fonctionne. Essentiellement, au lieu de nourrir le LLM avec chaque morceau et chaque jeton, REFRAG compresse et filtre le contexte au niveau vectoriel : - Compression des morceaux : Chaque morceau est encodé en un seul embedding compressé, plutôt qu'en des centaines d'embedings de jetons....