I ricercatori di Meta hanno sviluppato un nuovo approccio RAG che: - supera LLaMA in 16 benchmark RAG. - ha un tempo di attesa per il primo token 30,85 volte più veloce. - gestisce finestre di contesto 16 volte più grandi. - e utilizza da 2 a 4 volte meno token. Ecco il problema principale con una configurazione RAG tipica che Meta risolve: La maggior parte di ciò che recuperiamo nelle configurazioni RAG non aiuta mai realmente il LLM. Nella RAG classica, quando arriva una query: - La codifichi in un vettore. - Recuperi chunk simili dal DB vettoriale. - Scarichi il contesto recuperato nel LLM. Funziona tipicamente, ma a un costo enorme: - La maggior parte dei chunk contiene testo irrilevante. - Il LLM deve elaborare molti più token. - Paghi per il calcolo, la latenza e il contesto. Questo è esattamente il problema che il nuovo metodo REFRAG di Meta AI risolve. Riconsidera fondamentalmente il recupero e il diagramma qui sotto spiega come funziona. Essenzialmente, invece di fornire al LLM ogni chunk e ogni token, REFRAG comprime e filtra il contesto a livello di vettore: - Compressione dei chunk: Ogni chunk è codificato in un singolo embedding compresso, piuttosto che in centinaia di embedding di token....