Los investigadores de Meta han desarrollado un nuevo enfoque RAG que: - supera a LLaMA en 16 benchmarks de RAG. - tiene un tiempo hasta el primer token 30.85x más rápido. - maneja ventanas de contexto 16x más grandes. - y utiliza de 2 a 4 veces menos tokens. Aquí está el problema central con una configuración típica de RAG que Meta resuelve: La mayor parte de lo que recuperamos en configuraciones RAG nunca ayuda realmente al LLM. En RAG clásico, cuando llega una consulta: - La codificas en un vector. - Recuperas fragmentos similares de la base de datos de vectores. - Vuelcas el contexto recuperado en el LLM. Normalmente funciona, pero a un gran costo: - La mayoría de los fragmentos contienen texto irrelevante. - El LLM tiene que procesar muchos más tokens. - Pagas por computación, latencia y contexto. Ese es el problema exacto que el nuevo método REFRAG de Meta AI resuelve. Fundamentalmente repiensa la recuperación y el diagrama a continuación explica cómo funciona. Esencialmente, en lugar de alimentar al LLM con cada fragmento y cada token, REFRAG comprime y filtra el contexto a nivel de vector: - Compresión de fragmentos: Cada fragmento se codifica en una única incrustación comprimida, en lugar de cientos de incrustaciones de tokens....