Los investigadores de Meta crearon un nuevo enfoque de RAG que: - supera a LLaMA en 16 puntos de referencia RAG. - Tiene un tiempo de llegada al primer token 30,85 veces más rápido. - maneja ventanas de contexto 16 veces más grandes. - y utiliza de 2 a 4 veces menos tokens. Aquí está el problema central con una configuración típica de RAG que Meta resuelve: La mayor parte de lo que recuperamos en configuraciones RAG nunca ayuda al LLM. En el RAG clásico, cuando llega una consulta: - Lo codificas en un vector. - Obtener fragmentos similares de la base de datos vectorial. - Volcar el contexto recuperado en el LLM. Por lo general, funciona, pero a un costo enorme: - La mayoría de los fragmentos contienen texto irrelevante. - El LLM tiene que procesar muchos más tokens. - Pagas por el proceso, la latencia y el contexto. Ese es exactamente el problema que resuelve el nuevo método REFRAG de Meta AI. Fundamentalmente replantea la recuperación y el siguiente diagrama explica cómo funciona. Esencialmente, en lugar de alimentar al LLM con cada fragmento y cada token, REFRAG comprime y filtra el contexto a nivel vectorial: - Compresión de fragmentos: cada fragmento se codifica en una sola incrustación comprimida, en lugar de cientos de incrustaciones de tokens....