Pesquisadores da Meta construíram uma nova abordagem RAG que: - supera o LLaMA em 16 benchmarks RAG. - tem tempo para o primeiro token 30,85x mais rápido. - lida com janelas de contexto 16x maiores. - e utiliza 2-4x menos tokens. Aqui está o problema central com uma configuração RAG típica que a Meta resolve: A maior parte do que recuperamos nas configurações RAG nunca ajuda o LLM. No RAG clássico, quando uma consulta chega: - Você codifica em um vetor. - Busque partes semelhantes do banco de dados vetorial. - Despeje o contexto recuperado no LLM. Normalmente funciona, mas a um custo enorme: - A maioria dos pedaços contém texto irrelevante. - O LLM tem que processar muito mais tokens. - Você paga pela computação, latência e contexto. Esse é o problema exato que o novo método REFRAG da Meta AI resolve. Ele repensa fundamentalmente a recuperação e o diagrama abaixo explica como funciona. Essencialmente, em vez de alimentar o LLM com cada pedaço e cada token, o REFRAG compacta e filtra o contexto em um nível de vetor: - Compactação de blocos: cada bloco é codificado em uma única incorporação compactada, em vez de centenas de incorporações de tokens....