Pesquisadores da Meta desenvolveram uma nova abordagem RAG que: - supera o LLaMA em 16 benchmarks RAG. - tem um tempo para o primeiro token 30,85x mais rápido. - lida com janelas de contexto 16x maiores. - e utiliza de 2 a 4x menos tokens. Aqui está o problema central com uma configuração RAG típica que a Meta resolve: A maior parte do que recuperamos em configurações RAG nunca ajuda realmente o LLM. No RAG clássico, quando uma consulta chega: - Você a codifica em um vetor. - Busca pedaços semelhantes no banco de dados vetorial. - Despeja o contexto recuperado no LLM. Isso geralmente funciona, mas a um custo enorme: - A maioria dos pedaços contém texto irrelevante. - O LLM tem que processar muito mais tokens. - Você paga por computação, latência e contexto. Esse é exatamente o problema que o novo método REFRAG da Meta AI resolve. Ele repensa fundamentalmente a recuperação e o diagrama abaixo explica como funciona. Essencialmente, em vez de alimentar o LLM com cada pedaço e cada token, o REFRAG comprime e filtra o contexto em um nível vetorial: - Compressão de pedaços: Cada pedaço é codificado em uma única incorporação comprimida, em vez de centenas de incorporações de tokens....