Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Pesquisadores da Meta desenvolveram uma nova abordagem RAG que:
- supera o LLaMA em 16 benchmarks RAG.
- tem um tempo para o primeiro token 30,85x mais rápido.
- lida com janelas de contexto 16x maiores.
- e utiliza de 2 a 4x menos tokens.
Aqui está o problema central com uma configuração RAG típica que a Meta resolve:
A maior parte do que recuperamos em configurações RAG nunca ajuda realmente o LLM.
No RAG clássico, quando uma consulta chega:
- Você a codifica em um vetor.
- Busca pedaços semelhantes no banco de dados vetorial.
- Despeja o contexto recuperado no LLM.
Isso geralmente funciona, mas a um custo enorme:
- A maioria dos pedaços contém texto irrelevante.
- O LLM tem que processar muito mais tokens.
- Você paga por computação, latência e contexto.
Esse é exatamente o problema que o novo método REFRAG da Meta AI resolve.
Ele repensa fundamentalmente a recuperação e o diagrama abaixo explica como funciona.
Essencialmente, em vez de alimentar o LLM com cada pedaço e cada token, o REFRAG comprime e filtra o contexto em um nível vetorial:
- Compressão de pedaços: Cada pedaço é codificado em uma única incorporação comprimida, em vez de centenas de incorporações de tokens....

Top
Classificação
Favoritos