Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Onderzoekers van Meta hebben een nieuwe RAG-aanpak ontwikkeld die:
- LLaMA op 16 RAG-benchmarks overtreft.
- 30,85x snellere tijd tot het eerste token heeft.
- 16x grotere contextvensters aankan.
- en het gebruikt 2-4x minder tokens.
Hier is het kernprobleem met een typische RAG-opstelling dat Meta oplost:
Het meeste wat we ophalen in RAG-opstellingen helpt de LLM nooit echt.
In klassieke RAG, wanneer een query binnenkomt:
- Je codeert het in een vector.
- Haal vergelijkbare stukken op uit de vector DB.
- Dump de opgehaalde context in de LLM.
Het werkt meestal, maar tegen een hoge prijs:
- De meeste stukken bevatten irrelevante tekst.
- De LLM moet veel meer tokens verwerken.
- Je betaalt voor rekenkracht, latentie en context.
Dat is precies het probleem dat de nieuwe methode REFRAG van Meta AI oplost.
Het heroverweegt fundamenteel het ophalen en het diagram hieronder legt uit hoe het werkt.
Essentieel, in plaats van de LLM elke chunk en elk token te voeden, comprimeert en filtert REFRAG context op vector-niveau:
- Chunkcompressie: Elke chunk wordt gecodeerd in een enkele gecomprimeerde embedding, in plaats van honderden token embeddings....

Boven
Positie
Favorieten