Metan tutkijat rakensivat uuden RAG-lähestymistavan, joka: - päihittää LLaMA:n 16 RAG-vertailussa. - sillä on 30,85 kertaa nopeampi aika ensimmäiseen tokeniin. - Käsittelee 16 kertaa suurempia kontekstiikkunoita. - ja se käyttää 2-4 kertaa vähemmän tokeneita. Tässä on tyypillisen RAG-kokoonpanon ydinongelma, jonka Meta ratkaisee: Suurin osa siitä, mitä haemme RAG-asetuksista, ei koskaan auta LLM:ää. Perinteisessä RAG:ssa, kun kysely saapuu: - Koodaat sen vektoriksi. - Hae samanlaisia paloja vektoritietokannasta. - Vedä haettu konteksti LLM:ään. Se yleensä toimii, mutta valtavalla hinnalla: - Useimmat palat sisältävät epäolennaista tekstiä. - LLM:n on käsiteltävä paljon enemmän tokeneita. - Maksat laskennasta, viiveestä ja kontekstista. Tämä on juuri se ongelma, jonka Meta AI:n uusi menetelmä REFRAG ratkaisee. Se miettii hakua perusteellisesti uudelleen, ja alla oleva kaavio selittää, miten se toimii. Pohjimmiltaan sen sijaan, että REFRAG syöttäisi LLM:lle jokaisen palan ja jokaisen tokenin, se pakkaa ja suodattaa kontekstin vektoritasolla: - Lohkopakkaus: Jokainen pala on koodattu yhdeksi pakatuksi upotukseksi satojen token-upotusten sijaan....