Para peneliti dari Meta membangun pendekatan RAG baru yang: - mengungguli LLaMA pada 16 tolok ukur RAG. - memiliki waktu 30,85x lebih cepat ke token pertama. - Menangani jendela konteks 16x lebih besar. - dan menggunakan token 2-4x lebih sedikit. Berikut adalah masalah inti dengan pengaturan RAG khas yang dipecahkan Meta: Sebagian besar dari apa yang kami ambil dalam pengaturan RAG tidak pernah benar-benar membantu LLM. Dalam RUG klasik, saat kueri tiba: - Anda mengkodekannya menjadi vektor. - Ambil potongan serupa dari DB vektor. - Membuang konteks yang diambil ke LLM. Ini biasanya berfungsi, tetapi dengan biaya besar: - Sebagian besar potongan berisi teks yang tidak relevan. - LLM harus memproses lebih banyak token. - Anda membayar komputasi, latensi, dan konteks. Itulah masalah yang tepat yang dipecahkan oleh metode baru Meta AI REFRAG. Ini secara fundamental memikirkan kembali pengambilan dan diagram di bawah ini menjelaskan cara kerjanya. Pada dasarnya, alih-alih memberi makan LLM setiap potongan dan setiap token, REFRAG mengompresi dan memfilter konteks pada tingkat vektor: - Kompresi potongan: Setiap potongan dikodekan menjadi satu penyematan terkompresi, bukan ratusan penyematan token....