Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Avi Chawla
Tutorial dan wawasan harian tentang DS, ML, LLM, dan RAG • Co-founder @dailydoseofds_ • IIT Varanasi • mantan Insinyur AI @ MastercardAI
Para peneliti dari Meta membangun pendekatan RAG baru yang:
- mengungguli LLaMA pada 16 tolok ukur RAG.
- memiliki waktu 30,85x lebih cepat ke token pertama.
- Menangani jendela konteks 16x lebih besar.
- dan menggunakan token 2-4x lebih sedikit.
Berikut adalah masalah inti dengan pengaturan RAG khas yang dipecahkan Meta:
Sebagian besar dari apa yang kami ambil dalam pengaturan RAG tidak pernah benar-benar membantu LLM.
Dalam RUG klasik, saat kueri tiba:
- Anda mengkodekannya menjadi vektor.
- Ambil potongan serupa dari DB vektor.
- Membuang konteks yang diambil ke LLM.
Ini biasanya berfungsi, tetapi dengan biaya besar:
- Sebagian besar potongan berisi teks yang tidak relevan.
- LLM harus memproses lebih banyak token.
- Anda membayar komputasi, latensi, dan konteks.
Itulah masalah yang tepat yang dipecahkan oleh metode baru Meta AI REFRAG.
Ini secara fundamental memikirkan kembali pengambilan dan diagram di bawah ini menjelaskan cara kerjanya.
Pada dasarnya, alih-alih memberi makan LLM setiap potongan dan setiap token, REFRAG mengompresi dan memfilter konteks pada tingkat vektor:
- Kompresi potongan: Setiap potongan dikodekan menjadi satu penyematan terkompresi, bukan ratusan penyematan token.
- Kebijakan relevansi: Kebijakan yang dilatih RL ringan mengevaluasi penyematan terkompresi dan hanya menyimpan potongan yang paling relevan.
- Ekspansi selektif: Hanya potongan yang dipilih oleh kebijakan RL yang diperluas kembali ke penyematan penuhnya dan diteruskan ke LLM.
Dengan cara ini, model memproses apa yang penting dan mengabaikan sisanya.
Berikut panduan langkah demi langkah:
- Langkah 1-2) Enkodekan dokumen dan simpan dalam database vektor.
- Langkah 3-5) Enkodekan kueri pengguna lengkap dan temukan potongan yang relevan. Selain itu, hitung penyematan tingkat token untuk kueri (langkah 7) dan potongan yang cocok.
- Langkah 6) Gunakan kebijakan relevansi (dilatih melalui RL) untuk memilih potongan yang akan disimpan.
- Langkah 8) Gabungkan representasi tingkat token dari kueri input dengan penyematan tingkat token dari potongan yang dipilih dan representasi vektor tunggal terkompresi dari potongan yang ditolak.
- Langkah 9-10) Kirim semua itu ke LLM.
Langkah RL menjadikan REFRAG sebagai pipeline RAG yang lebih relevan.
Berdasarkan makalah penelitian, pendekatan ini:
- memiliki time-to-first-token 30,85x lebih cepat (3,75x lebih baik dari SOTA sebelumnya)
- menyediakan jendela konteks 16x lebih besar
- mengungguli LLaMA pada 16 tolok ukur RAG sambil menggunakan token dekoder 2-4x lebih sedikit.
- tidak menyebabkan kehilangan akurasi di seluruh tugas percakapan RAG, ringkasan, dan multi-giliran
Itu berarti Anda dapat memproses konteks 16x lebih banyak dengan kecepatan 30x, dengan akurasi yang sama.
Kode tersebut belum dirilis oleh Meta. Mereka berniat untuk melakukannya segera.

61,4K
Agen melupakan segalanya setelah setiap tugas!
Graphiti membangun grafik pengetahuan yang sadar temporal untuk agen AI Anda.
Mengintegrasikan server MCP-nya dengan Claude/Cursor menambahkan lapisan memori yang kuat ke semua interaksi AI Anda di seluruh aplikasi.
100% open-source dengan 18k+ bintang!
15,94K
Teratas
Peringkat
Favorit