DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Raksasa teknologi menggunakan Multimodal RAG setiap hari dalam produksi! - Spotify menggunakannya untuk menjawab pertanyaan musik - YouTube menggunakannya untuk mengubah perintah menjadi trek - Amazon Music menggunakannya untuk membuat daftar putar dari prompt Mari kita pelajari cara membuat RAG Agen Multimodal (dengan kode):

Hari ini, kita akan membangun RAG Agen multimoda yang dapat mengkueri dokumen dan file audio menggunakan ucapan pengguna. Tumpukan teknologi: - @AssemblyAI untuk transkripsi. - @milvusio sebagai DB vektor. - @beam_cloud untuk penerapan. - @crewAIInc Alur untuk orkestrasi. Ayo bangun!

Berikut alur kerjanya: - Pengguna memasukkan data (audio + dokumen). - AssemblyAI menyalin file audio. - Teks & dokumen yang ditranskripsi disematkan dalam DB vektor Milvus. - Research Agent mengambil info dari kueri pengguna. - Agen Respons menggunakannya untuk membuat respons. Periksa ini👇

1️⃣ Penyerapan Data Untuk memulai, pengguna menyediakan data input teks dan audio di direktori data. CrewAI Flow mengimplementasikan logika untuk menemukan file dan menyiapkannya untuk diproses lebih lanjut. Periksa ini👇

2️⃣ Transkripsikan audio Selanjutnya, kami menyalin input audio pengguna menggunakan platform Speech-to-text AssemblyAI. AssemblyAI bukan open source, tetapi memberikan banyak kredit gratis untuk menggunakan model transkripsi SOTA mereka, yang lebih dari cukup untuk demo ini. Periksa ini👇

3️⃣ Sematkan data input Selanjutnya, data input yang ditranskripsi dari langkah di atas dan data teks input disematkan dan disimpan di DB vektor Milvus. Begini cara kami melakukannya 👇

4️⃣ Kueri pengguna Menelan sudah berakhir. Sekarang kita beralih ke fase inferensi! Selanjutnya, pengguna memasukkan kueri suara, yang ditranskripsi oleh AssemblyAI. Periksa ini👇

5️⃣ Ambil konteks Selanjutnya, kita membuat penyematan untuk kueri dan menarik potongan yang paling relevan dari DB vektor Milvus. Beginilah cara kami melakukannya 👇

6️⃣ Hasilkan jawaban Setelah kami memiliki konteks yang relevan, Kru kami dipanggil untuk menghasilkan respons yang jelas dan dikutip untuk pengguna. Periksa ini 👇

Terakhir, kami membungkus semuanya menjadi antarmuka Streamlit yang bersih dan menyebarkan aplikasi ke dalam wadah nirserver menggunakan Beam. Kami mengimpor dependensi Python yang diperlukan dan menentukan spesifikasi komputasi untuk kontainer. Dan kemudian kami menyebarkan aplikasi dalam beberapa baris kode👇

Setelah diterapkan, kami mendapatkan penyebaran pribadi 100% untuk alur kerja Multimodal RAG Agentic yang baru saja kami bangun. Periksa demo 👇 ini

Berikut alur kerja yang kami terapkan: - Data yang diberikan pengguna (audio + dokumen) - AssemblyAI menyalin file audio - Data yang ditranskripsi disematkan dalam DB vektor - Research Agent mengambil info dari kueri pengguna - Agen Respons menggunakannya untuk membuat respons Periksa ini👇

Jika Anda merasa berwawasan luas, bagikan kembali dengan jaringan Anda. Temukan saya → @akshay_pachaar ✔️ Untuk wawasan dan tutorial lebih lanjut tentang LLM, Agen AI, dan Pembelajaran Mesin!

106,5K

Teratas

Peringkat

Favorit

Trending onchain

Trending di X

Pendanaan teratas terbaru

Paling terkenal