Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Raksasa teknologi menggunakan Multimodal RAG setiap hari dalam produksi!
- Spotify menggunakannya untuk menjawab pertanyaan musik
- YouTube menggunakannya untuk mengubah perintah menjadi trek
- Amazon Music menggunakannya untuk membuat daftar putar dari prompt
Mari kita pelajari cara membuat RAG Agen Multimodal (dengan kode):
Hari ini, kita akan membangun RAG Agen multimoda yang dapat mengkueri dokumen dan file audio menggunakan ucapan pengguna.
Tumpukan teknologi:
- @AssemblyAI untuk transkripsi.
- @milvusio sebagai DB vektor.
- @beam_cloud untuk penerapan.
- @crewAIInc Alur untuk orkestrasi.
Ayo bangun!
Berikut alur kerjanya:
- Pengguna memasukkan data (audio + dokumen).
- AssemblyAI menyalin file audio.
- Teks & dokumen yang ditranskripsi disematkan dalam DB vektor Milvus.
- Research Agent mengambil info dari kueri pengguna.
- Agen Respons menggunakannya untuk membuat respons.
Periksa ini👇
1️⃣ Penyerapan Data
Untuk memulai, pengguna menyediakan data input teks dan audio di direktori data.
CrewAI Flow mengimplementasikan logika untuk menemukan file dan menyiapkannya untuk diproses lebih lanjut.
Periksa ini👇

2️⃣ Transkripsikan audio
Selanjutnya, kami menyalin input audio pengguna menggunakan platform Speech-to-text AssemblyAI.
AssemblyAI bukan open source, tetapi memberikan banyak kredit gratis untuk menggunakan model transkripsi SOTA mereka, yang lebih dari cukup untuk demo ini.
Periksa ini👇

3️⃣ Sematkan data input
Selanjutnya, data input yang ditranskripsi dari langkah di atas dan data teks input disematkan dan disimpan di DB vektor Milvus.
Begini cara kami melakukannya 👇

4️⃣ Kueri pengguna
Menelan sudah berakhir.
Sekarang kita beralih ke fase inferensi!
Selanjutnya, pengguna memasukkan kueri suara, yang ditranskripsi oleh AssemblyAI.
Periksa ini👇

5️⃣ Ambil konteks
Selanjutnya, kita membuat penyematan untuk kueri dan menarik potongan yang paling relevan dari DB vektor Milvus.
Beginilah cara kami melakukannya 👇

6️⃣ Hasilkan jawaban
Setelah kami memiliki konteks yang relevan, Kru kami dipanggil untuk menghasilkan respons yang jelas dan dikutip untuk pengguna.
Periksa ini 👇

Terakhir, kami membungkus semuanya menjadi antarmuka Streamlit yang bersih dan menyebarkan aplikasi ke dalam wadah nirserver menggunakan Beam.
Kami mengimpor dependensi Python yang diperlukan dan menentukan spesifikasi komputasi untuk kontainer.
Dan kemudian kami menyebarkan aplikasi dalam beberapa baris kode👇

Setelah diterapkan, kami mendapatkan penyebaran pribadi 100% untuk alur kerja Multimodal RAG Agentic yang baru saja kami bangun.
Periksa demo 👇 ini
Berikut alur kerja yang kami terapkan:
- Data yang diberikan pengguna (audio + dokumen)
- AssemblyAI menyalin file audio
- Data yang ditranskripsi disematkan dalam DB vektor
- Research Agent mengambil info dari kueri pengguna
- Agen Respons menggunakannya untuk membuat respons
Periksa ini👇
Jika Anda merasa berwawasan luas, bagikan kembali dengan jaringan Anda.
Temukan saya → @akshay_pachaar ✔️
Untuk wawasan dan tutorial lebih lanjut tentang LLM, Agen AI, dan Pembelajaran Mesin!

5 Agu, 20.30
Raksasa teknologi menggunakan Multimodal RAG setiap hari dalam produksi!
- Spotify menggunakannya untuk menjawab pertanyaan musik
- YouTube menggunakannya untuk mengubah perintah menjadi trek
- Amazon Music menggunakannya untuk membuat daftar putar dari prompt
Mari kita pelajari cara membuat RAG Agen Multimodal (dengan kode):
106,5K
Teratas
Peringkat
Favorit