I giganti della tecnologia utilizzano il Multimodal RAG ogni giorno in produzione! - Spotify lo utilizza per rispondere a domande sulla musica - YouTube lo utilizza per trasformare i prompt in tracce - Amazon Music lo utilizza per creare playlist a partire da un prompt Impariamo a costruire un Multimodal Agentic RAG (con codice):
Oggi costruiremo un RAG Agentic multimodale che può interrogare documenti e file audio utilizzando il discorso dell'utente. Stack tecnologico: - @AssemblyAI per la trascrizione. - @milvusio come DB vettoriale. - @beam_cloud per il deployment. - @crewAIInc Flows per l'orchestrazione. Costruiamolo!
Ecco il flusso di lavoro: - L'utente inserisce i dati (audio + documenti). - AssemblyAI trascrive i file audio. - Il testo trascritto e i documenti vengono incorporati nel database vettoriale Milvus. - L'Agente di Ricerca recupera informazioni dalla query dell'utente. - L'Agente di Risposta lo utilizza per formulare una risposta. Controlla questo👇
1️⃣ Acquisizione dei Dati Per iniziare, l'utente fornisce i dati di input testuali e audio nella directory dei dati. CrewAI Flow implementa la logica per scoprire i file e prepararli per ulteriori elaborazioni. Controlla questo👇
2️⃣ Trascrivi audio Successivamente, trascriviamo l'input audio dell'utente utilizzando la piattaforma di riconoscimento vocale di AssemblyAI. AssemblyAI non è open source, ma offre ampi crediti gratuiti per utilizzare i loro modelli di trascrizione SOTA, che sono più che sufficienti per questa demo. Controlla questo👇
3️⃣ Incorpora i dati di input Procedendo, i dati di input trascritti dal passaggio precedente e i dati di testo di input vengono incorporati e memorizzati nel database vettoriale Milvus. Ecco come lo facciamo 👇
4️⃣ Richiesta dell'utente L'ingestione è completata. Ora passiamo alla fase di inferenza! Successivamente, l'utente inserisce una richiesta vocale, che viene trascritta da AssemblyAI. Controlla questo👇
5️⃣ Recupera il contesto Successivamente, generiamo un embedding per la query e estraiamo i chunk più rilevanti dal database vettoriale Milvus. Ecco come lo facciamo 👇
6️⃣ Genera una risposta Una volta che abbiamo il contesto rilevante, il nostro Team viene convocato per generare una risposta chiara e citata per l'utente. Controlla questo 👇
Infine, raggruppiamo tutto in un'interfaccia Streamlit pulita e distribuiamo l'app in un contenitore serverless utilizzando Beam. Importiamo le dipendenze Python necessarie e specifichiamo le specifiche di calcolo per il contenitore. E poi distribuiamo l'app in poche righe di codice👇
Una volta implementato, otteniamo un'implementazione 100% privata per il flusso di lavoro Multimodal RAG Agentic che abbiamo appena costruito. Guarda questa demo 👇
Ecco il flusso di lavoro che abbiamo implementato: - L'utente ha fornito dati (audio + documenti) - AssemblyAI ha trascritto i file audio - I dati trascritti sono stati incorporati nel database vettoriale - L'agente di ricerca ha recuperato informazioni dalla query dell'utente - L'agente di risposta le ha utilizzate per formulare una risposta Controlla questo👇
Se l'hai trovato interessante, condividilo nuovamente con la tua rete. Trovami → @akshay_pachaar ✔️ Per ulteriori approfondimenti e tutorial su LLM, agenti di intelligenza artificiale e apprendimento automatico!
Akshay 🚀
Akshay 🚀5 ago, 20:30
I giganti della tecnologia utilizzano il Multimodal RAG ogni giorno in produzione! - Spotify lo utilizza per rispondere a domande sulla musica - YouTube lo utilizza per trasformare i prompt in tracce - Amazon Music lo utilizza per creare playlist a partire da un prompt Impariamo a costruire un Multimodal Agentic RAG (con codice):
106,5K