Teknologigiganter bruker Multimodal RAG hver dag i produksjonen! - Spotify bruker den til å svare på musikkspørsmål - YouTube bruker den til å gjøre forespørsler om til spor - Amazon Music bruker den til å lage spilleliste fra ledeteksten La oss lære hvordan du bygger en Multimodal Agentic RAG (med kode):
I dag skal vi bygge en multimodal Agentic RAG som kan spørre etter dokumenter og lydfiler ved hjelp av brukerens tale. Teknisk stabel: - @AssemblyAI for transkripsjon. - @milvusio som vektoren DB. - @beam_cloud for distribusjon. - @crewAIInc Flyter for orkestrering. La oss bygge det!
Her er arbeidsflyten: - Bruker legger inn data (lyd + dokumenter). - AssemblyAI transkriberer lydfilene. - Transkribert tekst og dokumenter er innebygd i Milvus-vektoren DB. - Research Agent henter informasjon fra brukerspørring. - Response Agent bruker den til å lage et svar. Sjekk dette👇
1️⃣ Datainntak Til å begynne med oppgir brukeren tekst- og lydinndatadataene i datakatalogen. CrewAI Flow implementerer logikken for å oppdage filene og gjøre dem klare for videre behandling. Sjekk dette👇
2️⃣ Transkriber lyd Deretter transkriberer vi brukerens lydinngang ved hjelp av AssemblyAIs tale-til-tekst-plattform. AssemblyAI er ikke åpen kildekode, men det gir rikelig med gratis kreditter for å bruke deres SOTA-transkripsjonsmodeller, som er mer enn tilstrekkelig for denne demoen. Sjekk dette👇
3️⃣ Bygg inn inndata Når vi går videre, blir de transkriberte inngangsdataene fra trinnet ovenfor og inndatatekstdataene innebygd og lagret i Milvus vektor DB. Slik gjør vi det 👇
4️⃣ Brukerens forespørsel Svelging er over. Nå går vi til slutningsfasen! Deretter legger brukeren inn en talespørring, som transkriberes av AssemblyAI. Sjekk dette👇
5️⃣ Hent kontekst Deretter genererer vi en innebygging for spørringen og henter de mest relevante bitene fra Milvus-vektordatabasen. Slik gjør vi det 👇
6️⃣ Generer et svar Når vi har den relevante konteksten, påkalles mannskapet vårt for å generere et klart og sitert svar for brukeren. Sjekk dette 👇
Til slutt pakker vi alt inn i et rent Streamlit-grensesnitt og distribuerer appen til en serverløs beholder ved hjelp av Beam. Vi importerer de nødvendige Python-avhengighetene og spesifiserer databehandlingsspesifikasjonene for beholderen. Og så distribuerer vi appen i noen få linjer med kode👇
Når den er distribuert, får vi en 100 % privat distribusjon for den multimodale RAG Agentic-arbeidsflyten som vi nettopp har bygget. Sjekk denne demoen 👇
Her er arbeidsflyten vi implementerte: - Bruker ga data (lyd + dokumenter) - AssemblyAI transkriberte lydfilene - Transkriberte data er innebygd i vektor DB - Forskningsagent hentet informasjon fra brukerspørring - Responsagenten brukte den til å lage et svar Sjekk dette👇
Hvis du syntes det var innsiktsfullt, kan du dele det med nettverket ditt. Finn meg → @akshay_pachaar ✔️ For mer innsikt og opplæringer om LLM-er, AI-agenter og maskinlæring!
Akshay 🚀
Akshay 🚀5. aug., 20:30
Teknologigiganter bruker Multimodal RAG hver dag i produksjonen! - Spotify bruker den til å svare på musikkspørsmål - YouTube bruker den til å gjøre forespørsler om til spor - Amazon Music bruker den til å lage spilleliste fra ledeteksten La oss lære hvordan du bygger en Multimodal Agentic RAG (med kode):
102,71K