DApp Store | Centrum Web3 pro události a hry

Populární témata

Technologičtí giganti používají multimodální RAG každý den ve výrobě! - Spotify jej používá k odpovídání na dotazy na hudbu - YouTube jej používá k přeměně výzev na stopy - Amazon Music jej používá k vytvoření seznamu skladeb z výzvy Pojďme se naučit, jak vytvořit multimodální agentní RAG (s kódem):

Dnes vytvoříme multimodální Agentic RAG, který dokáže dotazovat dokumenty a zvukové soubory pomocí řeči uživatele. Technologický zásobník: - @AssemblyAI pro přepis. - @milvusio jako vektorová databáze. - @beam_cloud pro nasazení. - @crewAIInc toky pro orchestraci. Pojďme to postavit!

Zde je pracovní postup: - Uživatelské zadávání dat (audio + dokumenty). - AssemblyAI přepisuje zvukové soubory. - Přepsaný text a dokumenty jsou vloženy do vektorové databáze Milvus. - Agent výzkumu získává informace z dotazu uživatele. - Agent odezvy jej používá k vytvoření odpovědi. Zkontrolujte toto👇

1️⃣ Příjem dat Na začátku uživatel poskytne textová a zvuková vstupní data v datovém adresáři. CrewAI Flow implementuje logiku pro objevování souborů a jejich přípravu k dalšímu zpracování. Zkontrolujte toto👇

2️⃣ Přepis zvuku Dále přepíšeme zvukový vstup uživatele pomocí platformy AssemblyAI pro převod řeči na text. AssemblyAI není open source, ale poskytuje dostatek bezplatných kreditů na používání jejich přepisovacích modelů SOTA, které jsou pro tuto ukázku více než dostatečné. Zkontrolujte toto👇

3️⃣ Vložení vstupních dat Pokračujeme dále, přepsaná vstupní data z výše uvedeného kroku a vstupní textová data jsou vložena a uložena do vektorové databáze Milvus. Zde je návod, jak to 👇 děláme

4️⃣ Dotaz uživatele Požití je u konce. Nyní se přesuneme do fáze odvozování! Dále uživatel zadá hlasový dotaz, který je přepsán AssemblyAI. Zkontrolujte toto👇

5️⃣ Načíst kontext Dále vygenerujeme vložení dotazu a vytáhneme nejrelevantnější bloky dat z vektorové databáze Milvus. Takto to 👇 děláme

6️⃣ Vygenerovat odpověď Jakmile máme relevantní kontext, je vyvolána naše posádka, která uživateli vygeneruje jasnou a citovanou odpověď. Zkontrolujte toto 👇

Nakonec vše zabalíme do čistého rozhraní Streamlit a pomocí Beamu nasadíme aplikaci do bezserverless kontejneru. Importujeme potřebné závislosti Pythonu a určíme výpočetní specifikace pro kontejner. A pak aplikaci nasadíme v několika řádcích kódu👇

Po nasazení získáme 100% soukromé nasazení pro pracovní postup Multimodal RAG Agentic, který jsme právě vytvořili. Podívejte se na tuto ukázku 👇

Zde je pracovní postup, který jsme implementovali: - Data zadaná uživatelem (audio + dokumenty) - AssemblyAI přepsala zvukové soubory - Přepsaná data jsou vložena do vektorové databáze - Výzkumný agent získal informace z dotazu uživatele - Agent odezvy jej použil k vytvoření odpovědi Zkontrolujte toto👇

Pokud vám to připadalo užitečné, sdílejte to znovu se svou sítí. Najdi mě → @akshay_pachaar ✔️ Další poznatky a návody na LLM, AI agenty a strojové učení!

93,86K

Top

Hodnocení

Oblíbené

Co je v trendu on-chain

Populární na X

Nejvyšší finanční vklady v poslední době

Nejpozoruhodnější