Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Technologičtí giganti používají multimodální RAG každý den ve výrobě!
- Spotify jej používá k odpovídání na dotazy na hudbu
- YouTube jej používá k přeměně výzev na stopy
- Amazon Music jej používá k vytvoření seznamu skladeb z výzvy
Pojďme se naučit, jak vytvořit multimodální agentní RAG (s kódem):
Dnes vytvoříme multimodální Agentic RAG, který dokáže dotazovat dokumenty a zvukové soubory pomocí řeči uživatele.
Technologický zásobník:
- @AssemblyAI pro přepis.
- @milvusio jako vektorová databáze.
- @beam_cloud pro nasazení.
- @crewAIInc toky pro orchestraci.
Pojďme to postavit!
Zde je pracovní postup:
- Uživatelské zadávání dat (audio + dokumenty).
- AssemblyAI přepisuje zvukové soubory.
- Přepsaný text a dokumenty jsou vloženy do vektorové databáze Milvus.
- Agent výzkumu získává informace z dotazu uživatele.
- Agent odezvy jej používá k vytvoření odpovědi.
Zkontrolujte toto👇
1️⃣ Příjem dat
Na začátku uživatel poskytne textová a zvuková vstupní data v datovém adresáři.
CrewAI Flow implementuje logiku pro objevování souborů a jejich přípravu k dalšímu zpracování.
Zkontrolujte toto👇

2️⃣ Přepis zvuku
Dále přepíšeme zvukový vstup uživatele pomocí platformy AssemblyAI pro převod řeči na text.
AssemblyAI není open source, ale poskytuje dostatek bezplatných kreditů na používání jejich přepisovacích modelů SOTA, které jsou pro tuto ukázku více než dostatečné.
Zkontrolujte toto👇

3️⃣ Vložení vstupních dat
Pokračujeme dále, přepsaná vstupní data z výše uvedeného kroku a vstupní textová data jsou vložena a uložena do vektorové databáze Milvus.
Zde je návod, jak to 👇 děláme

4️⃣ Dotaz uživatele
Požití je u konce.
Nyní se přesuneme do fáze odvozování!
Dále uživatel zadá hlasový dotaz, který je přepsán AssemblyAI.
Zkontrolujte toto👇

5️⃣ Načíst kontext
Dále vygenerujeme vložení dotazu a vytáhneme nejrelevantnější bloky dat z vektorové databáze Milvus.
Takto to 👇 děláme

6️⃣ Vygenerovat odpověď
Jakmile máme relevantní kontext, je vyvolána naše posádka, která uživateli vygeneruje jasnou a citovanou odpověď.
Zkontrolujte toto 👇

Nakonec vše zabalíme do čistého rozhraní Streamlit a pomocí Beamu nasadíme aplikaci do bezserverless kontejneru.
Importujeme potřebné závislosti Pythonu a určíme výpočetní specifikace pro kontejner.
A pak aplikaci nasadíme v několika řádcích kódu👇

Po nasazení získáme 100% soukromé nasazení pro pracovní postup Multimodal RAG Agentic, který jsme právě vytvořili.
Podívejte se na tuto ukázku 👇
Zde je pracovní postup, který jsme implementovali:
- Data zadaná uživatelem (audio + dokumenty)
- AssemblyAI přepsala zvukové soubory
- Přepsaná data jsou vložena do vektorové databáze
- Výzkumný agent získal informace z dotazu uživatele
- Agent odezvy jej použil k vytvoření odpovědi
Zkontrolujte toto👇
Pokud vám to připadalo užitečné, sdílejte to znovu se svou sítí.
Najdi mě → @akshay_pachaar ✔️
Další poznatky a návody na LLM, AI agenty a strojové učení!

5. 8. 20:30
Technologičtí giganti používají multimodální RAG každý den ve výrobě!
- Spotify jej používá k odpovídání na dotazy na hudbu
- YouTube jej používá k přeměně výzev na stopy
- Amazon Music jej používá k vytvoření seznamu skladeb z výzvy
Pojďme se naučit, jak vytvořit multimodální agentní RAG (s kódem):
93,86K
Top
Hodnocení
Oblíbené