科技巨頭每天在生產中使用多模態RAG! - Spotify用它來回答音樂查詢 - YouTube用它將提示轉換為曲目 - Amazon Music用它從提示創建播放列表 讓我們學習如何構建一個多模態代理RAG(附代碼):
今天,我們將建立一個多模態的 Agentic RAG,可以使用用戶的語音查詢文檔和音頻文件。 技術棧: - @AssemblyAI 用於轉錄。 - @milvusio 作為向量數據庫。 - @beam_cloud 用於部署。 - @crewAIInc Flows 用於編排。 讓我們開始建設吧!
這是工作流程: - 用戶輸入數據(音頻 + 文檔)。 - AssemblyAI 轉錄音頻文件。 - 轉錄的文本和文檔嵌入到 Milvus 向量數據庫中。 - 研究代理從用戶查詢中檢索信息。 - 回應代理利用這些信息來撰寫回應。 查看這個👇
1️⃣ 數據攝取 首先,使用者在數據目錄中提供文本和音頻輸入數據。 CrewAI Flow 實現了發現文件並準備進一步處理的邏輯。 查看這個👇
2️⃣ 轉錄音頻 接下來,我們使用 AssemblyAI 的語音轉文字平台轉錄用戶的音頻輸入。 AssemblyAI 不是開源的,但它提供了足夠的免費積分來使用他們的 SOTA 轉錄模型,這對於這個演示來說已經足夠了。 查看這個👇
3️⃣ 嵌入輸入數據 接下來,從上述步驟轉錄的輸入數據和輸入文本數據被嵌入並存儲在 Milvus 向量數據庫中。 以下是我們的操作方式 👇
4️⃣ 使用者查詢 資料攝取已完成。 現在我們進入推論階段! 接下來,使用者輸入語音查詢,該查詢由 AssemblyAI 轉錄。 查看這個👇
5️⃣ 檢索上下文 接下來,我們為查詢生成嵌入,並從 Milvus 向量數據庫中提取最相關的片段。 這就是我們的做法 👇
6️⃣ 生成答案 一旦我們擁有相關的上下文,我們的團隊將被召喚來為用戶生成清晰且有引用的回應。 查看這個 👇
最後,我們將所有內容整理成一個乾淨的 Streamlit 介面,並使用 Beam 將應用程式部署到無伺服器容器中。 我們導入必要的 Python 依賴項,並為容器指定計算規格。 然後,我們只需幾行代碼就可以部署應用程式👇
一旦部署,我們將獲得 100% 私密的部署,用於我們剛剛建立的多模態 RAG 代理工作流程。 查看這個演示 👇
我們實施的工作流程如下: - 用戶提供數據(音頻 + 文檔) - AssemblyAI 將音頻文件轉錄 - 轉錄數據嵌入向量數據庫 - 研究代理從用戶查詢中檢索信息 - 回應代理利用這些信息來撰寫回應 查看這個👇
如果您覺得它很有見地,請與您的網路重新分享。 找到我 → @akshay_pachaar ✔️ 有關 LLM、AI 代理和機器學習的更多見解和教程!
Akshay 🚀
Akshay 🚀8月5日 20:30
科技巨頭每天在生產中使用多模態RAG! - Spotify用它來回答音樂查詢 - YouTube用它將提示轉換為曲目 - Amazon Music用它從提示創建播放列表 讓我們學習如何構建一個多模態代理RAG(附代碼):
106.51K