熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
科技巨頭每天在生產中使用多模態RAG!
- Spotify用它來回答音樂查詢
- YouTube用它將提示轉換為曲目
- Amazon Music用它從提示創建播放列表
讓我們學習如何構建一個多模態代理RAG(附代碼):
今天,我們將建立一個多模態的 Agentic RAG,可以使用用戶的語音查詢文檔和音頻文件。
技術棧:
- @AssemblyAI 用於轉錄。
- @milvusio 作為向量數據庫。
- @beam_cloud 用於部署。
- @crewAIInc Flows 用於編排。
讓我們開始建設吧!
這是工作流程:
- 用戶輸入數據(音頻 + 文檔)。
- AssemblyAI 轉錄音頻文件。
- 轉錄的文本和文檔嵌入到 Milvus 向量數據庫中。
- 研究代理從用戶查詢中檢索信息。
- 回應代理利用這些信息來撰寫回應。
查看這個👇
1️⃣ 數據攝取
首先,使用者在數據目錄中提供文本和音頻輸入數據。
CrewAI Flow 實現了發現文件並準備進一步處理的邏輯。
查看這個👇

2️⃣ 轉錄音頻
接下來,我們使用 AssemblyAI 的語音轉文字平台轉錄用戶的音頻輸入。
AssemblyAI 不是開源的,但它提供了足夠的免費積分來使用他們的 SOTA 轉錄模型,這對於這個演示來說已經足夠了。
查看這個👇

3️⃣ 嵌入輸入數據
接下來,從上述步驟轉錄的輸入數據和輸入文本數據被嵌入並存儲在 Milvus 向量數據庫中。
以下是我們的操作方式 👇

4️⃣ 使用者查詢
資料攝取已完成。
現在我們進入推論階段!
接下來,使用者輸入語音查詢,該查詢由 AssemblyAI 轉錄。
查看這個👇

5️⃣ 檢索上下文
接下來,我們為查詢生成嵌入,並從 Milvus 向量數據庫中提取最相關的片段。
這就是我們的做法 👇

6️⃣ 生成答案
一旦我們擁有相關的上下文,我們的團隊將被召喚來為用戶生成清晰且有引用的回應。
查看這個 👇

最後,我們將所有內容整理成一個乾淨的 Streamlit 介面,並使用 Beam 將應用程式部署到無伺服器容器中。
我們導入必要的 Python 依賴項,並為容器指定計算規格。
然後,我們只需幾行代碼就可以部署應用程式👇

一旦部署,我們將獲得 100% 私密的部署,用於我們剛剛建立的多模態 RAG 代理工作流程。
查看這個演示 👇
我們實施的工作流程如下:
- 用戶提供數據(音頻 + 文檔)
- AssemblyAI 將音頻文件轉錄
- 轉錄數據嵌入向量數據庫
- 研究代理從用戶查詢中檢索信息
- 回應代理利用這些信息來撰寫回應
查看這個👇
如果您覺得它很有見地,請與您的網路重新分享。
找到我 → @akshay_pachaar ✔️
有關 LLM、AI 代理和機器學習的更多見解和教程!

8月5日 20:30
科技巨頭每天在生產中使用多模態RAG!
- Spotify用它來回答音樂查詢
- YouTube用它將提示轉換為曲目
- Amazon Music用它從提示創建播放列表
讓我們學習如何構建一個多模態代理RAG(附代碼):
106.51K
熱門
排行
收藏