热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
科技巨头每天在生产中使用多模态RAG!
- Spotify用它来回答音乐查询
- YouTube用它将提示转换为曲目
- Amazon Music用它根据提示创建播放列表
让我们学习如何构建一个多模态代理RAG(附代码):
今天,我们将构建一个多模态的代理 RAG,可以使用用户的语音查询文档和音频文件。
技术栈:
- @AssemblyAI 用于转录。
- @milvusio 作为向量数据库。
- @beam_cloud 用于部署。
- @crewAIInc Flows 用于编排。
让我们开始构建吧!
工作流程如下:
- 用户输入数据(音频 + 文档)。
- AssemblyAI 转录音频文件。
- 转录文本和文档嵌入到 Milvus 向量数据库中。
- 研究代理从用户查询中检索信息。
- 响应代理利用这些信息来构建响应。
查看这个👇
1️⃣ 数据摄取
首先,用户在数据目录中提供文本和音频输入数据。
CrewAI Flow 实现了发现文件并为进一步处理做好准备的逻辑。
查看这个👇

2️⃣ 转录音频
接下来,我们使用AssemblyAI的语音转文本平台转录用户的音频输入。
AssemblyAI不是开源的,但它提供了足够的免费积分来使用他们的SOTA转录模型,这对于这个演示来说绰绰有余。
查看这个👇

3️⃣ 嵌入输入数据
接下来,将上一步转录的输入数据和输入文本数据嵌入并存储在 Milvus 向量数据库中。
以下是我们的操作方式 👇

4️⃣ 用户查询
数据摄取已完成。
现在我们进入推理阶段!
接下来,用户输入语音查询,AssemblyAI 会对其进行转录。
查看这个👇

5️⃣ 获取上下文
接下来,我们为查询生成一个嵌入,并从 Milvus 向量数据库中提取最相关的块。
这就是我们的做法 👇

6️⃣ 生成答案
一旦我们拥有相关的上下文,我们的团队就会被召唤来为用户生成一个清晰且有引用的回应。
查看这个 👇

最后,我们将所有内容整理成一个干净的 Streamlit 界面,并使用 Beam 将应用程序部署到无服务器容器中。
我们导入必要的 Python 依赖项,并为容器指定计算规格。
然后,我们用几行代码部署应用程序👇

一旦部署,我们就可以获得 100% 私密的部署,用于我们刚刚构建的多模态 RAG 代理工作流程。
查看这个演示 👇
我们实施的工作流程如下:
- 用户提供数据(音频 + 文档)
- AssemblyAI 转录了音频文件
- 转录的数据嵌入到向量数据库中
- 研究代理从用户查询中检索信息
- 响应代理利用这些信息撰写回复
查看这个👇
如果您觉得这篇文章有启发性,请与您的网络分享。
找到我 → @akshay_pachaar ✔️
获取更多关于LLM、AI代理和机器学习的见解和教程!

8月5日 20:30
科技巨头每天在生产中使用多模态RAG!
- Spotify用它来回答音乐查询
- YouTube用它将提示转换为曲目
- Amazon Music用它根据提示创建播放列表
让我们学习如何构建一个多模态代理RAG(附代码):
106.51K
热门
排行
收藏