科技巨头每天在生产中使用多模态RAG! - Spotify用它来回答音乐查询 - YouTube用它将提示转换为曲目 - Amazon Music用它根据提示创建播放列表 让我们学习如何构建一个多模态代理RAG(附代码):
今天,我们将构建一个多模态的代理 RAG,可以使用用户的语音查询文档和音频文件。 技术栈: - @AssemblyAI 用于转录。 - @milvusio 作为向量数据库。 - @beam_cloud 用于部署。 - @crewAIInc Flows 用于编排。 让我们开始构建吧!
工作流程如下: - 用户输入数据(音频 + 文档)。 - AssemblyAI 转录音频文件。 - 转录文本和文档嵌入到 Milvus 向量数据库中。 - 研究代理从用户查询中检索信息。 - 响应代理利用这些信息来构建响应。 查看这个👇
1️⃣ 数据摄取 首先,用户在数据目录中提供文本和音频输入数据。 CrewAI Flow 实现了发现文件并为进一步处理做好准备的逻辑。 查看这个👇
2️⃣ 转录音频 接下来,我们使用AssemblyAI的语音转文本平台转录用户的音频输入。 AssemblyAI不是开源的,但它提供了足够的免费积分来使用他们的SOTA转录模型,这对于这个演示来说绰绰有余。 查看这个👇
3️⃣ 嵌入输入数据 接下来,将上一步转录的输入数据和输入文本数据嵌入并存储在 Milvus 向量数据库中。 以下是我们的操作方式 👇
4️⃣ 用户查询 数据摄取已完成。 现在我们进入推理阶段! 接下来,用户输入语音查询,AssemblyAI 会对其进行转录。 查看这个👇
5️⃣ 获取上下文 接下来,我们为查询生成一个嵌入,并从 Milvus 向量数据库中提取最相关的块。 这就是我们的做法 👇
6️⃣ 生成答案 一旦我们拥有相关的上下文,我们的团队就会被召唤来为用户生成一个清晰且有引用的回应。 查看这个 👇
最后,我们将所有内容整理成一个干净的 Streamlit 界面,并使用 Beam 将应用程序部署到无服务器容器中。 我们导入必要的 Python 依赖项,并为容器指定计算规格。 然后,我们用几行代码部署应用程序👇
一旦部署,我们就可以获得 100% 私密的部署,用于我们刚刚构建的多模态 RAG 代理工作流程。 查看这个演示 👇
我们实施的工作流程如下: - 用户提供数据(音频 + 文档) - AssemblyAI 转录了音频文件 - 转录的数据嵌入到向量数据库中 - 研究代理从用户查询中检索信息 - 响应代理利用这些信息撰写回复 查看这个👇
如果您觉得这篇文章有启发性,请与您的网络分享。 找到我 → @akshay_pachaar ✔️ 获取更多关于LLM、AI代理和机器学习的见解和教程!
Akshay 🚀
Akshay 🚀8月5日 20:30
科技巨头每天在生产中使用多模态RAG! - Spotify用它来回答音乐查询 - YouTube用它将提示转换为曲目 - Amazon Music用它根据提示创建播放列表 让我们学习如何构建一个多模态代理RAG(附代码):
106.51K