一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

科技巨头每天在生产中使用多模态RAG！ - Spotify用它来回答音乐查询 - YouTube用它将提示转换为曲目 - Amazon Music用它根据提示创建播放列表让我们学习如何构建一个多模态代理RAG（附代码）：

今天，我们将构建一个多模态的代理 RAG，可以使用用户的语音查询文档和音频文件。技术栈： - @AssemblyAI 用于转录。 - @milvusio 作为向量数据库。 - @beam_cloud 用于部署。 - @crewAIInc Flows 用于编排。让我们开始构建吧！

工作流程如下： - 用户输入数据（音频 + 文档）。 - AssemblyAI 转录音频文件。 - 转录文本和文档嵌入到 Milvus 向量数据库中。 - 研究代理从用户查询中检索信息。 - 响应代理利用这些信息来构建响应。查看这个👇

1️⃣ 数据摄取首先，用户在数据目录中提供文本和音频输入数据。 CrewAI Flow 实现了发现文件并为进一步处理做好准备的逻辑。查看这个👇

2️⃣ 转录音频接下来，我们使用AssemblyAI的语音转文本平台转录用户的音频输入。 AssemblyAI不是开源的，但它提供了足够的免费积分来使用他们的SOTA转录模型，这对于这个演示来说绰绰有余。查看这个👇

3️⃣ 嵌入输入数据接下来，将上一步转录的输入数据和输入文本数据嵌入并存储在 Milvus 向量数据库中。以下是我们的操作方式 👇

4️⃣ 用户查询数据摄取已完成。现在我们进入推理阶段！接下来，用户输入语音查询，AssemblyAI 会对其进行转录。查看这个👇

5️⃣ 获取上下文接下来，我们为查询生成一个嵌入，并从 Milvus 向量数据库中提取最相关的块。这就是我们的做法 👇

6️⃣ 生成答案一旦我们拥有相关的上下文，我们的团队就会被召唤来为用户生成一个清晰且有引用的回应。查看这个 👇

最后，我们将所有内容整理成一个干净的 Streamlit 界面，并使用 Beam 将应用程序部署到无服务器容器中。我们导入必要的 Python 依赖项，并为容器指定计算规格。然后，我们用几行代码部署应用程序👇

一旦部署，我们就可以获得 100% 私密的部署，用于我们刚刚构建的多模态 RAG 代理工作流程。查看这个演示 👇

我们实施的工作流程如下： - 用户提供数据（音频 + 文档） - AssemblyAI 转录了音频文件 - 转录的数据嵌入到向量数据库中 - 研究代理从用户查询中检索信息 - 响应代理利用这些信息撰写回复查看这个👇

如果您觉得这篇文章有启发性，请与您的网络分享。找到我 → @akshay_pachaar ✔️ 获取更多关于LLM、AI代理和机器学习的见解和教程！

106.51K