Technologiegiganten nutzen jeden Tag Multimodal RAG in der Produktion! - Spotify nutzt es, um Musikfragen zu beantworten - YouTube nutzt es, um Eingaben in Tracks umzuwandeln - Amazon Music nutzt es, um Playlists aus Eingaben zu erstellen Lass uns lernen, wie man einen Multimodal Agentic RAG (mit Code) aufbaut:
Heute werden wir einen multimodalen Agentic RAG erstellen, der Dokumente und Audiodateien mithilfe der Sprache des Benutzers abfragen kann. Technologiestack: - @AssemblyAI für die Transkription. - @milvusio als die Vektor-Datenbank. - @beam_cloud für die Bereitstellung. - @crewAIInc Flows für die Orchestrierung. Lass uns anfangen!
Hier ist der Arbeitsablauf: - Der Benutzer gibt Daten ein (Audio + Dokumente). - AssemblyAI transkribiert die Audiodateien. - Der transkribierte Text und die Dokumente werden in der Milvus-Vektor-Datenbank eingebettet. - Der Forschungsagent ruft Informationen aus der Benutzeranfrage ab. - Der Antwortagent verwendet diese Informationen, um eine Antwort zu formulieren. Überprüfen Sie das👇
1️⃣ Datenaufnahme Zunächst stellt der Benutzer die Text- und Audioeingabedaten im Datenverzeichnis bereit. CrewAI Flow implementiert die Logik, um die Dateien zu entdecken und sie für die weitere Verarbeitung vorzubereiten. Überprüfen Sie dies👇
2️⃣ Transkribiere Audio Als Nächstes transkribieren wir die Audioeingabe des Benutzers mit der Speech-to-Text-Plattform von AssemblyAI. AssemblyAI ist nicht Open Source, bietet jedoch ausreichend kostenlose Credits, um ihre SOTA-Transkriptionsmodelle zu nutzen, die für dieses Demo mehr als ausreichend sind. Siehe das👇
3️⃣ Eingabedaten einbetten Als Nächstes werden die transkribierten Eingabedaten aus dem obigen Schritt und die Eingabetextdaten eingebettet und im Milvus-Vektor-DB gespeichert. So machen wir das 👇
4️⃣ Benutzeranfrage Die Eingabe ist abgeschlossen. Jetzt gehen wir zur Inferenzphase über! Als Nächstes gibt der Benutzer eine Sprachabfrage ein, die von AssemblyAI transkribiert wird. Überprüfen Sie dies👇
5️⃣ Kontext abrufen Als Nächstes generieren wir ein Embedding für die Abfrage und ziehen die relevantesten Teile aus der Milvus-Vektor-Datenbank. So machen wir das 👇
6️⃣ Eine Antwort generieren Sobald wir den relevanten Kontext haben, wird unser Team aufgerufen, um eine klare und zitierte Antwort für den Benutzer zu generieren. Überprüfen Sie dies 👇
Schließlich fassen wir alles in einer sauberen Streamlit-Oberfläche zusammen und setzen die App in einem serverlosen Container mit Beam ein. Wir importieren die notwendigen Python-Abhängigkeiten und geben die Rechenanforderungen für den Container an. Und dann setzen wir die App in ein paar Codezeilen ein👇
Sobald bereitgestellt, erhalten wir eine 100% private Bereitstellung für den Multimodal RAG Agentic Workflow, den wir gerade erstellt haben. Überprüfen Sie diese Demo 👇
Hier ist der Workflow, den wir implementiert haben: - Benutzer gab Daten (Audio + Dokumente) an - AssemblyAI hat die Audiodateien transkribiert - Die transkribierten Daten sind in der Vektor-DB eingebettet - Der Forschungsagent hat Informationen aus der Benutzeranfrage abgerufen - Der Antwortagent hat diese verwendet, um eine Antwort zu formulieren Überprüfe das👇
Wenn Sie es aufschlussreich fanden, teilen Sie es erneut mit Ihrem Netzwerk. Finde mich → @akshay_pachaar ✔️ Für weitere Einblicke und Tutorials zu LLMs, KI-Agenten und maschinellem Lernen!
Akshay 🚀
Akshay 🚀5. Aug., 20:30
Technologiegiganten nutzen jeden Tag Multimodal RAG in der Produktion! - Spotify nutzt es, um Musikfragen zu beantworten - YouTube nutzt es, um Eingaben in Tracks umzuwandeln - Amazon Music nutzt es, um Playlists aus Eingaben zu erstellen Lass uns lernen, wie man einen Multimodal Agentic RAG (mit Code) aufbaut:
106,57K