🚀 Présentation de Qwen3-VL-Embedding et Qwen3-VL-Reranker – faisant progresser l'état de l'art dans la recherche multimodale et la compréhension cross-modale ! ✨ Points forts : ✅ Basé sur le modèle fondamental robuste Qwen3-VL ✅ Traite le texte, les images, les captures d'écran, les vidéos et les entrées de modalités mixtes ✅ Prend en charge plus de 30 langues ✅ Atteint des performances de pointe sur les benchmarks de recherche multimodale ✅ Open source et disponible sur Hugging Face, GitHub et ModelScope ✅ Déploiement API sur Alibaba Cloud à venir bientôt ! 🎯 Architecture de récupération en deux étapes : 📊 Modèle d'Embedding – génère des représentations vectorielles sémantiquement riches dans un espace d'embedding unifié 🎯 Modèle de Reranker – calcule des scores de pertinence détaillés pour une précision de récupération améliorée 🔍 Scénarios d'application clés : Récupération image-texte, recherche vidéo, RAG multimodal, questions-réponses visuelles, clustering de contenu multimodal, recherche visuelle multilingue, et plus encore ! 🌟 Capacités conviviales pour les développeurs : • Dimensions d'embedding configurables • Personnalisation des instructions spécifiques à la tâche • Support de quantification d'embedding pour un déploiement en aval efficace et rentable Hugging Face : ModelScope : Github : Blog : Rapport technique :
Aperçu de l'architecture Qwen3-VL-Embedding et Qwen3-VL-Reranker.
Résultats d'évaluation sur les benchmarks MMEB-v2 et MMTEB
93