🚀 نقدم Qwen3-VL-Embedding و Qwen3-VL-Reranker – نتقدم بأحدث التقنيات في الاسترجاع متعدد الوسائط والفهم متعدد الوسائط! ✨ أبرز النقاط التاريخية: ✅ مبني على نموذج الأساس القوي Qwen3-VL ✅ يعالج النصوص، الصور، لقطات الشاشة، الفيديوهات، ومدخلات الوسائط المختلطة ✅ يدعم 30+ لغة ✅ يحقق أداء متطورا في معايير الاسترجاع متعددة الوسائط ✅ مفتوح المصدر ومتوفر على Hugging Face وGitHub وModelScope ✅ نشر واجهة برمجة التطبيقات على سحابة علي بابا قريبا! 🎯 عمارة الاسترجاع ذات المرحلتين: 📊 نموذج التضمين – يولد تمثيلات متجهية غنية دلاليا في فضاء تضمين موحد 🎯 نموذج إعادة ترتيب – يحسب درجات الارتباط بدقة لتحسين دقة الاسترجاع 🔍 سيناريوهات التطبيق الرئيسية: استرجاع النصوص الصورية، البحث بالفيديو، RAG متعدد الوسائط، الإجابة البصرية على الأسئلة، تجميع المحتوى متعدد الوسائط، البحث البصري متعدد اللغات، والمزيد! 🌟 قدرات صديقة للمطورين: • أبعاد التضمين القابلة للتكوين • تخصيص التعليمات حسب المهام • دعم تضمين الكمية لنشر المراحل اللاحقة بكفاءة وفعالية من حيث التكلفة وجه العناق: ModelScope: Github: المدونة: تقرير تقني:
نظرة عامة على بنية Qwen3-VL-Embedding و Qwen3-VL-Reranker.
نتائج التقييم على معايير MMEB-v2 وMMTEB
‏‎125‏