🚀 Przedstawiamy Qwen3-VL-Embedding i Qwen3-VL-Reranker – rozwijamy stan wiedzy w zakresie wyszukiwania multimodalnego i zrozumienia międzymodalnego! ✨ Najważniejsze punkty: ✅ Zbudowane na solidnym modelu bazowym Qwen3-VL ✅ Przetwarza tekst, obrazy, zrzuty ekranu, filmy i dane wejściowe w różnych modalnościach ✅ Obsługuje ponad 30 języków ✅ Osiąga najlepsze wyniki w benchmarkach wyszukiwania multimodalnego ✅ Otwarty kod źródłowy dostępny na Hugging Face, GitHub i ModelScope ✅ Wkrótce dostępne wdrożenie API na Alibaba Cloud! 🎯 Architektura wyszukiwania w dwóch etapach: 📊 Model Embedding – generuje semantycznie bogate reprezentacje wektorowe w zjednoczonej przestrzeni embeddingowej 🎯 Model Reranker – oblicza szczegółowe wyniki trafności dla zwiększonej dokładności wyszukiwania 🔍 Kluczowe scenariusze zastosowania: Wyszukiwanie obraz-tekst, wyszukiwanie wideo, multimodalny RAG, odpowiadanie na pytania wizualne, klastrowanie treści multimodalnych, wielojęzyczne wyszukiwanie wizualne i inne! 🌟 Funkcje przyjazne dla deweloperów: • Konfigurowalne wymiary embeddingu • Dostosowanie instrukcji specyficznych dla zadań • Wsparcie dla kwantyzacji embeddingu dla efektywnego i opłacalnego wdrożenia downstream Hugging Face: ModelScope: Github: Blog: Raport techniczny:
Przegląd architektury Qwen3-VL-Embedding i Qwen3-VL-Reranker.
Wyniki oceny na benchmarkach MMEB-v2 i MMTEB
169