Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚀 Przedstawiamy Qwen3-VL-Embedding i Qwen3-VL-Reranker – rozwijamy stan wiedzy w zakresie wyszukiwania multimodalnego i zrozumienia międzymodalnego!
✨ Najważniejsze punkty:
✅ Zbudowane na solidnym modelu bazowym Qwen3-VL
✅ Przetwarza tekst, obrazy, zrzuty ekranu, filmy i dane wejściowe w różnych modalnościach
✅ Obsługuje ponad 30 języków
✅ Osiąga najlepsze wyniki w benchmarkach wyszukiwania multimodalnego
✅ Otwarty kod źródłowy dostępny na Hugging Face, GitHub i ModelScope
✅ Wkrótce dostępne wdrożenie API na Alibaba Cloud!
🎯 Architektura wyszukiwania w dwóch etapach:
📊 Model Embedding – generuje semantycznie bogate reprezentacje wektorowe w zjednoczonej przestrzeni embeddingowej
🎯 Model Reranker – oblicza szczegółowe wyniki trafności dla zwiększonej dokładności wyszukiwania
🔍 Kluczowe scenariusze zastosowania:
Wyszukiwanie obraz-tekst, wyszukiwanie wideo, multimodalny RAG, odpowiadanie na pytania wizualne, klastrowanie treści multimodalnych, wielojęzyczne wyszukiwanie wizualne i inne!
🌟 Funkcje przyjazne dla deweloperów:
• Konfigurowalne wymiary embeddingu
• Dostosowanie instrukcji specyficznych dla zadań
• Wsparcie dla kwantyzacji embeddingu dla efektywnego i opłacalnego wdrożenia downstream
Hugging Face:
ModelScope:
Github:
Blog:
Raport techniczny:

Przegląd architektury Qwen3-VL-Embedding i Qwen3-VL-Reranker.

Wyniki oceny na benchmarkach MMEB-v2 i MMTEB

169
Najlepsze
Ranking
Ulubione
