🚀 Apresentando Qwen3-VL-Embedding e Qwen3-VL-Reranker – avançando o estado da arte em recuperação multimodal e compreensão cruzada! ✨ Destaques: ✅ Baseado no robusto modelo de fundação Qwen3-VL ✅ Processa texto, imagens, capturas de tela, vídeos e entradas de modalidade mista ✅ Suporta 30+ idiomas ✅ Alcança desempenho de ponta em benchmarks de recuperação multimodais ✅ Código aberto e disponível no Hugging Face, GitHub e ModelScope ✅ A implantação da API no Alibaba Cloud em breve! 🎯 Arquitetura de recuperação em dois estágios: 📊 Modelo de Imersão – gera representações vetoriais semanticamente ricas em um espaço unificado de imersão 🎯 Modelo Reranker – calcula pontuações de relevância detalhadas para melhorar a precisão da recuperação 🔍 Principais cenários de aplicação: Recuperação de imagem-texto, busca em vídeo, RAG multimodal, resposta visual a perguntas, agrupamento de conteúdo multimodal, busca visual multilíngue e muito mais! 🌟 Capacidades amigáveis para desenvolvedores: • Dimensões de embedding configuráveis • Personalização de instruções específicas para tarefa • Incorporar suporte à quantização para implantação eficiente e econômica a jusante Rosto de abraço: ModelScope: Github: Blog: Relatório Técnico:
Visão geral da arquitetura Qwen3-VL-Embedding e Qwen3-VL-Reranker.
Resultados de avaliação nos benchmarks MMEB-v2 e MMTEB
94