Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O modelo de camada explosiva de código aberto está chegando tão cedo?
Deixe-me apresentar o teste real do modelo Qwen-Image-Layered recém-lançado pela Alibaba, que é um modelo grande capaz de dividir imagens em diferentes camadas, e o modelo é ajustado com base no Qwen-Image.
Desta vez, meu teste cobre as cenas especiais do modelo (pôster), teste de conformidade de instruções (especificar o alvo de extração), processamento de borda (cabelo) e teste de limite (todos os adesivos, um adesivo pode extrair mais de 50 camadas).
Diretamente para a conclusão, primeiro de tudo, o modelo é grande demais, porque esse modelo é baseado no Qwen-Image, então é um modelo 20B, usei a GPU HuggingFace Zero para testar, cada rodada dura cerca de 2 minutos, o modelo realmente pode separar camadas, e o processamento de bordas é muito bom, mas a estabilidade precisa ser otimizada, no meu teste podem ser saídas 4 camadas, mas 8 ou 10 camadas explodiram, suspeito que pode ter ultrapassado o timeout ou bug da GPU zero ( GPU é H200, dificilmente explodirá a memória de vídeo), o tamanho de saída é apenas 544*736, o oficial também recomenda resolução 640, isso também precisa ser melhorado, e o modelo ainda é grande demais, 20B, espero otimizar o próximo tamanho.
Melhores
Classificação
Favoritos
