Boas notícias! As cartas de jogo agora podem usar SAM-Audio! Anteontem, testei o novo modelo de segmentação de faixas de áudio da Meta, o SAM-Audio, mas o maior problema desse modelo é que ele é grande demais, e a versão grande precisa consumir 90GB de memória de vídeo quando medi. Agora, a boa notícia é que um blogueiro removeu as partes menos importantes do modelo (codificador e sequenciador), na verdade, esse modelo também suporta especificar o instrumento do vídeo no vídeo para extração, mas também é possível descrever diretamente qual instrumento é mencionado no texto. Então essa parte do recurso foi removida). Atualmente, a versão pequena precisa de apenas 4-6GB de memória de vídeo, e a versão grande precisa de apenas 10GB de memória de vídeo. Se você precisar extrair a música de fundo ou separar os instrumentos, amigos que precisam de vocais podem tentar. Endereço do Projeto: