¡Buenas noticias! ¡Las tarjetas de juego ahora pueden usar SAM-Audio! Anteayer, probé el nuevo modelo de segmentación de pistas de audio de Meta, SAM-Audio, pero el mayor problema de este modelo es que es demasiado grande, y la versión grande tiene que consumir 90GB de memoria de vídeo cuando lo midí. La buena noticia es que un bloguero ha eliminado las partes poco importantes del modelo (codificador y secuenciador), de hecho, este modelo también permite especificar el instrumento del vídeo en el vídeo para su extracción, pero también es posible describir directamente qué instrumento se menciona en el texto. Así que esta parte de la función fue eliminada). Actualmente, la versión pequeña solo necesita 4-6GB de memoria de vídeo, y la versión grande solo necesita 10GB de memoria de vídeo. Si tienes que extraer la música de fondo de la canción o separar los instrumentos, amigos que necesiten voces pueden probarlo. Dirección del proyecto: