Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

karminski-牙医
Codificador, ciclista de carretera, adivino servidor, recolector de desechos electrónicos, cofundador de KCORES, ex director de IllaSoft, KingsoftOffice, Juejin.
¡Buenas noticias! ¡Las tarjetas de juego ahora pueden usar SAM-Audio!
Anteayer, probé el nuevo modelo de segmentación de pistas de audio de Meta, SAM-Audio, pero el mayor problema de este modelo es que es demasiado grande, y la versión grande tiene que consumir 90GB de memoria de vídeo cuando lo midí. La buena noticia es que un bloguero ha eliminado las partes poco importantes del modelo (codificador y secuenciador), de hecho, este modelo también permite especificar el instrumento del vídeo en el vídeo para su extracción, pero también es posible describir directamente qué instrumento se menciona en el texto. Así que esta parte de la función fue eliminada).
Actualmente, la versión pequeña solo necesita 4-6GB de memoria de vídeo, y la versión grande solo necesita 10GB de memoria de vídeo. Si tienes que extraer la música de fondo de la canción o separar los instrumentos, amigos que necesiten voces pueden probarlo.
Dirección del proyecto:

7
¿El modelo de capa explosiva de código abierto llegará tan pronto?
Permítanme presentarles la prueba real del modelo Qwen-Image-Layered recién lanzado por Alibaba, que es un modelo grande que puede dividir imágenes en diferentes capas, y el modelo está ajustado en función de Qwen-Image.
Esta vez mi prueba cubre las escenas especiales del modelo (póster), la prueba de cumplimiento de instrucciones (especifica el objetivo de extracción), el procesamiento de bordes (cabello) y la prueba de límite (todas las pegatinas, una pegatina puede extraer más de 50 capas).
Directamente a la conclusión, primero, el modelo es demasiado grande, porque este modelo está basado en Qwen-Image, así que es un modelo 20B, usé la GPU HuggingFace Zero para probar, cada ejecución dura unos 2 minutos, el modelo puede separar capas y el procesamiento de bordes es muy bueno, pero la estabilidad necesita optimizarse, en mi prueba pueden salir 4 capas, pero 8 o 10 capas explotaron, sospecho que pudo haber superado el tiempo límite de la GPU cero o un error ( La GPU es H200, es poco probable que explote la memoria de vídeo), el tamaño de salida es solo 544*736, el funcionario también recomienda una resolución de 640, esto también necesita mejorarse, y el modelo sigue siendo demasiado grande, 20B, espero optimizar el siguiente tamaño.
7
Llorando, la SOTA es solo cara, y tienes que confiar en el "modelo de ganado y caballo" para que realmente funcione
Alex Atallah, fundador de OpenRouter, acaba de tuitear que su mayor uso es Kimi-K2-0711 (Kimi-K2-Instruct en julio).
Luego están openai-o4-mini-high, claude-3.7-sonnet, gpt-oss-120b, openai-o3
Lo primero que miré fue, ¿esta persona está fuera de Internet y hace mucho que no usa un modelo grande nuevo?
Pero si lo piensas bien, no, está muy equivocado. Ese es el verdadero uso de Power User, es tan real
Si encuentras uno en este momento, con un contexto lo suficientemente amplio (128K), una fuerte capacidad de uso (verificado por SWE-bench > 65), una fuerte capacidad de agente (Tau2-bench > 65), una enorme cantidad de conocimiento (bastante gran cantidad de parámetros) y respuestas rápidas (modelo no pensante), parece que solo Kimi-K2-Instruct es el adecuado.
Al revés, Alex Atallah probablemente hace la mayor parte de su trabajo trabajando con documentos (contextos largos, especialmente con tokens de 13,4M), usando herramientas para analizar y escribir informes (capacidades de agente), que Kimi-K2-Instruct puede hacer, y luego escribir scripts (o4 y Claude-3.7-Sonnet cubren la parte inferior, e incluso lo envuelven como agente para que Kimi-k2 llame a estos modelos para escribir scripts).
Finalmente, Kimi-k2 también satisface el punto más importante: la privacidad de datos, porque el modelo es de peso abierto, puede desplegarse en su propio servidor y cualquier información sensible no se filtrará a OpenAI ni a Anthropic. Incluso el siguiente GPT-OSS-120B debería tener sentido aquí.
Probablemente entiendo por qué el nuevo modelo grande está ahora lleno de capacidades de agentes, y el uso directo de IA por parte de humanos está solo en una etapa intermedia, y los usuarios avanzados ya han usado IA para operar IA. Un modelo específico de agente usado para enviar y recibir todos los contextos de IA será inevitablemente el uso principal.
Hilo original:


7
Populares
Ranking
Favoritas
