Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

karminski-牙医
Codeur, cycliste sur route, serveur, diseur de bonne aventure, collecteur de déchets électroniques, cofondateur de KCORES, ancien directeur chez IllaSoft, KingsoftOffice, Juejin.
Bonne nouvelle ! Les cartes graphiques peuvent maintenant utiliser SAM-Audio !
Avant-hier, j'ai testé le nouveau modèle de séparation de pistes audio de Meta, SAM-Audio, mais le principal problème de ce modèle est qu'il est trop volumineux, j'ai constaté que la version large nécessite 90 Go de mémoire vidéo. Maintenant, la bonne nouvelle est qu'un blogueur a supprimé les parties non essentielles du modèle (l'encodeur et le tri, en fait ce modèle prend également en charge l'extraction d'instruments spécifiques dans une vidéo, mais il est également possible de décrire directement par texte quel instrument extraire. Donc, cette fonctionnalité a été retirée).
Actuellement, la version small nécessite seulement 4 à 6 Go de mémoire vidéo, et la version large ne nécessite que 10 Go de mémoire vidéo, donc pratiquement toutes les bonnes cartes graphiques peuvent le faire fonctionner, et l'auteur a également créé un package d'installation en un clic, il suffit de cliquer pour installer et utiliser, sans rien à gérer. Ceux qui ont besoin d'extraire des BGM de chansons ou de séparer des instruments et des voix peuvent essayer.
Adresse du projet :

15
Le modèle de décomposition d'images open source est arrivé si rapidement ?
Je vous présente les tests du modèle Qwen-Image-Layered récemment publié par Alibaba. C'est un grand modèle capable de décomposer une image en différentes couches, basé sur le modèle Qwen-Image.
Mes tests couvrent les scénarios où ce modèle excelle (affiches), les tests de conformité des instructions (extraction ciblée), le traitement des bords (cheveux), et les tests extrêmes (tout en autocollants, un autocollant par couche, il est possible d'extraire plus de 50 couches).
Pour aller droit au but, tout d'abord, le modèle est vraiment trop grand. Étant donné que ce modèle est basé sur Qwen-Image, c'est un modèle de 20B. J'ai testé avec HuggingFace Zero GPU, chaque exécution prend environ 2 minutes. Le modèle peut effectivement séparer les couches, et le traitement des bords est assez bon, mais la stabilité doit être améliorée. Dans mes tests, 4 couches peuvent être sorties, mais 8 ou 10 couches font planter le système. Je soupçonne que cela pourrait être dû à un dépassement du temps d'attente de Zero GPU ou à un bug (la GPU est un H200, il est peu probable qu'il y ait un dépassement de mémoire vidéo). La taille de sortie est seulement de 544*736, et l'officiel recommande également une résolution de 640, ce point doit également être amélioré, et le modèle est encore trop grand, 20B, j'espère qu'il pourra être optimisé.
15
J'ai pleuré, SOTA n'est qu'une façade, pour vraiment travailler, il faut compter sur le "modèle de bétail"
Le fondateur d'OpenRouter, Alex Atallah, vient de tweeter qu'il utilise encore le Kimi-K2-0711 (le Kimi-K2-Instruct de juillet) le plus.
Ensuite, il y a openai-o4-mini-high, Claude-3.7-Sonnet, gpt-oss-120b, openai-o3.
À première vue, je me suis demandé si cette personne n'était pas déconnectée, ça fait longtemps qu'elle n'a pas utilisé de nouveaux grands modèles ?
Mais en y réfléchissant bien, non, ce n'est pas ça, c'est très étrange. C'est vraiment l'utilisation d'un Power User, c'est tellement réel.
Si à ce moment-là, on cherche un modèle suffisamment grand en contexte (128K), avec des performances utilisables (SWE-Bench Verified > 65), une forte capacité d'Agent (Tau2-bench > 65), un large éventail de connaissances (un nombre de paramètres assez grand), et qui répond rapidement (modèle non Thinking), il semble qu'il n'y ait que le Kimi-K2-Instruct.
En rétro-analyzant, Alex Atallah devrait passer la plupart de son temps à traiter des documents (longs contextes, surtout avec 13,4M de tokens), à utiliser des outils pour analyser et rédiger des rapports (capacité d'Agent), tout cela peut être géré par Kimi-K2-Instruct, puis à écrire des scripts (o4 et Claude-3.7-Sonnet en soutien, voire à les emballer en Agent pour que Kimi-k2 appelle ces modèles pour écrire des scripts).
Enfin, Kimi-k2 peut également répondre au point le plus important, la confidentialité des données, car le modèle a des poids ouverts, il peut être déployé sur son propre serveur, aucune information sensible ne sera divulguée à OpenAI ou Anthropic. Même le GPT-OSS-120B en dessous devrait avoir ce sens.
Je peux à peu près comprendre pourquoi les nouveaux grands modèles se concentrent sur la capacité d'Agent, les gens utilisent directement l'IA n'est qu'une étape intermédiaire, les utilisateurs avancés utilisent déjà l'IA pour opérer l'IA. Un modèle spécialisé d'Agent pour envoyer et recevoir tous les contextes de l'IA sera forcément le plus utilisé.
Post original :


15
Meilleurs
Classement
Favoris
