Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

karminski-牙医
Een programmeur, racefietser, server waarzegger, inzamelaar van elektronisch afval, mede-oprichter van KCORES, ex-directeur bij IllaSoft, KingsoftOffice, Juejin.
Goed nieuws! Je kunt nu SAM-Audio gebruiken met een gaming GPU!
Eergisteren heb ik de nieuwe audio-segmentatiemodel van Meta getest, SAM-Audio. Het grootste probleem van dit model is echter dat het te groot is; tijdens mijn tests had de large versie 90GB videogeheugen nodig. Maar nu is er goed nieuws: een blogger heeft de onbelangrijke delen van het model verwijderd (de encoder en de sorter; dit model ondersteunt eigenlijk ook het extraheren van instrumenten uit video's, maar je kunt ook gewoon tekst gebruiken om te beschrijven welk instrument je wilt extraheren. Dus deze functionaliteit is verwijderd).
Momenteel heeft de small versie slechts 4-6GB videogeheugen nodig, en de large versie heeft ook maar 10GB videogeheugen nodig, wat betekent dat bijna elke goede gaming GPU het kan draaien. Bovendien heeft de auteur een one-click installatiepakket gemaakt, dat je gewoon kunt aanklikken om te installeren en te gebruiken, zonder dat je je ergens zorgen over hoeft te maken. Vrienden die behoefte hebben aan het extraheren van BGM van nummers of het scheiden van instrumenten en zang kunnen het eens proberen.
Projectadres:

4
Is het open-source gelaagd model zo snel gekomen?
Ik breng jullie de recente testresultaten van het door Alibaba gepubliceerde Qwen-Image-Layered model. Dit is een groot model dat afbeeldingen in verschillende lagen kan splitsen, en het model is gebaseerd op een fine-tuning van Qwen-Image.
Mijn test dekt de sterke punten van dit model (posters), instructievolgtests (specifieke doelextractie), randverwerking (haar), en extreme tests (volledig met stickers, als elke sticker een laag is, kunnen er meer dan 50 lagen worden geëxtraheerd).
Om het kort te zeggen, het model is in eerste instantie gewoon te groot. Omdat dit model gebaseerd is op Qwen-Image, is het een 20B model. Ik heb het getest met HuggingFace Zero GPU, en elke run duurt ongeveer 2 minuten. Het model kan inderdaad lagen scheiden, en de randverwerking is behoorlijk goed, maar de stabiliteit moet nog worden geoptimaliseerd. Tijdens mijn test konden er 4 lagen worden uitgegeven, maar bij 8 of 10 lagen crashte het. Ik vermoed dat dit misschien te maken heeft met een time-out of bug van de Zero GPU (de GPU is H200, dus het is onwaarschijnlijk dat het geheugen volloopt). De uitvoerresolutie is slechts 544*736, en de officiële aanbeveling is 640 resolutie, dit moet ook verbeterd worden, en het model is nog steeds te groot, 20B, hopelijk kan de grootte geoptimaliseerd worden.
4
Ik heb gehuild, SOTA is slechts een façade, echt werk moet nog steeds gedaan worden met het "Niu Ma-model".
OpenRouter oprichter Alex Atallah heeft net een tweet gepost, waarin hij zegt dat hij het meest gebruik maakt van de Kimi-K2-0711 (de Kimi-K2-Instruct van juli).
Daarna zijn er openai-o4-mini-high, Claude-3.7-Sonnet, gpt-oss-120b, openai-o3.
Toen ik het voor het eerst zag, dacht ik, is deze persoon offline gegaan? Heeft hij al een tijd geen nieuwe grote modellen gebruikt?
Maar als ik er goed over nadenk, klopt er iets niet. Dit is de echte manier waarop een Power User het gebruikt, het is te waarachtig.
Als je op dit moment een model zoekt met een voldoende grote context (128K), dat functioneel is (SWE-Bench Verified > 65), sterke Agent-capaciteiten heeft (Tau2-bench > 65), een enorm kennisgebied heeft (met een aanzienlijke parameteromvang), en snel antwoord geeft (geen Thinking-model), lijkt het erop dat alleen Kimi-K2-Instruct dat kan bieden.
Als we dit terugredeneren, zou Alex Atallah waarschijnlijk het grootste deel van zijn werk besteden aan het verwerken van documenten (lange context, vooral met 13.4M tokens), het gebruik van tools voor analyse en het schrijven van rapporten (Agent-capaciteiten), en al deze dingen kunnen worden afgehandeld door Kimi-K2-Instruct. Vervolgens schrijft hij scripts (met o4 en Claude-3.7-Sonnet als back-up, of zelfs verpakt als Agent zodat Kimi-k2 deze modellen kan aanroepen om scripts te schrijven).
Ten slotte kan Kimi-k2 ook voldoen aan het belangrijkste punt, dat is gegevensprivacy, omdat het model open gewichten heeft en op eigen servers kan worden geïmplementeerd, waardoor geen gevoelige informatie aan OpenAI of Anthropic wordt gelekt. Zelfs het bestaan van GPT-OSS-120B zou ook hierin moeten liggen.
Ik kan nu ongeveer begrijpen waarom de nieuwe grote modellen zich richten op Agent-capaciteiten; mensen die AI direct gebruiken zijn slechts een tussenfase, geavanceerde gebruikers gebruiken AI al om AI te bedienen. Een model dat speciaal is ontworpen om alle AI-contexten te verzenden en ontvangen, zal ongetwijfeld het meest gebruikt worden.
Originele post:


4
Boven
Positie
Favorieten
