Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

karminski-牙医
Kodér, jezdec na silničním kole, serverový věštec
Dobrá zpráva! Herní karty nyní mohou používat SAM-Audio!
Předevčírem jsem testoval nový model segmentace audio stop od Meta, SAM-Audio, ale největší problém tohoto modelu je, že je příliš velký a ta velká verze musí při měření spotřebovat 90GB video paměti. Dobrou zprávou je, že blogger odstranil nepodstatné části modelu (enkodér a sekvencer), ve skutečnosti tento model také podporuje specifikaci nástroje videa ve videu pro extrakci, ale je také možné přímo popsat, jaký nástroj je v textu zmíněn. Takže tato část funkce byla odstraněna).
V současnosti malá verze potřebuje pouze 4–6GB video paměti a velká verze pouze 10GB video paměti. Pokud musíte extrahovat BGM písně nebo oddělit nástroje, přátelé, kteří potřebují vokály, to mohou zkusit.
Adresa projektu:

14
Open source exploded layer model přichází tak brzy?
Dovolte mi představit skutečný test modelu Qwen-Image-Layered, který právě vydala Alibaba, což je velký model, který dokáže rozdělit obrázky do různých vrstev a model je doladěn na základě Qwen-Image.
Tentokrát můj test pokrývá speciální scény modelu (plakát), test souladu s instrukcemi (specifikujte cíl extrakce), zpracování hran (vlasy) a limit test (všechny samolepky, jedna samolepka dokáže extrahovat více než 50 vrstev).
Přímo k závěru, za prvé, model je příliš velký, protože je založen na Qwen-Image, takže je to model 20B, použil jsem k testování HuggingFace Zero GPU, každý běh trvá asi 2 minuty, model skutečně může oddělit vrstvy a edge processing je velmi dobrý, ale stabilita musí být optimalizována, v mém testu lze výstup 4 vrstvy, ale 8 nebo 10 vrstev explodovalo, mám podezření, že to mohlo překročit timeout Zero GPU nebo chyba ( GPU je H200, pravděpodobně neexploduje video paměť), výstupní velikost je jen 544*736, oficiální doporučuje rozlišení 640, i to je potřeba vylepšit, a model je stále příliš velký, 20B, doufám, že optimalizuji další velikost.
14
S pláčem, SOTA je jen tvář a musíte se spolehnout na "model dobytka a koně", aby to opravdu fungovalo
Alex Atallah, zakladatel OpenRouteru, právě tweetoval, že jeho největším používáním je Kimi-K2-0711 (Kimi-K2-Instruct v červenci).
Pak jsou tu openai-o4-mini-high, claude-3.7-sonnet, gpt-oss-120b, openai-o3
První věc, na kterou jsem se podíval, byla, jestli je ten člověk mimo internet a dlouho nepoužil nový velký model?
Ale když se nad tím zamyslíte, ne, je to velmi špatné. To je skutečné využití Power User, je to tak skutečné
Pokud v tuto chvíli najdete nějakého s dostatečně velkým kontextem (128K), silnou schopností používat (SWE-bench ověřeno > 65), silnou agentskou schopností (Tau2-bench > 65), obrovským množstvím znalostí (poměrně velké množství parametrů) a rychlými odpověďmi (ne-Thinking model), zdá se, že jediný Kimi-K2-Instruct je ten pravý.
Zpětně řečeno, Alex Atallah pravděpodobně většinu své práce dělá s dokumenty (dlouhé kontexty, zejména s 13,4 milionem tokenů), používá nástroje k analýze a psaní reportů (agentní schopnosti), což Kimi-K2-Instruct umí a pak píše skripty (o4 a Claude-3.7-Sonnet pokrývají spodní část a dokonce je obalují jako agent, aby Kimi-k2 volal tyto modely k psaní skriptů).
Nakonec Kimi-k2 splňuje také nejdůležitější bod, tedy ochranu soukromí dat, protože model je otevřeně vážený, může být nasazen na vlastním serveru a jakékoli citlivé informace nebudou uniknuty do OpenAI nebo Anthropic. Dokonce i následující GPT-OSS-120B by zde mělo být smysluplné.
Pravděpodobně chápu, proč je nový velký model nyní plný agentních schopností a proč je přímé využití AI lidmi teprve ve střední fázi a pokročilí uživatelé už AI používají k ovládání AI. Agentově specifický model používaný k odesílání a přijímání všech AI kontextů bude nevyhnutelně nejpoužívanější.
Původní vlákno:


14
Top
Hodnocení
Oblíbené
