Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

karminski-牙医
Un programmatore, ciclista su strada, indovino server, raccoglitore di rifiuti elettronici, co-fondatore di KCORES, ex direttore di IllaSoft, KingsoftOffice, Juejin.
Buone notizie! Ora puoi usare SAM-Audio con le schede grafiche da gioco!
Due giorni fa ho testato il nuovo modello di segmentazione audio di Meta, SAM-Audio, ma il problema principale di questo modello è che è troppo grande; durante il mio test, la versione large richiedeva 90GB di memoria video. Ora arriva la buona notizia: un blogger ha rimosso le parti non importanti del modello (l'encoder e il sorter; in realtà questo modello supporta anche l'estrazione di strumenti specifici da un video, ma è possibile anche descrivere direttamente con il testo quale strumento estrarre. Quindi questa parte di funzionalità è stata rimossa).
Attualmente, la versione small richiede solo 4-6GB di memoria video, mentre la versione large richiede solo 10GB, quindi praticamente qualsiasi buona scheda da gioco può gestirla, e l'autore ha anche creato un pacchetto di installazione con un clic, basta cliccare e si installa e si usa, senza doversi preoccupare di nulla. Chi ha bisogno di estrarre BGM da canzoni o separare strumenti e voci può provare.
Indirizzo del progetto:

33
Il modello open source di scomposizione delle immagini è arrivato così in fretta?
Vi presento il modello Qwen-Image-Layered appena rilasciato da Alibaba, che è un grande modello in grado di suddividere le immagini in diversi strati. Il modello è stato affinato sulla base di Qwen-Image.
Il mio test copre le situazioni in cui questo modello eccelle (manifesti), il test di conformità alle istruzioni (estrazione di obiettivi specifici), la gestione dei bordi (capelli) e il test estremo (tutti adesivi, se un adesivo è uno strato, può estrarre più di 50 strati).
Dico subito la conclusione: prima di tutto, il modello è troppo grande, poiché questo modello è basato su Qwen-Image, è un modello da 20B. Ho testato con HuggingFace Zero GPU, ogni esecuzione dura circa 2 minuti. Il modello può effettivamente separare gli strati e la gestione dei bordi è molto buona, ma la stabilità deve essere ottimizzata. Nei miei test, posso ottenere 4 strati in output, ma 8 o 10 strati si bloccano. Sospetto che possa essere dovuto a un timeout o a un bug di Zero GPU (la GPU è H200, quindi non è probabile che si esaurisca la memoria video). La dimensione di output è solo 544*736, e l'ufficiale raccomanda anche una risoluzione di 640, questo punto deve essere migliorato, e il modello è ancora troppo grande, 20B, spero che possano ottimizzare le dimensioni.
30
Ho pianto, SOTA è solo una facciata, per lavorare davvero bisogna contare sul "modello di buoi e cavalli".
Il fondatore di OpenRouter, Alex Atallah, ha appena twittato dicendo che il suo utilizzo maggiore è ancora Kimi-K2-0711 (il Kimi-K2-Instruct di luglio).
Poi ci sono openai-o4-mini-high, Claude-3.7-Sonnet, gpt-oss-120b, openai-o3.
La prima cosa che ho pensato è stata: questa persona è rimasta senza internet, non ha usato nuovi grandi modelli da un po'?
Ma riflettendo bene, no, non è affatto così. Questo è davvero l'uso di un Power User, è troppo reale.
Se in questo momento si cerca un modello con un contesto sufficientemente grande (128K), prestazioni utilizzabili (SWE-Bench Verified > 65), capacità di agente forte (Tau2-bench > 65), una vasta gamma di conoscenze (un numero di parametri piuttosto grande), e risposte rapide (modello non Thinking), sembra che l'unico sia Kimi-K2-Instruct.
Quindi, deducendo, Alex Atallah dovrebbe passare la maggior parte del suo tempo a gestire documenti (lungo contesto, specialmente avendo usato 13.4M token), utilizzando strumenti per analizzare e redigere rapporti (capacità di agente), tutto ciò che Kimi-K2-Instruct può gestire, e poi scrivere script (o4 e Claude-3.7-Sonnet come backup, persino impacchettandoli come agenti per far sì che Kimi-k2 utilizzi questi modelli per scrivere script).
Infine, Kimi-k2 può soddisfare il punto più importante, la privacy dei dati, poiché il modello ha pesi aperti, può essere distribuito sui propri server, e nessuna informazione sensibile verrà rivelata a OpenAI o Anthropic. Anche il GPT-OSS-120B sottostante dovrebbe avere questo significato.
Ora capisco perché i nuovi grandi modelli si concentrano sulle capacità degli agenti, l'uso diretto dell'AI da parte delle persone è solo una fase intermedia, gli utenti avanzati stanno già usando l'AI per operare l'AI. Un modello specializzato per ricevere e inviare tutto il contesto dell'AI sarà sicuramente il più utilizzato.


38
Principali
Ranking
Preferiti
