Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

karminski-牙医
En kodare, landsvägscyklist, spådam på server, insamlare av elektroniskt avfall, medgrundare av KCORES, före detta direktör på IllaSoft, KingsoftOffice, Juejin.
Goda nyheter! Spelkort kan nu använda SAM-Audio!
I förrgår testade jag Metas nya modell för segmentering av ljudspår, SAM-Audio, men det största problemet med denna modell är att den är för stor, och den stora versionen måste äta upp 90 GB videominne när jag mätte den. Nu är den goda nyheten att en bloggare har tagit bort de oviktiga delarna av modellen (kodare och sequencer), faktiskt stöder denna modell också att specificera instrumentet för videon i videon för extraktion, men det är också möjligt att direkt beskriva vilket instrument som nämns i texten. Så den här delen av funktionen togs bort).
För närvarande behöver den lilla versionen bara 4–6 GB videominne, och den stora versionen endast 10 GB videominne. Om du måste extrahera låtens BGM eller separera instrumenten kan vänner som behöver sång prova det.
Projektadress:

10
Den öppna källkodsmodellen med exploderade lager kommer så snart?
Låt mig ge dig det faktiska testet av Qwen-Image-Layered-modellen som just släppts av Alibaba, som är en stor modell som kan dela upp bilder i olika lager, och modellen är finjusterad baserat på Qwen-Image.
Den här gången täcker mitt test modellens specialscener (poster), instruktionsefterlevnadstest (ange extraktionsmålet), kantbearbetning (hår) och gränstest (alla klistermärken, ett klistermärke kan extrahera mer än 50 lager).
Direkt till slutsatsen, först och främst är modellen för stor, eftersom denna modell är baserad på Qwen-Image, så det är en 20B-modell, jag använde HuggingFace Zero GPU för att testa, varje körning i ungefär 2 minuter, modellen kan faktiskt separera lager, och kantbearbetningen är mycket bra, men stabiliteten måste optimeras, i mitt test kan 4 lager exporteras, men 8 eller 10 lager exploderade, jag misstänker att det kan ha överskridit Zero GPU-timeout eller bugg ( GPU:n är H200, osannolikt att videominnet exploderar), utgångsstorleken är bara 544*736, tjänstemannen rekommenderar också 640 upplösning, detta behöver också förbättras, och modellen är fortfarande för stor, 20B, jag hoppas kunna optimera nästa storlek.
10
Gråt, SOTA är bara ansikte, och du måste förlita dig på "boskaps- och hästmodellen" för att verkligen fungera
Alex Atallah, grundare av OpenRouter, twittrade nyligen att hans största användning är Kimi-K2-0711 (Kimi-K2-Instruct i juli).
Sedan finns openai-o4-mini-high, claude-3.7-sonnett, gpt-oss-120b, openai-o3
Det första jag tittade på var, är den här personen på internet och har inte använt en ny stor modell på länge?
Men om du tänker noga på det, nej, det är väldigt fel. Det är den verkliga användningen av Power User, det är så verkligt
Om du hittar en vid det här tillfället, med tillräckligt stor kontext (128K), stark förmåga att använda (SWE-bench verifierad > 65), stark agentförmåga (Tau2-bench > 65), enorm kunskap (ganska många parametrar) och snabba svar (icke-tänkande modell), verkar det som att bara Kimi-K2-Instruct är den rätta.
Baklänges gör Alex Atallah förmodligen det mesta av sitt arbete med dokument (långa kontexter, särskilt med 13,4M tokens), använder verktyg för att analysera och skriva rapporter (Agent-kapabiliteter), vilket Kimi-K2-Instruct kan göra, och sedan skriva skript (o4 och Claude-3.7-Sonnet täcker botten, och till och med omsluter det som en agent för Kimi-k2 att anropa dessa modeller för att skriva skript).
Slutligen uppfyller Kimi-k2 också den viktigaste punkten, dataintegritet, eftersom modellen är öppenviktad, kan distribueras på sin egen server och all känslig information inte läcker till OpenAI eller Anthropic. Även följande GPT-OSS-120B borde vara meningsfull här.
Jag kan nog förstå varför den nya stora modellen nu är full av agentförmågor, och att den direkta användningen av AI av människor bara är i mittenstadiet, och avancerade användare redan har använt AI för att driva AI. En agentspecifik modell som används för att skicka och ta emot alla AI-kontexter kommer oundvikligen att bli den vanligaste användningen.
Originaltråd:


10
Topp
Rankning
Favoriter
