Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

karminski-牙医
Um programador, ciclista de estrada, cartomante de servidores, coletor de lixo eletrônico, co-fundador da KCORES, ex-diretor da IllaSoft, KingsoftOffice, Juejin.
Boas notícias! As cartas de jogo agora podem usar SAM-Audio!
Anteontem, testei o novo modelo de segmentação de faixas de áudio da Meta, o SAM-Audio, mas o maior problema desse modelo é que ele é grande demais, e a versão grande precisa consumir 90GB de memória de vídeo quando medi. Agora, a boa notícia é que um blogueiro removeu as partes menos importantes do modelo (codificador e sequenciador), na verdade, esse modelo também suporta especificar o instrumento do vídeo no vídeo para extração, mas também é possível descrever diretamente qual instrumento é mencionado no texto. Então essa parte do recurso foi removida).
Atualmente, a versão pequena precisa de apenas 4-6GB de memória de vídeo, e a versão grande precisa de apenas 10GB de memória de vídeo. Se você precisar extrair a música de fundo ou separar os instrumentos, amigos que precisam de vocais podem tentar.
Endereço do Projeto:

6
O modelo de camada explosiva de código aberto está chegando tão cedo?
Deixe-me apresentar o teste real do modelo Qwen-Image-Layered recém-lançado pela Alibaba, que é um modelo grande capaz de dividir imagens em diferentes camadas, e o modelo é ajustado com base no Qwen-Image.
Desta vez, meu teste cobre as cenas especiais do modelo (pôster), teste de conformidade de instruções (especificar o alvo de extração), processamento de borda (cabelo) e teste de limite (todos os adesivos, um adesivo pode extrair mais de 50 camadas).
Diretamente para a conclusão, primeiro de tudo, o modelo é grande demais, porque esse modelo é baseado no Qwen-Image, então é um modelo 20B, usei a GPU HuggingFace Zero para testar, cada rodada dura cerca de 2 minutos, o modelo realmente pode separar camadas, e o processamento de bordas é muito bom, mas a estabilidade precisa ser otimizada, no meu teste podem ser saídas 4 camadas, mas 8 ou 10 camadas explodiram, suspeito que pode ter ultrapassado o timeout ou bug da GPU zero ( GPU é H200, dificilmente explodirá a memória de vídeo), o tamanho de saída é apenas 544*736, o oficial também recomenda resolução 640, isso também precisa ser melhorado, e o modelo ainda é grande demais, 20B, espero otimizar o próximo tamanho.
6
Chorando, SOTA é só rosto, e você tem que confiar no "modelo de gado e cavalo" para realmente funcionar
Alex Atallah, fundador do OpenRouter, acabou de tuitar que seu maior uso é o Kimi-K2-0711 (Kimi-K2-Instruct em julho).
Depois há openai-o4-mini-high, claude-3.7-sonet, gpt-oss-120b, openai-o3
A primeira coisa que olhei foi: essa pessoa está fora da internet, e não usa um modelo grande novo há muito tempo?
Mas se você pensar bem, não, está muito errado. Esse é o verdadeiro uso do Power User, é tão real
Se você encontrar um neste momento, com um contexto amplo o suficiente (128K), uma forte habilidade de uso (SWE-bench verificado > 65), forte habilidade de agente (Tau2-bench > 65), uma enorme quantidade de conhecimento (uma quantidade considerável de parâmetros) e respostas rápidas (modelo não-Thinking), parece que apenas Kimi-K2-Instrução é o escolhido.
Ao contrário, Alex Atallah provavelmente faz a maior parte do seu trabalho trabalhando com documentos (contextos longos, especialmente com tokens de 13,4M), usando ferramentas para analisar e escrever relatórios (capacidades do Agent), o que o Kimi-K2-Instruct pode fazer, e então escrever scripts (o4 e Claude-3.7-Sonnet cobrem a parte inferior, e até envolvem como agente para o Kimi-k2 chamar esses modelos para escrever scripts).
Por fim, o Kimi-k2 também atende ao ponto mais importante, a privacidade de dados, pois o modelo é aberto, pode ser implantado em seu próprio servidor e qualquer informação sensível não será vazada para a OpenAI ou Anthropic. Até mesmo o seguinte GPT-OSS-120B deve ter significado aqui.
Provavelmente consigo entender por que o novo modelo grande agora está cheio de capacidades de agente, e o uso direto da IA por humanos está apenas no estágio intermediário, e usuários avançados já usaram IA para operar IA. Um modelo específico de agente usado para enviar e receber todos os contextos de IA será inevitavelmente o principal uso.
Tópico original:


6
Melhores
Classificação
Favoritos
