Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Agora você pode gerar fala em tempo real que soa conversacional.
A Microsoft acabou de abrir o VibeVoice, um sistema de texto para fala em tempo real com ~300 ms de latência inicial de áudio e entrada de streaming.
Ele lida com conversas longas sem desmoronar.
Esse modelo gera fala longa e com múltiplos alto-falantes.
Ele produz até 90 minutos de áudio.
Ele suporta até quatro alto-falantes distintos.
A turnação permanece consistente em sessões longas.
Funciona reduzindo a resolução de tempo.
O áudio se comprime em tokens semânticos e acústicos.
Eles rodam a 7,5 Hz em vez de áudio em nível de quadro.
Um modelo de linguagem prevê estrutura.
Uma cabeça de difusão restaura detalhes acústicos.
Ele permite áudio em streaming de baixa latência.
A variante em tempo real transmite texto de forma incremental.
O primeiro discurso chega em ~300 ms.
Uma demonstração do WebSocket mostra geração ao vivo.
O código é licenciado pelo MIT e apenas para pesquisa.
O repositório já passou de 20 mil estrelas no GitHub.
Melhores
Classificação
Favoritos
