Acum poți rula text-to-speech de calitate de producție cu o latență sub 200ms. Un sistem TTS open-source tocmai a livrat streaming în timp real cu o ieșire audio de 150ms. Suportă clonarea vocală zero-shot în nouă limbi și multe dialecte. Bi-streaming-ul permite vocea în timp real Transmite textul în flux în timp ce audio iese. Fără buffering pentru propoziții întregi. Latența rămâne scăzută fără să degradeze calitatea audio. Acest lucru se potrivește agenților live, asistenților și aplicațiilor interactive. • Transmiterea text-in și audio-out se desfășoară simultan • Latența end-to-end ajunge la ~150ms • Funcționează cu stive standard de inferență GPU Clonarea vocală zero-shot funcționează în diverse limbi Clonează voci fără antrenament specific vorbitorului. Un scurt sunet de referință este suficient. Aceeași voce se transmite între limbi și accente. • Nouă limbaje majore suportate • Sinteza cross-lingvistică rămâne constantă • Similaritatea difuzoarelor rămâne stabilă Adaugă un control fin pentru producție Poți controla pronunția, viteza, emoția și volumul. Numerele și simbolurile se normalizează automat. Funcționează ca serviciu sau în containere. ...