Możesz teraz uruchomić system syntezatora mowy o jakości produkcyjnej z opóźnieniem poniżej 200 ms. System TTS typu open-source właśnie wprowadził strumieniowanie w czasie rzeczywistym z wyjściem audio o opóźnieniu 150 ms. Obsługuje klonowanie głosu w trybie zero-shot w dziewięciu językach i wielu dialektach. 𝗕𝗶-𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴 𝗲𝗻𝗮𝗯𝗹𝗲𝘀 𝗿𝗲𝗮𝗹-𝘁𝗶𝗺𝗲 𝘃𝗼𝗶𝗰𝗲 Strumieniuje tekst, podczas gdy audio jest odtwarzane. Brak buforowania pełnych zdań. Opóźnienie pozostaje niskie bez pogarszania jakości dźwięku. To pasuje do agentów na żywo, asystentów i interaktywnych aplikacji. • Tekst i audio działają równocześnie • Opóźnienie end-to-end osiąga ~150 ms • Działa z standardowymi stosami inferencji GPU 𝗭𝗲𝗿𝗼-𝘀𝗵𝗼𝘁 𝘃𝗼𝗶𝗰𝗲 𝗰𝗹𝗼𝗻𝗶𝗻𝗴 𝘄𝗼𝗿𝗸𝘀 𝗮𝗰𝗿𝗼𝘀𝘀 𝗹𝗮𝗻𝗴𝘂𝗮𝗴𝗲𝘀 Klonuje głosy bez specyficznego szkolenia dla mówcy. Jedno krótkie nagranie referencyjne wystarczy. Ten sam głos przenosi się między językami i akcentami. • Wsparcie dla dziewięciu głównych języków • Syntetyzacja międzyjęzykowa pozostaje spójna • Podobieństwo mówcy pozostaje stabilne 𝗜𝘁 𝗮𝗱𝗱𝘀 𝗳𝗶𝗻𝗲 𝗰𝗼𝗻𝘁𝗿𝗼𝗹 𝗳𝗼𝗿 𝗽𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻 Możesz kontrolować wymowę, prędkość, emocje i głośność. Liczby i symbole normalizują się automatycznie. Działa jako usługa lub wewnątrz kontenerów. ...