Ostatnio przetestowałem dwa głośne otwarte TTS-y w tym roku i muszę przyznać, że jestem dość rozczarowany. Która firma, to już każdy wie, więc nie będę wymieniać nazw. Jeden z nich nie potrafi nawet poprawnie wymawiać, a drugi jest znacznie lepszy, przynajmniej nadaje się do użytku, ale ilość danych do treningu jest wyraźnie niewystarczająca, a podobieństwo do klonowanego głosu jest zbyt małe, naturalność mówienia również pozostawia wiele do życzenia, a od oficjalnych materiałów promocyjnych sprzedawców dzieli ich ogromna przepaść, co uniemożliwia bezpośrednie korzystanie przez konsumentów. Jestem bardzo ciekawy, czy wersja modelu udostępniona jako open source to ta sama wersja, która była używana w filmach marketingowych sprzedawców. Jednak coraz bardziej rozumiem, co ludzie mają na myśli mówiąc, że „open source to model biznesowy”, wcześniej nazywaliśmy takie rzeczy „oszustwem zdjęciowym” na Xiaohongshu. Te oszustwa zdjęciowe przyniosły uwagę producentom modeli, a blogerzy z mediów społecznościowych zaczęli je udostępniać i powiększać, a na końcu, gdy przyszło do rozpakowywania, wszyscy odkryli, że to zupełnie inny towar. W końcu, gdy widzi się zbyt wiele oszustw zdjęciowych, przestaje się wierzyć w zdjęcia. Mam nadzieję na więcej prawdziwego open source, a mniej fałszywych oszustw zdjęciowych.