De siste dagene har jeg testet de to høyprofilerte åpen kildekode-TTS-ene i år, noe som kan sies å være ganske skuffende. Hvilken som er spesifikk, alle som forstår den forstår, så jeg vil ikke navngi den. Den ene kan ikke engang gjøre riktig uttale, hallusinasjoner, den andre er mye sterkere, i det minste kan den brukes, men mengden datatrening er åpenbart ikke nok, likheten med den klonede klangen er ikke nok, og talens naturlighet er mye verre. Jeg er veldig nysgjerrig på om åpen kildekode-modellversjonen er versjonen av selgerens markedsføringsvideo. Imidlertid forstår jeg mer og mer hva alle sier at "åpen kildekode er en forretningsmodell", og vi pleide å kalle denne typen ting på Xiaohongshu "fotosvindel". Disse bedragene har vunnet oppmerksomheten til modellprodusenter, og selvmediebloggere har også videresendt og forsterket, men på slutten av utpakkingen fant alle ut at varene ikke var riktig versjon i det hele tatt. Tross alt, hvis du ser på for mange bilder, vil ikke alle lenger tro på bilder. Jeg håper det blir mer ekte åpen kildekode og mindre falsk fotosvindel.