În ultimele zile, am testat cele două TTS open source de profil înalt în acest an, ceea ce se poate spune că este destul de dezamăgitor. Care este specific, toți cei care o înțeleg înțeleg, așa că nu o voi numi. Unul nici măcar nu poate face pronunția corectă, halucinații, celălalt este mult mai puternic, cel puțin poate fi folosit, dar cantitatea de antrenament de date nu este evident suficientă, asemănarea timbrului clonat nu este suficientă, iar naturalețea vorbirii este mult mai rea. Sunt foarte curios dacă versiunea modelului open-source este versiunea videoclipului de marketing al vânzătorului. Cu toate acestea, înțeleg din ce în ce mai mult ceea ce spune toată lumea că "open source este un model de afaceri" și obișnuiam să numim acest gen de lucruri pe Xiaohongshu "fraudă foto". Aceste înșelăciuni au câștigat atenția producătorilor de modele, iar bloggerii self-media au transmis și amplificat, dar la sfârșitul despachetării, toată lumea a constatat că bunurile nu erau deloc versiunea potrivită. La urma urmei, dacă te uiți la prea multe fotografii, toată lumea nu va mai crede în fotografii. Sper că vor fi mai multe surse deschise reale și mai puține fraude foto false.