De afgelopen dagen heb ik de twee veelbesproken open-source TTS-systemen van dit jaar getest, en ik moet zeggen dat ik behoorlijk teleurgesteld ben. Welke bedrijven het zijn, dat weet iedereen die het begrijpt, dus ik noem geen namen. De ene kan zelfs geen correcte uitspraak maken, vol illusies, de andere is veel sterker, tenminste bruikbaar, maar de hoeveelheid trainingsdata is duidelijk onvoldoende, de gelijkenis van de gekloonde stem is niet genoeg, en de natuurlijkheid van het spreken is ook veel slechter, het wijkt ver af van de officiële promotievideo's van de verkopers, en kan niet direct door consumenten worden gebruikt. Ik ben erg nieuwsgierig of de open-source modelversie eigenlijk dezelfde versie is als die in de marketingvideo's van de verkopers. Maar ik begin steeds meer te begrijpen wat mensen bedoelen met "open-source is een businessmodel". Vroeger noemden we dit soort dingen op Xiaohongshu "foto-oplichting". Deze foto-oplichting heeft de modelleveranciers aandacht opgeleverd, en de bloggers op sociale media hebben het ook gedeeld en vergroot, en uiteindelijk, bij het uitpakken, ontdekken mensen dat het product helemaal niet overeenkomt met wat beloofd werd. Uiteindelijk, als je te veel foto-oplichting ziet, gelooft niemand de foto's meer. Ik hoop op meer echte open-source en minder valse foto-oplichting.