Ces derniers jours, j'ai testé deux TTS open source très attendus cette année, et je dois dire que je suis assez déçu. Pour être précis, vous savez de qui je parle, je ne vais pas nommer de noms. L'un d'eux ne parvient même pas à produire une prononciation correcte, avec des hallucinations à la clé, l'autre est beaucoup mieux, au moins il est utilisable, mais la quantité de données d'entraînement est clairement insuffisante, la similarité des tonalités clonées n'est pas assez bonne, et la naturalité de la parole laisse également beaucoup à désirer, c'est très éloigné de la démonstration du vendeur publiée officiellement, et cela ne peut pas être utilisé directement par les consommateurs. Je suis très curieux de savoir si la version du modèle open source est vraiment celle utilisée dans la vidéo marketing du vendeur. Cependant, je comprends de plus en plus ce que les gens veulent dire par "l'open source est un modèle commercial". Avant, nous appelions ce genre de choses sur Xiaohongshu des "photos trompeuses". Ces photos trompeuses ont permis aux fabricants de modèles de gagner en visibilité, et les influenceurs des médias sociaux les ont relayées, mais au final, lors du déballage, tout le monde se rend compte que le produit n'est pas du tout conforme. Après tout, quand on voit trop de photos trompeuses, les gens ne croient plus aux images. J'espère qu'il y aura plus de véritables projets open source et moins de fausses photos trompeuses.