La voz es una de las formas más útiles de interactuar con la IA para hacer trabajo, pero parece haber sido semi-abandonada para un uso serio fuera del caso de "charlar con un amigo". Todos los modos de voz solo acceden a modelos débiles con baja latencia, haciéndolos rápidos y divertidos, pero un poco inútiles.
Si no piensas en los modelos de voz como una charla divertida, sino más bien como una forma de trabajar, sugiere que las pausas están bien, incluso son preferidas (no hables conmigo a menos que tengas algo que decir). Y se vuelven posibles de explorar experiencias de usuario alternativas más allá de "hablar con tu IA sobre el clima".
También quiero desactivar la respiración, las risitas y las disfluencias. El antropomorfismo puede ser útil en muchos casos, pero se vuelve excesivo, especialmente en discusiones serias. El tono está fuera de lugar y se siente adulador, lo que ralentiza las cosas.
Cuando salió el Modo de Voz Avanzado, pensé que hablar con la IA sería una de las principales formas en que las personas trabajarían con la IA, dada la facilidad y rapidez de la conversación en comparación con la escritura. Pero parece que la voz se ha estancado en un callejón sin salida de charlas divertidas sin explorar mejores enfoques.
43,16K