A voz é uma das formas mais úteis de interagir com a IA para realizar trabalho, mas parece ter sido semi-abandonada para uso sério fora do caso de "conversar com um amigo". Todos os modos de voz apenas acessam modelos fracos com baixa latência, tornando-os rápidos e divertidos, mas meio inúteis.
Se você não vê os modelos de voz como uma conversa divertida, mas sim como uma forma de trabalho, isso sugere que pausas são aceitáveis, até preferíveis (não fale comigo a menos que tenha algo a dizer). E UXs alternativas além de "conversar com sua IA sobre o clima" tornam-se possíveis de explorar.
Além disso, quero desligar a respiração, as risadinhas e as disfluências. O antropomorfismo pode ser útil em muitos casos, mas torna-se excessivo, especialmente em discussões sérias. O tom está inadequado e parece bajulador, o que atrasa as coisas.
Quando o Modo de Voz Avançado foi lançado, pensei que conversar com a IA seria uma das principais formas de interação das pessoas com a IA, dada a facilidade e rapidez da conversa em comparação com a digitação. Mas parece que a voz ficou presa em um beco sem saída de conversas divertidas, sem exploração de abordagens melhores.
43,16K