Como Construir um Bom Agente de Voz



Com o avanço da IA generativa, testemunhamos um crescimento significativo em produtos de chatbot que dominam o mercado. Simultaneamente, a IA de voz melhorou a ponto de que conversas suaves com IA agora são viáveis. Seja você construindo IA para chamadas de entrada e saída, serviços profissionais, apps de companhia, etc., a voz continua sendo uma parte central da experiência e é importante para a conversão. Todos nós conseguimos lembrar experiências frustrantes com IA durante chamadas — vozes robóticas, silêncios constrangedores, longos períodos de latência e a necessidade de apertar botões para interagir, que coletivamente diminuem a qualidade parecida com a humana da experiência e ocasionalmente irritam os usuários.
Antes de mergulharmos direto em como construir uma ótima experiência de voz, vamos tirar um momento para recapitular como um humano geralmente interage em uma conversa. Operamos com latência <200ms quando a alternância de turnos acontece, fazemos backchannel conforme necessário, entendemos subconscientemente quando a outra parte termina o turno dela, entendemos o significado e as emoções da outra parte, temos palavras de preenchimento dentro das nossas frases, paramos de falar quando interrompidos... A lista pode continuar, mas o ponto essencial que estou fazendo aqui é que há tantos pequenos mecanismos acontecendo nos bastidores quando estamos tendo uma conversa simples e suave, e é extremamente DIFÍCIL para as máquinas considerarem tudo isso e performarem como humanos.

Uma pergunta comum que nos fazem muito é por que eu tenho de usar a API da Retell --Eu não posso simplesmente costurar ASR (fala-para-texto), LLM, TTS (texto-para-fala) juntos para construir uma conversa por voz?
Bem, hmm, você totalmente deveria se tiver o tempo, e ver até onde uma abordagem de costura simples consegue te levar. O problema número um que ouvimos daqueles que fazem o próprio sistema de voz é que é difícil cortar a latência; o problema número dois que vemos é que o tratamento de interrupção é difícil de implementar com uma configuração simples; o problema número três que vemos é que a resposta do agente não é conversacional o suficiente para soar como um humano. Para enfrentar tudo isso, vamos passar por uma visão geral de quais componentes precisam estar lá e do trabalho que precisa ser feito para uma boa experiência de IA de voz conversacional.
1. Integre com o frontend web ou ferramentas de comunicação programáveis como Twilio, Vonage para obter o áudio do usuário.
2. Trabalhe com bytes de áudio e protocolos de streaming: O áudio do usuário de diversos frontends (web, chamada telefônica) vai chegar em diferentes codificações, formatos, e ser enviado por diferentes protocolos de streaming. Esta é uma tarefa árdua, já que os bytes de áudio são difíceis de manipular e demorados para trabalhar. Pergunte a qualquer engenheiro que você conheça que trabalha com sinais de áudio; eles vão compartilhar a mesma afirmação.
3. Entenda o áudio: Há diversos sinais do áudio que são vitais para uma conversa suave.
4. Decida se vai falar: entender se a outra parte vai terminar o turno dela em breve, ou se ela já terminou o turno dela, se está aguardando uma resposta ou só pausando para formular os pensamentos dela, etc. Precisa combinar texto, emoção, tonalidade, pausa e outras entradas de áudio para gerar essa decisão.
5. Gerando as respostas: Gerar uma boa resposta ao que o usuário disse é difícil e muito específico do cenário. Há diversas formas de fazer esta parte e ela é customizada para cada caso de uso, então aqui vou apenas compartilhar um fluxo simples de geração de resposta.
6. Sintetize o áudio: Normalmente alcançado usando modelos de TTS (texto para fala), transforme o texto de resposta em áudio. Precisa ter variação de tom e emoção que se adeque ao cenário para ser parecido com o humano. Idealmente, a saída do TTS deve passar por streaming de volta para uma latência mais baixa.
7. Tomando ações: IA que consegue falar é legal, e IA que consegue tomar ações é mais legal. Isso normalmente é alcançado com as funcionalidades de chamada de função de certos modelos, ou saída de dados estruturados, para que o downstream consiga agendar compromissos quando necessário, consiga consultar informações quando apropriado.
Acho que a essa altura, a maioria das pessoas concordaria que isso não é tão fácil quanto costurar ASR, LLM, TTS juntos. Assim, deixe eu (descaradamente) apresentar como a Retell AI pode ajudar aqui. Ao integrar com a Retell AI, você consegue economizar meses de desenvolvimento, desfrutar de uma experiência de voz de última geração e ter tudo o seguinte coberto:
O que você precisa fazer: continuar iterando no seu produto principal para torná-lo melhor, enquanto cuidamos da parte de áudio. Aqui estão as partes nas quais você precisa trabalhar:
Espero que este blog possa te dar uma ideia de alto nível de como construir um ótimo agente de voz, e espero (e descaradamente) que o meu pitch para a Retell AI possa lançar luz sobre como podemos ajudar.
Boa construção!
Veja quanto seu negócio poderia economizar ao migrar para agentes de voz com IA.
Total Human Agent Cost
AI Agent Cost
Estimated Savings
Um número de telefone de demonstração do consultório da Retell Clinic

Start building smarter conversations today.


.avif)
.avif)