Como Construir um Bom Agente de Voz

Como Construir um Bom Agente de Voz

Com o avanço da IA generativa, testemunhamos um crescimento significativo em produtos de chatbot que dominam o mercado. Simultaneamente, a IA de voz melhorou a ponto de que conversas suaves com IA agora são viáveis. Seja você construindo IA para chamadas de entrada e saída, serviços profissionais, apps de companhia, etc., a voz continua sendo uma parte central da experiência e é importante para a conversão. Todos nós conseguimos lembrar experiências frustrantes com IA durante chamadas — vozes robóticas, silêncios constrangedores, longos períodos de latência e a necessidade de apertar botões para interagir, que coletivamente diminuem a qualidade parecida com a humana da experiência e ocasionalmente irritam os usuários.

Qual a diferença entre a IA de Voz e o humano?

Antes de mergulharmos direto em como construir uma ótima experiência de voz, vamos tirar um momento para recapitular como um humano geralmente interage em uma conversa. Operamos com latência <200ms quando a alternância de turnos acontece, fazemos backchannel conforme necessário, entendemos subconscientemente quando a outra parte termina o turno dela, entendemos o significado e as emoções da outra parte, temos palavras de preenchimento dentro das nossas frases, paramos de falar quando interrompidos... A lista pode continuar, mas o ponto essencial que estou fazendo aqui é que há tantos pequenos mecanismos acontecendo nos bastidores quando estamos tendo uma conversa simples e suave, e é extremamente DIFÍCIL para as máquinas considerarem tudo isso e performarem como humanos.

Por que construir uma boa IA de voz conversacional é difícil?

Uma pergunta comum que nos fazem muito é por que eu tenho de usar a API da Retell --Eu não posso simplesmente costurar ASR (fala-para-texto), LLM, TTS (texto-para-fala) juntos para construir uma conversa por voz?

Bem, hmm, você totalmente deveria se tiver o tempo, e ver até onde uma abordagem de costura simples consegue te levar. O problema número um que ouvimos daqueles que fazem o próprio sistema de voz é que é difícil cortar a latência; o problema número dois que vemos é que o tratamento de interrupção é difícil de implementar com uma configuração simples; o problema número três que vemos é que a resposta do agente não é conversacional o suficiente para soar como um humano. Para enfrentar tudo isso, vamos passar por uma visão geral de quais componentes precisam estar lá e do trabalho que precisa ser feito para uma boa experiência de IA de voz conversacional.

1. Integre com o frontend web ou ferramentas de comunicação programáveis como Twilio, Vonage para obter o áudio do usuário.

2. Trabalhe com bytes de áudio e protocolos de streaming: O áudio do usuário de diversos frontends (web, chamada telefônica) vai chegar em diferentes codificações, formatos, e ser enviado por diferentes protocolos de streaming. Esta é uma tarefa árdua, já que os bytes de áudio são difíceis de manipular e demorados para trabalhar. Pergunte a qualquer engenheiro que você conheça que trabalha com sinais de áudio; eles vão compartilhar a mesma afirmação.

3. Entenda o áudio: Há diversos sinais do áudio que são vitais para uma conversa suave.

  • Texto: normalmente gerado a partir do ASR (reconhecimento de fala assíncrono), precisa ser em streaming, precisa ser o mais rápido e preciso possível.
  • Emoção: entender o estado emocional da outra parte é vital para os humanos darem uma boa resposta na conversa.
  • Qualidade do sinal de áudio: se há ruído de fundo, se há eco.
  • Diarização de falante: se várias pessoas estão falando, identificar a identidade do falante, e identificar quem está falando com você e quem não está, etc.
  • Tonalidade e outros traços específicos do falante.
  • Pausa: se o usuário para de falar, normalmente deduzido do VAD (Detecção de Atividade de Voz).

4. Decida se vai falar: entender se a outra parte vai terminar o turno dela em breve, ou se ela já terminou o turno dela, se está aguardando uma resposta ou só pausando para formular os pensamentos dela, etc. Precisa combinar texto, emoção, tonalidade, pausa e outras entradas de áudio para gerar essa decisão.

  • A parte complicada é que os usuários podem terminar em qualquer lugar quando você não os conhece bem pessoalmente, e a IA precisa estar preparada para esses términos abruptos.
  • Os usuários continuarem a falar inesperadamente é menos problema, já que a IA pode simplesmente continuar a ouvir e reverter a decisão de falar.

5. Gerando as respostas: Gerar uma boa resposta ao que o usuário disse é difícil e muito específico do cenário. Há diversas formas de fazer esta parte e ela é customizada para cada caso de uso, então aqui vou apenas compartilhar um fluxo simples de geração de resposta.

  • RAG (geração aumentada por recuperação): Embute documentos, dados, base de conhecimento, etc., em um banco de dados vetorial e recupera apenas a informação relevante dele. Essa info relevante vai fazer parte do prompt que é alimentado no LLM.
  • LLM: Pode ser um modelo auto-hospedado ajustado, ou chamadas de API a provedores. Com base na informação relevante do último passo e em alguns outros prompts que são customizados para o usuário, gere uma resposta e faça o streaming da resposta de volta a um sistema de geração de voz.
  • Verificação: para certas frases/palavras de alto risco, talvez verifique antes de fazer o streaming de volta.

6. Sintetize o áudio: Normalmente alcançado usando modelos de TTS (texto para fala), transforme o texto de resposta em áudio. Precisa ter variação de tom e emoção que se adeque ao cenário para ser parecido com o humano. Idealmente, a saída do TTS deve passar por streaming de volta para uma latência mais baixa.

7. Tomando ações: IA que consegue falar é legal, e IA que consegue tomar ações é mais legal. Isso normalmente é alcançado com as funcionalidades de chamada de função de certos modelos, ou saída de dados estruturados, para que o downstream consiga agendar compromissos quando necessário, consiga consultar informações quando apropriado.

  • Ao tomar ações, garanta que o seu agente ainda consiga responder.
  • Um caso de uso específico disso é transferir a chamada ou encerrar a chamada.

O que a Retell AI consegue fazer por uma boa IA de Voz conversacional?

Acho que a essa altura, a maioria das pessoas concordaria que isso não é tão fácil quanto costurar ASR, LLM, TTS juntos. Assim, deixe eu (descaradamente) apresentar como a Retell AI pode ajudar aqui. Ao integrar com a Retell AI, você consegue economizar meses de desenvolvimento, desfrutar de uma experiência de voz de última geração e ter tudo o seguinte coberto:

  • Baixa Latência: Aplicamos otimizações em cada passo, então a latência é reduzida ao mais baixo para a parte de áudio. Note que a parte de geração de resposta ainda está nas suas mãos, então temos pouco controle sobre isso. A nossa demo é de ~800ms entre quando o usuário para e o agente responde.
  • Tratamento de Interrupção: O usuário pode interromper a qualquer momento, e o agente reage de forma incrivelmente rápida a isso como um humano de verdade.
  • Integração de Áudio: Conseguimos conectar diretamente com a Twilio, e disponibilizamos código de frontend web em código aberto.
  • Trabalhar com bytes de áudio: já cuidamos disso e podemos te economizar centenas de horas.
  • Compreensão de áudio: mineramos insights do áudio com a latência mais baixa e enviamos transcrições em tempo real (outros sinais em breve) para você.
  • Decisão de quando falar: temos o nosso próprio modelo de alternância de turnos e vamos continuar a iterá-lo para tomar melhores decisões sobre quando falar.
  • Síntese de áudio: integramos com diversos provedores de TTS e contratamos dubladores para criar vozes parecidas com as humanas adequadas para a conversa.
  • Demo rápida & dashboard: configuramos o nosso dashboard para apoiar a construção de uma demo em 2 minutos.
  • Expertise de domínio & suporte: temos expertise de domínio em áudio, modelagem, criação de agentes. Estamos aqui para ajudar sempre que você esbarrar em problemas.

O que você precisa fazer: continuar iterando no seu produto principal para torná-lo melhor, enquanto cuidamos da parte de áudio. Aqui estão as partes nas quais você precisa trabalhar:

  • Geração de resposta: embora apoiemos a criação de demo no dashboard, percebemos que para cada cenário, o processo de geração de resposta pode ser drasticamente diferente. Portanto, a nossa API vai integrar facilmente a sua solução de geração de resposta personalizada, não importa se é uma chamada simples da OpenAI ou uma configuração de agente complicada.
  • Tomando ações: para que o agente de voz tome ação, você provavelmente vai ter de integrar com diferentes ferramentas (calendários, CRM, etc.). Cabe a você decidir quando tomar ação e o que tomar. Não esqueça de continuar gerando respostas enquanto toma ações.
  • Lógica de chamada específica: diferentes casos de uso vão transferir / encerrar chamadas de forma diferente, e cabe a você decidir os detalhes sobre o fluxo de chamada. Isso pode ser configurado via chamada de função.

Espero que este blog possa te dar uma ideia de alto nível de como construir um ótimo agente de voz, e espero (e descaradamente) que o meu pitch para a Retell AI possa lançar luz sobre como podemos ajudar.

Boa construção!

Calculadora de ROI
Estime Seu ROI ao Automatizar as Chamadas

Veja quanto seu negócio poderia economizar ao migrar para agentes de voz com IA.

All done! 
Your submission has been sent to your email
Ops! Algo deu errado ao enviar o formulário.
   1
   8
20
Ops! Algo deu errado ao enviar o formulário.

Resultado do ROI

2,000

Total Human Agent Cost

$5,000
/month

AI Agent Cost

$3,000
/month

Estimated Savings

$2,000
/month
Demo ao Vivo
Experimente Nossa Demo ao Vivo

Um número de telefone de demonstração do consultório da Retell Clinic

Obrigado! Recebemos o seu envio!
Ops! Algo deu errado ao enviar o formulário.

Read Other Blogs

Revolutionize your call operation with Retell