Compreensão Mais Inteligente, Chamadas Mais Claras: a ASR da Retell Acaba de Receber uma Grande Atualização

Compreensão Mais Inteligente, Chamadas Mais Claras: a ASR da Retell Acaba de Receber uma Grande Atualização

No cerne de entender as pessoas corretamente e ter conversas naturais está o papel do reconhecimento automático de fala (ASR), que é fundamental para qualquer bot de chamada com IA.

As conversas telefônicas são, por natureza, desafiadoras do ponto de vista do reconhecimento de fala. Conectividade ruim, ruído de fundo e diversos dialetos e sotaques tornam difícil entender as palavras de quem liga.

É por isso que lançamos uma grande atualização no motor de Reconhecimento Automático de Fala (ASR) da Retell, trazendo transcrição mais precisa, detecção de intenção mais forte e resultados de chamada mais confiáveis em sete idiomas amplamente usados.

Isso significa mais precisão, transcrições cristalinas e taxas de conclusão de chamada mais altas.

O Que Há de Novo no Motor de ASR Aprimorado da Retell

A nova ASR (conversão de texto em fala) da Retell agora suporta mais de 22 novos idiomas, incluindo:

  • Africâner
  • Árabe
  • Azerbaijano
  • Bósnio
  • Galês
  • Persa
  • Filipino
  • Galego
  • Hebraico
  • Croata
  • Armênio
  • Islandês
  • Cazaque
  • Canará
  • Macedônio
  • Marata
  • Nepalês
  • Esloveno
  • Sérvio
  • Suaíli
  • Tâmil
  • Urdu

Isso eleva a nossa contagem total de idiomas para mais de 50, aproximando-nos um passo de tornar o conteúdo acessível em qualquer idioma. A adição desses idiomas abre vastas possibilidades para as empresas alcançarem novos públicos; só o árabe é falado por 450 milhões de pessoas, o persa por 130 milhões e o urdu por 250 milhões.

Esses idiomas são disponibilizados como parte da nossa nova ASR. Você pode experimentar o OpenAI TTS para construir o seu próximo agente de voz com a Retell. Você também pode clonar a sua voz e converter para qualquer um dos nossos mais de 50 idiomas.

Esse amplo suporte a idiomas permite que as empresas se engajem de forma eficaz com um público global. Experimente a Retell AI hoje e veja em ação.

Como Usar os Idiomas Atualizados da Retell?

Aprimorar a capacidade do seu bot de IA de se comunicar em vários idiomas é uma forma poderosa de melhorar a experiência do usuário.

Com a Retell AI, você pode habilitar essas capacidades multilíngues em alguns passos simples:

Passo 1: Acesse as Configurações Globais

Navegue até o Painel do Agente e selecione o bot que você quer configurar. Clique no menu Global Settings no lado direito.

Passo 2: Selecione a Voz e o Idioma

Na seção Voice and Language, em Global Settings, clique no menu suspenso para explorar os idiomas disponíveis.

Escolha o idioma desejado para o seu bot. Por exemplo, selecionar Espanhol (América Latina) aplicará essa configuração de voz e idioma ao bot.

Passo 3: Personalize o Fluxo de Conversa

Após selecionar o idioma, volte ao editor de Fluxo de Conversa e garanta que todas as mensagens estejam traduzidas com precisão para o público-alvo.

Por exemplo, no nó de Saudações, o bot pode dizer:

“Hola, soy Anna, una representante de inteligencia artificial que llama desde la organización Retell Healthcare en una línea grabada…” (quando o espanhol é selecionado).

Confirme que cada nó da conversa — incluindo prompts e respostas do usuário — corresponda consistentemente ao idioma selecionado.

Esses fluxos de voz multilíngues também podem ser configurados dentro de um sistema de URA com IA, permitindo que quem liga navegue pelos menus e chegue ao departamento adequado no idioma de sua preferência.

Passo 4: Teste a Capacidade Multilíngue

Use a opção Test em Global Settings para simular uma conversa e verificar se o bot responde fluidamente no idioma selecionado. Revise tanto a saída de voz quanto a de texto para garantir precisão e consistência.

Essa configuração também pode dar suporte a casos de uso avançados, como um agente de agendamento com IA, em que o bot confirma datas, horários e outros detalhes enquanto fala naturalmente o idioma preferido do cliente.

Dicas para uma Configuração Multilíngue Eficaz

  • Seleção de Voz: Escolha uma voz que esteja alinhada com a região do público para melhorar a familiaridade e o engajamento.
  • Modo Multilíngue: Em regiões com usuários bilíngues ou multilíngues, habilite o modo multilíngue para que o bot possa alternar entre idiomas de forma fluida.

Ao seguir essas melhores práticas, o seu bot de IA pode se comunicar com clareza com um público mais amplo, melhorando a acessibilidade e entregando uma experiência do cliente mais inclusiva.

Como Essa Nova ASR Funciona na Retell?

A transcrição em tempo real costuma ser um equilíbrio entre latência e precisão.

Quando você otimiza para velocidade, obtém a menor latência, mas uma chance maior de erros devido a menos contexto. Quando confia em resultados com mais contexto, você arrisca esperar mais depois que o usuário para de falar.

A Retell oferece dois modelos de transcrição:

  • Otimizar para velocidade (modos Fast & Accurate)
  • Otimizar para precisão (modo Accurate)

Mesmo tendo descoberto que o modo otimizar para velocidade e o modo otimizar para precisão têm WER (Taxa de Erro de Palavra) semelhante. A real diferença está nos menores detalhes, como número, data ou endereço.

Ao otimizar o nosso pipeline de modelagem acústica, refinar os dicionários fonéticos específicos por idioma e melhorar a decodificação em tempo real, a Retell agora entrega Taxas de Erro de Palavra (WER) drasticamente menores tanto no modo Accurate quanto nos modos Fast & Accurate.

Precisão Mais Apurada em Idiomas Europeus (Modo Accurate)

Para alemão, francês, italiano e polonês, reduzimos a Taxa de Erro de Palavra em 7 a 10 pontos.

Esses já eram idiomas fortes no nosso modo Accurate. Ainda assim, a nova arquitetura de modelagem reduz significativamente os tipos de erro padrão que observamos em chamadas reais de clientes, como trocas de fonemas causadas pelo sotaque, distorções por ruído de fundo e erros de concordância de gênero/número.

O que isso significa para a automação de voz:

  • Transcrições mais claras, mesmo em ambientes ruidosos
  • Captura de intenção mais confiável para respostas complexas, de várias frases
  • Menos turnos de correção (“Desculpe, você poderia repetir?”)
  • Maior resolução na primeira chamada para fluxos de suporte, vendas e atendimento
Idioma WER Média por Palavra WER Média por Chamada O Que Essa Melhoria Significa
Alemão 0.1944 0.1971 Erros de consoantes mal ouvidas e de variação de sotaque caem visivelmente.
Francês 0.2665 0.2552 Reduz a sensibilidade ao ruído e melhora o tratamento de liaisons e vogais nasais.
Italiano 0.1781 0.2457 Transcrições de chamada mais suaves e com som natural.
Polonês 0.1733 0.1688 Melhor reconhecimento de grupos de consoantes e flexões.

Grandes Avanços em Idiomas Asiáticos (Modos Fast & Accurate)

Para chinês (mandarim), malaio e híndi, os ganhos são ainda maiores: melhorias de WER de 15 a 25 pontos.

Esses idiomas têm sido historicamente desafiadores para a ASR devido à dinâmica tonal (mandarim), à mistura de códigos (malaio) e à diversidade de sotaques (híndi). O motor aprimorado agora lida com essas complexidades de forma muito mais inteligente.

O que isso desbloqueia:

  • Compreensão em tempo real significativamente melhor, mesmo nas velocidades do modo Fast
  • Reconhecimento preciso de mudanças tonais, variações de dialeto e uso de idiomas misturados
  • Alternância de turnos mais natural, sem atrasos ou interpretações erradas
  • Desempenho mais forte em áudio telefônico no estilo de central de atendimento — o ambiente de ASR mais difícil
Idioma WER Média por Palavra WER Média por Chamada O Que Essa Melhoria Significa
Malaio 0.2623 0.2988 Menos erros de confusão tonal e melhor tratamento de fala rápida.
Híndi 0.3010 0.3150 Grandes ganhos em fala com mistura de códigos (malaio + inglês), com melhor clareza em tempo real.
Mandarim 0.2605 0.2636 Melhorando drasticamente a estabilidade da transcrição de chamadas entre sotaques.

O Que Isso Significa: Entrada Mais Limpa → Saída Mais Inteligente

O novo motor de ASR reduz a divergência entre o que quem liga diz e o que a IA acha que foi dito. Com WER menor, o nosso motor de raciocínio movido por LLM recebe um texto mais claro, possibilitando:

  • Reconhecimento de intenção mais preciso
  • Menos rupturas na conversa
  • Resoluções mais suaves e rápidas
  • Comportamento do agente mais semelhante ao humano

Essa atualização não melhora apenas a transcrição — ela eleva toda a experiência de automação de voz.

Calculadora de ROI
Estime Seu ROI ao Automatizar as Chamadas

Veja quanto seu negócio poderia economizar ao migrar para agentes de voz com IA.

All done! 
Your submission has been sent to your email
Ops! Algo deu errado ao enviar o formulário.
   1
   8
20
Ops! Algo deu errado ao enviar o formulário.

Resultado do ROI

2,000

Total Human Agent Cost

$5,000
/month

AI Agent Cost

$3,000
/month

Estimated Savings

$2,000
/month
Demo ao Vivo
Experimente Nossa Demo ao Vivo

Um número de telefone de demonstração do consultório da Retell Clinic

Obrigado! Recebemos o seu envio!
Ops! Algo deu errado ao enviar o formulário.

Read Other Blogs

Revolutionize your call operation with Retell