Compreensão Mais Inteligente, Chamadas Mais Claras: a ASR da Retell Acaba de Receber uma Grande Atualização


No cerne de entender as pessoas corretamente e ter conversas naturais está o papel do reconhecimento automático de fala (ASR), que é fundamental para qualquer bot de chamada com IA.
As conversas telefônicas são, por natureza, desafiadoras do ponto de vista do reconhecimento de fala. Conectividade ruim, ruído de fundo e diversos dialetos e sotaques tornam difícil entender as palavras de quem liga.
É por isso que lançamos uma grande atualização no motor de Reconhecimento Automático de Fala (ASR) da Retell, trazendo transcrição mais precisa, detecção de intenção mais forte e resultados de chamada mais confiáveis em sete idiomas amplamente usados.
Isso significa mais precisão, transcrições cristalinas e taxas de conclusão de chamada mais altas.
A nova ASR (conversão de texto em fala) da Retell agora suporta mais de 22 novos idiomas, incluindo:
Isso eleva a nossa contagem total de idiomas para mais de 50, aproximando-nos um passo de tornar o conteúdo acessível em qualquer idioma. A adição desses idiomas abre vastas possibilidades para as empresas alcançarem novos públicos; só o árabe é falado por 450 milhões de pessoas, o persa por 130 milhões e o urdu por 250 milhões.
Esses idiomas são disponibilizados como parte da nossa nova ASR. Você pode experimentar o OpenAI TTS para construir o seu próximo agente de voz com a Retell. Você também pode clonar a sua voz e converter para qualquer um dos nossos mais de 50 idiomas.
Esse amplo suporte a idiomas permite que as empresas se engajem de forma eficaz com um público global. Experimente a Retell AI hoje e veja em ação.
Aprimorar a capacidade do seu bot de IA de se comunicar em vários idiomas é uma forma poderosa de melhorar a experiência do usuário.
Com a Retell AI, você pode habilitar essas capacidades multilíngues em alguns passos simples:

Navegue até o Painel do Agente e selecione o bot que você quer configurar. Clique no menu Global Settings no lado direito.

Na seção Voice and Language, em Global Settings, clique no menu suspenso para explorar os idiomas disponíveis.
Escolha o idioma desejado para o seu bot. Por exemplo, selecionar Espanhol (América Latina) aplicará essa configuração de voz e idioma ao bot.

Após selecionar o idioma, volte ao editor de Fluxo de Conversa e garanta que todas as mensagens estejam traduzidas com precisão para o público-alvo.
Por exemplo, no nó de Saudações, o bot pode dizer:
“Hola, soy Anna, una representante de inteligencia artificial que llama desde la organización Retell Healthcare en una línea grabada…” (quando o espanhol é selecionado).
Confirme que cada nó da conversa — incluindo prompts e respostas do usuário — corresponda consistentemente ao idioma selecionado.
Esses fluxos de voz multilíngues também podem ser configurados dentro de um sistema de URA com IA, permitindo que quem liga navegue pelos menus e chegue ao departamento adequado no idioma de sua preferência.

Use a opção Test em Global Settings para simular uma conversa e verificar se o bot responde fluidamente no idioma selecionado. Revise tanto a saída de voz quanto a de texto para garantir precisão e consistência.
Essa configuração também pode dar suporte a casos de uso avançados, como um agente de agendamento com IA, em que o bot confirma datas, horários e outros detalhes enquanto fala naturalmente o idioma preferido do cliente.
Dicas para uma Configuração Multilíngue Eficaz
Ao seguir essas melhores práticas, o seu bot de IA pode se comunicar com clareza com um público mais amplo, melhorando a acessibilidade e entregando uma experiência do cliente mais inclusiva.
A transcrição em tempo real costuma ser um equilíbrio entre latência e precisão.
Quando você otimiza para velocidade, obtém a menor latência, mas uma chance maior de erros devido a menos contexto. Quando confia em resultados com mais contexto, você arrisca esperar mais depois que o usuário para de falar.
A Retell oferece dois modelos de transcrição:

Mesmo tendo descoberto que o modo otimizar para velocidade e o modo otimizar para precisão têm WER (Taxa de Erro de Palavra) semelhante. A real diferença está nos menores detalhes, como número, data ou endereço.
Ao otimizar o nosso pipeline de modelagem acústica, refinar os dicionários fonéticos específicos por idioma e melhorar a decodificação em tempo real, a Retell agora entrega Taxas de Erro de Palavra (WER) drasticamente menores tanto no modo Accurate quanto nos modos Fast & Accurate.
Para alemão, francês, italiano e polonês, reduzimos a Taxa de Erro de Palavra em 7 a 10 pontos.
Esses já eram idiomas fortes no nosso modo Accurate. Ainda assim, a nova arquitetura de modelagem reduz significativamente os tipos de erro padrão que observamos em chamadas reais de clientes, como trocas de fonemas causadas pelo sotaque, distorções por ruído de fundo e erros de concordância de gênero/número.
| Idioma | WER Média por Palavra | WER Média por Chamada | O Que Essa Melhoria Significa |
|---|---|---|---|
| Alemão | 0.1944 | 0.1971 | Erros de consoantes mal ouvidas e de variação de sotaque caem visivelmente. |
| Francês | 0.2665 | 0.2552 | Reduz a sensibilidade ao ruído e melhora o tratamento de liaisons e vogais nasais. |
| Italiano | 0.1781 | 0.2457 | Transcrições de chamada mais suaves e com som natural. |
| Polonês | 0.1733 | 0.1688 | Melhor reconhecimento de grupos de consoantes e flexões. |
Para chinês (mandarim), malaio e híndi, os ganhos são ainda maiores: melhorias de WER de 15 a 25 pontos.
Esses idiomas têm sido historicamente desafiadores para a ASR devido à dinâmica tonal (mandarim), à mistura de códigos (malaio) e à diversidade de sotaques (híndi). O motor aprimorado agora lida com essas complexidades de forma muito mais inteligente.
| Idioma | WER Média por Palavra | WER Média por Chamada | O Que Essa Melhoria Significa |
|---|---|---|---|
| Malaio | 0.2623 | 0.2988 | Menos erros de confusão tonal e melhor tratamento de fala rápida. |
| Híndi | 0.3010 | 0.3150 | Grandes ganhos em fala com mistura de códigos (malaio + inglês), com melhor clareza em tempo real. |
| Mandarim | 0.2605 | 0.2636 | Melhorando drasticamente a estabilidade da transcrição de chamadas entre sotaques. |
O novo motor de ASR reduz a divergência entre o que quem liga diz e o que a IA acha que foi dito. Com WER menor, o nosso motor de raciocínio movido por LLM recebe um texto mais claro, possibilitando:
Essa atualização não melhora apenas a transcrição — ela eleva toda a experiência de automação de voz.
Veja quanto seu negócio poderia economizar ao migrar para agentes de voz com IA.
Total Human Agent Cost
AI Agent Cost
Estimated Savings
Um número de telefone de demonstração do consultório da Retell Clinic

Start building smarter conversations today.




