O Que Vem Incluído em uma Plataforma de IA de Voz? Telefonia, TTS, STT, LLMs e o Que Você Ainda Precisa Trazer

O Que Vem Incluído em uma Plataforma de IA de Voz? Telefonia, TTS, STT, LLMs e o Que Você Ainda Precisa Trazer

A maioria das plataformas de IA de voz empacota quatro peças em um único preço por minuto: fala-para-texto, o modelo de linguagem, texto-para-fala e a orquestração que costura tudo isso em uma chamada telefônica em tempo real. A telefonia entra pelo SIP, mas os minutos da operadora, os sistemas com os quais o seu agente conversa e a própria lógica de conversa ainda são seus.

Essa é a resposta inteira. O resto deste guia é para compradores que continuam empacando na mesma pergunta de avaliação: "Espera, precisamos de assinaturas separadas para telefonia, TTS, STT e LLMs, ou isso já faz parte da plataforma?"

Se você já participou de uma ligação de fornecedor comparando uma plataforma de IA de voz lado a lado com Twilio, ElevenLabs ou OpenAI e perguntou qual é mais barato, este artigo é a resposta mais limpa que você vai obter. Esses fornecedores não ficam na mesma coluna. Cada um vende uma única camada da stack. Uma plataforma como a Retell AI vende o todo orquestrado.

Saber qual camada o seu dinheiro está comprando responde a quatro perguntas práticas:

  • Quais contratos você assina
  • Quais faturas você recebe a cada mês
  • Quais horas de engenharia você gasta antes de entrar no ar
  • Quais partes da stack você pode trocar quando os preços ou modelos mudam

A stack de IA de voz num relance

Todo agente de voz que atende um telefone roda a mesma cadeia. O áudio entra. Ele é transcrito. Um modelo raciocina sobre a transcrição. A resposta é falada de volta. Tudo isso flui em paralelo.

CamadaO que ela fazProvedores comuns
TelefoniaRoteia o áudio entre o telefone e o servidorTwilio, Telnyx, Vonage, Avaya
Fala-para-texto (STT)Transforma o áudio em textoDeepgram, AssemblyAI, Whisper
Modelo de linguagem (LLM)Lê, raciocina, decide, respondeGPT-5, GPT-4o, Claude 4.5, Gemini 3.0
Texto-para-fala (TTS)Transforma o texto em áudio faladoElevenLabs, Cartesia, OpenAI, MiniMax
OrquestraçãoFaz streaming, buffer, lida com alternância de turnos e chamadas de ferramentasA plataforma de IA de voz

As primeiras quatro são commodities. Todo mundo usa aproximadamente os mesmos provedores. A quinta é onde as equipes silenciosamente queimam de três a seis meses de engenharia quando tentam construí-la elas mesmas.

O custo oculto do "a gente costura sozinho": WebSockets de streaming. Buffer de fronteira de frase. Detecção de atividade de voz. Recuperação de barge-in. Chamada de função no meio da chamada. Lógica de retentativa em quatro APIs. Integração SIP que lida com as peculiaridades do codec de 8 kHz. Nada disso vem pronto.

Preciso de assinaturas separadas para telefonia, TTS, STT e LLMs?

Não. Não com uma plataforma. Com uma plataforma de IA de voz, você assina um acordo e recebe uma fatura. Com infraestrutura bruta, você assina quatro.

Três caminhos de compra aparecem nas avaliações reais:

1. Plataforma empacotada: Um contrato, uma conta, um dashboard. Você escolhe uma voz e um LLM em menus suspensos; a plataforma cuida do licenciamento, das chamadas de API e da medição. É isso que a maioria das equipes escolhe nos primeiros 90 dias.

2. Infraestrutura bruta: Twilio + um provedor de STT + uma API de LLM + um provedor de TTS, colados com o seu próprio código de orquestração. Controle máximo, quatro conjuntos de credenciais, de três a seis meses de engenharia antes de você atender uma chamada de verdade.

3. Híbrido traga-o-seu-próprio: A plataforma cuida da orquestração e dos componentes, mas você traz o seu próprio trunk SIP, modelo ajustado ou chaves de voz. É aqui que a maioria das implantações de produção acaba depois do primeiro trimestre.

O que o preço por minuto inclui?

A tarifa de destaque de uma plataforma cobre a orquestração. Os componentes vão por cima, e são itens de linha transparentes, não taxas ocultas.

Veja como uma chamada típica de mid-market se decompõe na página de preços:

ComponenteTarifa típicaNotas
Orquestração base~US$ 0,07/minFixa
Voz (Cartesia)~US$ 0,05–0,07/minElevenLabs/OpenAI saem mais caras
LLMUS$ 0,003–0,08/minGemini Flash o mais barato, GPT-5 o mais alto
Telefonia (embutida)~US$ 0,015/minOu US$ 0 com o seu próprio trunk SIP
Tudo incluído (típico)US$ 0,13–0,20/minVoz de tier médio + modelo competente

Duas notas antes de você modelar isso para o financeiro:

  • Um ponto de entrada de US$ 0,07 não é um custo de produção de US$ 0,07. O valor de destaque cobre apenas a orquestração.
  • Os adicionais ficam fora da tarifa por minuto: base de conhecimento em streaming (gratuita para as dez primeiras, depois ~US$ 0,005/min), concorrência além de 20 chamadas, identificação de chamada com marca. Nenhum é necessário para entrar no ar.

A telefonia é empacotada, ou eu ainda preciso da Twilio?

Sim, e sim. Depende do que você já tem.

Você pode comprar um número de telefone diretamente dentro do dashboard e começar a atender chamadas em menos de uma hora. Você também pode trazer um número Twilio, Telnyx, Vonage ou Avaya existente por meio do trunking SIP e pular a operadora revendida totalmente. Ambos os caminhos usam a mesma camada de orquestração por baixo.

Regra rápida de decisão:

  • Começando do zero? Use o número embutido. Mais rápido, mais barato, sem configuração de operadora.
  • Contrato de operadora existente ou números portados? Traga o seu próprio trunk SIP. Mantenha as suas tarifas, a sua atestação STIR/SHAKEN e o seu portfólio de DID.
  • Já está fundo em uma** **integração com Twilio? Mesma resposta: aponte o trunk para a plataforma e importe o número.

Você pode trocar depois. Reimportar um número leva minutos, não planos de migração.

Preciso pagar a ElevenLabs separadamente?

Não. A voz que você escolhe em um menu suspenso está incluída no preço por minuto.

Isso confunde muitas ligações de avaliação porque a ElevenLabs vende dois produtos distintos:

  • O próprio produto de IA Conversacional de ponta a ponta dela (vendido direto, ~US$ 0,10/min mais os custos de LLM)
  • Os modelos de voz dela, licenciados para plataformas que os embutem e revendem por minuto

Se você está usando uma plataforma de IA de voz, você está obtendo o #2. Sem chave de API separada. Sem assinatura separada. Sem fatura separada. O licenciamento e a medição acontecem no backend.

A mesma lógica se aplica à Cartesia, ao OpenAI TTS, ao MiniMax e aos modelos de voz da própria plataforma. A única exceção é a clonagem de voz empresarial, que é configurada separadamente para equipes que precisam de uma voz específica da marca.

Preciso de uma assinatura da OpenAI para o LLM?

Não. A inferência é empacotada. Você escolhe o modelo em um menu suspenso e o preço por minuto se ajusta:

  • Mais baratos: Gemini 3.0 Flash, GPT-5 Nano (frações de um centavo)
  • Tier médio: GPT-4o, Claude Haiku
  • Pesados em raciocínio: Claude 4.5 Sonnet, GPT-5

Nenhuma chave de API da OpenAI do seu lado. Nenhuma conta da Anthropic. Nenhum projeto do Google Cloud.

Se você quiser trazer o seu próprio modelo (pesos ajustados, um contrato OpenAI Enterprise que você já assinou, ou uma implantação auto-hospedada do Llama), a plataforma suporta um WebSocket de LLM personalizado. Os passos da integração estão na documentação.

Quando o traga-o-seu-próprio-modelo se torna a escolha certa?

  • Requisitos estritos de residência de dados
  • Compromissos de LLM existentes que você quer monetizar
  • Ajuste específico de domínio que supera materialmente os modelos de propósito geral no seu caso de uso

Para todos os demais, o caminho empacotado é mais rápido de implantar e mais fácil de trocar quando um novo modelo chega.

O que você ainda precisa trazer

Aqui está a parte que pega as equipes de surpresa. A plataforma cuida da conversa. Você cuida do negócio que ela serve.

Você trazA plataforma cuida
O conteúdo da base de conhecimento (o seu catálogo de serviços, preços, horários, políticas)Recuperação RAG e sincronização automática
CRM e sistema de registroChamadas de webhook durante a conversa
Sistema de calendário e agendamentoVerificações de disponibilidade em tempo real e criação de eventos
Design do fluxo de conversaO framework de arrastar e soltar para construí-lo
Regras de escalonamento e roteamentoA transferência assistida com contexto completo

Algumas notas que vale a pena destacar:

  • A base de conhecimento sincroniza automaticamente do seu site ou conjunto de documentos, mas o conteúdo desses documentos é seu para manter atual. Lixo entra, lixo sai, igual a qualquer sistema RAG.
  • A integração de CRM roda por meio de webhooks, Make, n8n, Zapier ou uma integração nativa com HubSpot. O agente consegue ler e escrever no Salesforce ou HubSpot durante uma chamada ao vivo, mas o schema e as permissões ficam com você.
  • Para os fluxos de agendar compromissos, a integração roda contra o Cal.com, Google Calendar, Calendly ou qualquer sistema de agendamento que detenha o seu calendário de registro.
  • Existem templates para padrões comuns como agendador de compromissos com IA, atendente virtual com IA, suporte de entrada, mas as perguntas reais que o seu agente faz e o que conta como um "lead qualificado" são decisões que só você pode tomar.
  • Para os escalonamentos de transferência de chamada, você define o limiar. As implantações de produção rotineiramente automatizam até 80 por cento das chamadas recebidas, mas onde você traça a linha entre a IA e o humano é a sua decisão.

Empacotar vs. construir: a comparação honesta

A diferença de custo é pequena. A diferença de tempo é enorme.

Plataforma empacotadaConstrução traga-o-seu-próprio
Relacionamentos com fornecedores14+
Tempo até a primeira chamada ao vivoMenos de uma hora3–6 meses
Custo por minuto carregadoUS$ 0,13–0,20US$ 0,13–0,31
Engenharia necessáriaDesign de prompt + fluxoPipeline de streaming + lógica de retentativa + observabilidade + tratamento de SIP
Cadeia de conformidadeUm único BAAUm por fornecedor na stack

Uma construção típica traga-o-seu-próprio puxa a Twilio para a telefonia, a Deepgram ou AssemblyAI para a transcrição, o GPT-5 ou Claude 4.5 para o raciocínio, a ElevenLabs ou Cartesia para a voz, e o Pipecat ou LiveKit para a orquestração. A conta por minuto cai aproximadamente na mesma vizinhança de uma plataforma empacotada.

O que você paga ao construir é tempo de engenharia. Detecção de atividade de voz, tratamento de barge-in, chamada de função que sobrevive a falhas no meio da chamada, observabilidade que correlaciona quatro dashboards de fornecedores em um único trace, e integração SIP que lida graciosamente com as peculiaridades do codec de 8 kHz do áudio de telefonia. Nada disso vem pronto.

A maioria dos modelos de transcrição modernos é treinada principalmente em áudio de 16 kHz. A telefonia te entrega 8 kHz. A diferença de precisão em um pipeline recém-construído é real e perceptível para quem liga.

Essa diferença entre meses de encanamento e dias de engenharia de prompt é por que a maioria dos agentes de voz de produção em 2026 entra no ar sobre uma plataforma.

Onde ficam as fronteiras

Twilio, ElevenLabs, OpenAI e Retell AI não estão competindo pelo mesmo dólar. Eles são camadas empilhadas na mesma arquitetura:

  • Twilio, Telnyx, Vonage → telefonia. Movem o áudio entre telefones e servidores.
  • ElevenLabs, Cartesia, OpenAI TTS, MiniMax → síntese de voz. Transformam o texto em fala.
  • OpenAI, Anthropic, Google → inferência de modelo de linguagem. O cérebro de raciocínio.
  • Retell AI → orquestração mais o framework de agente, a análise pós-chamada, as chamadas em lote, o teste de simulação e a embalagem comercial que transforma quatro faturas em uma.

O enquadramento certo raramente é "Retell ou Twilio". É "Retell em cima de Twilio". O mesmo com OpenAI e ElevenLabs. A única sobreposição real fica na camada de orquestração, e a página Retell vs ElevenLabs cobre essa comparação mais estreita para equipes escolhendo entre uma plataforma e o próprio produto de ponta a ponta da ElevenLabs.

E sobre HIPAA, SOC 2 e GDPR?

A conformidade vive na camada da plataforma. SOC 2 Type II, HIPAA com um BAA em autoatendimento e GDPR estão incluídos sem sobretaxas de conformidade por minuto.

Onde isso importa mais é na construção desempacotada. A conformidade não para na orquestração em uma stack costurada. Cada fornecedor na cadeia (STT, LLM, TTS, telefonia) tem o próprio processo de BAA, os próprios termos de tratamento de dados e a própria trilha de auditoria. As equipes de aquisição em saúde, seguros e serviços financeiros normalmente escolhem o pacote só por essa razão.

Uma aprovação de fornecedor se move mais rápido do que quatro.

Como o pacote performa em produção

Três implantações tornam o trade-off concreto:

Anker: Automação de voz em centrais de suporte globais lidando com milhões de chamadas por ano na América do Norte, Europa e Ásia. Os agentes atingiram mais de 95% de precisão de reconhecimento de fala nos mercados de inglês, rodando em cima da telefonia existente da Anker em vez de um pipeline de quatro fornecedores.

Medical Data Systems: Operações de cobrança por meio da plataforma. A equipe agora lida com 100% das chamadas recebidas com apenas 30% de taxa de transferência, arrecadando cerca de US$ 280.000 por mês. Essa taxa de transferência de 30% é uma decisão de negócio, não um padrão da plataforma.

Matic Insurance: Bot operador fora do horário lidando com suporte, confirmação de compromissos e triagem. No 1º trimestre, o bot atendeu cerca de 8.000 chamadas, com taxas de atendimento que superaram a linha de base liderada por humanos. O bot fica em cima do relacionamento Twilio existente da Matic.

O padrão entre os três:

  • A plataforma é dona da camada do agente
  • Os sistemas existentes do cliente são donos dos dados e fluxos de trabalho
  • O relacionamento com a operadora é um contrato separado

Essa é a linha empacotar-versus-traga-o-seu-próprio em implantações reais de produção.

Perguntas frequentes

Preciso de uma assinatura da ElevenLabs para usar uma plataforma de IA de voz?

Não. As vozes estão embutidas no preço por minuto. A exceção é a clonagem de voz empresarial, que é configurada separadamente.

A Twilio é necessária para rodar um agente de IA de voz?

Não. A maioria das plataformas suporta Telnyx, Vonage, Avaya e qualquer operadora compatível com SIP por meio de trunking direto, além dos próprios números embutidos. A Twilio domina a conversa só porque é a operadora existente mais comum.

Posso trazer o meu próprio LLM?

Sim. Os LLMs personalizados são suportados por meio de uma integração WebSocket, incluindo contratos OpenAI Enterprise, a API da Anthropic, o Gemini e modelos auto-hospedados. Você paga ao seu provedor de modelo pela inferência e à plataforma pela orquestração.

Como o preço empacotado se compara a uma construção DIY na Twilio + OpenAI + ElevenLabs?

Os custos carregados, tudo incluído, caem aproximadamente na mesma faixa: entre US$ 0,13 e US$ 0,31 por minuto. A economia por minuto não é o fator decisivo. O fator decisivo é o tempo de engenharia economizado na camada de orquestração, que normalmente é de meses.

O que a camada de orquestração inclui?

Streaming de áudio em pedaços, buffer de fronteira de frase entre o modelo de linguagem e o TTS, alternância de turnos e barge-in, chamada de função durante uma chamada ao vivo, retentativa e failover entre as APIs subjacentes, teste de simulação, transcrições com pontuação de sentimento e um dashboard de observabilidade unificado.

Posso usar uma plataforma de IA de voz para chamadas de saída em escala?

Sim. As chamadas em lote suportam campanhas de saída com 20 chamadas simultâneas gratuitas em toda conta. Os casos de uso comuns incluem telemarketing com IA, qualificação de leads, follow-up de cobrança de dívidas e lembretes de consulta. A conformidade com TCPA e STIR/SHAKEN é configurada no nível da operadora.

O que acontece quando o agente não consegue lidar com uma chamada?

Transferência assistida com contexto completo da conversa. O humano que atende vê a transcrição e os dados estruturados que o agente coletou, para que quem liga não se repita. Os limiares de escalonamento (tentativas de esclarecimento falhas, temas sensíveis, pedidos explícitos de quem liga) são configurados por agente.

A plataforma é adequada para setores regulados?

Sim. SOC 2 Type II, HIPAA com um BAA em autoatendimento, GDPR e ocultação de PII estão incluídos. A implantação on-premise está disponível para equipes com requisitos estritos de residência de dados.

Quanto tempo leva para ir do cadastro a um agente ao vivo?

A maioria das equipes tem uma chamada de teste funcionando dentro de uma hora e um agente pronto para produção dentro de 1-2 semanas. A plataforma processa mais de 50 milhões de chamadas por mês em mais de 3.000 empresas, então o caminho de implantação é bem trilhado.

A decisão de compra em um parágrafo

As quatro peças em tempo real (telefonia, transcrição, modelo de linguagem, síntese de voz) estão virando commodity rápido. Qualquer um pode comprá-las. A orquestração que as transforma em uma chamada telefônica que você deixaria um cliente ouvir é onde a engenharia se acumula, e é por isso que uma taxa de plataforma por minuto vale a pena pagar em 2026.

A forma mais rápida de sentir onde a linha fica é fazer uma chamada de verdade. O cadastro da Retell AI inclui US$ 10 em créditos de uso, o suficiente para implantar um agente de teste contra o seu próprio número e observar onde os seus sistemas existentes se conectam versus o que a plataforma cuida de ponta a ponta.

A partir daí, o próximo passo natural é qualquer fluxo de trabalho que mais importa:

  • Suporte ao cliente com IA para o desvio de entrada
  • Uma substituição de URA com IA para a árvore telefônica que quem liga já odeia
  • Uma campanha de saída para os leads parados no seu CRM

Construa com os US$ 10 em créditos em retellai.com.

Calculadora de ROI
Estime Seu ROI ao Automatizar as Chamadas

Veja quanto seu negócio poderia economizar ao migrar para agentes de voz com IA.

All done! 
Your submission has been sent to your email
Ops! Algo deu errado ao enviar o formulário.
   1
   8
20
Ops! Algo deu errado ao enviar o formulário.

Resultado do ROI

2,000

Total Human Agent Cost

$5,000
/month

AI Agent Cost

$3,000
/month

Estimated Savings

$2,000
/month
Demo ao Vivo
Experimente Nossa Demo ao Vivo

Um número de telefone de demonstração do consultório da Retell Clinic

Obrigado! Recebemos o seu envio!
Ops! Algo deu errado ao enviar o formulário.

Read Other Blogs

Revolutionize your call operation with Retell