A maioria das plataformas de IA de voz empacota quatro peças em um único preço por minuto: fala-para-texto, o modelo de linguagem, texto-para-fala e a orquestração que costura tudo isso em uma chamada telefônica em tempo real. A telefonia entra pelo SIP, mas os minutos da operadora, os sistemas com os quais o seu agente conversa e a própria lógica de conversa ainda são seus.
Essa é a resposta inteira. O resto deste guia é para compradores que continuam empacando na mesma pergunta de avaliação: "Espera, precisamos de assinaturas separadas para telefonia, TTS, STT e LLMs, ou isso já faz parte da plataforma?"
Se você já participou de uma ligação de fornecedor comparando uma plataforma de IA de voz lado a lado com Twilio, ElevenLabs ou OpenAI e perguntou qual é mais barato, este artigo é a resposta mais limpa que você vai obter. Esses fornecedores não ficam na mesma coluna. Cada um vende uma única camada da stack. Uma plataforma como a Retell AI vende o todo orquestrado.
Saber qual camada o seu dinheiro está comprando responde a quatro perguntas práticas:
Todo agente de voz que atende um telefone roda a mesma cadeia. O áudio entra. Ele é transcrito. Um modelo raciocina sobre a transcrição. A resposta é falada de volta. Tudo isso flui em paralelo.
| Camada | O que ela faz | Provedores comuns |
|---|---|---|
| Telefonia | Roteia o áudio entre o telefone e o servidor | Twilio, Telnyx, Vonage, Avaya |
| Fala-para-texto (STT) | Transforma o áudio em texto | Deepgram, AssemblyAI, Whisper |
| Modelo de linguagem (LLM) | Lê, raciocina, decide, responde | GPT-5, GPT-4o, Claude 4.5, Gemini 3.0 |
| Texto-para-fala (TTS) | Transforma o texto em áudio falado | ElevenLabs, Cartesia, OpenAI, MiniMax |
| Orquestração | Faz streaming, buffer, lida com alternância de turnos e chamadas de ferramentas | A plataforma de IA de voz |
As primeiras quatro são commodities. Todo mundo usa aproximadamente os mesmos provedores. A quinta é onde as equipes silenciosamente queimam de três a seis meses de engenharia quando tentam construí-la elas mesmas.
O custo oculto do "a gente costura sozinho": WebSockets de streaming. Buffer de fronteira de frase. Detecção de atividade de voz. Recuperação de barge-in. Chamada de função no meio da chamada. Lógica de retentativa em quatro APIs. Integração SIP que lida com as peculiaridades do codec de 8 kHz. Nada disso vem pronto.
Não. Não com uma plataforma. Com uma plataforma de IA de voz, você assina um acordo e recebe uma fatura. Com infraestrutura bruta, você assina quatro.
Três caminhos de compra aparecem nas avaliações reais:
1. Plataforma empacotada: Um contrato, uma conta, um dashboard. Você escolhe uma voz e um LLM em menus suspensos; a plataforma cuida do licenciamento, das chamadas de API e da medição. É isso que a maioria das equipes escolhe nos primeiros 90 dias.
2. Infraestrutura bruta: Twilio + um provedor de STT + uma API de LLM + um provedor de TTS, colados com o seu próprio código de orquestração. Controle máximo, quatro conjuntos de credenciais, de três a seis meses de engenharia antes de você atender uma chamada de verdade.
3. Híbrido traga-o-seu-próprio: A plataforma cuida da orquestração e dos componentes, mas você traz o seu próprio trunk SIP, modelo ajustado ou chaves de voz. É aqui que a maioria das implantações de produção acaba depois do primeiro trimestre.
A tarifa de destaque de uma plataforma cobre a orquestração. Os componentes vão por cima, e são itens de linha transparentes, não taxas ocultas.
Veja como uma chamada típica de mid-market se decompõe na página de preços:
| Componente | Tarifa típica | Notas |
|---|---|---|
| Orquestração base | ~US$ 0,07/min | Fixa |
| Voz (Cartesia) | ~US$ 0,05–0,07/min | ElevenLabs/OpenAI saem mais caras |
| LLM | US$ 0,003–0,08/min | Gemini Flash o mais barato, GPT-5 o mais alto |
| Telefonia (embutida) | ~US$ 0,015/min | Ou US$ 0 com o seu próprio trunk SIP |
| Tudo incluído (típico) | US$ 0,13–0,20/min | Voz de tier médio + modelo competente |
Duas notas antes de você modelar isso para o financeiro:
Sim, e sim. Depende do que você já tem.
Você pode comprar um número de telefone diretamente dentro do dashboard e começar a atender chamadas em menos de uma hora. Você também pode trazer um número Twilio, Telnyx, Vonage ou Avaya existente por meio do trunking SIP e pular a operadora revendida totalmente. Ambos os caminhos usam a mesma camada de orquestração por baixo.
Regra rápida de decisão:
Você pode trocar depois. Reimportar um número leva minutos, não planos de migração.
Não. A voz que você escolhe em um menu suspenso está incluída no preço por minuto.
Isso confunde muitas ligações de avaliação porque a ElevenLabs vende dois produtos distintos:
Se você está usando uma plataforma de IA de voz, você está obtendo o #2. Sem chave de API separada. Sem assinatura separada. Sem fatura separada. O licenciamento e a medição acontecem no backend.
A mesma lógica se aplica à Cartesia, ao OpenAI TTS, ao MiniMax e aos modelos de voz da própria plataforma. A única exceção é a clonagem de voz empresarial, que é configurada separadamente para equipes que precisam de uma voz específica da marca.
Não. A inferência é empacotada. Você escolhe o modelo em um menu suspenso e o preço por minuto se ajusta:
Nenhuma chave de API da OpenAI do seu lado. Nenhuma conta da Anthropic. Nenhum projeto do Google Cloud.
Se você quiser trazer o seu próprio modelo (pesos ajustados, um contrato OpenAI Enterprise que você já assinou, ou uma implantação auto-hospedada do Llama), a plataforma suporta um WebSocket de LLM personalizado. Os passos da integração estão na documentação.
Quando o traga-o-seu-próprio-modelo se torna a escolha certa?
Para todos os demais, o caminho empacotado é mais rápido de implantar e mais fácil de trocar quando um novo modelo chega.
Aqui está a parte que pega as equipes de surpresa. A plataforma cuida da conversa. Você cuida do negócio que ela serve.
| Você traz | A plataforma cuida |
|---|---|
| O conteúdo da base de conhecimento (o seu catálogo de serviços, preços, horários, políticas) | Recuperação RAG e sincronização automática |
| CRM e sistema de registro | Chamadas de webhook durante a conversa |
| Sistema de calendário e agendamento | Verificações de disponibilidade em tempo real e criação de eventos |
| Design do fluxo de conversa | O framework de arrastar e soltar para construí-lo |
| Regras de escalonamento e roteamento | A transferência assistida com contexto completo |
Algumas notas que vale a pena destacar:
A diferença de custo é pequena. A diferença de tempo é enorme.
| Plataforma empacotada | Construção traga-o-seu-próprio | |
|---|---|---|
| Relacionamentos com fornecedores | 1 | 4+ |
| Tempo até a primeira chamada ao vivo | Menos de uma hora | 3–6 meses |
| Custo por minuto carregado | US$ 0,13–0,20 | US$ 0,13–0,31 |
| Engenharia necessária | Design de prompt + fluxo | Pipeline de streaming + lógica de retentativa + observabilidade + tratamento de SIP |
| Cadeia de conformidade | Um único BAA | Um por fornecedor na stack |
Uma construção típica traga-o-seu-próprio puxa a Twilio para a telefonia, a Deepgram ou AssemblyAI para a transcrição, o GPT-5 ou Claude 4.5 para o raciocínio, a ElevenLabs ou Cartesia para a voz, e o Pipecat ou LiveKit para a orquestração. A conta por minuto cai aproximadamente na mesma vizinhança de uma plataforma empacotada.
O que você paga ao construir é tempo de engenharia. Detecção de atividade de voz, tratamento de barge-in, chamada de função que sobrevive a falhas no meio da chamada, observabilidade que correlaciona quatro dashboards de fornecedores em um único trace, e integração SIP que lida graciosamente com as peculiaridades do codec de 8 kHz do áudio de telefonia. Nada disso vem pronto.
A maioria dos modelos de transcrição modernos é treinada principalmente em áudio de 16 kHz. A telefonia te entrega 8 kHz. A diferença de precisão em um pipeline recém-construído é real e perceptível para quem liga.
Essa diferença entre meses de encanamento e dias de engenharia de prompt é por que a maioria dos agentes de voz de produção em 2026 entra no ar sobre uma plataforma.
Twilio, ElevenLabs, OpenAI e Retell AI não estão competindo pelo mesmo dólar. Eles são camadas empilhadas na mesma arquitetura:
O enquadramento certo raramente é "Retell ou Twilio". É "Retell em cima de Twilio". O mesmo com OpenAI e ElevenLabs. A única sobreposição real fica na camada de orquestração, e a página Retell vs ElevenLabs cobre essa comparação mais estreita para equipes escolhendo entre uma plataforma e o próprio produto de ponta a ponta da ElevenLabs.
A conformidade vive na camada da plataforma. SOC 2 Type II, HIPAA com um BAA em autoatendimento e GDPR estão incluídos sem sobretaxas de conformidade por minuto.
Onde isso importa mais é na construção desempacotada. A conformidade não para na orquestração em uma stack costurada. Cada fornecedor na cadeia (STT, LLM, TTS, telefonia) tem o próprio processo de BAA, os próprios termos de tratamento de dados e a própria trilha de auditoria. As equipes de aquisição em saúde, seguros e serviços financeiros normalmente escolhem o pacote só por essa razão.
Uma aprovação de fornecedor se move mais rápido do que quatro.
Três implantações tornam o trade-off concreto:
Anker: Automação de voz em centrais de suporte globais lidando com milhões de chamadas por ano na América do Norte, Europa e Ásia. Os agentes atingiram mais de 95% de precisão de reconhecimento de fala nos mercados de inglês, rodando em cima da telefonia existente da Anker em vez de um pipeline de quatro fornecedores.
Medical Data Systems: Operações de cobrança por meio da plataforma. A equipe agora lida com 100% das chamadas recebidas com apenas 30% de taxa de transferência, arrecadando cerca de US$ 280.000 por mês. Essa taxa de transferência de 30% é uma decisão de negócio, não um padrão da plataforma.
Matic Insurance: Bot operador fora do horário lidando com suporte, confirmação de compromissos e triagem. No 1º trimestre, o bot atendeu cerca de 8.000 chamadas, com taxas de atendimento que superaram a linha de base liderada por humanos. O bot fica em cima do relacionamento Twilio existente da Matic.
O padrão entre os três:
Essa é a linha empacotar-versus-traga-o-seu-próprio em implantações reais de produção.
Preciso de uma assinatura da ElevenLabs para usar uma plataforma de IA de voz?
Não. As vozes estão embutidas no preço por minuto. A exceção é a clonagem de voz empresarial, que é configurada separadamente.
A Twilio é necessária para rodar um agente de IA de voz?
Não. A maioria das plataformas suporta Telnyx, Vonage, Avaya e qualquer operadora compatível com SIP por meio de trunking direto, além dos próprios números embutidos. A Twilio domina a conversa só porque é a operadora existente mais comum.
Posso trazer o meu próprio LLM?
Sim. Os LLMs personalizados são suportados por meio de uma integração WebSocket, incluindo contratos OpenAI Enterprise, a API da Anthropic, o Gemini e modelos auto-hospedados. Você paga ao seu provedor de modelo pela inferência e à plataforma pela orquestração.
Como o preço empacotado se compara a uma construção DIY na Twilio + OpenAI + ElevenLabs?
Os custos carregados, tudo incluído, caem aproximadamente na mesma faixa: entre US$ 0,13 e US$ 0,31 por minuto. A economia por minuto não é o fator decisivo. O fator decisivo é o tempo de engenharia economizado na camada de orquestração, que normalmente é de meses.
O que a camada de orquestração inclui?
Streaming de áudio em pedaços, buffer de fronteira de frase entre o modelo de linguagem e o TTS, alternância de turnos e barge-in, chamada de função durante uma chamada ao vivo, retentativa e failover entre as APIs subjacentes, teste de simulação, transcrições com pontuação de sentimento e um dashboard de observabilidade unificado.
Posso usar uma plataforma de IA de voz para chamadas de saída em escala?
Sim. As chamadas em lote suportam campanhas de saída com 20 chamadas simultâneas gratuitas em toda conta. Os casos de uso comuns incluem telemarketing com IA, qualificação de leads, follow-up de cobrança de dívidas e lembretes de consulta. A conformidade com TCPA e STIR/SHAKEN é configurada no nível da operadora.
O que acontece quando o agente não consegue lidar com uma chamada?
Transferência assistida com contexto completo da conversa. O humano que atende vê a transcrição e os dados estruturados que o agente coletou, para que quem liga não se repita. Os limiares de escalonamento (tentativas de esclarecimento falhas, temas sensíveis, pedidos explícitos de quem liga) são configurados por agente.
A plataforma é adequada para setores regulados?
Sim. SOC 2 Type II, HIPAA com um BAA em autoatendimento, GDPR e ocultação de PII estão incluídos. A implantação on-premise está disponível para equipes com requisitos estritos de residência de dados.
Quanto tempo leva para ir do cadastro a um agente ao vivo?
A maioria das equipes tem uma chamada de teste funcionando dentro de uma hora e um agente pronto para produção dentro de 1-2 semanas. A plataforma processa mais de 50 milhões de chamadas por mês em mais de 3.000 empresas, então o caminho de implantação é bem trilhado.
As quatro peças em tempo real (telefonia, transcrição, modelo de linguagem, síntese de voz) estão virando commodity rápido. Qualquer um pode comprá-las. A orquestração que as transforma em uma chamada telefônica que você deixaria um cliente ouvir é onde a engenharia se acumula, e é por isso que uma taxa de plataforma por minuto vale a pena pagar em 2026.
A forma mais rápida de sentir onde a linha fica é fazer uma chamada de verdade. O cadastro da Retell AI inclui US$ 10 em créditos de uso, o suficiente para implantar um agente de teste contra o seu próprio número e observar onde os seus sistemas existentes se conectam versus o que a plataforma cuida de ponta a ponta.
A partir daí, o próximo passo natural é qualquer fluxo de trabalho que mais importa:
Construa com os US$ 10 em créditos em retellai.com.
Veja quanto seu negócio poderia economizar ao migrar para agentes de voz com IA.
Total Human Agent Cost
AI Agent Cost
Estimated Savings
Um número de telefone de demonstração do consultório da Retell Clinic

Start building smarter conversations today.


.avif)
.avif)