Qué es la detección de actividad de voz (VAD), por qué importa en la IA de voz y cómo garantiza turnos fluidos y transcripciones precisas.
La detección de actividad de voz (VAD) es el proceso de detectar cuándo alguien está hablando, o no, durante una llamada telefónica o una interacción de voz. Le indica al sistema de IA cuándo empezar a escuchar, cuándo parar y cuándo es el momento de responder.
La VAD es fundamental para los sistemas de IA de voz en tiempo real. Garantiza que el agente de voz no hable por encima del usuario, no corte la entrada de forma prematura ni se quede en un silencio incómodo esperando una indicación que ya se ha dado.
Sin una VAD precisa, las conversaciones resultan torpes y poco naturales.
Con ella, las llamadas fluyen con naturalidad reflejando el ritmo de una conversación humana.
Una VAD eficaz permite a los agentes de voz con IA:
Captar con precisión lo que dice quien llama, sin perder el principio ni el final
Evitar interrumpir al usuario, distinguiendo las pausas del silencio real
Responder más rápido, mejorando la velocidad percibida y reduciendo la latencia
Gestionar el ruido del mundo real, como conversaciones de fondo o música en espera
Procesamiento de la señal de audio
Los algoritmos de VAD analizan el volumen, la frecuencia y los patrones de la forma de onda para detectar la presencia de voz humana.
Filtrado de ruido
Filtra el ruido ambiental, la respiración o el silencio para que el agente no responda de forma prematura ni se demore innecesariamente.
Gestión de pausas
Distingue entre un usuario que hace una pausa a mitad de frase y un usuario que ya ha terminado de hablar.
Integración con la lógica de turnos de palabra
Funciona en sincronía con el motor de conversación del agente para gestionar quién “tiene la palabra”.
Una persona que llama a la línea de soporte de una empresa de telecomunicaciones hace una pausa de dos segundos mientras busca su número de cuenta. El sistema de VAD de Retell AI detecta correctamente que se trata de una pausa breve, no del final de una frase, y sigue escuchando sin cortar la entrada ni interrumpir con una réplica prematura.
La VAD puede ser invisible para el usuario, pero es la razón por la que la automatización de voz se siente humana en lugar de robótica. Sin ella, incluso el agente de voz con IA más inteligente parecerá que está adivinando.
Descubre cómo Retell AI usa una VAD avanzada para una automatización de voz natural, en tiempo real y tolerante a las interrupciones.