Herramientas

Recepcionista de IA para clínicas, talleres y gestorías: no pierdas otra llamada nunca más

Cada llamada perdida es un cliente que llama al siguiente. Esta guía explica cómo montar un recepcionista de voz con IA que atiende 24/7, agenda citas y transfiere urgencias por menos de lo que cuesta una hora de trabajo

G
Gonzalo· Fundador
· 11 min de lectura
Recepción IA

Una clínica dental en Madrid. Buenas reseñas, lista de espera, equipo profesional. Y sin embargo, el crecimiento de pacientes nuevos se había estancado misteriosamente desde hacía meses. El problema no era la calidad del servicio. Era el teléfono.

Los nuevos pacientes que llamaban por primera vez a la hora del almuerzo, después de las ocho de la tarde o el sábado por la mañana encontraban el contestador automático. Y simplemente llamaban a la siguiente clínica que cogía el teléfono. Un dentista tenía una práctica estable, buenas reseñas y un crecimiento de pacientes silenciosamente estancado. El crecimiento perdido estaba escondido en el buzón de voz. Su recepción no podía cubrir el almuerzo, las horas fuera del horario y los fines de semana, así que los nuevos pacientes que llamaban por primera vez chocaban con una grabación y simplemente reservaban en la siguiente clínica que cogía el teléfono. Después de instalar un recepcionista de voz con IA que atendía 24/7, reservaba citas al momento y escalaba preguntas clínicas al personal: tres nuevas reservas en el primer mes rastreadas a llamadas que antes iban al buzón de voz. Benzinga

No es un caso excepcional. Es lo que ocurre en miles de clínicas, talleres mecánicos, gestorías y pequeños negocios de servicios en España cada día. El teléfono sigue siendo el canal principal de captación de clientes nuevos en muchos sectores, y la mayoría de esos negocios tienen franjas horarias donde nadie lo coge.

Esta guía explica cómo resolver ese problema con un agente de voz con IA, sin ser programador, sin contratar personal adicional y por un coste que en la mayoría de casos está por debajo de los 50 euros al mes.

Cómo funciona un agente de voz con IA (sin la jerga técnica)

Para montar uno de estos sistemas no es necesario entender cómo funciona internamente. Pero sí conviene tener claro lo que hace para configurarlo bien.

Cuando un cliente llama, el sistema hace tres cosas en secuencia y en menos de un segundo. Primero, convierte el audio de la voz del cliente en texto — es lo que se llama Speech-to-Text o STT. Segundo, ese texto llega a un modelo de lenguaje (como Claude o GPT-5.5) que entiende qué quiere el cliente y decide qué responder. Tercero, esa respuesta se convierte de vuelta en voz — Text-to-Speech o TTS — y el cliente la escucha.

📞
Cliente llama
🎤
STT
Voz → texto
~90ms
🧠
LLM
Decide qué responder
~200ms
🔊
TTS
Texto → voz
~75ms
👤
Cliente escucha
Latencia total en un stack optimizado: ~465ms — indetectable para el oído humano

La plataforma que conecta todas estas piezas — y que también gestiona la llamada telefónica en sí — es lo que se llama un orchestrador de voz. Las más usadas en 2026 son Retell AI, Vapi y Synthflow. Son esas plataformas las que te permiten configurar el agente sin escribir código.

Qué puede hacer el agente y qué no puede hacer

Antes de decidir si montar uno de estos sistemas, conviene tener expectativas realistas sobre lo que resuelve y lo que no.

Lo que sí puede hacer bien desde el primer día:

  • Responder llamadas a cualquier hora, incluyendo fines de semana y festivos
  • Contestar preguntas frecuentes sobre horarios, precios, servicios disponibles y ubicación
  • Recoger el nombre, teléfono y motivo de la consulta de los clientes que llamen fuera de horario
  • Agendar citas directamente en el calendario del negocio (con la integración correcta)
  • Transferir la llamada al teléfono del responsable cuando hay una urgencia
  • Hablar en español con acento natural y sin sonar a robot (con las voces de ElevenLabs)
  • Manejar interrupciones y conversaciones no lineales — si el cliente cambia de tema, el agente lo sigue

Lo que todavía no resuelve bien:

  • Conversaciones muy complejas con múltiples condiciones simultáneas
  • Situaciones que requieren criterio clínico o profesional — el agente debe transferir, no intentar responder
  • Clientes que llaman muy enfadados y necesitan empatía real, no simulada
  • Trámites que requieren verificación de identidad presencial

La regla práctica que funciona mejor: el agente gestiona las llamadas de rutina y captura las que no puedes atender. Las urgencias y los casos complejos llegan a una persona.

Las tres plataformas que necesitas comparar

La plataforma de voz correcta para un pequeño negocio de servicios en 2026 es Retell para calidad de conversación natural, Vapi para control de costes con acceso de desarrollador, o servicios wrapper estilo Synthflow para operadores que nunca quieren tocar una configuración. Benzinga

Plataforma Precio Latencia Técnico Mejor para
Retell AI 0,07 $/min ~600ms Bajo Negocio local sin desarrollador. Builder visual, HIPAA disponible.
Vapi 0,05 $/min + proveedores 800-1200ms Alto Desarrollador que quiere control total de la pila. Turbo mode: ~500ms.
Synthflow Desde 29 $/mes ~700ms Mínimo Quien quiere un dashboard con teléfono, CRM y agenda en un solo sitio.

La recomendación para la mayoría de clínicas, talleres y gestorías sin desarrollador propio: Retell AI. Retell AI combina calidad de voz, latencia y cumplimiento normativo con un builder sin código accesible para equipos no técnicos. Incluye 20 llamadas simultáneas gratuitas y 10 dólares de crédito al registrarte. Pay-as-you-go desde 0,07 dólares por minuto sin contratos ni plataformas adicionales. CNBC

Montando el agente en Retell: paso a paso sin código

Este proceso lleva entre 45 minutos y dos horas la primera vez, dependiendo de cuánto tiempo dediques a afinar el prompt y la voz.

Paso 1: Registrarse y conseguir un número de teléfono

Crea una cuenta en retellai.com. En el dashboard, ve a la sección «Phone Numbers» y compra un número virtual español. Retell provee números de muchos países directamente. Si prefieres redirigir las llamadas que entran en tu número actual, configura el desvío de llamadas en tu operador para que las llame no atendidas en X segundos vayan al número de Retell.

Paso 2: Crear el agente

Ve a «Agents» → «Create New Agent». Selecciona el tipo «Inbound Call Agent». Elige voz: para español, las voces de ElevenLabs en castellano son las más naturales disponibles. Prueba varias antes de decidirte — el sonido de la voz afecta directamente a la primera impresión del cliente.

Paso 3: El prompt del sistema — el más importante de todos

El prompt es donde vive el 80% del resultado. Un prompt malo produce un agente que suena genérico y confunde a los clientes. Un prompt bien escrito produce un agente que suena como alguien del equipo. Esta es la estructura que funciona mejor:

Eres la recepcionista de [Nombre del negocio], [tipo de negocio] 
ubicado en [dirección]. 

Tu trabajo es:
1. Saludar al cliente con calidez y profesionalidad
2. Entender qué necesita (pedir cita, información, urgencia)
3. Dar información precisa usando solo los datos que te proporciono
4. Agendar citas cuando el cliente lo solicite
5. Transferir la llamada si hay una urgencia o si el cliente lo pide

INFORMACIÓN DEL NEGOCIO:
- Horario: [lunes a viernes 9:00-20:00, sábados 9:00-14:00]
- Servicios: [lista concreta de servicios con precios si procede]
- Dirección: [dirección completa con referencia de parking o transporte]
- Teléfono directo: [número para urgencias]
- Tiempo de espera habitual para cita: [X días]

REGLAS IMPORTANTES:
- Nunca inventes información. Si no sabes algo, di que lo consultarás y pedirás que les devuelvan la llamada.
- Si el cliente pregunta por un caso médico/legal/técnico específico, no respondas. Di que necesitan hablar con [nombre del profesional] y ofrece cita o transferencia.
- Si el cliente dice que es urgente o suena angustiado, ofrece transferencia inmediata.
- Habla en español de España. Tono cálido, profesional, sin exceso de formalidad.
- Cuando tomes datos para cita: nombre completo, teléfono de contacto, motivo de la visita.

Personaliza cada sección con los datos reales de tu negocio. Cuanto más específico, mejor.

Paso 4: Configurar la transferencia de llamadas

En «Tools», añade la herramienta «Transfer Call». Introduce el número al que debe transferir — el móvil del responsable, la línea directa del médico o el técnico de guardia. Configura las condiciones de transferencia: urgencias, petición explícita del cliente, cualquier situación que requiera criterio humano.

Paso 5: Probar antes de activar

Retell tiene un sistema de prueba integrado en el dashboard: puedes hacer una llamada de prueba directamente desde el navegador. Llama tú mismo al agente y actúa como un cliente difícil, como alguien que pregunta algo que no está en el prompt, como alguien que interrumpe. Identifica dónde se rompe la conversación y ajusta el prompt antes de activar el número real.

La integración con el calendario: de tomar nota a agendar directamente

Hay dos niveles de integración con el calendario. El primero — recoger los datos del cliente y pasarlos a un formulario o email para que alguien del equipo confirme la cita — se puede montar en 10 minutos y ya resuelve el 70% del problema. El segundo — que el agente compruebe disponibilidad en tiempo real y confirme la cita al momento — requiere un poco más de trabajo pero produce una experiencia mucho mejor para el cliente.

Para el segundo nivel, la opción más sencilla es Cal.com. Es open source, tiene una API gratuita en el tier básico y tiene integración nativa con Retell. El flujo es: el agente pregunta qué día y hora prefiere el cliente, consulta la API de Cal.com para ver si hay disponibilidad, confirma la cita al momento y el evento aparece en el calendario del profesional.

Cal.com es la opción por defecto para negocios pequeños. Es open source, ofrece acceso a la API en el tier gratuito y gestiona la conversión de zona horaria automáticamente. Tu agente de voz consulta los slots disponibles vía API y agenda citas sin intervención humana. Retell y Synthflow tienen integraciones nativas con Cal.com. Para Vapi, se conecta vía webhook a n8n o Make. CNBC

Para Google Calendar o para un sistema de gestión propio, la conexión se hace vía n8n o Make: cuando el agente recoge los datos de cita, dispara un webhook que crea el evento en el calendario y manda una confirmación por SMS o email al cliente.

El coste real: cuánto es «casi gratis»

Los titulares sobre agentes de voz suelen mencionar precios de 0,07 o 0,09 dólares por minuto que suenan muy baratos. El coste real depende de cuánto se usa. Hay que hacer el cálculo con los números reales del negocio.

Calculadora de coste mensual (Retell AI, 0,07 $/min)
Volumen bajo
~100 llamadas/mes
3 min promedio
~21 €/mes
Volumen medio
~300 llamadas/mes
3 min promedio
~63 €/mes
Volumen alto
~600 llamadas/mes
3 min promedio
~126 €/mes
💡 Una recepcionista a jornada completa en España cuesta entre 1.500 y 2.000 € brutos al mes. El agente de voz cubre el horario que no cubre la recepcionista, al coste de una comida por día.

El número que importa más que el coste es el de las llamadas perdidas. El crecimiento perdido estaba escondido en el buzón de voz. Si tu negocio pierde de media 5 clientes nuevos al mes porque no coge el teléfono fuera de horario, y el valor promedio de un cliente es de 200 euros, son 1.000 euros al mes en ingresos que no se materializan. El agente de voz a 63 euros al mes tiene un ROI de 15 veces. Benzinga

La configuración específica para cada tipo de negocio

Los tres sectores que más se benefician de este sistema tienen necesidades distintas que conviene configurar de forma diferente.

Clínicas y consultas médicas. La prioridad número uno es la distinción entre urgencias reales y consultas de rutina. El prompt debe incluir una lista de síntomas que activan la transferencia inmediata al médico de guardia. Cualquier pregunta sobre diagnóstico, medicación o tratamiento debe responderse con «eso es una pregunta para el doctor, ¿quieres que te agendemos una cita o prefieres que te pongan con alguien ahora?». Para cumplimiento sanitario, AssemblyAI's Medical Mode tiene un 4,97% de Missed Entity Rate frente al 7,32% de Deepgram Nova-3 Medical — importante cuando el agente tiene que manejar nombres de medicamentos y dosificaciones correctamente. Benzinga

Talleres mecánicos. Los clientes que llaman a un taller suelen tener un problema concreto con un síntoma concreto. El agente puede recoger: matrícula del vehículo, marca y modelo, descripción del problema, si el coche está parado o puede seguir circulando. Con esa información, el mecánico jefe puede devolver la llamada con una estimación realista y el cliente siente que ya han empezado a resolver su problema aunque todavía no haya llevado el coche.

Gestorías y despachos. Los clientes que llaman a una gestoría suelen tener una urgencia administrativa — plazo que vence, requerimiento de Hacienda, duda sobre documentación. El agente debe capturar el nombre del cliente (si ya es cliente, buscar en el CRM), el motivo de la llamada y el nivel de urgencia. Para clientes ya registrados, puede dar información sobre el estado de sus trámites si tienes integración con tu sistema de gestión.

El handoff humano: la parte más importante y la más ignorada

El mayor error que cometen los negocios al implementar estos sistemas es no configurar bien la transferencia al humano. Un agente que transfiere mal destruye la experiencia que el agente ha construido bien.

Una recepcionista de voz con IA que funciona necesita tres cosas: un stack de voz por debajo de 700ms que el oído humano perdona, un bucle de reserva conectado a tu calendario real, y una transferencia humana que no hace que el cliente repita todo lo que ya dijo. Benzinga

La transferencia correcta funciona así: el agente detecta que necesita pasar la llamada (urgencia, petición del cliente, situación compleja). Antes de transferir, resume en voz alta lo que ha recogido: «Voy a pasarte con [nombre], te adelanto que se llama María García, que llama por una urgencia relacionada con su tratamiento del miércoles». Eso solo lo puede hacer si está configurado para hacerlo. Si la transferencia es fría — el cliente cuelga y vuelve a llamar empezando de cero — has roto la experiencia.

En Retell, configura la transferencia cálida así en el prompt: «Antes de transferir, siempre di al cliente: "Un momento, te paso con [nombre]. Para que no tengas que repetir, le comento que [breve resumen de lo hablado]." Luego transfiere.»

Lo que pasa cuando el cliente se da cuenta de que habla con IA

Los callers de prueba no pudieron distinguir que estaban hablando con IA en las conversaciones con latencia de ~600ms y voces ElevenLabs v3. Con una buena voz y buena latencia, la mayoría de clientes no lo detecta en llamadas de menos de tres minutos. CNBC

La pregunta más frecuente cuando se implementa este tipo de sistema es: «¿debo decirle al cliente que es IA?». La respuesta honesta es que depende del contexto. En Europa, la regulación emergente — incluyendo el AI Act — apunta hacia la obligación de identificación cuando se usa IA en interacciones con consumidores. La práctica más segura y también la más honesta es que el agente se identifique como asistente virtual al inicio de la llamada: «Hola, soy el asistente virtual de [nombre del negocio]. ¿En qué te puedo ayudar?»

Eso no reduce la utilidad del sistema. La mayoría de clientes que llaman para pedir una cita o preguntar el horario no tienen preferencia fuerte por hablar con humano o con IA — tienen preferencia por que les resuelvan el problema rápido. Si el agente lo resuelve bien, la satisfacción es alta independientemente de si es IA o no.

Las primeras dos semanas: cómo saber si está funcionando

El agente no estará perfecto desde el primer día. Las primeras dos semanas son el período de calibración donde se aprende más sobre cómo son realmente las llamadas del negocio.

Retell guarda transcripciones de todas las llamadas y tiene un dashboard de análisis que muestra dónde se cortan las conversaciones, qué preguntas hace el agente que no debería hacer y qué preguntas recibe que no sabe responder. Lee esas transcripciones con atención los primeros días y ajusta el prompt.

Los tres indicadores que más importan durante las primeras dos semanas: tasa de transferencia (si el agente transfiere más del 40% de las llamadas, el prompt está demasiado conservador y hay que añadir más información), tasa de abandono (si los clientes cuelgan antes de completar su solicitud, la voz o la latencia están generando fricción), y citas agendadas (si el agente recoge datos pero no cierra citas, hay que revisar el flujo de agendado).

Aproximadamente el 60% de los que instalan este tipo de sistema siguen usándolo a los 30 días. El 40% restante descubre que para su volumen de llamadas o para su tipo de cliente, el sistema añade más complejidad de la que resuelve. Ambas opciones son válidas — la prueba tiene coste bajo y la decisión de mantenerlo o no se toma con datos reales, no con suposiciones. Benzinga

Fuentes

EtiquetasAgentes IAProductividadOpen source

Seguir leyendo