Monitoreo y Alertas de Entregabilidad SMS: Manual de KPIs con Plantillas de Dashboard

Introducción: trata la entregabilidad como uptime, no como una métrica de vanidad

La mayoría de los equipos revisan la entregabilidad SMS una vez al mes como un único porcentaje.

"Se ve bien, estamos alrededor del 95%."

Mientras tanto:

  • Una operadora estadounidense empieza a filtrar silenciosamente un nuevo flujo promocional.
  • Una secuencia OTP de alto valor comienza a fallar a las 2 a.m.
  • Un pool de números de rotación se agota y los códigos de error suben sigilosamente.

Para cuando alguien lo nota, ya:

  • Se perdieron 5–6 cifras en ingresos por checkouts o depósitos abandonados.
  • Se dañó la confianza ("Nunca recibí el código, tu app está rota.").
  • Se condicionó a las operadoras a tratar tu marca como ruidosa o de riesgo.

En nuestro trabajo gestionando cientos de incidentes de entregabilidad, el patrón es claro: los equipos que tratan la entregabilidad como confiabilidad del sitio (SRE) se recuperan rápido. Los que la tratan como una métrica de vanidad semanal terminan sorprendidos.

Esta guía te muestra cómo:

  • Elegir los KPIs correctos (e ignorar los engañosos).
  • Segmentar datos por operadora, pool de remitentes, ruta y campaña.
  • Construir un sistema de dashboard y alertas que detecte problemas temprano.
  • Usar el monitoreo para mejorar la entregabilidad, no solo reportarla.

Sección 1: Los KPIs fundamentales de entregabilidad SMS que realmente importan

No necesitas 40 métricas. Necesitas un conjunto reducido de KPIs que se mapeen directamente a incidentes y recuperación.

1. Tasa de entrega (por operadora, pool, campaña)

Definición:

  • Tasa de entrega = mensajes con acuses "entregado" positivos ÷ total de intentos de envío

Buenas prácticas:

  • Segmentar siempre por:
    • Operadora (Verizon, AT&T, T-Mobile, operadoras internacionales)
    • Pool / grid de remitentes
    • Campaña / flujo (OTP, promos, transaccional)
    • País / región

Cómo se ve "bien" (A2P en EE.UU., correctamente configurado):

  • Flujos transaccionales principales: 99%+
  • Promos de alto volumen: 98–99%+
  • Cualquier cosa consistentemente por debajo de 97–98% requiere investigación.

2. Tasa de fallo definitivo / tasa de error

Definición:

  • Porcentaje de mensajes con códigos de fallo definitivos:
    • Número inválido
    • Suscriptor desconocido
    • Rechazo permanente de la operadora

Por qué importa:

  • Un aumento en fallos definitivos suele significar:
    • Higiene de lista deficiente.
    • Bloqueo a nivel de operadora de remitentes o contenido específicos.
    • Un pool de números agotado o quemado.

Presta atención a:

  • Saltos repentinos en una sola operadora.
  • Rutas o pools específicos con tasa de fallo definitivo persistente de >1–2%.

3. Tasa de fallo temporal / tasa de reintento

Definición:

  • Fallos temporales:
    • Problemas de red
    • Congestión
    • Limitación de velocidad / throttling

Por qué importa:

  • Muchos fallos temporales = estás presionando demasiado a las operadoras o golpeando rutas congestionadas.
  • Muestra si tu estrategia de reintentos funciona o simplemente está saturando el sistema.

4. Indicadores de mensajes desconocidos / filtrados / "entregado falso"

Las operadoras no siempre devuelven un código de "filtrado". Algunas:

  • Devuelven errores genéricos.
  • Declaran "entregado" mientras los dispositivos no reciben nada (filtrado silencioso).

Proxies para monitorear:

  • Caídas en comportamiento downstream (clics, inicios de sesión) a pesar de acuses "OK".
  • Pruebas de muestreo: números semilla en cada operadora que registras por separado.
  • Caídas repentinas de rendimiento en nuevas campañas mientras otras permanecen estables.

5. Salud del pool y del grid

Si usas:

  • Pools de números de rotación
  • Grids de pools privados
  • O incluso números dedicados simples

…debes rastrear, por pool/grid:

  • Tasa de entrega
  • Tasa de fallo definitivo
  • Tasa de quejas / bajas (opt-out)
  • Mensajes diarios por remitente

Patrones saludables:

  • Rendimiento estable a lo largo del tiempo.
  • Ningún remitente que supere:
    • >1% de fallo definitivo en una ventana de 24 horas.
    • >0.3–0.5% de quejas / opt-out en promos.

Sección 2: El "cubo de entregabilidad", cómo segmentar tus datos

Una sola "tasa de entrega" global lo oculta todo.

Necesitas un cubo de entregabilidad:

  • Operadora (Verizon, AT&T, T-Mobile, etc.)
  • Remitente (pool, grid, número individual)
  • Ruta / producto (gateway, región)
  • Campaña / flujo (OTP, promos, transaccional)
  • Nivel de riesgo del contenido (mainstream, alto riesgo, SHAFT)

Ejemplo de segmento que detecta problemas reales

  1. Verizon × Promo × Grid A:

    • La tasa de entrega cae de 99.1% → 94.4% en 48 horas.
    • Los fallos definitivos y temporales suben ligeramente.
    • Las demás operadoras están estables.
  2. Acción:

    • Migrar promos del Grid A al Grid B para Verizon.
    • Revisar cambios recientes en contenido y patrones de velocidad de envío.
    • Reducir temporalmente el volumen a la línea base + 20% mientras se prueba.

Sin segmentación, solo verías:

  • Entrega global: 97.8% → 96.9% (indiferencia).

Con segmentación, ves:

  • Una celda en la matriz se está agotando mientras las demás están sanas.

Sección 3: Umbrales de alerta y qué hacer cuando se disparan

1. Alertas de tasa de entrega por operadora

Umbrales recomendados (ajusta según tu línea base):

  • Alerta si la tasa de entrega en cualquier operadora principal:
    • Cae >2 puntos respecto a la mediana de 7 días.
    • O baja por debajo del 97% durante más de 30–60 minutos en tráfico activo.

Runbook:

  1. Confirma que no sea un error de datos (dashboards, logs en bruto).
  2. Verifica:
    • Despliegues recientes (cambios de contenido, cambios de enrutamiento).
    • Nuevos lanzamientos de campañas.
    • Picos de volumen.
  3. Mitiga:
    • Reduce temporalmente la velocidad de envío en esa operadora.
    • Cambia a pool / grid alternativo si está disponible.
    • Pausa nuevas campañas de riesgo para esa operadora.

2. Alertas de salud de pool / grid

Alerta cuando:

  • La tasa de fallo definitivo de cualquier pool o grid supera 1–2% durante >1 hora en volumen significativo.
  • Las tasas de quejas / opt-out superan 0.3–0.5% en promos.

Runbook:

  1. Detén el envío de nuevas campañas en ese pool / grid.
  2. Redirige parte del tráfico a pools más saludables.
  3. Investiga:
    • ¿Mezclaste contenido de mayor riesgo en un pool que antes estaba limpio?
    • ¿Cambiaron las políticas de la operadora (p. ej., nueva regla sobre palabras clave SHAFT)?

3. Alertas de filtrado silencioso y "entrega falsa"

Dado que no siempre verás códigos de error claros:

  • Compara:
    • Mensajes entregados → conversiones esperadas (clics, inicios de sesión, usos de OTP).
  • Alerta cuando:
    • La entregabilidad se mantiene "bien" pero la conversión downstream cae bruscamente para una operadora o campaña.

Aquí es donde:

  • Los números semilla por operadora son invaluables.
  • Las pruebas en vivo periódicas (manuales + automatizadas) capturan la realidad frente a los acuses de recibo.

Sección 4: Diseño del dashboard de entregabilidad SMS

Tu dashboard no tiene que ser sofisticado. Tiene que ser útil bajo presión.

Diseño 1: Vista ejecutiva

Métricas de primer nivel:

  • Tasa de entrega global (últimas 24h, 7d)
  • Tasa de entrega por operadora (Verizon, AT&T, T-Mobile, top 3–5 internacionales)
  • % de mensajes por:
    • Transaccional vs marketing
    • Mainstream vs alto riesgo

Tendencias:

  • Gráficos de líneas:
    • Tasa de entrega por operadora a lo largo del tiempo.
    • Volumen por operadora.

Úsalo para responder: "¿Hay un problema crítico ahora mismo, sí o no?"

Diseño 2: Vista de Ops / SRE

Tablas y gráficos por:

  • Operadora × Pool × Campaña
  • Métricas de salud del pool (entregados, fallos definitivos, fallos temporales, quejas)

Ejemplos:

  • Mapa de calor: tasa de entrega por operadora (columnas) y pool/grid (filas).
  • Tabla con ordenamiento:
    • "Mostrar los pools con mayor tasa de fallo definitivo hoy."

Úsalo cuando se dispare una alerta.

Diseño 3: Vista de analytics / marketing

Enfocado en:

  • Rendimiento de campañas:
    • Tasa de entrega vs CTR vs conversión.
  • Pruebas A/B:
    • Variantes de contenido vs entregabilidad.

Esta vista conecta entregabilidad con ingresos, facilitando la justificación de decisiones de infraestructura.


Sección 5: Diagnóstico de problemas comunes con tus métricas

Escenario 1: Una operadora cae, las demás están estables

Causas probables:

  • Filtrado específico de la operadora por:
    • Patrón de contenido.
    • Dominio de URL.
    • Reputación del pool de remitentes.

Qué verificar:

  • ¿Hubo cambios recientes en contenido o plantillas?
  • ¿Se están usando nuevas URLs? (p. ej., cambio de acortador de enlaces)
  • Rampa de volumen: ¿escalaste demasiado rápido en esa operadora?

Escenario 2: Todas las operadoras se degradan al mismo tiempo

Causas probables:

  • Cambio global de contenido (p. ej., promos más agresivas).
  • Escalada agresiva de volumen en todas las operadoras.
  • Cambio a nivel de plataforma (enrutamiento, lógica de pool).

Qué verificar:

  • Últimos despliegues.
  • Nuevas campañas de alto riesgo.
  • Si los controles (lógica de rotación, límites por operadora) se están aplicando realmente.

Escenario 3: Las métricas se ven bien, pero el buzón de soporte se llena de "no lo recibí"

Causas probables:

  • Filtrado a nivel de dispositivo (carpetas de spam).
  • Filtrado silencioso a nivel de operadora con acuses de recibo engañosos.
  • Zonas regionales afectadas (p. ej., códigos de área específicos).

Qué verificar:

  • Pruebas en dispositivos semilla por operadora.
  • Desgloses por región / código de área.
  • Presencia de palabras clave o patrones sensibles.

Sección 6: Cómo el monitoreo de entregabilidad cambia tus decisiones de infraestructura

Una vez que puedes ver:

  • Qué pools se degradan más rápido
  • Qué operadoras son más sensibles
  • Cómo el contenido y el volumen afectan los resultados

…queda claro por qué la infraestructura importa.

Los equipos que migran a:

  • Grids de pools privados (100+ SIMs multi-operadora por grid)
  • Algoritmos de matching por operadora (Verizon→Verizon, AT&T→AT&T)
  • Pools de números de rotación con retiro automatizado

…pueden usar sus dashboards para:

  • Rotar y enfriar remitentes de forma proactiva.
  • Hacer pruebas A/B de estrategias de enrutamiento, no solo de contenido.
  • Crear playbooks por operadora en lugar de soluciones genéricas.

Regularmente observamos:

  • 40–60% menos incidentes tras implementar monitoreo adecuado y enrutamiento basado en grids.
  • Análisis de causa raíz (RCA) más rápido porque los logs y métricas están alineados.
  • Mejores conversaciones de riesgo con compliance y legal ("aquí está exactamente cómo controlamos el abuso y monitoreamos las quejas").

Preguntas frecuentes: métricas y dashboards de entregabilidad SMS

1. ¿Cuál es una tasa de entrega global "buena"?

Para un programa saludable y bien arquitectado:

  • Flujos transaccionales: 99%+
  • Marketing de alto volumen: 98–99%

Cualquier cosa por debajo de 97–98% en flujos principales es una señal de alerta.

2. ¿Con qué frecuencia debemos revisar la entregabilidad?

  • Dashboards: diariamente (o con más frecuencia durante lanzamientos).
  • Alertas: en tiempo real para caídas significativas.
  • Revisiones profundas: semanalmente o mensualmente con análisis de tendencias.

3. ¿Realmente necesito datos por operadora?

Sí. La mayoría de los incidentes graves son específicos de una operadora. Sin segmentación por operadora, operas a ciegas.

4. ¿Qué pasa con los remitentes de bajo volumen? ¿Es esto excesivo?

Si:

  • Envías poco volumen.
  • Operas en verticales de bajo riesgo.
  • No generas ingresos críticos a través de SMS.

…puedes conformarte con un monitoreo más simple. Pero en el momento en que SMS sea el núcleo de tus ingresos, desearás tener esto implementado.

5. ¿Cómo empiezo si mi proveedor actual no expone buenas métricas?

Opciones:

  • Extrae CDRs / logs y construye tu propia agregación.
  • Usa webhooks para registrar los DLRs en tu data warehouse.
  • Considera un gateway que exponga datos a nivel de operadora por diseño.

6. ¿Cómo se relaciona esto con el registro A2P 10DLC?

El cumplimiento de 10DLC afecta:

  • El volumen permitido.
  • El nivel de escrutinio.
  • Las penalizaciones por abuso.

El monitoreo proporciona el ciclo de retroalimentación que te dice si:

  • Tus campañas se comportan dentro de las expectativas de las operadoras.
  • Estás a punto de cruzar un umbral.

7. ¿Puede el monitoreo corregir contenido malo o problemas de consentimiento?

No. Solo puede indicarte:

  • Qué tan graves son las cosas.
  • Dónde están los problemas.

Aún necesitas opt-in limpio, mensajería clara y respeto por la legislación local.

8. ¿Cómo detecto el filtrado de spam a nivel de dispositivo?

  • Usa dispositivos semilla en todas las operadoras y plataformas (iOS/Android).
  • Correlaciona los acuses "entregado" con los acuses reales del dispositivo y el comportamiento.

9. ¿Dónde encaja la privacidad en todo esto?

Un gateway que prioriza la privacidad debe:

  • Minimizar el PII almacenado.
  • Ofrecer controles claros de retención de datos.
  • Seguir proporcionando métricas agregadas sin exponer contenido sensible.

10. ¿Necesito un ingeniero de entregabilidad dedicado?

No necesariamente. Pero sí necesitas:

  • Responsabilidad clara (alguien que rinda cuentas).
  • Runbooks y dashboards que personas sin experiencia técnica avanzada puedan seguir durante un incidente.

Conclusión: haz que la entregabilidad sea observable antes de que se vuelva costosa

No puedes arreglar lo que no puedes ver.

Un dashboard de entregabilidad básico con sistema de alertas puede:

  • Detectar problemas específicos de operadora antes de que exploten.
  • Demostrar el ROI de mejor infraestructura (matching por operadora, grids privados).
  • Convertir SMS de una caja negra en un sistema operativamente gestionado.

Si SMS está ligado a tus ingresos, trátalo como un problema de SRE:

  • Instrumenta todo.
  • Configura alertas.
  • Construye runbooks alrededor de ello.

Una vez que tengas eso en marcha, estarás en una posición perfecta para evaluar si vale la pena un gateway privado con matching de operadoras, porque tendrás datos concretos que muestran exactamente dónde tu proveedor actual está dejando dinero sobre la mesa.

Dach SMS Lab

Dach SMS Lab