Backups y recuperación ante desastres
Un sistema fiable sobrevive a fallos de hardware, borrados accidentales y ataques. Para eso necesitas copias de seguridad probadas (un backup que no sabes restaurar no es un backup) y un plan de recuperación ante desastres (disaster recovery). Se mide con dos objetivos:
- RPO (Recovery Point Objective): cuántos datos puedes permitirte perder, expresado en tiempo. Un RPO de 1 hora significa "como mucho perdemos la última hora", lo que marca cada cuánto hacer copias.
- RTO (Recovery Time Objective): cuánto tiempo puedes estar caído mientras restauras el servicio.
SLA, SLO y error budget
- SLA (Service Level Agreement): el contrato con el cliente, con consecuencias (p. ej. reembolsos) si no se cumple. Es un compromiso externo.
- SLO (Service Level Objective): el objetivo interno que te pones (p. ej. 99,9 % de disponibilidad). Suele ser más estricto que el SLA para tener margen.
- Error budget: lo que te "queda por gastar" del SLO. Si tu objetivo es 99,9 %, ese 0,1 % de fallos permitidos es tu presupuesto. Mientras quede presupuesto, puedes desplegar y arriesgar; si se agota, congelas cambios y te centras en estabilidad.
Respuesta a incidentes y postmortems sin culpa
Cuando algo se rompe, sigues un proceso de respuesta a incidentes: detectar, declarar el incidente, mitigar, comunicar y resolver. Después se escribe un postmortem: qué pasó, impacto, causa raíz y acciones para evitar que se repita.
El postmortem es sin culpa (blameless): se analizan sistemas y procesos, no se busca a quién señalar. Solo así la gente cuenta lo que de verdad ocurrió y la organización aprende.
Despliegues seguros: blue-green, canary y rollback
Desplegar es uno de los momentos de mayor riesgo. Estrategias para reducirlo:
- Blue-green: mantienes dos entornos idénticos. Uno (blue) sirve el tráfico mientras despliegas en el otro (green); cuando está listo, cambias el tráfico de golpe. Si falla, vuelves al anterior al instante.
- Canary: liberas la versión nueva a un pequeño porcentaje de usuarios (los "canarios"). Si las métricas se mantienen sanas, amplías poco a poco hasta el 100 %; si empeoran, lo paras antes de afectar a todos.
- Rollback: la capacidad de volver rápidamente a la versión anterior estable cuando un despliegue sale mal. Tener un rollback rápido y ensayado es lo que hace seguro desplegar a menudo.