Fiabilidad — Seguridad y fiabilidad

Backups y recuperación ante desastres

Un sistema fiable sobrevive a fallos de hardware, borrados accidentales y ataques. Para eso necesitas copias de seguridad probadas (un backup que no sabes restaurar no es un backup) y un plan de recuperación ante desastres (disaster recovery). Se mide con dos objetivos:

RPO (Recovery Point Objective): cuántos datos puedes permitirte perder, expresado en tiempo. Un RPO de 1 hora significa "como mucho perdemos la última hora", lo que marca cada cuánto hacer copias.
RTO (Recovery Time Objective): cuánto tiempo puedes estar caído mientras restauras el servicio.

SLA, SLO y error budget

SLA (Service Level Agreement): el contrato con el cliente, con consecuencias (p. ej. reembolsos) si no se cumple. Es un compromiso externo.
SLO (Service Level Objective): el objetivo interno que te pones (p. ej. 99,9 % de disponibilidad). Suele ser más estricto que el SLA para tener margen.
Error budget: lo que te "queda por gastar" del SLO. Si tu objetivo es 99,9 %, ese 0,1 % de fallos permitidos es tu presupuesto. Mientras quede presupuesto, puedes desplegar y arriesgar; si se agota, congelas cambios y te centras en estabilidad.

Respuesta a incidentes y postmortems sin culpa

Cuando algo se rompe, sigues un proceso de respuesta a incidentes: detectar, declarar el incidente, mitigar, comunicar y resolver. Después se escribe un postmortem: qué pasó, impacto, causa raíz y acciones para evitar que se repita.

El postmortem es sin culpa (blameless): se analizan sistemas y procesos, no se busca a quién señalar. Solo así la gente cuenta lo que de verdad ocurrió y la organización aprende.

Despliegues seguros: blue-green, canary y rollback

Desplegar es uno de los momentos de mayor riesgo. Estrategias para reducirlo:

Blue-green: mantienes dos entornos idénticos. Uno (blue) sirve el tráfico mientras despliegas en el otro (green); cuando está listo, cambias el tráfico de golpe. Si falla, vuelves al anterior al instante.
Canary: liberas la versión nueva a un pequeño porcentaje de usuarios (los "canarios"). Si las métricas se mantienen sanas, amplías poco a poco hasta el 100 %; si empeoran, lo paras antes de afectar a todos.
Rollback: la capacidad de volver rápidamente a la versión anterior estable cuando un despliegue sale mal. Tener un rollback rápido y ensayado es lo que hace seguro desplegar a menudo.