# Serverless Monitoring – Logging & Debugging
Kurzfassung: DR-Drills zeigen, ob Prozesse und Technik funktionieren. Sie müssen planbar, isoliert, messbar (RTO/RPO) und dokumentiert sein, um Schwachstellen aufzudecken und Audits zu bestehen.
# 1. Zweck & Zielbild
- Sicherstellen, dass Failover/Restore wie geplant funktionieren.
- RTO/RPO messen, Abweichungen erkennen.
- Team trainieren, Runbooks validieren.
# 2. Voraussetzungen
- Aktuelle Replikate/Backups (Artikel 799/805), Test-/Sandbox-Netz vorhanden.
- Freigaben/Stakeholder, definierter Kommunikationskanal.
- Klare Szenarien und Erfolgskriterien.
# 3. Risiken / Backout
- Test beeinflusst Prod (Netz/IP-Konflikt) → strikte Isolation.
- Unklare Ziele → wenig Erkenntnis.
- Zu seltene Drills → falsches Sicherheitsgefühl.
- Backout: Test stoppen, Isolation sicherstellen, Lessons Learned dokumentieren, Szenario anpassen.
# 4. Umsetzung (Schritte)
- Szenario wählen: Ransomware, Site-Ausfall, Storage-Fehler, Teil-Service.
- Scope & Ziele: Welche Services, gewünschte Metriken (RTO/RPO, Erfolgskriterien).
- Umgebung: Sandbox/isoliertes VLAN, DNS/Netz-Mapping, Test-Accounts, Skripte.
- Durchführung: Failover/Restore nach Runbook, Zeit messen, Checks (App/DB/Identity).
- Evidenz: Logs, Screenshots, Metriken, Zeitstempel sammeln.
- Review: Findings, RCA für Fehler, Maßnahmen planen.
# 5. Verify / Tests
- Erfolgskriterien erreicht (Services laufen, RTO/RPO im Soll).
- Keine Prod-Beeinträchtigung, Netz sauber isoliert.
- Wiederholung einzelner Schritte möglich (z. B. DNS-Flip) für Feinjustierung; Checklisten abhaken und im Ticket ablegen.
# 6. Runbooks
- Vorbereitung: Checkliste (Backups aktuell, Sandbox ok, Rollen klar).
- Durchführung: Schrittfolge, Metriken, Kommunikationspunkte.
- Nachbereitung: Lessons Learned, Tickets/Backlog, Runbook-Update; Maßnahmen mit Owner/ETA festlegen, im nächsten Drill nachverfolgen, Status im Steering melden.
# 7. Monitoring / Alerts
- Metriken aus Drill (RTO/RPO, Dauer pro Schritt), Fehler/Warnungen.
- Alerts auf unerwartete Prod-Auswirkungen, Replikationsfehler während Drill.
- Trend über mehrere Drills (Verbesserung?).
# 8. Governance
- Drill-Kalender (quartalsweise), Freigaben dokumentiert.
- Evidenz revisionssicher ablegen (für Audits).
- Maßnahmen-Tracking bis Abschluss, Review im Security/IT-Steering; Erfolgsquote/Metriken im Zeitverlauf dokumentieren.
# 9. Links & Quellen
- Artikel 801/829 (Planung/RTO/RPO), 803/804 (Failover/Prod), 805/807 (Offsite), 822 (Audit), Veeam SureBackup/Replica Test Doku.