# Azure Functions – Serverless Platform
Kurzfassung: Ein Failover braucht einen klaren Ablauf: Freigaben, Reihenfolge der Systeme, Netz/DNS-Anpassungen, Validierung und Dokumentation. Automatisierung reduziert Fehler und beschleunigt den Wiederanlauf.
# 1. Zweck & Zielbild
- Wiederanlauf kontrolliert, reproduzierbar und schnell (RTO).
- Minimale Fehler durch Automatisierung und klare Rollen.
- Dokumentierte Prüfungen und Kommunikation.
# 2. Voraussetzungen
- Aktuelle Replikate/Backups (Artikel 799/804), getestete DR-Site (830).
- Netz-/DNS-Plan für DR (Mappings, Firewalls, VIPs).
- Freigabeprozess/Owner bekannt; Runbooks versioniert.
# 3. Risiken / Backout
- Unvollständige Reihenfolge → Services bleiben down.
- DNS/Netz falsch → Split-Brain oder Unerreichbarkeit.
- Automationsfehler → Fehlzustände.
- Backout: Stopp des Failovers, Rückkehr zu Primär (falls intakt) oder manueller, minimaler Start mit kritischen Services.
# 4. Umsetzung (Schritte)
- Trigger & Freigabe: Kriterien (Primär down, RPO ok), Entscheidungsgremium.
- Isolation Primär: Netz/Storage kappen, um Doppelbetrieb zu vermeiden.
- Automations-Prep: Skripte/Playbooks für Replikate/Restore, Netz/DNS-Changes, Checks.
- Start Reihenfolge: DB/Identity zuerst, dann Apps, dann Frontends; Abhängigkeiten beachten.
- Netz/DNS: VIPs/Loadbalancer umschalten, DNS TTLs, Firewall-Regeln anpassen.
- Validierung: Health-Checks, Applikations-Tests, RPO bestätigen.
- Dokumentation/Kommunikation: Status an Stakeholder, Zeiten/Issues festhalten.
# 5. Verify / Tests
- Tabletop + technische Übungen (Artikel 803).
- Trockentest der Automationsskripte in Staging.
- Validierungsschritte pro Service erfolgreich (Login, DB-Query, API).
# 6. Runbooks
- Standard Failover: Schritt-für-Schritt mit Checks; Automationsskript verlinkt.
- Fehler/Abbruch: Entscheidungspunkt, ob zurück zum Primär (wenn noch möglich) oder alternative Reihenfolge.
- Teilfailover: Nur kritische Services starten, Rest später.
- Kommunikation: Vorlagen für Updates/Incident-Channel.
# 7. Monitoring / Alerts
- Replikationsstatus, RPO-Delta, Service-Health nach Umschaltung, DNS/Netz-Checks.
- Alerts bei Automationsfehlern, fehlgeschlagenen Starts, Split-Brain-Anzeichen.
# 8. Governance
- Runbooks as Code, Versionskontrolle, Reviews.
- Regelmäßige DR-Übungen, Lessons Learned einarbeiten, Owner/Stellvertretung benennen.
- Zugriffe auf Automations-/DNS-Änderungen protokollieren.
# 9. Links & Quellen
- Artikel 799/800 (Replikation), 803 (Tests), 804 (Prod Failover), 830 (DR-Site), 821/822 (RBAC/Audit).