# Azure Functions – Serverless Platform

Kurzfassung: Ein Failover braucht einen klaren Ablauf: Freigaben, Reihenfolge der Systeme, Netz/DNS-Anpassungen, Validierung und Dokumentation. Automatisierung reduziert Fehler und beschleunigt den Wiederanlauf.

# 1. Zweck & Zielbild

Wiederanlauf kontrolliert, reproduzierbar und schnell (RTO).
Minimale Fehler durch Automatisierung und klare Rollen.
Dokumentierte Prüfungen und Kommunikation.

# 2. Voraussetzungen

Aktuelle Replikate/Backups (Artikel 799/804), getestete DR-Site (830).
Netz-/DNS-Plan für DR (Mappings, Firewalls, VIPs).
Freigabeprozess/Owner bekannt; Runbooks versioniert.

# 3. Risiken / Backout

Unvollständige Reihenfolge → Services bleiben down.
DNS/Netz falsch → Split-Brain oder Unerreichbarkeit.
Automationsfehler → Fehlzustände.
Backout: Stopp des Failovers, Rückkehr zu Primär (falls intakt) oder manueller, minimaler Start mit kritischen Services.

# 4. Umsetzung (Schritte)

Trigger & Freigabe: Kriterien (Primär down, RPO ok), Entscheidungsgremium.
Isolation Primär: Netz/Storage kappen, um Doppelbetrieb zu vermeiden.
Automations-Prep: Skripte/Playbooks für Replikate/Restore, Netz/DNS-Changes, Checks.
Start Reihenfolge: DB/Identity zuerst, dann Apps, dann Frontends; Abhängigkeiten beachten.
Netz/DNS: VIPs/Loadbalancer umschalten, DNS TTLs, Firewall-Regeln anpassen.
Validierung: Health-Checks, Applikations-Tests, RPO bestätigen.
Dokumentation/Kommunikation: Status an Stakeholder, Zeiten/Issues festhalten.

# 5. Verify / Tests

Tabletop + technische Übungen (Artikel 803).
Trockentest der Automationsskripte in Staging.
Validierungsschritte pro Service erfolgreich (Login, DB-Query, API).

# 6. Runbooks

Standard Failover: Schritt-für-Schritt mit Checks; Automationsskript verlinkt.
Fehler/Abbruch: Entscheidungspunkt, ob zurück zum Primär (wenn noch möglich) oder alternative Reihenfolge.
Teilfailover: Nur kritische Services starten, Rest später.
Kommunikation: Vorlagen für Updates/Incident-Channel.

# 7. Monitoring / Alerts

Replikationsstatus, RPO-Delta, Service-Health nach Umschaltung, DNS/Netz-Checks.
Alerts bei Automationsfehlern, fehlgeschlagenen Starts, Split-Brain-Anzeichen.

# 8. Governance

Runbooks as Code, Versionskontrolle, Reviews.
Regelmäßige DR-Übungen, Lessons Learned einarbeiten, Owner/Stellvertretung benennen.
Zugriffe auf Automations-/DNS-Änderungen protokollieren.

# 9. Links & Quellen

Artikel 799/800 (Replikation), 803 (Tests), 804 (Prod Failover), 830 (DR-Site), 821/822 (RBAC/Audit).