# Network Resiliency: Architektur für den unterbrechungsfreien Betrieb

TL;DR / Management Summary In einer vernetzten Welt bedeutet Netzwerkausfall gleich Geschäftsstillstand. Network Resiliency (Widerstandsfähigkeit) geht über einfache Backups hinaus. Wir implementieren Redundanz auf allen Ebenen: Physisch (Dual-Homing), logisch (STP/LACP) und auf Routing-Ebene (ECMP/BGP). Ein Senior Admin entwirft Netzwerke so, dass der Ausfall einer einzelnen Komponente (Switch, Router, Kabel) keine Auswirkungen auf die Endbenutzer hat.

# 1. Die Hierarchie der Redundanz

Vom Kabel zum Gateway.

Link Ebene (Layer 1/2): Bündelung von Kabeln via LACP (Artikel 730).
Geräte Ebene (Chassis): Nutzung von Switch-Stacks oder MLAG. Zwei physische Switche verhalten sich wie einer.
Gateway Ebene (Layer 3): Nutzung von VRRP / CARP (Artikel 596). Eine virtuelle IP schwenkt zwischen zwei Firewalls.
Standort Ebene (WAN): Nutzung von Multi-WAN Failover (Artikel 573).

# 2. Dual-Homing von Servern

Keine Angst vor dem Switch-Tod.

Verbinden Sie Ihren Proxmox-Host (Artikel 661) mit zwei verschiedenen Switchen.

Technik: Nutzen Sie OVS-Bonding oder Linux Bonding in Kombination mit einem Switch-Stack.
Vorteil: Sie können einen Switch für ein Firmware-Update ausschalten, ohne die VMs vom Netz zu trennen.

# 3. Deep Dive: ECMP (Equal-Cost Multi-Path)

Alle Wege gleichzeitig nutzen.

Anstatt Pfade nur im Standby zu halten (wie bei STP), nutzt ECMP alle verfügbaren Routen parallel.

Vorteil: Doppelte Bandbreite im Normalbetrieb.
Failover: Fällt ein Pfad aus, fließt der Traffic nahtlos über die verbleibenden Wege weiter.
Protokolle: OSPF und BGP (Artikel 734) unterstützen ECMP nativ.

# 4. Day-2 Operations: Disaster Recovery Testing

Den Ernstfall proben.

Redundanz ist eine Illusion, wenn sie nicht getestet wird.

Aktion: Ziehen Sie im laufenden Betrieb (“Chaos Engineering”) Kabel ab oder schalten Sie eine USV-Phase aus.
Ziel: Der Ping der wichtigsten Applikation darf maximal 1-2 Pakete verlieren.

# 5. Troubleshooting & “War Stories”

Wenn die Redundanz zur Falle wird.

# Top 3 Fehlerbilder

Symptom: “Intermittent Connection Drops” nach Aktivierung der Redundanz.
- Ursache: Fehlkonfiguration im Spanning-Tree (Artikel 729). Die Root-Bridge flappt.
- Lösung: Prioritäten manuell setzen.
Symptom: Nur 50% der Bandbreite verfügbar.
- Ursache: Ein Port im LACP-Bond ist im Status Down oder Standby.
Symptom: “Split-Brain” im Firewall-Cluster.
- Ursache: Das Heartbeat-Kabel wurde zusammen mit dem Datenkabel in den gleichen Kabelkanal gelegt und beide wurden gleichzeitig beschädigt.

# “War Story”: Die “Gleiche-Weg” Falle

Ein Admin mietete zwei Glasfaserleitungen von zwei verschiedenen Providern für maximale Redundanz. Das Ereignis: Ein Bagger durchtrennte ein dickes Rohr vor dem Firmengebäude. Das Ergebnis: Beide Internetleitungen waren gleichzeitig tot. Die Ursache: Obwohl es verschiedene Provider waren, nutzten beide das gleiche Leerrohr in der Straße. Lehre: Wahre Resilienz erfordert Weg-Redundanz. Stellen Sie sicher, dass Ihre Backup-Leitung (z.B. LTE oder Richtfunk) physisch einen völlig anderen Weg ins Gebäude nimmt als die Hauptleitung.

# 6. Monitoring & Reporting

Verfügbarkeits-Audit.

# Uptime Dashboard

Überwachen Sie die Verfügbarkeit der einzelnen Pfade, nicht nur des Gesamtdienstes.

KPI: Path Availability. Wenn Pfad B seit Wochen Down ist, haben Sie keine Redundanz mehr, obwohl der Dienst “Online” ist.

# 7. Fazit & Empfehlung

Resilienz ist eine Investition, die sich beim ersten Hardware-Fehler amortisiert.

Empfehlung: Bauen Sie Ihren Core-Backbone immer mit 10G/40G Stacking auf.
Wichtig: Vermeiden Sie “komplexe Redundanz”. Je komplizierter die Schaltung (z.B. verschachtelte STP-Ringe), desto schwerer ist sie im Fehlerfall zu debuggen.

# Anhang: Cheatsheet (Redundanz Check)

Ebene	Werkzeug	Test
Kabel	LACP	Kabel ziehen
Switch	MLAG / Stack	Strom aus
Router	VRRP / CARP	Dienst stoppen
WAN	BGP / Multi-WAN	Modem aus