# Network Resiliency: Architektur für den unterbrechungsfreien Betrieb

TL;DR / Management Summary In einer vernetzten Welt bedeutet Netzwerkausfall gleich Geschäftsstillstand. Network Resiliency (Widerstandsfähigkeit) geht über einfache Backups hinaus. Wir implementieren Redundanz auf allen Ebenen: Physisch (Dual-Homing), logisch (STP/LACP) und auf Routing-Ebene (ECMP/BGP). Ein Senior Admin entwirft Netzwerke so, dass der Ausfall einer einzelnen Komponente (Switch, Router, Kabel) keine Auswirkungen auf die Endbenutzer hat.


# 1. Die Hierarchie der Redundanz

Vom Kabel zum Gateway.

  1. Link Ebene (Layer 1/2): Bündelung von Kabeln via LACP (Artikel 730).
  2. Geräte Ebene (Chassis): Nutzung von Switch-Stacks oder MLAG. Zwei physische Switche verhalten sich wie einer.
  3. Gateway Ebene (Layer 3): Nutzung von VRRP / CARP (Artikel 596). Eine virtuelle IP schwenkt zwischen zwei Firewalls.
  4. Standort Ebene (WAN): Nutzung von Multi-WAN Failover (Artikel 573).

# 2. Dual-Homing von Servern

Keine Angst vor dem Switch-Tod.

Verbinden Sie Ihren Proxmox-Host (Artikel 661) mit zwei verschiedenen Switchen.


# 3. Deep Dive: ECMP (Equal-Cost Multi-Path)

Alle Wege gleichzeitig nutzen.

Anstatt Pfade nur im Standby zu halten (wie bei STP), nutzt ECMP alle verfügbaren Routen parallel.


# 4. Day-2 Operations: Disaster Recovery Testing

Den Ernstfall proben.

Redundanz ist eine Illusion, wenn sie nicht getestet wird.


# 5. Troubleshooting & “War Stories”

Wenn die Redundanz zur Falle wird.

# Top 3 Fehlerbilder

  1. Symptom: “Intermittent Connection Drops” nach Aktivierung der Redundanz.

    • Ursache: Fehlkonfiguration im Spanning-Tree (Artikel 729). Die Root-Bridge flappt.
    • Lösung: Prioritäten manuell setzen.
  2. Symptom: Nur 50% der Bandbreite verfügbar.

    • Ursache: Ein Port im LACP-Bond ist im Status Down oder Standby.
  3. Symptom: “Split-Brain” im Firewall-Cluster.

    • Ursache: Das Heartbeat-Kabel wurde zusammen mit dem Datenkabel in den gleichen Kabelkanal gelegt und beide wurden gleichzeitig beschädigt.

# “War Story”: Die “Gleiche-Weg” Falle

Ein Admin mietete zwei Glasfaserleitungen von zwei verschiedenen Providern für maximale Redundanz. Das Ereignis: Ein Bagger durchtrennte ein dickes Rohr vor dem Firmengebäude. Das Ergebnis: Beide Internetleitungen waren gleichzeitig tot. Die Ursache: Obwohl es verschiedene Provider waren, nutzten beide das gleiche Leerrohr in der Straße. Lehre: Wahre Resilienz erfordert Weg-Redundanz. Stellen Sie sicher, dass Ihre Backup-Leitung (z.B. LTE oder Richtfunk) physisch einen völlig anderen Weg ins Gebäude nimmt als die Hauptleitung.


# 6. Monitoring & Reporting

Verfügbarkeits-Audit.

# Uptime Dashboard

Überwachen Sie die Verfügbarkeit der einzelnen Pfade, nicht nur des Gesamtdienstes.


# 7. Fazit & Empfehlung

Resilienz ist eine Investition, die sich beim ersten Hardware-Fehler amortisiert.


# Anhang: Cheatsheet (Redundanz Check)

Ebene Werkzeug Test
Kabel LACP Kabel ziehen
Switch MLAG / Stack Strom aus
Router VRRP / CARP Dienst stoppen
WAN BGP / Multi-WAN Modem aus

# Referenzen