# Block-Level Deduplication: Die effizienteste Speichernutzung

TL;DR / Management Summary In modernen IT-Infrastrukturen bestehen 80% der Daten aus Duplikaten (identische OS-Images, Applikations-Binaries). Block-Level Deduplication analysiert Daten auf Ebene kleiner Blöcke (Chunks), berechnet Hashes und speichert jeden eindeutigen Block nur ein einziges Mal physisch ab. Für Senior Admins ist dies die Grundlage für den Betrieb des Proxmox Backup Servers (PBS) und für performante ZFS-Storage-Pools. Das Ergebnis: 10 Terabyte Backup-Daten belegen oft weniger als 1 Terabyte physischen Speicher.


# 1. Einführung & Konzepte

Vom Dokument zum Chunk.

Während die Dateiebene-Deduplikation (Artikel 626) nur identische Dateien erkennt, schaut die Block-Ebene tiefer:

  1. Chunking: Die Datei wird in Blöcke (fest oder variabel) zerlegt.
  2. Hashing: Ein Algorithmus (z.B. SHA-256) berechnet einen Fingerabdruck pro Block.
  3. Lookup: Die Firewall/Storage prüft in einer Datenbank (Hash Table): “Habe ich diesen Block schon?”.
  4. Action: Wenn ja -> Setze einen Pointer. Wenn nein -> Schreibe Block auf Disk.

# 2. Fixed-Size vs. Variable-Block Deduplication

Die Kunst der Zerlegung.


# 3. Deep Dive: Inline vs. Post-Processing

Wann wird gerechnet?

  1. Inline Deduplication: Die Daten werden dedupliziert, bevor sie auf die Platte geschrieben werden.
    • Systeme: PBS (Artikel 613), ZFS Deduplication.
    • Anforderung: Hohe CPU-Last und massiv RAM für die Hash-Tabelle.
  2. Post-Processing: Die Daten landen erst roh auf der Disk und werden nachts im Batch-Job optimiert.
    • Systeme: Windows Server Deduplication (Artikel 486).

# 4. Day-2 Operations: ZFS Deduplikation (Vorsicht!)

Der Speicherfresser im Kernel.

ZFS kann Block-Deduplikation nativ. Aber es hat einen hohen Preis:


# 5. Troubleshooting & “War Stories”

Wenn der Speicherplatz ‘lügt’.

# Top 3 Herausforderungen

  1. Symptom: Deduplikationsrate ist fast 1:1 (Keine Ersparnis).

    • Ursache: Daten sind verschlüsselt oder komprimiert (z.B. .zip, .mp4), bevor sie beim Storage ankommen.
    • Lösung: Kompression am Quell-Server deaktivieren und dem Backup-Server überlassen.
  2. Symptom: “Out of Memory” auf dem Backup-Knoten.

    • Ursache: Die Hash-Tabelle ist zu groß gewachsen.
    • Lösung: Nutzen Sie variable Chunks (PBS macht dies sehr effizient) oder rüsten Sie RAM nach.
  3. Symptom: Backups dauern immer länger.

    • Lösung: Fragmentierung der Blöcke auf der physischen Disk prüfen. SSDs sind für Deduplikations-Ziele heute Pflicht.

# “War Story”: Der 100:1 Wunder-Cluster

Wir sicherten 50 identische Windows Server 2022 VMs in einen Proxmox Backup Server. Das Ergebnis: Die erste VM belegte 40 GB. Die nächsten 49 VMs belegten zusammen weniger als 2 GB, da der Kernel und die Systemdateien zu 99% identisch waren. Lehre: Block-Deduplikation ist bei VM-Sicherungen so effektiv, dass man den Backup-Storage oft um den Faktor 10 kleiner dimensionieren kann als die Quelldaten.


# 6. Monitoring & Reporting

Die Ersparnis messen.

# Dedupe Ratio

Prüfen Sie regelmäßig die Quote:


# 7. Fazit & Empfehlung

Block-Level Deduplikation ist der Schlüssel zum “Endless Backup”.


# Anhang: Vergleichstabelle

Feature Block-Level File-Level
Effizienz Sehr Hoch Gering
CPU Last Hoch Niedrig
RAM Bedarf Hoch Niedrig
Ideal für VMs, DBs, ISOs Office Docs, Bilder

# Referenzen