# File-Level Deduplication: Single Instance Storage für Fileserver

TL;DR / Management Summary File-Level Deduplication, oft auch als Single Instance Storage (SIS) bezeichnet, arbeitet auf der obersten Ebene des Dateisystems. Wenn 10 User die gleiche 50 MB PDF-Anleitung in ihren persönlichen Ordnern speichern, merkt das System die Übereinstimmung und speichert die Datei nur ein einziges Mal ab. Für Senior Admins ist dies die “leichtgewichtige” Alternative zur Block-Deduplikation (Artikel 625), da sie kaum RAM benötigt und keine Fragmentierung der Block-Ebene verursacht.


# 1. Einführung & Funktionsweise

Die Datei als Ganzes.

Im Gegensatz zur Block-Ebene wird bei der File-Deduplikation ein Hash über die gesamte Datei berechnet.

  1. MD5/SHA Hash: Wird für jede geschlossene Datei generiert.
  2. Vergleich: Stimmen Hash und Dateigröße exakt überein?
  3. Link: Die Duplikate werden durch Hard-Links oder spezielle Reparse-Points (Windows) auf die Originaldatei ersetzt.

# 2. Wo File-Level Deduplication glänzt

Die perfekten Anwendungsfälle.

# 1. Email-Systeme

In Exchange-Umgebungen (Legacy) oder Mail-Archiven ist es üblich, dass die gleiche Email an 100 Empfänger geht. SIS spart hier massiv Platz.

# 2. Software-Repositories (ISO-Archive)

Identische Installations-Images über verschiedene Standorte hinweg werden sofort erkannt.

# 3. User-Profile

Desktop-Hintergründe, Standard-DLLs oder Handbücher, die jeder User in seinen Dokumenten hat.


# 3. Deep Dive: Windows Server Data Deduplication

Der integrierte ‘Hausmeister’.

Windows Server (ab 2012) nutzt eine hybride Form, die primär auf Dateiebene scannt (Post-Processing).


# 4. Day-2 Operations: Management & Audit

Wie viel sparen wir?

Unter Windows Server nutzen wir die PowerShell:

# Status der Deduplikation auf Volume D:
Get-DedupStatus -Volume D: | Select-Object SavedSpace, OptimizedFiles, FreeSpace

# Einen Optimierungs-Job manuell starten
Start-DedupJob -Volume D: -Type Optimization

# 5. Troubleshooting & “War Stories”

Wenn die Datei ‘doppelt’ Probleme macht.

# Top 3 Fehlerbilder

  1. Symptom: Antivirus-Scan dauert ewig oder lastet die CPU aus.

    • Ursache: Der Scanner folgt jedem Zeiger und scannt die Original-Datei im Chunk-Store hunderte Male erneut.
    • Lösung: Nutzen Sie AV-Software, die “Deduplication-Aware” ist.
  2. Symptom: Dateiwiederherstellung (Restore) ist extrem langsam.

    • Ursache: Wenn die Original-Datei im Chunk-Store auf einem langsamen Sektor liegt, betrifft dies alle 100 User-Kopien gleichzeitig.
  3. Symptom: Korrupter Chunk-Store führt zu Massen-Datenverlust.

    • Lösung: Nutzen Sie für deduplizierte Volumes immer RAID-Systeme mit hoher Redundanz (RAID 6 oder RAID 10).

# “War Story”: Der “Hidden” Overhead bei Backups

Ein Admin deduplizierte seinen Fileserver auf Dateiebene und sparte 40% Platz. Das Problem: Sein Backup-Programm (altes File-Level Backup) erkannte die Zeiger nicht und sicherte jede Datei einzeln zurück auf das Tape. Das Ergebnis: Das 2 TB Backup passte nicht mehr auf das 2 TB Tape, da das Backup-Tool die Deduplikation “aufhob” (rehydrated). Lehre: Prüfen Sie, ob Ihr Backup-System “Deduplication-Aware” ist. Moderne Tools sichern nur die Chunks und die Metadaten, nicht die aufgeblähten Dateien.


# 6. Monitoring & Reporting

Statistiken für den Storage-Plan.

# Wichtige Metriken


# 7. Fazit & Empfehlung

File-Level Deduplication ist robust und einfach zu verstehen.


# Anhang: Cheatsheet

Aufgabe Windows Befehl
Rolle installieren Install-WindowsFeature FS-Data-Deduplication
Volume aktivieren Enable-DedupVolume -Volume "D:"
Job Liste Get-DedupJob
Garbage Collection Start-DedupJob -Type GarbageCollection

# Referenzen