# File-Level Deduplication: Single Instance Storage für Fileserver

TL;DR / Management Summary File-Level Deduplication, oft auch als Single Instance Storage (SIS) bezeichnet, arbeitet auf der obersten Ebene des Dateisystems. Wenn 10 User die gleiche 50 MB PDF-Anleitung in ihren persönlichen Ordnern speichern, merkt das System die Übereinstimmung und speichert die Datei nur ein einziges Mal ab. Für Senior Admins ist dies die “leichtgewichtige” Alternative zur Block-Deduplikation (Artikel 625), da sie kaum RAM benötigt und keine Fragmentierung der Block-Ebene verursacht.

# 1. Einführung & Funktionsweise

Die Datei als Ganzes.

Im Gegensatz zur Block-Ebene wird bei der File-Deduplikation ein Hash über die gesamte Datei berechnet.

MD5/SHA Hash: Wird für jede geschlossene Datei generiert.
Vergleich: Stimmen Hash und Dateigröße exakt überein?
Link: Die Duplikate werden durch Hard-Links oder spezielle Reparse-Points (Windows) auf die Originaldatei ersetzt.

# 2. Wo File-Level Deduplication glänzt

Die perfekten Anwendungsfälle.

# 1. Email-Systeme

In Exchange-Umgebungen (Legacy) oder Mail-Archiven ist es üblich, dass die gleiche Email an 100 Empfänger geht. SIS spart hier massiv Platz.

# 2. Software-Repositories (ISO-Archive)

Identische Installations-Images über verschiedene Standorte hinweg werden sofort erkannt.

# 3. User-Profile

Desktop-Hintergründe, Standard-DLLs oder Handbücher, die jeder User in seinen Dokumenten hat.

# 3. Deep Dive: Windows Server Data Deduplication

Der integrierte ‘Hausmeister’.

Windows Server (ab 2012) nutzt eine hybride Form, die primär auf Dateiebene scannt (Post-Processing).

Aktion: Ein Hintergrundjob durchsucht nachts die Platte.
Vorteil: Keine CPU-Last während der Arbeitszeit (keine Schreibverzögerung).
Technik: Die Dateien werden in den “Chunk Store” verschoben, und an der ursprünglichen Stelle bleibt ein 1 KB Zeiger.

# 4. Day-2 Operations: Management & Audit

Wie viel sparen wir?

Unter Windows Server nutzen wir die PowerShell:

# Status der Deduplikation auf Volume D:
Get-DedupStatus -Volume D: | Select-Object SavedSpace, OptimizedFiles, FreeSpace

# Einen Optimierungs-Job manuell starten
Start-DedupJob -Volume D: -Type Optimization

# 5. Troubleshooting & “War Stories”

Wenn die Datei ‘doppelt’ Probleme macht.

# Top 3 Fehlerbilder

Symptom: Antivirus-Scan dauert ewig oder lastet die CPU aus.
- Ursache: Der Scanner folgt jedem Zeiger und scannt die Original-Datei im Chunk-Store hunderte Male erneut.
- Lösung: Nutzen Sie AV-Software, die “Deduplication-Aware” ist.
Symptom: Dateiwiederherstellung (Restore) ist extrem langsam.
- Ursache: Wenn die Original-Datei im Chunk-Store auf einem langsamen Sektor liegt, betrifft dies alle 100 User-Kopien gleichzeitig.
Symptom: Korrupter Chunk-Store führt zu Massen-Datenverlust.
- Lösung: Nutzen Sie für deduplizierte Volumes immer RAID-Systeme mit hoher Redundanz (RAID 6 oder RAID 10).

# “War Story”: Der “Hidden” Overhead bei Backups

Ein Admin deduplizierte seinen Fileserver auf Dateiebene und sparte 40% Platz. Das Problem: Sein Backup-Programm (altes File-Level Backup) erkannte die Zeiger nicht und sicherte jede Datei einzeln zurück auf das Tape. Das Ergebnis: Das 2 TB Backup passte nicht mehr auf das 2 TB Tape, da das Backup-Tool die Deduplikation “aufhob” (rehydrated). Lehre: Prüfen Sie, ob Ihr Backup-System “Deduplication-Aware” ist. Moderne Tools sichern nur die Chunks und die Metadaten, nicht die aufgeblähten Dateien.

# 6. Monitoring & Reporting

Statistiken für den Storage-Plan.

# Wichtige Metriken

Dedup Savings %: Ziel bei Office-Daten: 30-50%.
In-Use Chunk Count: Zeigt die Komplexität der Verlinkungen.

# 7. Fazit & Empfehlung

File-Level Deduplication ist robust und einfach zu verstehen.

Empfehlung: Nutzen Sie sie für allgemeine Fileserver (Dokumente, PDFs, Bilder).
Abgrenzung: Für VM-Sicherungen oder Datenbanken nutzen Sie zwingend Block-Level Deduplication (Artikel 625), da sich dort nur Teile von Dateien ändern und SIS hier 0% Ersparnis bringt.

# Anhang: Cheatsheet

Aufgabe	Windows Befehl
Rolle installieren	`Install-WindowsFeature FS-Data-Deduplication`
Volume aktivieren	`Enable-DedupVolume -Volume "D:"`
Job Liste	`Get-DedupJob`
Garbage Collection	`Start-DedupJob -Type GarbageCollection`