data deduplication

La déduplication des données – souvent appelée compression intelligente ou stockage à une seule instance – est un processus qui élimine les copies redondantes de données et réduit la charge de stockage. Les techniques de déduplication des données garantissent qu’une seule instance unique de données est conservée sur un support de stockage, tel qu’un disque, une mémoire flash ou une bande. Les blocs de données redondants sont remplacés par un pointeur vers la copie unique des données. De cette manière, la déduplication des données s’aligne étroitement sur la sauvegarde incrémentielle, qui ne copie que les données qui ont été modifiées depuis la sauvegarde précédente.Par exemple, un système de messagerie électronique typique peut contenir 100 instances du même fichier joint de 1 mégaoctet (Mo). Si la plate-forme de messagerie est sauvegardée ou archivée, les 100 instances sont sauvegardées, ce qui nécessite 100 Mo d’espace de stockage. Avec la déduplication des données, une seule instance de la pièce jointe est stockée ; chaque instance ultérieure est référencée par rapport à la seule copie sauvegardée. Dans cet exemple, une demande de stockage de 100 Mo tombe à 1 Mo.
Déduplication à la source ou à la cible
La déduplication des données peut se faire au niveau de la source ou de la cible.

La déduplication à la source supprime les blocs redondants avant de transmettre les données à une cible de sauvegarde au niveau du client ou du serveur. Aucun matériel supplémentaire n’est nécessaire. La déduplication à la source réduit la bande passante et l’utilisation du stockage.

Dans le cas de la déduplication sur cible, les sauvegardes sont transmises à travers un réseau vers un matériel sur disque situé à distance. L’utilisation de cibles de déduplication augmente les coûts, bien qu’elle offre généralement un avantage en termes de performances par rapport à la déduplication à la source, en particulier pour les data sets de l’ordre du pétaoctet.

Techniques de déduplication des données
Il existe deux méthodes principales pour dédupliquer les données redondantes : la déduplication en ligne et la déduplication post-traitement. Votre environnement de sauvegarde déterminera la méthode que vous utiliserez.

La déduplication en ligne analyse les données lorsqu’elles sont ingérées dans un système de sauvegarde. Les redondances sont supprimées lorsque les données sont écrites sur le stockage de sauvegarde. La déduplication en ligne nécessite moins de stockage de sauvegarde, mais peut provoquer des goulots d’étranglement. Les fournisseurs de baies de stockage recommandent de désactiver leurs outils de déduplication des données en ligne pour le stockage primaire haute performance.

La déduplication post-traitement est un processus de sauvegarde asynchrone qui supprime les données redondantes après leur écriture sur le stockage. Les données dupliquées sont supprimées et remplacées par un pointeur vers la première itération du bloc. L’approche de post-traitement donne aux utilisateurs la flexibilité de dédupliquer des charges de travail spécifiques et de récupérer rapidement la sauvegarde la plus récente sans hydratation. La contrepartie est une capacité de stockage de sauvegarde plus importante que celle requise avec la déduplication en ligne.

Déduplication au niveau des fichiers vs. déduplication au niveau des blocs
La déduplication des données fonctionne généralement au niveau des fichiers ou des blocs. La déduplication de fichiers élimine les fichiers en double, mais n’est pas un moyen efficace de déduplication.

La déduplication des données au niveau des fichiers compare un fichier à sauvegarder ou à archiver avec des copies déjà stockées. Cela se fait en vérifiant ses attributs par rapport à un index. Si le fichier est unique, il est stocké et l’index est mis à jour ; sinon, seul un pointeur vers le fichier existant est stocké. Le résultat est qu’une seule instance du fichier est sauvegardée, et les copies ultérieures sont remplacées par un stub qui pointe vers le fichier original.

La déduplication au niveau des blocs examine un fichier et enregistre des itérations uniques de chaque bloc. Tous les blocs sont divisés en morceaux ayant la même longueur fixe. Chaque fragment de données est traité à l’aide d’un algorithme de hachage, tel que MD5 ou SHA-1.

Ce processus génère un numéro unique pour chaque morceau, qui est ensuite stocké dans un index. Si un fichier est mis à jour, seules les données modifiées sont enregistrées, même si seuls quelques octets du document ou de la présentation ont changé. Les modifications ne constituent pas un fichier entièrement nouveau. Ce comportement rend la déduplication par bloc beaucoup plus efficace. Cependant, la déduplication par bloc nécessite une plus grande puissance de traitement et utilise un index beaucoup plus important pour suivre les éléments individuels.

La déduplication à longueur variable est une alternative qui divise un système de fichiers en morceaux de différentes tailles, permettant à l’effort de déduplication d’atteindre de meilleurs ratios de réduction de données que les blocs de longueur fixe. Les inconvénients sont qu’elle produit également plus de métadonnées et a tendance à être plus lente.

Les collisions de hachage sont un problème potentiel avec la déduplication. Lorsqu’un élément de données reçoit un numéro de hachage, ce numéro est ensuite comparé à l’index des autres numéros de hachage existants. Si ce numéro de hachage figure déjà dans l’index, le morceau de données est considéré comme un doublon et n’a pas besoin d’être stocké à nouveau. Sinon, le nouveau numéro de hachage est ajouté à l’index et les nouvelles données sont stockées. Dans de rares cas, l’algorithme de hachage peut produire le même numéro de hachage pour deux morceaux de données différents. Lorsqu’une collision de hachage se produit, le système ne stocke pas la nouvelle donnée parce qu’il voit que son numéro de hachage existe déjà dans l’index. C’est ce qu’on appelle un faux positif, qui peut entraîner une perte de données. Certains fournisseurs combinent les algorithmes de hachage pour réduire la possibilité d’une collision de hachage. Certains fournisseurs examinent également les métadonnées pour identifier les données et prévenir les collisions.