Afficher/cacher Sommaire
URL: http://linuxfr.org/news/r-evolutions-dans-le-monde-de-la-sauvegarde-de-donnees Title: (R)évolutions dans le monde de la sauvegarde de données Authors: SaintGermain Nÿco, Benoît Sibaud, Benoît, Florent Zara, Nils Ratusznik, Maz, laurentb, Anthony F. et Zied Date: 2012-05-21T23:07:42+02:00 License: CC by-sa Tags: sauvegarde, backup et déduplication Score: 89
Nous sommes presque deux mois après le World Backup Day mais il n’est jamais trop tard pour faire une sauvegarde. C’est une réalité qu’il faut accepter, votre disque dur va vous lâcher et certainement au moment où cela vous embêtera le plus. Et cela même si vous n’avez pas investi dans un superbe SSD OCZ (jusqu’à 15,58% de taux de panne !).
Subir une défaillance d’un disque dur devient aussi de plus en plus grave à mesure qu’un nombre croissant de types de données se retrouve sous format numérique (musique, photos, messages, rapports, etc.), et que leur volume augmente.
C’est pourquoi le monde du logiciel (libre ou propriétaire) regorge de solutions pour sauvegarder vos précieuses données.
Cette dépêche (voir la seconde partie) n’abordera pas des solutions traditionnelles et éprouvées telles que le très connu Amanda, le moins connu mais tout autant excellent DAR et les solutions « maison » à base de rsync. Elle n’abordera pas non plus des solutions trop restreintes à une plate-forme ou à un système de fichier (ZFS + snapshot par exemple). Elle va plutôt s’intéresser aux logiciels libres prenant en charge la déduplication.
Sous licence CC by-sa par Mrs. Gemstone
bup BURP Backshift Obnam Taux de retour des disques durs Taux de retour des SSD tahoe-LAFS BackupPC Comparatif effectué par l’auteur de Backshift
Préliminaire
Voici tout d’abord quelques précisions sur des concepts importants pour la dépêche :
Client-serveur
Tous les logiciels présentés peuvent être considérés d’un point de vue client-serveur même si pour la plupart des personnes, c’est en pratique la même machine. Le disque du client contient les données à sauvegarder et le disque du serveur contient les données sauvegardées.
Les différents logiciels à installer sur le client ou le serveur dépendent de la solution logicielle choisie.
Déduplication
La déduplication permet d’économiser de l’espace disque en détectant les fichiers identiques, ou les morceaux (chunk) de fichiers identiques (pratique pour les VM dont seule une petite partie est modifiée).
La déduplication peut-être faite sur le serveur (par un programme dédié ou en utilisant un système de fichier adapté, par exemple lessfs, ZFS ou Btrfs) ou sur le client (plus avantageux car optimise le trafic réseau). Dans le cas de multiples clients, il est aussi possible de dédupliquer entre eux.
Si la déduplication est bien faite, il n’y a plus besoin de notions de delta encoding et de sauvegarde complète, différentielle et incrémentale, et du coup c’est beaucoup plus simple à gérer.
Le désavantage est que si le morceau dédupliqué est perdu/corrompu, tout le monde est touché. Sans déduplication, s’il vous reste une sauvegarde complète vous n’avez pas tout perdu. Avec déduplication, il est facile de perdre beaucoup d’un coup. Il est donc primordial de bien gérer la redondance si vous vous orientez vers la déduplication.
Chiffrement
La protection de la vie privée est pour certains « un problème de vieux » (voir la-vie-privee-un-probleme-de-vieux-cons, privacy-is-for-old-people-says-linked-in-founder, Privacy no longer a social norm) mais pour d’autres c’est absolument essentiel.
Le cambriolage est toujours un risque (tremblez à l’idée de ce que quelqu’un pourrait faire avec tous vos emails) et dans le cas d’un serveur dédié ou un disque virtuel loué à une compagnie, il faut faire confiance à cette compagnie (google-drive-terms-privacy-data-skydrive-dropbox-icloud et sorry-dropbox-i-still-dont-trust-you).
Le chiffrement est généralement fait sur le client, de manière “traditionnelle” en chiffrant les (morceaux de) fichiers avec par exemple GnuPG ou bien en montant un système de fichier chiffré (sshfs + EncFS). Dans le cas de sauvegardes non chiffrées, il est néanmoins possible de sécuriser la connexion (via SSL par exemple) mais bon du coup vous chiffrez ET déchiffrez les données et au final elles sont stockées en clair.
Note : à noter que chiffrement et déduplication sont délicats à gérer ensemble (voir cette analyse sur le sujet de la convergent encryption).
Note 2 : je ne m’y connais pas trop, mais il me semble qu’avec un système de fichier chiffré on perd en souplesse (par exemple difficile d’isoler chaque utilisateur) par rapport à la manière “traditionnelle” mais que au niveau sécurité c’est kif-kif.
Redondance
Quelques études récentes donnent des taux de panne intéressants :
Il est possible d’atténuer les conséquences d’une possible (voire probable) défaillance du support contenant vos sauvegardes.
Pour cela vous pouvez :
- diversifier vos supports de sauvegarde : par exemple avec un disque dur + un DVD de temps en temps (que vous stockerez idéalement chez quelqu’un d’autre) ou un disque chez vous et chez votre voisin. C’est une très bonne solution si vous réussissez à bien automatiser (dur dur pour un particulier).
- utiliser un système de fichier plus robuste : par exemple ZFS propose l’auto-réparation même si vous n’utilisez qu’un disque. Je ne connais pas trop les avantages/inconvénients de cette approche.
- utiliser du RAID (matériel ou logiciel) : intéressante si vous avez besoin d’une excellente disponibilité. La robustesse au cambriolage et au feu n’est pas bonne par contre. Un peu délicat et cher à mettre en place pour un particulier.
- ajouter des sommes de contrôle permettant l’auto-réparation : par exemple (Parchive ou zfec). Vous pouvez configurer le taux de redondances (robustesse à 5% de corruption par exemple) et conserver ces sommes de contrôles ailleurs (à noter que je crois que les sommes de contrôles sont elles-même auto-réparables).
Multiplateforme
Si vous avez des plates-formes différentes, il est important que le logiciel prenne bien en compte les spécificités de la plate-forme. Sous les systèmes de type Unix, vous avez par exemple les ACL, les liens symboliques ou directs, les modes spéciaux (setuid, setgid, sticky), etc. Sous Windows, certains fichiers sont verrouillées lorsqu’ils sont utilisés (par exemple les données d’Outlook) et il est alors recommandé d’utiliser la solution Microsoft Volume Shadow Copy Service (VSS).
Note : Si l’on se restreint à un environnement particulier, il est possible d’avoir des solutions élégantes et performantes (comme ZFS + snapshot par exemple).
Importants mais non traités
Si vous voulez sauvegarder de manière pérenne sur de nombreuses années, il est important de aussi prendre en compte le format de stockage de vos données (i.e. est-ce que le format est standard ? est-il bien documenté ? dispose-t-il d’une API ?). Malheureusement par manque de temps, cette dépêche ne couvrira pas cet aspect.
La restauration reste normalement une opération beaucoup moins courante que la sauvegarde. Donc je n’ai pas trop cherché à voir si les logiciels offrent une interface évoluée pour parcourir et restaurer des données spécifiques. Du moment qu’il est possible (heureusement !) de restaurer un fichier, même de manière plus ou moins compliquée (ligne de commande tarabiscotée), je considère que le logiciel est acceptable. Malheureusement par manque de temps, je ne pourrai pas pousser le sujet plus loin.
Logiciels présentés
- bup (0.25~git2011.11.04-3) : codé en Python/C, il s’appuie sur Git. Licence GNU LGPLv2.
- BURP (1.3.8-1) : codé en C, il possède une architecture client/serveur et s’inspire de Bacula. Pour Windows il utilise en particulier Windows Volume Shadow Copy Service (VSS). Licence AGPLv3
- Backshift (1.03) : codé en Python avec une architecture client/serveur, il a la particularité d’intégrer la déduplication à la source de pouvoir fonctionner simultanément (concurrency). Licence principalement GPLv3 avec des bouts UCI, Apache et MIT.
- Obnam (1.0) : codé en Python, c’est à ce jour le seul logiciel libre intégrant à la fois la déduplication des morceaux de fichiers sur le client et le chiffrement “traditionnel” (avec GnuPG). Licence GPLv3 ou postérieure.
- tahoe-LAFS (1.9.1) : codé en Python (mais inclut des bibliothèques tierces codées en C/C++), c’est un système de stockage redondant décentralisé (“dans le nuage”) avec une forte composante vie privée/sécurité/cryptographie. Licence GPLv2 ou postérieure, TGPPLv1 ou postérieure.
- BackupPC (3.2.1-3) : vénérable logiciel de sauvegarde (depuis 2001), codé en Perl et C. Apprécié des administrateurs de parc de machines hétérogènes, il s’appuie sur rsync sur Linux, Unix ou Mac OS X et/ou sur le protocole SMB sur Windows. Licence GPLv2 ou postérieure.
Avertissement : les logiciels (hormis BackupPC) n’étant pas tout à fait mûrs sur certains points, je pense personnellement que c’est pour le moment à réserver aux curieux aventuriers et pas à ceux qui souhaitent en faire leur solution principale de sauvegarde clé en main sans se prendre la tête. Pour info pendant l’évaluation, j’ai trouvé un bogue et un problème de performance sur la dernière version de bup, signalé un problème 1 jour avant la sortie de la version 1.0 de Obnam, eu quelques problèmes de performances avec la dernière version de Backshift et BURP a un problème avec l’avant-dernière version (1.3.6).
Note : ça fait plaisir de voir que Python est autant utilisé ;-)
Contexte
Tout d’abord précisons pourquoi à titre personnel je me suis intéressé à ces logiciels. Tout allait plus ou moins bien sur mon ordinateur portable au niveau des sauvegardes. Je les enregistrais sur un (gros) disque externe au moyen de DAR et comble du luxe, j’ajoutais même des sommes de contrôles PAR2 pour rendre mes archives auto-réparables (jusqu’à 5% de corruption).
Cependant, tout n’est pas rose car :
- Un (gros) disque externe ce n’est pas très pratique. Et donc en pratique je ne le branchais pas souvent et mes sauvegardes n’étaient ni fréquentes, ni régulières.
- Un disque externe, ce n’est pas très robuste aux cambriolages et au feu.
- Je suis un peu bordélique sur les bords, donc il y beaucoup de fichiers qui sont rangés un peu n’importe comment et je range toutes les deux éclipses totales. DAR, comme beaucoup d’autres logiciels similaires, détecte un fichier qui a bougé comme un nouveau fichier, donc les sauvegardes incrémentales prennent beaucoup de place.
- Je commence à utiliser des machines virtuelles qui sont très grosses (de l’ordre de 1 Go, voire plus). Au moindre petit changement dans ces machines virtuelles, il faut tout ré-enregistrer.
- J’aimerais bien aussi faire quelque chose pour la famille et les amis qui sont un peu novices en informatique et qui sont sous Windows ou Mac OS.
J’ai donc commencé à m’intéresser aux serveurs dédiés (Kimsufi proposant 1 To pour 216 € par an, cela commence à être intéressant par rapport à de l’auto-hébergement moins robuste aux cambriolages et au feu) et aux logiciels libres de sauvegarde efficaces sur la sauvegarde à distance (i.e. optimisant les échanges et la bande-passante et robuste à une déconnexion). C’est plus cher et beaucoup plus fastidieux à mettre en place, mais c’est à mettre en balance avec la valeur que vous accordez à vos données.
Un contre-point intéressant serait de comparer avec une personne qui aurait tous ses emails sous Gmail, ses photos sous Flickr, ses documents sous Dropbox, sa musique avec Deezer et sa vie numérique sous Facebook. Il est plus difficile dans ce cas d’expliquer la nécessité de la sauvegarde (défaillance du fournisseur, capture du consommateur), sans même parler de vie privée.
Note : même si cela n’est pas exactement le même sujet, j’ai été aussi impressionné par la facilité d’utilisation et les performances de Dropbox. Il combine la synchronisation des données ainsi que le versioning des fichier (on peut presque dire que c’est plus ou moins équivalent à de la sauvegarde) de manière très intuitive. Voir cette dépêche présentant quelques équivalents libres (et qui m’a fait découvrir bup et Obnam).
bup
Approche originale fondée sur le fameux Git et utilise en particulier ses packfiles :
- Si vous avez de nombreux petits fichiers, les performances devraient donc être très intéressantes. La déduplication est le gros point fort de bup et c’est peut-être le logiciel optimisant le mieux l’espace disque et le trafic réseau pour vos sauvegardes (déduplication à la source et ne transmet que les changements/deltas).
- Peut générer les sommes de contrôles PAR2 pour vos sauvegardes, afin de réparer les corruptions éventuelles.
- Fonctionne avec Linux, Mac OS X >= 10.4, Solaris, ou Windows (avec Cygwin). J’ai quelques doutes pour les fichiers verrouillés sous Windows.
- Ne gère pas encore officiellement les metadatas des fichiers (les patchs sont prêts mais il reste quelques bogues).
- Ne gère pas l’expiration ou la rétention des données.
- Pas de chiffrement des données.
- La liste de diffusion et la communauté semblent actives mais moins dynamiques qu’auparavant. La dernière version officielle de bup sous Debian Unstable remonte au 04/11/11. Pas facile de trouver où est le dépôt contenant les sources les plus à jour. Sur les problèmes que j’ai remontés, je n’ai pour l’instant pas eu beaucoup d’aide.
- Pas de bugtracker
- Comme il s’appuie sur Git, on peut s’attendre à une certaine robustesse. Le format de l’archive est de plus compatible avec Git.
- Robustesse à l’interruption de la sauvegarde
- Fonctionnement en ligne de commande.
BURP
BURP (oui le nom peut prêter à confusion avec le précédent) s’inspire donc de Bacula (l’auteur explique pourquoi) et possède de nombreuses fonctionnalités intéressantes :
- Architecture client-serveur facilement configurable (pratique pour gérer les sauvegardes de la famille)
- Intègre un mélange de delta encoding pour n’envoyer que la partie modifiée d’un fichier (pratique pour les VM) et de déduplication de fichiers au niveau du serveur (et à lancer manuellement avec bedup).
- Gère le chiffrement symétrique Blowfish des sauvegardes (mais cela désactive le delta encoding). Cependant le nom des fichiers n’est pas chiffré (et la taille du fichier chiffré étant similaire, vous dévoilez une partie non négligeable de l’information).
- Très bonne prise en charge des aspects multiplateformes. Utilise VSS pour les sauvegardes Windows : cela permet de gérer les problèmes de verrouillage de certains fichiers
- Bien adapté pour des sauvegardes à distance : reprise de la sauvegarde en cas d’interruption (le fichier en cours n’a pas besoin d’être retransmis dans son intégralité), génération automatique de certificats SSL, utilisation de SSL obligatoire pour toute communication.
- Le serveur fonctionne uniquement sur Unix. Client Unix et Windows disponible.
- De par son fonctionnement (reverse deltas : la dernière sauvegarde contient la dernière version des fichiers et les sauvegardes précédentes sont modifiées pour contenir uniquement le delta), je ne pense pas que cela soit possible d’implémenter un mécanisme Parchive ou zfec (sauf à désactiver le delta encoding).
- Planification évoluée des sauvegardes
- Nombreuses options pour la rétention/expiration des sauvegardes
- Mise à jour automatique des clients
- l’auteur est très sympa et très réactif (parfois < 5 minutes !) sur la liste de diffusion. Par contre il semble être le seul à développer.
- Fonctionnement en ligne de commande.
tahoe-LAFS
tahoe-LAFS n’est pas seulement un logiciel de sauvegarde : c’est un système de fichiers distribué qui intègre en plus un outil de sauvegarde. L’objectif premier est de sécuriser vos données, aussi bien du point de vue vie privée que du point de vue perte de données. Pour cela il stocke vos données chiffrées (à la source) sur plusieurs machines organisées en réseau avec une politique configurable (si vous spécifiez K=2 et N=5, vos données seront réparties sur 5 machines, dont au moins 2 doivent être disponibles pour accéder à vos données).
- J’aime bien son approche “paranoïaque”. L’idée directrice est que personne (pas même l’hébergeur qui détient la machine contenant la sauvegarde) ne devrait pouvoir accéder en lecture/écriture à vos données.
- Le besoin de sommes de contrôle Parchive ou zfec est moins présent vu que les données sont dupliquées sur le réseau (je recommande quand même une petite sauvegarde de temps en temps sur un autre média au cas où)
- La communauté et la liste de diffusion sont très actives et très sympathiques (postez un message sur la liste de diffusion pour voir !). La documentation est de qualité.
- Vous pouvez rejoindre un réseau existant (comme VolunteerGrid2) en ajoutant votre machine. Du coup tous les membres du réseau auront accès à une partie de vos données (chiffrées !) et vice-versa. C’est un saut psychologique important à faire (il faut faire confiance au chiffrement)
- Vous pouvez aussi louer de l’espace à Least Authority Enterprises ou un réseau privé entier à RentaNode.
- Pas de delta encoding mais intègre la déduplication à la source mais seulement au niveau d’un fichier entier.
- Fonctionne sur tous les systèmes suffisamment conformes à la norme POSIX (linux, *BSD, Mac OS X, Windows, etc.). J’ai quelques doutes pour les fichiers verrouillés sous Windows. Mais il est possible d’utiliser Duplicati pour gérer les sauvegardes avec Windows VSS.
- En cas d’interruption d’une sauvegarde, le fichier en cours doit être retransmis dans son intégralité.
- Chiffrement avec AES-128 (bientôt combiné avec XSalsa20)
- Fonctionnement en ligne de commande, via votre navigateur et FTP/SFTP.
Obnam
Obnam s’inspire de Btrfs en utilisant les B-tree (copie sur écriture). La version 1.0 vient de sortir la semaine dernière. C’est (à ma connaissance) le seul logiciel libre intégrant le chiffrement et la déduplication (sur le client) des morceaux de fichiers.
- Déduplication à la source des morceaux de fichier (“file data chunks”) donc pas besoin de delta encoding (mais perte légère d’efficacité qui dépend de la taille des morceaux). L’algorithme est cependant moins performant que celui de bup car il gère mal le décalage à l’intérieur d’un fichier (voir cet exemple de suppression d’une ligne).
- Déduplication possible entre plusieurs utilisateurs avec chiffrement. Cela est possible en ayant en commun la même clé de chiffrement symétrique qui est elle-même chiffrée avec chacune des clefs publiques des utilisateurs. On peut ainsi révoquer un utilisateur (mais si celui-ci a copié la clef symétrique, c’est mort) et créer des groupes de personnes de confiance pour partager le même dépôt.
- Ne semble pas adapté à une sauvegarde à distance si vous avez beaucoup de petits fichiers (latence dans la commande SFTP RTT)
- Chiffrement hybride des données avec GnuPG à la source. A noter que la clé privée est nécessaire pendant toute la durée de la sauvegarde car Obnam a besoin de déchiffrer des informations (“file data chunks checksums”) sur les sauvegardes précédentes pour effectuer la déduplication.
- Sécurisation de la connexion par SSH FTP (mais autant chiffrer de mon point de vue).
- Reprise possible d’une sauvegarde interrompue (placement de checkpoints après une taille configurable, on reprend alors à partir du checkpoint).
- Ne fonctionne que sur linux.
- Développé par une seule personne (un ancien copain de Linus !). Il répond généralement assez vite sur la liste de diffusion.
- Fonctionnement en ligne de commande.
BackupPC
BackupPC est un logiciel relativement connu car délivrant de bons et loyaux services depuis 2001. Il semble particulièrement adapté à la gestion de sauvegardes d’un parc de machines (outils d’administration à distance évolués) et devrait donc plaire aux administrateurs (personnellement en tant que particulier j’ai eu un peu de mal à lancer ma première sauvegarde). Il rentre dans la catégorie des logiciels de sauvegardes traditionnels et éprouvés, sauf qu’il tient tête aux petits nouveaux en intégrant lui-aussi la déduplication.
- Pas de chiffrement des données mais sécurisation de la connexion par SSL.
- Fonctionnement “classique” à base de sauvegardes complètes et incrémentales.
- Déduplication au niveau d’un fichier sur le serveur. Aussi possible entre plusieurs utilisateurs.
- Au moins sur Debian, il y a une dépendance sur Apache (!) car il intègre un outil web d’administration à distance (très bien fait d’ailleurs).
- Sous Windows, possibilité de sauvegarder les fichiers verrouillés pas très claire : voir la FAQ, ce message ainsi que celui-ci.
- Sur linux, vous avez le choix entre tar et rsync. Les performances ne sont pas toujours similaires (voir par exemple cette comparaison).
- L’évolution est relativement lente (signe de maturité ?) : 3.2.0 le 02/08/10 et 3.2.1 le 09/05/11.
- Fonctionne sans installer de logiciels sur le client.
- Reprise possible d’une sauvegarde interrompue (Partial Backup).
- Documentation assez complète et de nombreuses ressources à disposition.
- Le serveur fonctionne avec Linux, Freenix, Solaris. Le client fonctionne avec Linux, Win95, Win98, Win2000 et WinXP.
- Fonctionne en ligne de commande et via votre navigateur (sous celui-ci, l’interface est extrêmement bien faite).
Backshift
Backshift est visiblement développé par un amateur de Python (voir les différents interpréteurs testés ainsi que les tests de performance). L’accent est apparemment mis sur l’optimisation de la taille de l’archive (déduplication des morceaux de fichiers et utilisation de LZMA pour la compression)
- Déduplication des morceaux de fichiers sur le client.
- Possibilité de fonctionnement en parallèle de plusieurs clients avec déduplication entre eux (!).
- Reprise possible d’une sauvegarde interrompue.
- Pas de chiffrement des données.
- Sécurisation de la connexion possible par sshfs.
- Création initiale de nombreux répertoires/fichiers mais permettant en théorie de mieux optimiser par la suite le nombre de répertoires/fichiers sur de nombreuses sauvegardes.
- Fonctionnement en ligne de commande.
Je n’ai malheureusement pas réussi à avoir des performances suffisantes pour qu’il puisse rentrer convenablement dans les tests de performance. L’auteur est en train de voir mais cela peut prendre du temps. Je surveille en tout cas ce logiciel de près.
Tests de performance
Afin d’avoir une idée des performances de chacun des logiciels, j’ai créé un petit programme générant des nombres pseudo-aléatoires (j’ai limité aux nombres afin de bien voir l’effet de la compression). Pour chaque logiciel j’ai alors d’abord sauvegardé, puis modifié, puis re-sauvegardé et enfin effectué une restauration.
L’arborescence “Sauvegarde initiale” est la suivante :
- 10 répertoires contenant 10 répertoires contenant 10 répertoires contenant 10 fichiers de 1 Mo (soit 10 000 fichiers)
- 10 répertoires contenant 1 fichiers d’environ 500 Mo (soit 10 fichiers)
- 3 répertoires contenant 1 fichiers d’environ 2 Go (soit 3 fichiers) Au final nous avons donc environ 10 000 fichiers et 24 Go.
Ensuite j’ai modifié l’arborescence (“Modifications”) en touchant 3 Go de fichiers :
- Renommage d’un répertoire de petits fichiers (soit 1000 fichiers de 1 Mo)
- Renommage d’un fichier de 500 Mo
- Modification d’un fichier de 500 Mo (suppression d’une ligne au milieu)
- Modification d’un fichier de 500 Mo (modification d’une ligne au milieu)
- Duplication d’un fichier de 500 Mo
- Duplication d’un fichier de 500 Mo et modification d’une ligne au milieu
La “Restauration” est tout simplement une opération de restauration de toute l’arborescence.
J’ai ajouté un test “Machine Virtuelle” sur la sauvegarde d’une machine virtuelle avant et après installation de divers logiciels (la taille de la VM est de 4.6 Go avant, 7.3 Go après).
Les arborescences ainsi que les dépôts pour la sauvegarde sont sur le même disque dur interne de 5400 rpm (je n’en ai pas d’autres sous la main). Les tests sont réalisés sous Debian Testing (kernel 3.2.0-2-686-pa).
Note : sur un serveur de sauvegarde distant, les résultats devraient être encore plus marqués. On pourra de plus contrôler le volume de données qui transitent et les effets de latence. Des volontaires ?
Résultats “Sauvegarde initiale”
- bup¹ : 12693 Mo en 36mn28
- BURP² : 11427 Mo en 79mn47
- BURP² (avec chiffrement) : 11427 Mo en 80mn36
- Obnam : 11607 Mo en 59mn55
- Obnam (avec chiffrement) : 11697 Mo en 78mn43
- BackupPC (avec tar) : 11729 Mo en 36mn24
- BackupPC (avec rsync) : 11729 Mo en 38mn42
- tahoe-LAFS³ : 24795 Mo en 110mn46
- Backshift⁴ : j’ai arrêté la sauvegarde après 8h et 2000 fichiers traités.
Note 1 : La version de bup utilisée ne stocke pas les metadatas.
Note 2 : J’ai désactivé SSL pour BackupPC mais je n’ai pas réussi à l’enlever pour BURP, celui-ci est donc pénalisé.
Note 3 : tahoe-LAFS est configuré pour un seul noeud de stockage en local (K=H=N=1).
Note 4 : j’ai fait ce que j’ai pu pour accélérer Backshift en choisissant l’interpréteur Pypy (1.7), un disque externe formaté en ext4 (car Backshift crée beaucoup de répertoires/fichiers et en ext3 cela ne passe pas) et désactivé LZMA au profit de bzip2.
Résultats “Modifications”
- bup : +37 Mo en 12mn43. C’est le roi de la déduplication, rien ne lui échappe.
- BURP : +271 Mo en 18mn10. Les modifications 3 et 4 sont bien gérées (il n’envoie et stocke que le delta). 1, 2 et 5 sont gérées mais à postériori (déduplication sur le serveur), donc les données sont quand mêmes envoyées. 6 n’est pas gérée.
- BURP (avec chiffrement) : +811 Mo en 25mn10. Idem que précedemment sauf que les modifications 3 et 4 ne sont plus gérées à cause du chiffrement.
- Obnam : +140 Mo en 2mn40. La modification 3 est partiellement gérée.
- Obnam (avec chiffrement) : +141 Mo en 3mn34. Identique au cas précédent.
- BackupPC (avec tar) : +837 Mo en 26mn36. Les modifications 1, 2 et 5 sont gérées à postériori (déduplication sur le serveur), donc les données sont quand mêmes envoyées. 3, 4 et 6 ne sont pas gérées.
- BackupPC (avec rsync) : +837 Mo en 6mn54. Identique au cas précédent.
- tahoe-LAFS : +1751 Mo en 118mn34. Les modifications 1, 2 et 5 sont bien gérées. 3, 4 et 6 ne sont pas gérées.
- Backshift : non testé.
Résultats “Restauration”
- bup : 33mn48
- BURP : 27mn13
- BURP (avec chiffrement) : 27mn
- Obnam : 31mn10
- Obnam (avec chiffrement) : 49mn
- BackupPC (avec tar) : 22mn06
- BackupPC (avec rsync) : 22mn24
- tahoe-LAFS : 68mn20
Résultats “Machine Virtuelle”
- bup : 1955 Mo en 4mn03, puis +1717 Mo en 4mn42
- BURP : 2640 Mo en 9mn35, puis +2060 Mo en 15mn23
- Obnam : 2671 Mo en 6mn07, puis +3098 Mo en 9mn13
Note : à noter qu’on est ici dans un cas similaire aux modifications 3 et 4. Cependant la sauvegarde de Machines Virtuelles se fait usuellement via des instantanés (“snapshots”) qui s’apparentent donc plutôt à la modification 6 (BURP ne pourra donc pas économiser quoi que ce soit).
Conclusion
En conclusion voici mon avis personnel basé sur l’état actuel des logiciels. Encore une fois, pour une chose aussi sensible que la sauvegarde de vos données, je vous recommande de faire attention vu la maturité relative de ces logiciels (hormis BackupPC). Mais ils sont tous en plein développement, donc c’est le moment idéal pour y participer en les testant, en remontant les bogues ou en proposant un patch !
- Si vous êtes sous un système de type Unix :
- Si vous recherchez les performances pures (rapidité et optimisation de l’espace), bup est LA référence. Cependant ses limitations ‘opérationnelles’ actuelles (pas de gestion des metadatas, pas d’expiration des sauvegardes) peuvent être trop limitantes.
- Si vous voulez la performance ainsi que le chiffrement complet de vos données, Obnam est actuellement le meilleur choix (avec une réserve sur la sauvegarde à distance cependant).
- Si vous êtes sous Windows :
- BURP gère normalement le mieux les spécificités de Windows (pas essayé malheureusement) tout en maintenant un bon niveau de sécurité.
- Si vous gérez un parc de machines hétérogènes :
- Pour un particulier, BURP est peut-être plus accessible.
- Pour un administrateur, difficile de ne pas trouver son bonheur dans BackupPC qui est de plus mature et éprouvé.
- Si vous êtes pressés et que vous voulez un logiciel prêt à l’emploi et disposant de toutes les fonctionnalités, je vous recommande chaudement BURP.
- Si vous très soucieux de votre vie privée, de la sécurité ainsi que de la redondance, tahoe-LAFS est fait pour vous (mais encore une fois ce n’est pas uniquement pour de la sauvegarde, c’est un système de fichiers distribué).
Merci à Nÿco, Benoît Sibaud, Florent Zara, Maz, Anthony F., ziedabid, Laurent Bachelier, Benoît et Beurt d’avoir lu et corrigé les fautes dans la dépêche.