Utiliser Git pour la sauvegarde et le suivi des données
Git est un logiciel de gestion de version décentralisé qui fait partie des logiciels libres les plus connus dans le monde de l’informatique. Sa popularité, la richesse de sa documentation, sa stabilité en font un candidat idéal pour servir à la sauvegarde des données d’une fichothèque (et bien évidemment Git est présent dans toutes les distributions et fonctionnent sur toutes les systèmes d’exploitation). Celles-ci sont stockées sous la forme d’une multitude de petits fichiers qui sont modifiés rarement, Git est très rapide pour identifier les modifications (un peu plus de 2 secondes constatés sur des fichothèques dont la taille cumulée est de 12 Gio). La seule contrainte de la décentralisation, c’est que Git va conserver localement les informations. Il faut donc prévoir un espace disque conséquent (dans l’exemple de 12 Gio, le répertoire .git/
fait 19 Gio). Si votre fichothèque abrite des données importantes, cela ne devrait pas être un frein.
Dans la procédure suivante, le chemin des données des fichiers est /var/local/tomcat/bdf/
Étape 1 : initialiser du dépôt
Se rendre dans le répertoire des données :
Initier le dépôt Git
Ajouter tous les répertoires déjà existants dans le dépôt
Faire la première validation
Étape 2 : organiser la sauvegarde régulière
La sauvegarde sera organisée à l’aide d’une tâche cron, soit via un fichier situé dans /etc/cron.daily
(pour une sauvegarde quotidienne) ou via la commande crontab -e
qui donne une grande liberté sur le rythme de la sauvegarde (on peut très bien imaginer une sauvegarde toutes les cinq minutes). Exemples et tutoriels ne manquent pas sur l’Internet. À chacun ses petites habitudes d’administration de système.
À titre d’exemple, voici un petit script qui met à jour le dépôt en indiquant la date du jour dans le message de validation :
Étape 3 : récupérer la sauvegarde
Une sauvegarde locale, c’est bien, la récupérer sur son ordinateur ou sur un autre serveur, c’est mieux. Pour cela, il suffit de disposer d’une connexion ssh avec le serveur des fichothèques et de lancer à partir de l’emplacement de son choix la commande suivante :
On remplacera bdf@bdf3.fichotheque.net
par le nom d’utilisateur et le nom de son serveur et /var/local/tomcat/bdf
par le chemin de ses données.
Par la suite, la simple commande suivante permettra de lancer la sauvegarde :
Configuration de git
Un des outils de configuration de git est le fichier .gitignore
qui permet d’indiquer des fichiers et répertoires à ignorer. On pourra l’utiliser pour limiter la taille du dépôt, pour, par exemple, se limiter à des fichothèques particulières ou ne pas prendre backup/
qui contient les sauvegardes faites par le logiciel BDF lui-même (en particulier pour l’historique de modification des fiches)