Le serveur Tricassinux et donc tous les services liés (site, forum, mattermost) ont été impactés par l'incendie des serveurs d'OVH à Strasbourg, le 10 mars 2021.
Heureusement, nous étions sur un espace qui n'a pas été touché par cet incendie, le serveur a été coupé électriquement pour éviter la propagation et / ou l'amplification des dégâts sur le site. Tout est revenu hier, soit 12 jours plus tard, sans perte de données.
Quelles leçons en retirer ?
Il y avait une sauvegarde hebdomadaire (cron) qui était programmée, à destination de mon propre serveur (perso) Yunohost. Seulement, la dernière sauvegarde valide datait de la mi-janvier. Pourquoi ? Je n'ai pu le découvrir qu'hier : le script de sauvegarde était passé en non exécution. Je n'en connais pas trop la raison, mais comme il se trouvait dans le dossier /home/yunohost.backup/archives/ il est possible qu'une mise à jour de yunohost ait modifié ces droits à l'insu de mon plein gré. Je vais donc les déplacer dans un autre dossier pour éviter cela à l'avenir.
Du coup on a préférer laisser les services indisponibles plutôt que de remettre des sauvegardes anciennes (sur quel serveur ?), ce qui aurait en plus impliqué des pertes de données (entre mi janvier et mi mars). Il y a toujours Signal pour se joindre si nécessaire.
Il faudrait idéalement une interface de monitoring pour visualiser le serveur et voir son état (grafana fait ça bien), espace disque, charge cpu etc.
Il faudrait également une seconde sauvegarde sur espace S3, c'est en cours et ça devrait être opérationnel dans les prochains jours.