Intervention en urgence sur un environnement MariaDB pour un groupe industriel Français
Notre client est un groupe industriel français qui conçoit et fabrique des systèmes et instruments de haute technologie.
Ses activités couvrent plusieurs secteurs sensibles et exigeants tels que la défense, le nucléaire, la santé, les sciences du vivant, l’environnement ou encore le spatial. Le groupe développe des solutions innovantes en optique, détection, mesure ou encore surveillance, à travers plusieurs entités spécialisées.
Problématique
Notre client a subi un arrêt de production de 12 heures sur l’une de ses instances MariaDB. Elle est utilisée pour remonter les mesures de 500 dosimètres concernant le niveau de radioactivité des salles d'imagerie afin de détecter des incidents potentiels.
La cause de l’incident est due à une saturation de l’espace disque, ayant entraîné l’arrêt de l’instance.
Aucun mécanisme de supervision ou d’alerte n'était mis en place, ne permettant pas d’anticiper cette saturation.
Une fois l'instance redémarrée, le client a observé des lenteurs sur son application ce qui a eu pour conséquence de ralentir l'insertion des données des capteurs d'imagerie au sein de l'instance.
L’incident a mis en évidence l'importance de la mise en place d'un système de supervision et d'alerting, qui aurait permis de détecter en amont les problématiques pouvant mener
à une interruption de service.
Océane P. - Consultante DBA
Objectif du projet
Dans le cadre de ce projet, Zen Conseil est intervenu en urgence, en collaboration avec notre partenaire ADISTA, spécialiste des services informatiques et télécoms pour les entreprises et les collectivités.
Le projet s’est structuré autour de deux objectifs principaux.
Le premier objectif consistait à éviter toute perte de données. Les capteurs impliqués dans la collecte d’imagerie disposant d’une capacité de rétention limitée à 20 jours, il était donc impératif de rétablir rapidement un canal d’insertion fonctionnel avant l’expiration de cette période, au risque de perdre définitivement ces données critiques.
Le second objectif visait à réduire le goulot d'étranglement jusqu'à disparition de celui-ci. Malgré l'incident, les capteurs continuaient à enregistrer des données qui se sont accumulées jusqu'au démarrage de l'instance MariaDB. Cela a eu pour conséquence d'avoir une volumétrie importante de données en attente d'insertion.
Pour résoudre ce problème, nos experts ont optimisés la configuration de l'instance MariaDB et ont apporté leur conseil pour rectifier le flux d'agrégation dans la base de données. Ceci a permis d'absorber ce flux d'attente et de remettre la base de données à jour sans créer de nouveaux blocages.
Proposition de la solution et plan d'action
Afin de répondre au mieux à la demande du client final, nos experts ont commencé par réaliser un état des lieux complet de l’instance MariaDB concernée. Cette analyse a permis d’identifier précisément les usages de la base de données ainsi que le fonctionnement
de l’application. Ainsi, nous avons pu proposer une solution technique adaptée aux contraintes métiers et aux flux de données observés.
À l’issue de ce diagnostic, plusieurs solutions ont été proposées au client pour fiabiliser le système et éviter la répétition de l’incident :
-
Optimisation de la configuration de l’instance MariaDB afin d'améliorer les performances d’écriture et la gestion des verrous.
-
Modification du code applicatif pour éviter l’insertion de doublons dans la base de données.
-
Révision du flux d’agrégation des données afin de limiter les risques de locks lors des traitements simultanés.
-
Reconstruction des index pour accélérer les opérations de lecture et d’insertion sur les tables les plus sollicitées.
Dans un objectif à plus long terme, il a également été proposé des évolutions qui offriront au client une amélioration de performance significative mais nécessitant des changement majeurs de leur infrastructure :
-
Modification des structures de la base de données pour améliorer l'historisation des données, limiter les volumétries traitées quotidiennement et améliorer les purges de données.
-
Revue des logiques applicatives dans le but d'améliorer le traitement des requêtes envoyées par les capteurs.
Ces actions ont été menées avec un objectif commun : rétablir un fonctionnement stable de leur application dans les meilleurs délais et renforcer la résilience de l’infrastructure face aux volumes croissants de données.
Valeur ajoutée de notre accompagnement
Grâce aux solutions apportées par les équipes Zen Conseil, notre client a pu éviter une perte de données et maintenir l’intégrité de son système d’information malgré l’incident initial. L’intervention a également permis de faire évoluer l’applicatif, notamment sur la partie agrégation, tout en offrant au client une meilleure compréhension de son environnement technique et de la technologie MariaDB.
Dans la continuité de ces actions, il a été convenu avec le client de déployer temporairement l’outil de supervision PERCONA. Cet outil donne un accès en temps réel à l’état de la base de données MariaDB, tout en conservant un historique détaillé des métriques.
En parallèle, le client a fait le choix de confier à Zen Conseil l’infogérance de son instance MariaDB. Cet accompagnement comprend la gestion proactive de l’infrastructure, la supervision continue, l’application des bonnes pratiques comme l'intégrité des sauvegardes, ainsi que des interventions préventives et correctives.
Ce service permet au client de se concentrer sur son métier, tout en bénéficiant d’un environnement MariaDB fiable, sécurisé et maintenu en condition opérationnelle. Il assure également une meilleure réactivité en cas d’incident, grâce à une équipe d’experts dédiée.
Aujourd’hui, ce groupe industriel bénéficie :
-
D’une optimisation des ressources allouées à son système d’information
-
D’une meilleure connaissance de son environnement et de la technologie MariaDB
-
D’une base de données performante et sécurisée
-
D’un accompagnement personnalisé en infogérance par nos experts
-
D’un outil de supervision permettant une surveillance de son instance MariaDB et de son serveur.
-
D'un système d'alerting pour prévenir toute potentielle défaillance.