Le vendredi 18 juillet 2024, des centaines de millions de postes sous Windows ont été victimes d'un problème majeur de démarrage. La cause de ce chaos ? Un dysfonctionnement critique du logiciel de sécurité de la société CrowdStrike. Ce logiciel, principalement utilisé par les entreprises, a provoqué des BSOD (Blue Screen of Death) en boucle, forçant les systèmes à lancer l’outil de réparation de Windows et nécessitant une intervention manuelle pour la remise en état.
Aujourd'hui, de nombreuses entreprises n'ont plus de DSI (Direction des Systèmes d’Information) en interne, préférant externaliser cette fonction à des sociétés spécialisées en infogérance. Cette tendance a considérablement ralenti les interventions nécessaires pour résoudre les problèmes, causant des interruptions de service plus ou moins longues dans divers secteurs tels que les hôpitaux, les aéroports et les banques.
Contrairement aux incidents habituels où Microsoft est souvent tenu responsable, cette fois-ci, la responsabilité revient entièrement à CrowdStrike.
Travaillant moi-même dans une DSI, j'ai été témoin de l’ampleur de ce problème dès mon arrivée au bureau. Plusieurs postes étaient inutilisables. En seulement cinq minutes, nous avons identifié que le fichier CSagent.sys du client CrowdStrike était à l’origine des BSOD. En utilisant un live boot CD pour explorer les fichiers récents dans le répertoire C:/Windows/System32/drivers/CrowdStrike
, nous avons trouvé un fichier nommé C-00000291.sys
. Le simple fait de renommer ce fichier a permis de rétablir le démarrage normal des machines. En moins de 30 minutes, nous avions compris la cause du bug et trouvé une solution.
Dans notre DSI, nous gérons près de 1200 machines ainsi que des serveurs virtualisés également protégés par CrowdStrike. Le vendredi à midi, environ 95 % des machines étaient de nouveau opérationnelles, grâce à nos interventions manuelles sur site.
Cependant, à l’échelle mondiale, la résolution de ce problème a pris beaucoup plus de temps. Pourquoi ? Parce que l'externalisation de la gestion informatique, souvent à des sociétés opérant à distance et parfois situées dans des pays différents, complique et ralentit considérablement les interventions physiques nécessaires pour corriger le bug.
Voici quelques impacts notables de cet incident :
Cet incident souligne l'importance cruciale de la gestion proactive et locale des systèmes informatiques, ainsi que les risques associés à une trop grande dépendance à l’égard de solutions externalisées pour des fonctions critiques de sécurité.
De Will le 23-07-2024 à 09:09 | |
Premier article que je lis sur ce joli site web, hâte de lire les suivants. |
De | |
En réponse à Will : Merci à toi, bonne lecture 😉 |
De | |
Le point positif de cet incident, c'est qu'il me rassure dans l'intérêt de nos métiers. Même dans le monde de l'IA et du tout au numérique, il y aura toujours besoin d'humain pour réparer les machines. ( ͡° ͜ʖ ͡°) |
De | |
En réponse à SANCTiFER : OooWeee! |
De Alfy le 17-10-2024 à 08:21 | |
Le bordel ce jour la 😂 |