Après une panne majeure, Google Cloud rétablit ses services

Jeudi, une mauvaise mise à jour a provoqué une panne mondiale de Google Cloud, paralysant de nombreux services pendant plus de sept heures avant leur rétablissement complet.
L’incident, déclenché jeudi en fin de matinée (heure locale Pacifique), a été causé par une mauvaise configuration dans les systèmes IAM (Identity and Access Management) de Google Cloud. La panne a été résolue à 22 h 18 UTC, selon le rapport Service Health du fournisseur. Mais cette défaillance a perturbé plusieurs services critiques de l’infrastructure cloud, notamment App Engine, Firestore, Cloud SQL, BigQuery et Memorystore. Par ailleurs, des services s’appuyant sur ces composants ont ainsi connu des pannes partielles ou un fonctionnement dégradé.
Cloudflare a été l’un des premiers à signaler des anomalies sur ses services dont Workers KV, Access Authentication, Workers AI, Stream, ainsi que certaines parties de son tableau de bord. « Il s’agit d’une panne Google Cloud », a confirmé un porte-parole de la société. Selon Downdetector, site spécialisé dans le suivi des interruptions, le pic de signalements s’est produit vers 14h30 avec des perturbations persistantes signalées jusqu’en fin d’après-midi.
Des pannes en cascade dans l’écosystème Google
Cette panne a eu des répercussions en cascade sur l’écosystème Google. De nombreux utilisateurs ont rencontré des dysfonctionnements sur Gmail, Drive, Docs, Calendar, Meet et Chat, tandis que les appareils connectés Google Home et Nest ont subi des pertes de connectivité. Les services Gemini et plusieurs fonctionnalités liées à la recherche, comme Google Lens ou Discover, ont également été temporairement indisponibles. Sur les réseaux sociaux, de nombreux témoignages ont également fait état de pannes affectant la recherche vocale et l’assistant Google.
D’autres grandes entreprises ont aussi ressenti les effets de la panne, notamment Spotify, Discord, Snap, Shopify, Replit, Anthropic, Character Technologies, fuboTV et UPS, qui ont signalé des interruptions partielles ou une dégradation de leurs services.
Une mise à jour provoquant un déni de service
Dans la soirée, un porte parole de Google a déclaré : « Suite à une interruption affectant plusieurs services Google Cloud, tous les produits ont désormais été entièrement restaurés.» De son côté, le CEO Thomas Kurian, a posté sur X : « Nous avons travaillé intensément sur la panne aujourd’hui et tous les produits et régions sont maintenant pleinement rétablis. Nous regrettons profondément la perturbation occasionnée à nos clients. »
Selon le premier rapport d’incident de Google Cloud, la panne a été causée par une mise à jour automatisée de quota non valide dans le système de gestion des API, déployée à l’échelle mondiale. Les requêtes dAPI externes ont été rejetées comme un déni de service. Pour remédier à la situation, le service cloud de Google a contourné la vérification des quotas erronés, permettant une récupération dans la plupart des régions en moins de deux heures. L’entreprise a reconnu que cet incident était évitable et s’engage à mener plusieurs actions. Tout d’abord renforcer ses systèmes en empêchant notamment que des données invalides ou corrompues provoquent des pannes. Puis la société limitera la propagation mondiale non protégée des métadonnées et améliorera ses tests, sa surveillance et la gestion des erreurs système pour mieux gérer les données invalides.