Skip to main content

04-04-2022 - Storing Cloud services

Onderwerp:  Storing Cloud services

Status: Gesloten
Datum: 04-04-2022
Duur: 12:59 - 13:19 uur
Omschrijving:
Wegens een hardware issue zijn de cloud omgevingen van diverse klanten tijdelijk niet beschikbaar geweest. Klanten die hier hinder van hebben ondervonden, konden tijdelijk niet meer inloggen op de cloud server omgeving. De mensen die reeds ingelogd waren, hebben hierdoor te maken gehad met connectie verlies. 

Het probleem is ontstaan door het spontaan rebooten van beide Fabric Interconnects van de Cisco UCS omgeving. Fabric B ging eerst onderuit, dit werd opgevangen door Fabric A, maar A ging ook kort na B onderuit. De aanwezige redundantie heeft ons in dit geval niet gered. De oorzaak daarvan lag, blijkt na Cisco RCA, in een release bug. Deze is middels het uitvoeren van een upgrade weggewerkt.

Impact:
Diversen klanten hebben om 12:59 uur de verbinding met de cloud server omgeving verloren. Zij konden gedurende de storing ook niet opnieuw inloggen. Het hardware issue wat hier aanleiding van was, is om 13:19 verholpen. Vervolgens is het herstellen van de verbindingen automatisch  gestart, waarna de cloud omgevingen één voor één weer beschikbaar kwamen. De nazorg op herstel van applicaties heeft nog enige tijd geduurd.

Oplossing:
Herstel van de hardware fout. De root-cause-analyse is inmiddels door de leverancier Cisco uitgevoerd en aan de omschrijving toegevoegd.