Verstoring 8 januari 2016

Deels uitgevoerde ‘fail-over’ zorgt voor onbereikbare dienstverlening

Vanmorgen heeft een storing plaatsgevonden die duurde van ~9:10 uur tot ongeveer 9:55 uur. We betreuren het ongemak wat dit heeft veroorzaakt. In dit bericht leggen we uit wat er is gebeurd.

Sunshine IT heeft zijn virtuele server op een high-availability cluster ondergebracht. Dit is een aantal computers (nodes) dat samenwerkt en ervoor zorgt dat – in het geval er problemen zijn – deze door andere nodes kunnen worden overgenomen. Hierdoor kan een hogere (garantie van) beschikbaarheid van bronnen (zoals processoren en werkgeheugen) worden geboden dan een normale fysieke server.

Als een node uitvalt worden de daarop draaiende virtuele servers door andere beschikbare nodes overgenomen. Dit gebeurt meestal automatisch en wordt fail-over genoemd. Daarbij worden werkgeheugen, processoren maar ook netwerkverbindingen overgezet. Bij dat laatste is wat fout gegaan; de virtuele server was via het beheer nog wel te benaderen, maar niet meer via het netwerk.

Om het probleem opgelost te krijgen is door de provider het gehele cluster opnieuw opgestart evenals de virtuele servers die erop waren toegevoegd. Iets wat je alleen doet als problemen hardnekkig zijn. Hierna is de dienstverlening rond 9:55 uur weer beschikbaar gekomen.