Verstoring 28 januari 2016

(On)gepland onderhoud heeft vanmorgen de diensten van Sunshine IT wederom onbereikbaar gemaakt.

Volgens de voor ons beschikbare gegevens is het systeem van 3:58 tot en met 8:41 uur niet beschikbaar geweest door een handmatige uitschakeling. We gaan ervan uit dat deze verstoring – die niet direct is aangekondigd – is veroorzaakt door werkzaamheden aan het opslagplatform van onze serviceprovider.

Verhogen betrouwbaarheid/continuïteit
Al deze verstoringen hebben ertoe geleid dat wordt gekeken naar een andere invulling van onze dienstverlening om met name de betrouwbaarheid verder te verhogen.
We zijn in 2007 begonnen met een eigen fysieke server, in 2010 gecombineerd met een virtuele server en in 2015 geheel overgestapt op een virtuele server met hoge beschikbaarheid. Desondanks ervaren we nog te vaak ongemakken waardoor we overwegen om het operationeel beheer uit besteden. Maar daarover later meer.

Verstoring 8 januari 2016

Deels uitgevoerde ‘fail-over’ zorgt voor onbereikbare dienstverlening

Vanmorgen heeft een storing plaatsgevonden die duurde van ~9:10 uur tot ongeveer 9:55 uur. We betreuren het ongemak wat dit heeft veroorzaakt. In dit bericht leggen we uit wat er is gebeurd.

Sunshine IT heeft zijn virtuele server op een high-availability cluster ondergebracht. Dit is een aantal computers (nodes) dat samenwerkt en ervoor zorgt dat – in het geval er problemen zijn – deze door andere nodes kunnen worden overgenomen. Hierdoor kan een hogere (garantie van) beschikbaarheid van bronnen (zoals processoren en werkgeheugen) worden geboden dan een normale fysieke server.

Als een node uitvalt worden de daarop draaiende virtuele servers door andere beschikbare nodes overgenomen. Dit gebeurt meestal automatisch en wordt fail-over genoemd. Daarbij worden werkgeheugen, processoren maar ook netwerkverbindingen overgezet. Bij dat laatste is wat fout gegaan; de virtuele server was via het beheer nog wel te benaderen, maar niet meer via het netwerk.

Om het probleem opgelost te krijgen is door de provider het gehele cluster opnieuw opgestart evenals de virtuele servers die erop waren toegevoegd. Iets wat je alleen doet als problemen hardnekkig zijn. Hierna is de dienstverlening rond 9:55 uur weer beschikbaar gekomen.