En nat på Ibas

18. august 2015 af Tormod Nymoen

Kl 19:10 igår aftes ringede vores vagttelefon hos Gine. Et større firma i Oslo har et RAID, hvor data er forsvundet. Der findes flere hundrede brugere af systemet. Det haster med at få de tabte data tilbage, systemet er i brug og nedetid er en kritisk faktor.

Hvilken type opgave, står vi over for?

RAID-systemer er i grunden konstruerede for at håndtere fejl. Mens hardwarefejl er en kendt årsag til hvorfor visse RAID kan gå ned, kan det også være andre fejl, som gør data utilgængelig.

Gine og Oslo-teknikeren diskuterer vigtig førstehjælp og det handler om 4 diske i RAID-5, NTFS filsystem, ikke noget virtuelt og der er nogle mapper og filer som er væk. Teknikeren er usikker på hvad der er sket og hvorfor. Systemet er i brug under opkaldet, Gine meddeler at de skal stoppe systemet umiddelbart for at forhindre at data overskrives og at vigtige data bliver beskadiget. Systemet slukkes under opkaldet.

RAID recovery

Vores teknikker til RAID er omhyggeligt testet, men vores teknikere er enige om at RAID-systemer ofte er de mest teknisk krævende i faget. Den proces, som vi anvender til at genoprette RAID er i praksis at sætte datablokkene sammen igen med hænderne. Altsammen efter en omfattende analyse af hvordan data er strømmet ud på alle diske, rækkefølgen af diske, opsætningen af data og paritetsblokkene.

Gine og den nu fortvivlede tekniker diskuterer potentielle tab af data og hvor fejlen kan være. Det er almindelige brugerfiler som fx dokumenter, der er væk og Gine får eksempler på hvilke mapper og filer som mangler.

Hvad skete der før teknikeren ringede?

Ibas skal vide hvad, der blev foretaget inden de kan komme igang. Teknikeren har forsøgt med en gendannelse af backuppen i systemet og med et bliver det mere kompliceret for Ibas, da vigtig data kan være overskrevet. Konklusionen er at en Remote Data Recovery ikke er mulig, da systemet vil være optaget af Ibas længere tid end det tager at sende det til Kongsvinger. Normalvis er Remote Data Recovery den hurtigste måde for Ibas at rekonstruere data på. Det anvendes ofte når tiden er meget kritisk og der er tale om en logisk fejl og harddiskene fungerer.

Kl. 19.25 tager Gine og teknikeren en beslutning om at RAID’et skal pakkes og transporteres til vores lab i Korsvinger.

Kl. 19.30 er transporten på vej til vores kunde.

Lige når nyhederne på TV2 begynder kl. 21.00 kører to ingeniører tilbage på arbejd og står klar kl. 21.15, da budbilen ankommer til laboratoriet. Nu venter en lang nat med intensivt arbejde for at sikre fysisk rådata fra de fire drev.

Hvad sker der i en RAID recovery?

En RAID recovery er egentlig en kombination af to meget vigtige skridt. Først skal vi opbygge RAID-et, hvilket tager det meste af tiden. Det er meget vigtigt at gendanne den oprindelige konfiguration for at opnå en god kvalitet på den fysiske rekonstruktion. Der bliver også kontrolleret om RAID-et har været i brug med diske offline. Vores ingeniører kontrollerer og bekræfter at systemet er korrekt genopbygget før data kopieres. Dette ekstra trin sikrer en god kvalitet.

Kl. 06.00 kommer en tredje ingeniør for at arbejde med det logiske filsystem og analyserer datastrukturer og indhold. Dette stykke arbejde tager et par timer og resultatet vil vise hvor meget af de tabte data som kan gendannes.

Kl. 06.45 henter en budbil de originale diske og returnerer dem til kunden. De skal så hurtigt som muligt få systemet i gang med de data som i første omgang ikke gik tabt.

Kl. 08.00, uvidende Ibas ansatte kommer til arbejdet og opfatter hurtigt i køen til kaffemaskinen at visse flittige sjæle har arbejdet hele natten for at gøre en forskel.

Dette er en virkelig historie om en nat på Ibas. Vi har et antal lignende nætter som dette i løbet af et år. Rekonstruktion af data er vores passion. Vi gør vores yderste for at vores kunder skal tage del i den når dataene leveres. Vi opdaterer dette blogindlæg med løsningen når den er klar.

Kl. 09:00 fant endelig den tredje ingeniøren information i filsystemet som kunne bruges for å finde mange af de viktige data. Sammen med en kollega brugte han 2-3 timer til at analysere information. De fandt efterhånde pegere til mer end 90 % av kundens vigtige filer. Videre analyser afdækket at de aller fleste filer kunne rekonstrueres med meget god kvalitet.