En natt hos Ibas

fredag 13. mars 2015 av Tormod Nymoen

Kl. 19:10 i går kveld ringer vakttelefon til Gine. En større bedrift i Oslo har et RAID hvor data har forsvunnet. Det er flere hundre brukere av systemet. Det haster med å få data tilbake, systemet er i bruk og nedetid er en kritisk faktor.

Hva slags oppgave står vi foran?

RAID-systemer er i utgangspunktet designet for å håndtere svikt. Mens hardwarefeil er en sterk årsak til at noen RAID kan havarere, kan det også være andre feil som gjør dataene utilgjengelige.

Gine og Oslo-teknikeren diskuterer viktig førstehjelp og det handler om 6 disker i RAID 5, NTFS filsystem, ikke noe virtuelt og det er enkelte mapper og filer som er borte. Teknikeren er usikker på hva som har skjedd og hvorfor. Systemet er i bruk mens telefonsamtalen pågår, Gine gir beskjed om at de bør kjøre ned systemet snarest for å unngå at nye data overskriver og skader viktige data. Systemet slås av mens telefonsamtalen pågår.

RAID recovery

Våre teknikker for RAID er velprøvde, men våre ingeniører er enige om at RAID-systemer ofte er av det mest teknisk utfordrende i faget. Prosessen vi benytter for å gjenopprette RAID er i praksis å sette datablokkene sammen igjen for hånd. Alt etter en omfattende analyse av hvordan dataene er streamet ut på alle disker, rekkefølgen på diskene, oppsettet av data og paritetsblokkene.

Gine og den nå fortvilede teknikeren diskuterer potensielt datatap og hvor feilen kan ligge. Det er vanlige brukerfiler som f.eks. dokumenter som er borte og Gine får eksempler på hvilke mapper og filer som mangler.

Hva har skjedd før teknikeren ringte?

Ibas må vite hva som er prøvd før vi blir koblet inn. Tekniker har pøvd restore av backup tilbake til systemet og med ett er det mer komplisert for Ibas da viktige data kan være overskrevet. Det konkluderes med at en Remote Data Recovery ikke er mulig fordi systemet da vill være lengre okkupert av Ibas enn tiden det vil ta å sende det til Kongsvinger. For normalt="" er Remote Data Recovery den raskeste måten Ibas kan rekonstruere data på. Ofte brukt når tid er svært kritisk og det er snakk om en logisk feil og maskinvaren fungerer.

Kl. 19.25 konkluderer Gine og tekniker med at RAID-et må pakkes og transporteres til vår lab på Kongsvinger

Kl. 19:30 er transporten på vei til vår kunde.

Akkurat når TV 2 Nyhetene introduseres kl. 21.00 går to ingeniører tilbake på jobb og står klare kl. 21.15 når budbilen ankommer laboratoriet. Nå venter en lang natt med intensiv jobbing for å sikre fysiske rådata fra disse 6 disker.

 Hva skjer i en RAID recovery?

En RAID recovery er egentlig en kombinasjon av to svært viktige skritt. Først må vi bygge opp RAID-et og det tar desidert mest tid. Det er svært viktig å avklare den opprinnelige konfigurasjonen for å få til en god kvalitet på selve den fysiske rekonstruksjonen. Det blir også sjekket om raidet har vært i bruk med disker offline. Våre ingeniører kontrollerer og bekrefter at systemet er riktig gjenoppbygget før noe data blir kopiert. Dette ekstra trinnet sikrer god kvalitet.

Kl. 06:00 kommer en en tredje ingeniør kommer på plass for å jobbe med det logiske filsystemet og analysere datastrukturer og innhold. Dette arbeidet vil ta noen timer og resultatet vil vise hvor mye tapte data som kan rekonstrueres.

Kl. 06:45 en budbil henter de originale diskene og returnerer de til kunden. De må raskest mulig få systemet i gang med de data som i utgangspunktet ikke var tapt.

Kl 08:00 kommer de fleste uvitende Ibas-ansatte på jobb og forstår raskt i kaffemaskinkøen at noen iherdige sjeler på nytt har jobbet natta igjennom for å gjøre en forskjell.

Dette var en live historiefortelling om siste natt på Ibas. Vi har noen sånne i løpet av et år. Rekonstruksjon av data er vår passion. Vi gjør det ytterste for at våre kunder skal få ta del av den når dataene leveres. Vi oppdaterer denne bloggposten med løsningen når den er klar.

Kl. 09:00 fant endelig den tredje ingeniøren informasjon i filsystemet som kunne brukes for å spore opp mye av de viktige dataene. Sammen med en kollega brukte han 2-3 timer til for å analysere informasjon. De fant etter hvert pekere til mer enn 90 % av kundens viktige filer. Videre analyser viste at de aller fleste filer kunne rekonstrueres med meget god kvalitet.