När hela himlen faller ner

den 9 maj 2016 av Åke Ljungqvist

För en tid sedan fick ni en liten titt på hur en vanlig dag i labbet såg ut. Den här artikeln blir lite annorlunda…

Vi blev väldigt glada när vi räddade två hårddiskar som låg gömda mellan kardborreband i familjens tvättmaskin. Fruns kläder var mer hotade. Ännu värre var det när ett multidisksystem med hosting data kraschade tidigt i tisdags. Ett virtuellt system designat för att lagra terabyte med data som absolut inte får försvinna på grund av en krasch.

Hos oss börjar nästan alla uppdrag med en analys. Det första steget är att ta reda på om det är möjligt att läsa hårddiskarna vi får. Om ingenjörerna hittar mekaniska fel måste dessa fixas innan vi börjar läsa ut data. I traditionella diskar är det relativt vanligt med en huvudkrasch, att själva läshuvudet har kommit i kontakt med skivorna i disken och därigenom skadat magnetskiktet. På SSD-er ser vi ofta fel på controller eller minneskort.

Det är inte utan anledning som vi kallar delar av våra lokaler för laboratorier. Vi har specialverktyg och utrustning och inte minst dammfria arbetsbänkar som är optimerade för vårt arbete. Vi har reservdelar till hårddiskar som går tillbaka till 80-talet, helt unikt i branschen.

Ofta avgörs resultaten av jobben här, vid själva renrumsbänken. När felet är fixat och det inte finns behov av att arbeta med datastrukturer, kan data läsas ut och kopieras till en ny hårddisk. Som incidenten med tvättmaskinen.

Ett HP EVA SAN är något annat. Här skiljer sig vissa personer från mängden. Här gör de professionella en skillnad.

Komplexa lagringssystem går igenom en omfattande logisk analys efter att de fysiska felen har korrigerats. Ett fel på en eller flera diskar i ett RAID, NAS eller virtuellt system, kan förorsaka enorma fel i den logiska datastrukturen och i de underliggande systemen. Våra experter är bland de främsta i världen. Som blodhunder söker de efter tillgänglig data för att rekonstruera lager på lager i systemen. Men aldrig på ursprunglig media, alltid på kopior som vi har lagrat på våra servrar.

Denna vecka har blodhundarna jobbat dygnet runt på jakt efter snapshots i ett VMware/HP SAN system. En virtuell dator med 900 GB skulle flyttas till en ny hårdvara. vMotion programvaran visade inte några fel men det visade sig snabbt att endast 50 GB hade överförts. Det ursprungliga virtuella innehållet med alla snapshots var borta. Ingenjörerna måste då leta efter fragment i hela systemet på det drabbade LUN-et och på den nya hårdvaran som hade använts. Som ett enda stort pussel. Denna gång kunde vi återanvända anpassade program som vårt utvecklingsteam skapar vid behov. Utan dessa verktyg i kombination med våra ingenjörers kunskap, kan vi glömma att lösa uppdrag av den här storleken.

Våra kunder har ofta hört från lagringsleverantörer att det är omöjligt att rädda data från deras system. Andra gånger har systemtekniker gett fel råd, eller gjort problemen större genom att försöka fixa dem själv.

Vi har bevisat att en ordentlig första hjälpen tillsammans med goda rutiner, bra verktyg och professionellt folk är avgörande när hela himlen håller på att falla ner.

 

img_600x600_shirtontrack

Ring för omedelbar hjälp!