Tales from the Machine Room


Home Page | Comments | Articles | Faq | Documents | Search | Archive | Tales from the Machine Room | Contribute | Login/Register

L'Aurea Legge Del SysAdmin

E' un tranquillo martedi' di fine gennaio, quando alzando gli occhi dal mio monitor mi trovo la faccia di UL che mi osserva con un sorriso a 386 denti...

IO - Oddio che orrore!!
UL - Cosa??
IO - Hai uno specchio?
UL - ??
IO - Lascia stare... che vuoi?
UL - Ho appena ricevuto una telefonata da $isp, c'e' un problema con il server di $societa'!
IO - Quale server? Mai sentito nominare!
UL - Si tratta di una macchina probabilmente installata da CL prima che se ne andasse, pare che ci sia uno dei dischi che stia morendo.
IO - O che bello...
UL - Bisognerebbe sostituire i dischi.
IO - Mi manca la parte in cui dice che e' un problema mio...

Una spiegazione qui e' necessaria.

Dunque, $societa e' una piccola (4 persone) societa' che per un certo periodo di tempo ha "occupato" piu' o meno abusivamente uno spazio nel nostro stesso palazzo. Condividendo il supporto tecnico (cioe' IO) e lo spazio sui nostri server. Poi, causa la fusione con $immensasocieta, hanno ricevuto lo sfratto ed hanno levato le tende.

UL - Ci hanno chiesto se, dato che il server inizialmente lo abbiamo installato noi, potevamo risolvergli il problema.
IO - E che server sarebbe questo? Io non l'ho mai visto.
UL - (porgendomi una fotocopia) Questa e' la fattura.

Osservo la fattura: e' un server GigaByte 1U, P4 1Ghz con due dischi fissi da 40 Gb IDE. Proabilmente un qualche controller per metterli in RAID. Ok, si puo' fare. Se uno dei dischi e' sifulo si sostituisce e si ricostruisce il RAID. Ma dato lo stato di rincoglionimento di CL prima di fare qualche cosa voglio controllare le cose.

IO - Possiamo avere accesso a questa macchina da remoto?
UL - No.
IO - Come sarebbe a dire "NO"? Come cavolo faccio a controllare le cose?
UL - Be', paghiamo $ISP perche' ci garantisca 'high security'...
IO - E adesso lo paghiamo perche' ci consenta l'accesso!

Una mezz'ora dopo UL torna con i dettagli di connessione. Io mi collego e... E' in striping! Non in mirroring!!

IO - Ok, la soluzione migliore e' quella di fare un bel backup, sostituire i dischi, rifare il raid in mirroring, re-installare e poi rimettere su' i dati. In una giornata si fa.
UL - Ma non possiamo spegnere il server per una giornata!
IO - In tal caso dobbiamo preparare un server 'sostitutivo' e scambiarli.
UL - Si puo' fare?
IO - Si, ma non ho un server 1U da usare, dovremo usare un normale PC, il che vuol dire che dovranno spendere piu' soldi per l'hosting.

Cosi' e' deciso: spendo una giornata installando il nuovo server e copiando i dati dal server di produzione a quello di sostituzione, poi chiedo ad UL di controllare il funzionamento del nuovo server. Quando mi dice che e' Ok, faccio un ultimo backup del database, spengo via ssh il server di produzione ed andiamo a sostituirlo. Cosi' mi ritrovo sul tavolo un bellissimo (si fa per dire) GigaByte 1U.

E subito scopro qualche cosa che non mi piace: non e' il disco che sta' decedendo, ma e' il controller! Mi attacco al telefono con il fornitore e domando: su quella motherboard la garanzia e' triennale, quindi possiamo chiederne la sostituzione. Mentre mi sto preparando a portare il congengo dal fornitore per la sostituzione UL mi ricompare davanti.

UL - C'e' qualche cosa che non va' con la macchina di sostituzione!
IO - Del tipo?
UL - Nel database tutti i dati tra $giorno e $(giorno+5) sono mancanti!
IO - L'ultimo backup l'ho fatto $(giorno+6), quindi se i dati erano dentro dovrebbero essere li'.
UL - (indicando l'ex-server di produzione) Possiamo controllare su quella macchina prima di mandarla via?

Controlliamo, e scopriamo che il database sulla macchina di produzione e' totalmente illeggibile... che bello!

IO - Ma $isp non fa' i backup? Perche' noi non li abbiamo di sicuro!
UL - Domando...

Cosi' UL domanda ad $isp, e si scopre che, si, i backup li fanno, ma non hanno mai provato un restore, e adesso che lo hanno provato, hanno scoperto che tutti i backup in loro possesso sono totalmente inutilizzabili!

IO - Vorresti dirmi che loro pagano $cifrone ad $isp perche' gli tenga la macchina sotto controllo e non si sono accorti che i backup erano inutili?
UL - Be'.... il contratto originale prevedeva solo il supporto hardware, i backup sono stati aggiunti come 'servizio gratuito' in un secondo tempo...
IO - Bel servizio del menga!
UL - Non possiamo farci niente?
IO - Se i dati sono andati sono andati. Il backup era l'unica soluzione.
UL - $isp Dice che c'e' un secondo backup di emergenza...
IO - Dove?
UL - Sul disco fisso del server stesso...
IO - Quello che e' parzialmente illeggibile?
UL - Hemmm...

E cosi' si riconferma sempre l'aurea legge del SysAdmin: non limitarti a fare i backup, di tanto in tanto provali anche.

Davide
01/01/2070 00:00

Previous Next

Comments are added when and more important if I have the time to review them and after removing Spam, Crap, Phishing and the like. So don't hold your breath. And if your comment doesn't appear, is probably becuase it wasn't worth it.

No messages this document does not accept new posts

Previous Next


This site is made by me with blood, sweat and gunpowder, if you want to republish or redistribute any part of it, please drop me (or the author of the article if is not me) a mail.


This site was composed with VIM, now is composed with VIM and the (in)famous CMS FdT.

This site isn't optimized for vision with any specific browser, nor it requires special fonts or resolution.
You're free to see it as you wish.

Web Interoperability Pleadge Support This Project
Powered By Gojira