Tales from the Machine Room


Home Page | Comments | Articles | Faq | Documents | Search | Archive | Tales from the Machine Room | Contribute | Login/Register

Backup is good, Restore... not always

E' un uggioso e piovigginoso giovedi' quando arrivo nell'ufficio deserto di buon ora e mi trovo una mail che dice 'ripristinare i database di produzione di $cliente sul server di test'. Oh che gioa, 300 Gb di database, il che significa che avro' tutta la giornata occupata.

Mi ricordo anche vagamente che l'ambiente di questo cliente e' un casino inenarrabile, quindi mi metto a perusare la documentazione e trovo un bellissimo documento nel wiki aziendale che si intitola per l'appunto "ripristino db prod su test". Ma pensa un po'

Il documento inizia con un bel "per prima cosa ripristinare l'ultimo backup in modo da avere tutti i fies necessari". Hemmm... se lo dici tu. "Vedere esempio di ripristino" e segue l'esempio di ripristino. Ok, non sapendo una sega di come funziona il backup di questo coso andiamo.

Mi armo di santa pazienza e seguo pedissequamente le distruzioni. Clicca li', schissa qui, gira di la'... dieci secondi dopo che il restore ha iniziato a macinare l'allarme parte per un servizio che gira su un altro dei server di $cliente. La cosa mi lascia un attimo interdetto.

Perche' $servizio dovrebbe avere dei problemi se io sto facendo un ripristino sul db di test? Comunque per non sapere ne' leggere ne' scrivere interrompo immediatamente quello che sto facendo e mi metto a guardare questo arnese. Che risulta totalmente incatastato e richiede ben due riavvi per risistemarsi.

Ovviamente DaBoss che e' gia' in baracca per via di certi aggiornamenti su una delle SAN salta immediatamente sulla cosa.

DB - che e' successo con $cliente? IO - e che ne so... io stavo cercando di fare un trasferimento di database da produzione a test... DB - ma hai fatto qualche cosa sul db di produzione? IO - io sto seguendo le istruzioni che sono state scritte da qualcun altro, questo e' quello che so.

Sorvoliamo sul resto della discussione, comunque dopo essermi preso la scaldata mi sono messo in attesa del pinguino responsabile della documentazione e l'ho "gentilmente" interrogato. E' risultato che la documentazione era carente di certi piccoli dettagli insignificanti, come il fatto che il restore deve essere effettuato scegliendo un diverso server di destinazione, anche il come selezionare una diversa destinazione era mancante, o il fatto che occorre specificare una minore 'velocita' per ridurre il consumo di risorse. Tacciamo sul fatto che eseguire il restore di un dump sul db di produzione non dovrebbe provocare il crollo di un servizio che gira su un server diverso (anche se usa tale database). Ma l'esperienza mi ha insegnato che talvolta le azioni hanno conseguenze al di la' dell'immaginabile.

Comunque sia, dopo aver riavviato a calci il suddetto servizio mi sono messo ad eseguire il restore, che, come previsto, mi ha preso tutta la giornata. Dopo di che ho proceduto ad aggiungere i millemila dettagli mancanti alla suddetta documentazione, che e' passata da una paginetta scarsa a 23 pagine piene (!). Ora sono quasi certo che il prossimo idiota che dovra' fare questa operazione potrebbe avere una buona possibilita' di riuscita... se riesce a trovare la documentazione ovviamente, dato che anche la funzione di ricerca di questa merda di wiki non e' che sia delle migliori.

Il backup fa' sempre bene, il restore... qualche volta no.

Davide
13/02/2012 08:00

Previous Next

Comments are added when and more important if I have the time to review them and after removing Spam, Crap, Phishing and the like. So don't hold your breath. And if your comment doesn't appear, is probably becuase it wasn't worth it.

9 messages this document does not accept new posts
Mauro P By Mauro P - posted 13/02/2012 08:04

Mmmmhhhh bella sfiga quella che ti perseguita, non sara' il caso di munirsi di taaaante bamboline woodoo?

Ciao BigD e buon inizio di settimana

--
Mamo


WM By WM - posted 13/02/2012 08:30

buongiorno davide e buon lunedi'

ti faccio presente che i tuoi dialoghi con DB mancano di un po' di "a capo" (almeno nella versione puramente html)

(o magari sono io che "leggo" male)

comunque ancora buona giornata

WM

--
WM


Guido By Guido - posted 13/02/2012 08:56

scusa è il solito paradigma, se devi fare un casino fallo bene. Se devi farlo fare a qualcun altro è OBBLIGATORIO tacere su quei particolari che possono condurre al disastro no? ;\)

--
Guido


Alberto By Alberto - posted 13/02/2012 09:12

> Ora sono quasi certo che il prossimo idiota che dovra' fare questa operazione potrebbe avere una buona possibilita' di riuscita... se riesce a trovare la documentazione ovviamente, dato che anche la funzione di ricerca di questa merda di wiki non e' che sia delle migliori.

Ma come Davide, appena 3 storie dopohai già dimenticato la morale di questa?

http://soft-land.org/storie/12/2

 

E poi, immagino che valga anche nel vostro mondo la prassi che fa diventare il massimo esperto di una cosa l'ultimo che ci ha messo sopra le mani.

 

--
Alberto


Anonymous coward By Anonymous coward - posted 13/02/2012 11:36

Com'era  quella storia che una farfalla batte le ali in Giappone e dopo 15 ore uno terribile tzunami alto 70 metri si abbatte su San Francisco?

--
Anonymous coward


Anonymous coward By Anonymous coward - posted 13/02/2012 20:01

DB - che e' successo con $cliente?

IO - ma niente, mi stava antipatico e cosi' gli ho "wippato" tutti i server, trapanato gli hard disk con una punta del 18, spezzato i CD di installazione e bruciato i nastri di backup.

Una risposta del genere se la meriterebbe: si vede che DB ormai mi sta sulle balle?

PS: se una procedura di restore richiede 23 PAGINE per essere descritta/documentata significa che c'e' qualcosa di profondamente sbagliato da qualche parte (in questo caso, da molte parti), soprattutto nella testa di chi ha messo le cose in piedi tali da richiedere un restore alla CAXXO DI CANE.

--
Anonymous coward


Pessimismo e Fastidio By Pessimismo e Fastidio - posted 15/02/2012 15:50

Ottimo adesso ci vorranno due giorni per fare il lavoro.

Uno per legge la documentazione di 23 pagine e capirla ed uno per il ripristino :D

--
Pessimismo e Fastidio


Massimo M. By Massimo M. - posted 15/02/2012 22:06

Anche secondo me se una procedura che dovrebbe essere veloce, semplice e lineare richiede VENTITRE pagine di descrizione, c'e' qualcosa di seriamente sbagliato.

non e' possibile che una roba che dovrebbe essere eseguita in pochi minuti richieda almeno un'ora per CAPIRE come si fa.

--
Massimo M.


Davide Bianchi@ Massimo M. By Davide Bianchi - posted 16/02/2012 08:02

non e' possibile che una roba che dovrebbe essere eseguita in pochi minuti richieda almeno un'ora per CAPIRE come si fa.

"Guidare" una vettura richiede pochi minuti... ma imparare a non andare contro un muro a volte richiede una vita ed un sacco di gente non impara mai.

--
Davide Bianchi


9 messages this document does not accept new posts

Previous Next


This site is made by me with blood, sweat and gunpowder, if you want to republish or redistribute any part of it, please drop me (or the author of the article if is not me) a mail.


This site was composed with VIM, now is composed with VIM and the (in)famous CMS FdT.

This site isn't optimized for vision with any specific browser, nor it requires special fonts or resolution.
You're free to see it as you wish.

Web Interoperability Pleadge Support This Project
Powered By Gojira