Tales from the Machine Room


Home Page | Comments | Articles | Faq | Documents | Search | Archive | Tales from the Machine Room | Contribute | Login/Register

Emergenza Emergente Emergenziale

Sono le 4.45 del mattino, ed io me ne sto' a letto (e che credevate?) a pensarmi ai fattacci miei, quando il malefico guinzagliocellofono aziendale che mi e' stato magnanimamente rifilato questa settimana per il foxxuto "standby" per le emergenze si mette a suonare.

Il che significa che ci sono problemi. Vabbe', tanto ero gia' sveglio.

Attaccato il lapdog noto con dispiacere che ben 3 hosts appartenenti a $cliente sono riportati in rosso sul pannello di controllo, un rapido controllo nella mia documentazione mi dice che quei 3 cosi sono altrettante macchine virtuali ospitate su un unico host. Il che significa che molto probabilmente e' l'host che ha dei problemucci. Ed un rapido controllo mi dice che la mia intuizione e' correttissima. Il foxxuto host e' kaputt. Niente ping, niente ssh, niente di niente.

Okkido', e' tempo di chiamare il datacenter e domandare al teNNico di turno di investigare.

Al duecentosettantatreesimo squillo finalmente quello risponde. Con una voce che pare venire direttamente dall'oltretomba. Io lo istruisco di andare all'armadio, attaccare uno schermo, fare una foto allo schermo e mandarmela e poi richiamarmi cosi' decideremo il daffarsi, nel frattempo io metto su' la coccuma per il caffe'.

Dopo un 10 minuti circa mi risuona il cellofono, ed e' il pinguino telecomandato dal datacenter che si e' perso e non sa piu' quale macchina deve guardare. Io glielo ri-spiego.

Dopo altri cinque minuti il tipo mi richiama direttamente dalla sala (boato in sottofondo).

CL - Sono qui' davanti al rack, quale e' la macchina?
IO - La prima in basso, quella marcata 'VM01'.
CL - Non c'e' nessuna macchina marcata 'VM01' qui'.
IO - Ma sei davanti all'armado F15?
CL - Si'... ah no, 'spetta... mortacc.. dann... (rumore di armadi che vengono chiusi e riaperti) Allora, adesso sono davanti all'armadio... VM01... no, non c'e' nessuna macchina marcata VM01.
IO - Hu? Mi leggi per cortesia i nomi dei server che ci sono dentro?
CL - Allora, $nomemaisentito01, $nomemaisentito02...
IO - Heeee... momento! Ma sei sicuro di essere nella "suite 21"?
CL - Sui... ti richiamo...

Passano altri dieci minuti...

CL - Allora, VM01 eh? Eccola qui'.
IO - Ok, allora, che leggi?
CL - Mah, non so, l'ho appena riavviata adesso...
IO - Come sarebbe a dire "l'hai appena riavviata"??? Ti ho detto di attaccare un monitor e leggere che dice!
CL - ...oeps...

Tirando madonne mi metto a guardare che dice lo switch, dopo un paio di minuti la macchina sembra riprendere vita, quindi stramaledico CL e vedo che accidenti e' successo.

A quanto pare un bel kernel panic, ma il log e' vuoto (!) e non mi dice un tubo, ma a parte quello pare tutto a posto. Nessun errore riportato, i dischi sembrano ok... Sto' per riavviare le macchine virtuali ospitate quande mi ri-suona il cellofono.

IO - Sono D di...
UL - AAAAAHHHH!!! PANICO! CRISI! TERRORE!!!
IO - ??? E chi accidenti sei tu?
UL - Sono UL di $cliente. I nostri siti interdet sono down!! Terrore! Panico! Raccapriccio!
IO - Si', ho gia' visto, un problema con l'host, comunque e' stato riavviato dal tecnico del datacenter e stavo giusto per riavvia...
UL - PANICO! TERRORE! Non possiamo avere downtime su quei siti!!!
(mepensa: ma non sono neanche le cinque del mattino! chi straca$$o se ne frega del tuo foxxuto sito interdet?)
IO - Calma e sangue freddo, i server sono gia' stati riavviati, in un paio di minuti dovrebbero ritornare in vita.
UL - Ma che e' successo?? Voglio un rapporto dettagliato delle cause ed un piano procedurale per l'evitare del ripetersi degli eventi!
(mepensa: se invece che usare hardware dell'anteguerra e software aggrattisse tu spendessi dei soldi magari...)
IO - Al momento non ho elementi per fare una analisi specifica, dovremo andare a vedere di persona, comunque ricevera' una analisi degli eventi nel giro di un paio di giorni.

Comunquesia, dopo un paio di minuti i foxxuti siti interdet del pinguino erano di nuovo vivi e vegeti ed il rompimarroni mi ha finalmente lasciato andare a prendere il caffe'. Pero' mi e' rimasto un dubbio: come straca$$o ha fatto ad accorgersi che i suoi siti interdet erano down alle cinque del mattino? Ok che la moglie probabilmente non lo caga nemmeno piu', ma sei davvero ridotto al punto di guardarti il tuo sito interdet alle cinque del mattino? Mah...

E mi sa che dovremmo anche fare un paio di chiacchere con quelli del datacenter sulla differenza tra "guarda e riferisci" e "riavvia".

Davide
21/03/2011 08:00

Previous Next

Comments are added when and more important if I have the time to review them and after removing Spam, Crap, Phishing and the like. So don't hold your breath. And if your comment doesn't appear, is probably becuase it wasn't worth it.

17 messages this document does not accept new posts
Mattia By Mattia - posted 21/03/2011 08:23

>come straca$$o ha fatto ad accorgersi che i suoi siti interdet erano down alle cinque del mattino

Puoi chiamarlo attaccamento al lavoro: ancora prima di andare in ufficio gia' era al lavoro per intervenire proattivamente yada yada...

O piu' semplicemente, sapendo che il branco di babbuini che ha gestito l'applicazione ha il quoziete intelletivo di un mollusco, se lo sentiva ed ha controllato, datosi anche che probabilmente essendo LUI il Project Mangler temeva per la SUA pelle.

--
Mattia


Mallin shetland By Mallin shetland - posted 21/03/2011 08:23

... Pero' mi e' rimasto un dubbio: come straca$$o ha fatto ad accorgersi che i suoi siti interdet erano down alle cinque del mattino? Ok che la moglie probabilmente non lo caga nemmeno piu', ma sei davvero ridotto al punto di guardarti il tuo sito interdet alle cinque del mattino? Mah...

 

Forse perché la terra è rotonda è le cinque di mattina a casa tua son il mezzogiorno a casa di qualcun altro.

Forse perhè UL ha messo un controllo da qualche parte che lo avverte che il sito non è raggiungibile.

Forse perché è stato svegliato anche lui alle cinque si mattina da qualche altro UL.

--
Mallin shetland


Io By Io - posted 21/03/2011 09:08

Si scrive chiacchiere con la i :\)

--
Io


Paolo By Paolo - posted 21/03/2011 09:54

Una ILO o sistema analogo sarebbe stata più efficiente del pinguino telecomandato, ma poi non potresti scriverci le storie che allietano il lunedì mattina... Ciao !

 

--
Paolo


argaar By argaar - posted 21/03/2011 10:06

non voglio credere che sia messo così male, penso che al massimo abbia un sistema che gli fa squillare il telefono, ce l'ho anche io e un paio di volte di notte mi ha suonato, dopo il secondo squillo, visto che si trattava del mio server ho potuto bellamente ignorare la cosa e mi sono rimesso a dormire

--
argaar


Carlo By Carlo - posted 21/03/2011 10:12

Spero che oltre alla consegna di cellofono aziendale sia stato consegnato adeguato compenso monetario per la frullata di maroni...

--
--
Carlo


Luca BG By Luca BG - posted 21/03/2011 10:23

Benvenuto ad una normale settimana di reperibiità presso $grandeDitta ed i suoi cliUnti.

--
Luca BG


Kurgan By Kurgan - posted 21/03/2011 10:44

E` evidente che il tennico del datacenter e` un adoratore di windows. Ergo, per lui e` assolutamente normale che un server si incarti, ed e` altrettanto normale che la risposta a questo tipo di evento non sia "analizzare cosa e` successo" ma semplicemente "premere reset e tornare a giocare a farmville".

E` cosi` abituato che l'ha fatto senza nemmeno pensarci, perche` e` chiaro che nella sua testa non esisteva un'altra strada.

--
Il massimo danno con il minimo sforzo


Alberto By Alberto - posted 21/03/2011 11:01

A volte me lo chiedo anch'io, perchè i nostri clienti durenta le notte o alla domenica non hanno niente di meglio da fare che controllare i loro siti.

Ma mi spieghi come è possibile che alle 5.00 del mattino un cliente possa chiamarti direttamente? Fa parte del vostro picchetto?

--
Alberto


ringo By ringo - posted 21/03/2011 11:32

Ma erano le 5 del mattino ora europea: siamo sicuri che fossero le 5 del mattino anche nel fuso dell'UL pinguino?

--
ringo


Zaku By Zaku - posted 21/03/2011 11:34

Ora la curiosità si impone... come si dice "mortacc..." in olandese...

--
Zaku


Il codardo senza nome By Il codardo senza nome - posted 21/03/2011 11:38

Esiste solo un genere di sito che viene visitato a qualsiasi ora del giorno e non può essere downtime: pRon... 

--
Il codardo senza nome


Giulio By Giulio - posted 21/03/2011 13:13

Sei cosciente, vero, che, per la legge di Murphy, ciò che è accaduto riaccadrà in orario di punta? E che troverai lo stesso tecnico di oggi, che riavvierà di nuovo il server?

--
Giulio


eagle1 By eagle1 - posted 21/03/2011 13:21

Davide, scusa se te lo dico, ma prendere delle macchine con un KVM integrato? :D Sono la salvezza, sometimes :\)

--
eagle1


mk66 By mk66 - posted 21/03/2011 13:59

> ma sei davvero ridotto al punto di guardarti il tuo sito interdet alle cinque del mattino?

Non è che si tratta del sito aziendale di qualche azienda sul tipo di playboy? cheeky

 

> E mi sa che dovremmo anche fare un paio di chiacchere con quelli del datacenter sulla differenza tra "guarda e riferisci" e "riavvia".

Dai, ha seguito le indicazioni classiche dell'assistenza di windows: qualsiasi cosa succede, riavvia...

 

--
mk66


Anonymous coward By Anonymous coward - posted 21/03/2011 21:42

A. ho il sospetto che sia stato UL a buttare giu' il server... che abbia un account amministrativo perche "non si sa mai" e "aspetta io-sono-figo no l'insonnia e aggiorno il kernel", ha fatto scoppiare la grana ed ora da la colpa a terzi per pararsi il culo?

B. non si devi chiamare "pinguini" gli UL che se no uno pensa che quel cari animaletti sono usati a simbolo del cretino di turno al posto di simboleggiare un buon kernel...

--
Anonymous coward


Mr.Wolf By Mr.Wolf - posted 22/03/2011 13:10

Me pensa: VM01 e' un nome abbastanza comune...

Con tutti gli armadi che ha girato e' gia' molto che non abbia "controllato"  il server di altri!

Ma le persone che lavorano in quel datacenter girano vestite in salopette?

Daniele

--
Mr.Wolf


17 messages this document does not accept new posts

Previous Next


This site is made by me with blood, sweat and gunpowder, if you want to republish or redistribute any part of it, please drop me (or the author of the article if is not me) a mail.


This site was composed with VIM, now is composed with VIM and the (in)famous CMS FdT.

This site isn't optimized for vision with any specific browser, nor it requires special fonts or resolution.
You're free to see it as you wish.

Web Interoperability Pleadge Support This Project
Powered By Gojira