Storie dalla Sala Macchine


Home Page | Commenti | Articoli | Faq | Documenti | Ricerca | Archivio | Storie dalla Sala Macchine | Contribuire | Imposta lingua:en it | Login/Register


Emergenza Emergente Emergenziale

Sono le 4.45 del mattino, ed io me ne sto' a letto (e che credevate?) a pensarmi ai fattacci miei, quando il malefico guinzagliocellofono aziendale che mi e' stato magnanimamente rifilato questa settimana per il foxxuto "standby" per le emergenze si mette a suonare.

Il che significa che ci sono problemi. Vabbe', tanto ero gia' sveglio.

Attaccato il lapdog noto con dispiacere che ben 3 hosts appartenenti a $cliente sono riportati in rosso sul pannello di controllo, un rapido controllo nella mia documentazione mi dice che quei 3 cosi sono altrettante macchine virtuali ospitate su un unico host. Il che significa che molto probabilmente e' l'host che ha dei problemucci. Ed un rapido controllo mi dice che la mia intuizione e' correttissima. Il foxxuto host e' kaputt. Niente ping, niente ssh, niente di niente.

Okkido', e' tempo di chiamare il datacenter e domandare al teNNico di turno di investigare.

Al duecentosettantatreesimo squillo finalmente quello risponde. Con una voce che pare venire direttamente dall'oltretomba. Io lo istruisco di andare all'armadio, attaccare uno schermo, fare una foto allo schermo e mandarmela e poi richiamarmi cosi' decideremo il daffarsi, nel frattempo io metto su' la coccuma per il caffe'.

Dopo un 10 minuti circa mi risuona il cellofono, ed e' il pinguino telecomandato dal datacenter che si e' perso e non sa piu' quale macchina deve guardare. Io glielo ri-spiego.

Dopo altri cinque minuti il tipo mi richiama direttamente dalla sala (boato in sottofondo).

CL - Sono qui' davanti al rack, quale e' la macchina?
IO - La prima in basso, quella marcata 'VM01'.
CL - Non c'e' nessuna macchina marcata 'VM01' qui'.
IO - Ma sei davanti all'armado F15?
CL - Si'... ah no, 'spetta... mortacc.. dann... (rumore di armadi che vengono chiusi e riaperti) Allora, adesso sono davanti all'armadio... VM01... no, non c'e' nessuna macchina marcata VM01.
IO - Hu? Mi leggi per cortesia i nomi dei server che ci sono dentro?
CL - Allora, $nomemaisentito01, $nomemaisentito02...
IO - Heeee... momento! Ma sei sicuro di essere nella "suite 21"?
CL - Sui... ti richiamo...

Passano altri dieci minuti...

CL - Allora, VM01 eh? Eccola qui'.
IO - Ok, allora, che leggi?
CL - Mah, non so, l'ho appena riavviata adesso...
IO - Come sarebbe a dire "l'hai appena riavviata"??? Ti ho detto di attaccare un monitor e leggere che dice!
CL - ...oeps...

Tirando madonne mi metto a guardare che dice lo switch, dopo un paio di minuti la macchina sembra riprendere vita, quindi stramaledico CL e vedo che accidenti e' successo.

A quanto pare un bel kernel panic, ma il log e' vuoto (!) e non mi dice un tubo, ma a parte quello pare tutto a posto. Nessun errore riportato, i dischi sembrano ok... Sto' per riavviare le macchine virtuali ospitate quande mi ri-suona il cellofono.

IO - Sono D di...
UL - AAAAAHHHH!!! PANICO! CRISI! TERRORE!!!
IO - ??? E chi accidenti sei tu?
UL - Sono UL di $cliente. I nostri siti interdet sono down!! Terrore! Panico! Raccapriccio!
IO - Si', ho gia' visto, un problema con l'host, comunque e' stato riavviato dal tecnico del datacenter e stavo giusto per riavvia...
UL - PANICO! TERRORE! Non possiamo avere downtime su quei siti!!!
(mepensa: ma non sono neanche le cinque del mattino! chi straca$$o se ne frega del tuo foxxuto sito interdet?)
IO - Calma e sangue freddo, i server sono gia' stati riavviati, in un paio di minuti dovrebbero ritornare in vita.
UL - Ma che e' successo?? Voglio un rapporto dettagliato delle cause ed un piano procedurale per l'evitare del ripetersi degli eventi!
(mepensa: se invece che usare hardware dell'anteguerra e software aggrattisse tu spendessi dei soldi magari...)
IO - Al momento non ho elementi per fare una analisi specifica, dovremo andare a vedere di persona, comunque ricevera' una analisi degli eventi nel giro di un paio di giorni.

Comunquesia, dopo un paio di minuti i foxxuti siti interdet del pinguino erano di nuovo vivi e vegeti ed il rompimarroni mi ha finalmente lasciato andare a prendere il caffe'. Pero' mi e' rimasto un dubbio: come straca$$o ha fatto ad accorgersi che i suoi siti interdet erano down alle cinque del mattino? Ok che la moglie probabilmente non lo caga nemmeno piu', ma sei davvero ridotto al punto di guardarti il tuo sito interdet alle cinque del mattino? Mah...

E mi sa che dovremmo anche fare un paio di chiacchere con quelli del datacenter sulla differenza tra "guarda e riferisci" e "riavvia".

Davide
21/03/2011 08:00

Precedente Successivo

I commenti sono aggiunti quando e soprattutto se ho il tempo di guardarli e dopo aver eliminato le cagate, spam, tentativi di phishing et similia. Quindi non trattenete il respiro.

17 messaggi this document does not accept new posts

Mattia

Di Mattia postato il 21/03/2011 08:23

>come straca$$o ha fatto ad accorgersi che i suoi siti interdet erano down alle cinque del mattino

Puoi chiamarlo attaccamento al lavoro: ancora prima di andare in ufficio gia' era al lavoro per intervenire proattivamente yada yada...

O piu' semplicemente, sapendo che il branco di babbuini che ha gestito l'applicazione ha il quoziete intelletivo di un mollusco, se lo sentiva ed ha controllato, datosi anche che probabilmente essendo LUI il Project Mangler temeva per la SUA pelle.

-- Mattia

Mallin shetland

Di Mallin shetland postato il 21/03/2011 08:23

... Pero' mi e' rimasto un dubbio: come straca$$o ha fatto ad accorgersi che i suoi siti interdet erano down alle cinque del mattino? Ok che la moglie probabilmente non lo caga nemmeno piu', ma sei davvero ridotto al punto di guardarti il tuo sito interdet alle cinque del mattino? Mah...

 

Forse perché la terra è rotonda è le cinque di mattina a casa tua son il mezzogiorno a casa di qualcun altro.

Forse perhè UL ha messo un controllo da qualche parte che lo avverte che il sito non è raggiungibile.

Forse perché è stato svegliato anche lui alle cinque si mattina da qualche altro UL.

-- Mallin shetland

Io

Di Io postato il 21/03/2011 09:08

Si scrive chiacchiere con la i :\)

-- Io

Paolo

Di Paolo postato il 21/03/2011 09:54

Una ILO o sistema analogo sarebbe stata più efficiente del pinguino telecomandato, ma poi non potresti scriverci le storie che allietano il lunedì mattina... Ciao !

 

-- Paolo

argaar

Di argaar postato il 21/03/2011 10:06

non voglio credere che sia messo così male, penso che al massimo abbia un sistema che gli fa squillare il telefono, ce l'ho anche io e un paio di volte di notte mi ha suonato, dopo il secondo squillo, visto che si trattava del mio server ho potuto bellamente ignorare la cosa e mi sono rimesso a dormire

-- argaar

Carlo

Di Carlo postato il 21/03/2011 10:12

Spero che oltre alla consegna di cellofono aziendale sia stato consegnato adeguato compenso monetario per la frullata di maroni...

-- --
Carlo

Luca BG

Di Luca BG postato il 21/03/2011 10:23

Benvenuto ad una normale settimana di reperibiità presso $grandeDitta ed i suoi cliUnti.

-- Luca BG

Kurgan

Di Kurgan postato il 21/03/2011 10:44

E` evidente che il tennico del datacenter e` un adoratore di windows. Ergo, per lui e` assolutamente normale che un server si incarti, ed e` altrettanto normale che la risposta a questo tipo di evento non sia "analizzare cosa e` successo" ma semplicemente "premere reset e tornare a giocare a farmville".

E` cosi` abituato che l'ha fatto senza nemmeno pensarci, perche` e` chiaro che nella sua testa non esisteva un'altra strada.

-- Il massimo danno con il minimo sforzo

Alberto

Di Alberto postato il 21/03/2011 11:01

A volte me lo chiedo anch'io, perchè i nostri clienti durenta le notte o alla domenica non hanno niente di meglio da fare che controllare i loro siti.

Ma mi spieghi come è possibile che alle 5.00 del mattino un cliente possa chiamarti direttamente? Fa parte del vostro picchetto?

-- Alberto

ringo

Di ringo postato il 21/03/2011 11:32

Ma erano le 5 del mattino ora europea: siamo sicuri che fossero le 5 del mattino anche nel fuso dell'UL pinguino?

-- ringo

Zaku

Di Zaku postato il 21/03/2011 11:34

Ora la curiosità si impone... come si dice "mortacc..." in olandese...

-- Zaku

Il codardo senza nome

Di Il codardo senza nome postato il 21/03/2011 11:38

Esiste solo un genere di sito che viene visitato a qualsiasi ora del giorno e non può essere downtime: pRon... 

-- Il codardo senza nome

Giulio

Di Giulio postato il 21/03/2011 13:13

Sei cosciente, vero, che, per la legge di Murphy, ciò che è accaduto riaccadrà in orario di punta? E che troverai lo stesso tecnico di oggi, che riavvierà di nuovo il server?

-- Giulio

eagle1

Di eagle1 postato il 21/03/2011 13:21

Davide, scusa se te lo dico, ma prendere delle macchine con un KVM integrato? :D Sono la salvezza, sometimes :\)

-- eagle1

mk66

Di mk66 postato il 21/03/2011 13:59

> ma sei davvero ridotto al punto di guardarti il tuo sito interdet alle cinque del mattino?

Non è che si tratta del sito aziendale di qualche azienda sul tipo di playboy? cheeky

 

> E mi sa che dovremmo anche fare un paio di chiacchere con quelli del datacenter sulla differenza tra "guarda e riferisci" e "riavvia".

Dai, ha seguito le indicazioni classiche dell'assistenza di windows: qualsiasi cosa succede, riavvia...

 

-- mk66

Anonymous coward

Di Anonymous coward postato il 21/03/2011 21:42

A. ho il sospetto che sia stato UL a buttare giu' il server... che abbia un account amministrativo perche "non si sa mai" e "aspetta io-sono-figo no l'insonnia e aggiorno il kernel", ha fatto scoppiare la grana ed ora da la colpa a terzi per pararsi il culo?

B. non si devi chiamare "pinguini" gli UL che se no uno pensa che quel cari animaletti sono usati a simbolo del cretino di turno al posto di simboleggiare un buon kernel...

-- Anonymous coward

Mr.Wolf

Di Mr.Wolf postato il 22/03/2011 13:10

Me pensa: VM01 e' un nome abbastanza comune...

Con tutti gli armadi che ha girato e' gia' molto che non abbia "controllato"  il server di altri!

Ma le persone che lavorano in quel datacenter girano vestite in salopette?

Daniele

-- Mr.Wolf

17 messaggi this document does not accept new posts

Precedente Successivo


Il presente sito e' frutto del sudore della mia fronte (e delle mie dita), se siete interessati a ripubblicare uno degli articoli, documenti o qualunque altra cosa presente in questo sito per cortesia datemene comunicazione (o all'autore dell'articolo se non sono io), cosi' il giorno che faccio delle aggiunte potro' avvisarvi e magari mandarvi il testo aggiornato.


Questo sito era composto con VIM, ora e' composto con VIM ed il famosissimo CMS FdT.

Questo sito non e' ottimizzato per la visione con nessun browser particolare, ne' richiede l'uso di font particolari o risoluzioni speciali. Siete liberi di vederlo come vi pare e piace, o come disse qualcuno: "Finalmente uno dei POCHI siti che ancora funzionano con IE5 dentro Windows 3.1".

Web Interoperability Pleadge Support This Project
Powered By Gojira