Tales from the Machine Room |
Stamani, stavo discutendo con T dei vari bug trovati e da trovare nella nuova versione della web-application per gestire le varie impostazioni dell'antispam, quando l'applicazione in questione ha smesso completamente di rispondere. Dopo un paio di madonne (per la serie 'ok che stiamo cercando i bug, ma questo e' grosso come un rinoceronte'), ci siamo resi conto che il problema non era nell'applicazione ma nel fatto che una serie di macchine alla co-lo erano andate in palla.
Il problema e' stato rintracciato nel solito Omino In Salopet che ha staccato il cavo di alimentazione sbagliato togliendo la corrente a due racks che non c'entravano una beata fava.
Risultato, il nostro gateway di collegamento con la rete di management alla co-lo era kaputt, il database server che, incidentalmente, supporta tutte le applicazioni era kaputt ed un paio di altre macchine di quasi nessuna importanza (tipo il monitor che dovrebbe avvisarci di questi avvenimenti ed il server su cui gira la nostra applicazione di help-desk) erano kaputt. Dato che con il gateway kaputt non si poteva fare niente, Bart e' balzato sulla Bart-Mobile e si e' scapicollato alla co-lo (sciroppandosi 9 Km di colonna) e dopo un'oretta circa qualche cosa ha cominciato a resuscitare. Ed eccoti il problema.
Il foxxuto database su cui tutta la baracca si appoggia e' MySQL e si trova su un cluster composto da due server. Per qualche motivo il cluster non e' un cluster.
Nel senso che il server 'secondario' non ha heartbeat in funzione, percui in caso di collasso del primario non farebbe un tubazzo. Inoltre, i due nodi non hanno nessun servizio in condivisione a parte l'indirizzo IP. Hummm.... e allora che senso ha il cluster?
Semplice: entrambi i nodi hanno MySQL in funzione in configurazione master/slave in modo che i dati dal master siano replicati sullo slave... ma non viceversa ovviamente.
Dopo aver passato una mezz'ora domandandomi che senso ha il tutto, cerco di riavviare il foxxuto database e mi becco un bell'errore di MySQL. Una delle tabelle e' bacata. Ok, un repair table dopo funziona meglio, ma a questo punto mi accorgo che la replicazione sullo slave non sta funzionando ed apparentemente non ha funzionato per piu' di un mese.
Dopo le dovute bestemmie cerco di capire che senso ha l'avere un cluster che non e' un cluster ed un sistema master/slave che non sono master/slave, il passo successivo e', ovviamente, far ripartire la foxxuta replicazione. E qui' ti casca l'asina: meta' dei database in questo coso sono InnoDB, l'altra meta' MyISAM ed il tutto sono circa 80 Gb di roba.
Ed ovviamente, dato che questa chiavica e' il database principale su cui si appoggia l'intera combriccola, non e' possibile tenere il foxxuto coso spento per una mezz'ora mentre resincronizzo lo slave per far ripartire la merdosa replicazione.
Dopo una lunghissssssssimisssssssima giornata passata a sincronizzare la roba una alla vota, tirare madonne, copiare files, tirare altre madonne e, in generale, non fare quello che avrei voluto fare (un bel rm -fr e ripartiamo da capo che e' meglio), riesco finalmente ad avere il maledetto accorcchio in piedi di nuovo.
A questo punto ho aggiornato la pagina della documentazione relativa a quella chiavica e poi ho cominciato a mettere giu' una bella proposta per il mio prossimo progetto: rendere il cluster un vero cluster.
Adesso devo solo aspettare il prossimo "imprevisto"...
Davide
09/08/2008 00:00
Comments are added when and more important if I have the time to review them and after removing Spam, Crap, Phishing and the like. So don't hold your breath. And if your comment doesn't appear, is probably becuase it wasn't worth it.
Herr Franz
By Herr Franz - posted 08/09/2008 08:46
Gandolfo Ivo bofh@cuneo2lemon.net
By Gandolfo Ivo bofh@cuneo2lemon.net - posted 08/09/2008 08:46
BabboMatteo
By BabboMatteo - posted 08/09/2008 09:13
Tommaso
By Tommaso - posted 08/09/2008 09:14
Ma non sentivi pruderti i sensi di ragno quella mattina? forse era il caso di restare a letto!
pensavo fossero le zanzare...
Luca Bertoncello
By Luca Bertoncello - posted 08/09/2008 09:15
roberto
By roberto - posted 08/09/2008 09:17
franganghi
By franganghi - posted 08/09/2008 09:18
rotellaro
By rotellaro - posted 08/09/2008 10:09
Tommaso
By Tommaso - posted 08/09/2008 10:09
Andrè
By Andrè - posted 08/09/2008 10:35
Gama
By Gama - posted 08/09/2008 11:01
WarfoX
By WarfoX - posted 08/09/2008 11:20
Twister
By Twister - posted 08/09/2008 11:30
Davide
By Davide - posted 08/09/2008 11:34
Passa a Windows che è meglio!!!!!!
(spero si intenda il senso ironico...)
Hummm... di fronte ad un non-cluster fatto cosi', pure SQL Server ha i suoi vantaggi eh...
ilSimo
By ilSimo - posted 08/09/2008 12:28
roberto
By roberto - posted 08/09/2008 12:49
rotellaro
By rotellaro - posted 08/09/2008 13:19
Gama
By Gama - posted 08/09/2008 13:50
Riccardo Cagnasso
By Riccardo Cagnasso - posted 08/09/2008 15:09
limaCAT
By limaCAT - posted 08/09/2008 18:48
Fanculo a DB2 ed anche a Websphere.
Sull'ultima parte concordo
KM
By KM - posted 09/09/2008 08:28
Cthulhu
By Cthulhu - posted 09/09/2008 08:28
C'ha tutto quello che serve e la replica la fai con rsync!
voglio vederti ad rsyncare 80 Gb...
insuperabilmente,
Cthulhu
Davide
By Davide - posted 10/09/2008 16:00
Avete voluto abbandonare MDB e DBF. Mò sò c@##i vostri!
L'MDB sinceramente non l'ho mai preso in considerazione, ed il DBF non lo ho abbandonato per scelta mia.
Zappa
By Zappa - posted 10/09/2008 19:42
Paolo
By Paolo - posted 10/09/2008 19:42
Massimo M.
By Massimo M. - posted 11/09/2008 08:50
Quale db free consigli per un uso professionale "light", che sia piu' che tutto affidabile (naturalmente parlando di dbms veri, che supportano almeno le chiavi esterne, integrita' referenziale, e acid)?
per un uso PROFESSIONALE, non consiglio un database free.
A suo tempo avevo provato anche sapdb, ma mi sembrava abbastanza pesante e incasinato.
Mr.Wolf
By Mr.Wolf - posted 11/09/2008 08:50
Michele Montanari
By Michele Montanari - posted 11/09/2008 08:50
maxgrante
By maxgrante - posted 11/09/2008 08:54
I problemi ci sono e ci saranno sempre, meglio cosi', senno' nada lavoro... ![]()
Comunque per la cronaca, ho appena avuto un'esperienza con Oracle e vi assicuro che anche lui tiene i suoi cazzi, anche piu' di MySQL per certi versi.
Soprattutto non capisco Oracle in contesti dove davvero non serve affatto... e' come sparare ad una mosca con un bazzuca...
Saluti!
KM
By KM - posted 11/09/2008 11:12
Templare
By Templare - posted 11/09/2008 11:32
Ciauz
Paolo
By Paolo - posted 11/09/2008 14:38
Tommaso
By Tommaso - posted 11/09/2008 15:17
Nik
By Nik - posted 11/09/2008 19:30
Zappa
By Zappa - posted 12/09/2008 08:33
Non e' la tua Sala Macchine, vero? Pero' potresti farci un pensierino!
Questo sembra l'interno della co-lo, peccato che le fotografie non trasmettano anche i suoni. Sono sicuro che la "colonna sonora" sarebbe una roba tipo "WROOOOOOOOOOOOOOOOOOO...." (per non parlare del clima)
(l'immagine fa vedere una parte dei servers GNU/Linux del CERN per l'esperimento LHC. E c'e' una sola consolle (almeno se ne vede una)
Ciao!
Andrea
Alfredo
By Alfredo - posted 12/09/2008 10:33
Io mi ritrovo a fare il programmatore scimmia con linguaggi nati prima 1989 ( anno di pubblicazione del mio manuale ) con altri 1432 persone, tutte ammassate in una sola stanza di 10x10 (centrimeti) e con una temperatura che varia dai 40° in inverno a gli 80° in estate...
Voglio anche io una sala macchine con clima, rumore di dischi che girano e pc da demolire...
....
Penso di lavorare troppo...
si, di sicuro.
Va be ciao...
Paolo
By Paolo - posted 12/09/2008 14:52
This site is made by me with blood, sweat and gunpowder, if you want to republish or redistribute any part of it, please drop me (or the author of the article if is not me) a mail.
This site was composed with VIM, now is composed with VIM and the (in)famous CMS FdT.
This site isn't optimized for vision with any specific browser, nor
it requires special fonts or resolution.
You're free to see it as you wish.