Storie dalla Sala Macchine |
Home Page | Commenti | Articoli | Faq | Documenti | Ricerca | Archivio | Storie dalla Sala Macchine | Contribuire | Imposta lingua:en it | Login/Register
Stamani, stavo discutendo con T dei vari bug trovati e da trovare nella nuova versione della web-application per gestire le varie impostazioni dell'antispam, quando l'applicazione in questione ha smesso completamente di rispondere. Dopo un paio di madonne (per la serie 'ok che stiamo cercando i bug, ma questo e' grosso come un rinoceronte'), ci siamo resi conto che il problema non era nell'applicazione ma nel fatto che una serie di macchine alla co-lo erano andate in palla.
Il problema e' stato rintracciato nel solito Omino In Salopet che ha staccato il cavo di alimentazione sbagliato togliendo la corrente a due racks che non c'entravano una beata fava.
Risultato, il nostro gateway di collegamento con la rete di management alla co-lo era kaputt, il database server che, incidentalmente, supporta tutte le applicazioni era kaputt ed un paio di altre macchine di quasi nessuna importanza (tipo il monitor che dovrebbe avvisarci di questi avvenimenti ed il server su cui gira la nostra applicazione di help-desk) erano kaputt. Dato che con il gateway kaputt non si poteva fare niente, Bart e' balzato sulla Bart-Mobile e si e' scapicollato alla co-lo (sciroppandosi 9 Km di colonna) e dopo un'oretta circa qualche cosa ha cominciato a resuscitare. Ed eccoti il problema.
Il foxxuto database su cui tutta la baracca si appoggia e' MySQL e si trova su un cluster composto da due server. Per qualche motivo il cluster non e' un cluster.
Nel senso che il server 'secondario' non ha heartbeat in funzione, percui in caso di collasso del primario non farebbe un tubazzo. Inoltre, i due nodi non hanno nessun servizio in condivisione a parte l'indirizzo IP. Hummm.... e allora che senso ha il cluster?
Semplice: entrambi i nodi hanno MySQL in funzione in configurazione master/slave in modo che i dati dal master siano replicati sullo slave... ma non viceversa ovviamente.
Dopo aver passato una mezz'ora domandandomi che senso ha il tutto, cerco di riavviare il foxxuto database e mi becco un bell'errore di MySQL. Una delle tabelle e' bacata. Ok, un repair table dopo funziona meglio, ma a questo punto mi accorgo che la replicazione sullo slave non sta funzionando ed apparentemente non ha funzionato per piu' di un mese.
Dopo le dovute bestemmie cerco di capire che senso ha l'avere un cluster che non e' un cluster ed un sistema master/slave che non sono master/slave, il passo successivo e', ovviamente, far ripartire la foxxuta replicazione. E qui' ti casca l'asina: meta' dei database in questo coso sono InnoDB, l'altra meta' MyISAM ed il tutto sono circa 80 Gb di roba.
Ed ovviamente, dato che questa chiavica e' il database principale su cui si appoggia l'intera combriccola, non e' possibile tenere il foxxuto coso spento per una mezz'ora mentre resincronizzo lo slave per far ripartire la merdosa replicazione.
Dopo una lunghissssssssimisssssssima giornata passata a sincronizzare la roba una alla vota, tirare madonne, copiare files, tirare altre madonne e, in generale, non fare quello che avrei voluto fare (un bel rm -fr e ripartiamo da capo che e' meglio), riesco finalmente ad avere il maledetto accorcchio in piedi di nuovo.
A questo punto ho aggiornato la pagina della documentazione relativa a quella chiavica e poi ho cominciato a mettere giu' una bella proposta per il mio prossimo progetto: rendere il cluster un vero cluster.
Adesso devo solo aspettare il prossimo "imprevisto"...
Davide
09/08/2008 00:00
I commenti sono aggiunti quando e soprattutto se ho il tempo di guardarli e dopo aver eliminato le cagate, spam, tentativi di phishing et similia. Quindi non trattenete il respiro.
Micky Di Micky postato il 08/09/2008 08:45
consolati, non sei da solo
Herr Franz Di Herr Franz postato il 08/09/2008 08:46
ma che sei tu? un veggente?
Gandolfo Ivo bofh@cuneo2lemon.net Di Gandolfo Ivo bofh@cuneo2lemon.net postato il 08/09/2008 08:46
BabboMatteo Di BabboMatteo postato il 08/09/2008 09:13
vorrei raccontare della settimana appena passata, la settimana del terrore, in cui:
a) lunedi' si sono 'sconfigurati' i DNS di buona parte dei nostri clienti (non dico di chi e' la colpa, diciamo che $CompagniaTelefonicaNazionale ci ha messo lo zampino), il nostro prode Sysadmin non ha smesso di rispondere al telefono dalle ore X alle ore X+$suoorariodilavoro o giu' di li';
b) venerdi', approssimativamente attorno alle ore 14 il motore dell'$antivirus di molti clienti ha deciso che c'era qualcosa che non andava - files di sistema cancellati a casaccio - bestemmie di clienti - aribestemmie di clienti - aiuto aiuto moriremo tutti...
E meno male che non lavoro piu' al TechSupp!!!
E qualcosa mi dice che oggi si ricomincia!!!
Tommaso Di Tommaso postato il 08/09/2008 09:14
Ma non sentivi pruderti i sensi di ragno quella mattina? forse era il caso di restare a letto!
pensavo fossero le zanzare...
Luca Bertoncello Di Luca Bertoncello postato il 08/09/2008 09:15
si, che e' quello che penso io quando mi dicono "cluster", invece pare che loro dicano "cluster" e intanto pensano "macchine separate con replicazione che non funziona"...
roberto Di roberto postato il 08/09/2008 09:17
si, tempo/soldi/possibilita permettendo...
franganghi Di franganghi postato il 08/09/2008 09:18
Devo aggiungere altro?
vedo molti falsi allarmi nel tuo futuro
rotellaro Di rotellaro postato il 08/09/2008 10:09
potrei ribadire che neanche PostGre lo e'... ma io sono di parte. E comunque, non e' una scelta mia
Tommaso Di Tommaso postato il 08/09/2008 10:09
>> Un catalyst singolo con un tunnel su rete pubblica.
> vedo molti falsi allarmi nel tuo futuro
Io invece credo di vedere un curriculum che si aggiorna...
Andrè Di Andrè postato il 08/09/2008 10:35
qui da noi ogni tanto il suddetto ci ricorda le sfide con la spada di monkey island (di cui dovresti avere un deja vu, in una delle tue storie)
Gama Di Gama postato il 08/09/2008 11:01
Ah gia', dimenticavo di dire che il "cluster" lo aveva configurato $fornitore e che $collegaSveglio ha dovuto lottare con le unghie e con i denti per rimettere in piedi il tutto dopo un'apocalisse atmosferica visto che la "configurazione" era inesistente e che il sistema risultava funzionante fintanto che non veniva spento.
Gama
WarfoX Di WarfoX postato il 08/09/2008 11:20
Emmenomale che io ho sempre scelto pgsql da 10 anni a sta parte.
Twister Di Twister postato il 08/09/2008 11:30
siediti in sala macchine ed aspetta, vedrai il cadavere del cluster passare... il guaio e' poi che sarai tu a doverlo rianimare.
Davide Di Davide postato il 08/09/2008 11:34
Passa a Windows che è meglio!!!!!!
(spero si intenda il senso ironico...)
Hummm... di fronte ad un non-cluster fatto cosi', pure SQL Server ha i suoi vantaggi eh...
ilSimo Di ilSimo postato il 08/09/2008 12:28
perche' no? consideri un DB solo l'oracolo?
No, non solo lui, io trovo che DB2 sia molto piu' "database" di PostGre e MySQL messi insieme. Certo, Oracle ha i suoi ca$$i pure lui, ma se devo scegliere un database sul quale appoggiare il 100% delle funzionalita' di una ditta commerciale (aka: ci fai i soldi), anche la licenza di Oracle non e' poi cosi' costosa.
roberto Di roberto postato il 08/09/2008 12:49
>...e meno male che non usate microblows sql waster!
>
>qui da noi ogni tanto il suddetto ci ricorda le sfide con la >spada di monkey island (di cui dovresti avere un deja vu, in >una delle tue storie)
Sto tremando, sto tremando!
rotellaro Di rotellaro postato il 08/09/2008 13:19
:P
Gama Di Gama postato il 08/09/2008 13:50
La scelta di oracoso secondo me dipende proprio dalle possibilità dell'azienda e dalla complessità di quello che ci deve girare sopra. Per quanto mi riguarda pero' non mi piace scrivere i miei programmi legandomi troppo alle possibilita' offerte dal database: mi e' gia' capitato troppe volte di dover riscrivere troppo per svincolarmi quando "le alte cerchie" hanno optato per un cambio di piattaforme.
Gama
Riccardo Cagnasso Di Riccardo Cagnasso postato il 08/09/2008 15:09
limaCAT Di limaCAT postato il 08/09/2008 18:48
io potrei dire che MySQL e PostGre lo sono
se hai bisogno della replicazione e usi DB2 hai gia' speso una barca si soldi, quindi non e' un problema
mai sentito il bisogno di fare un drop selettivo di colonne, l'unica situazione in cui posso immaginarlo e' durante lo sviluppo, ma allora puoi anche fare un drop dell'intero database
Sicuramente qualche cazzata più grave c'é, ma sono 6 mesi che non ci devo più lottare e sono riuscito a dimenticarmele poco per volta
Fanculo a DB2 ed anche a Websphere.
Sull'ultima parte concordo
KM Di KM postato il 09/09/2008 08:28
PS: quanto al drop selettivo delle colonne può capitare di farlo upgradando un'applicazione - può essere più veloce che copiare tutti i dati in una nuova tabella e droppare quella vecchia - specialmente con DB piuttosto cicciosi.
Cthulhu Di Cthulhu postato il 09/09/2008 08:28
C'ha tutto quello che serve e la replica la fai con rsync!
voglio vederti ad rsyncare 80 Gb...
insuperabilmente,
Cthulhu
Davide Di Davide postato il 10/09/2008 16:00
Avete voluto abbandonare MDB e DBF. Mò sò c@##i vostri!
L'MDB sinceramente non l'ho mai preso in considerazione, ed il DBF non lo ho abbandonato per scelta mia.
Zappa Di Zappa postato il 10/09/2008 19:42
>Non puoi fare il drop selettivo delle colonne dalle tabelle.
>Le butti giù, cambi tutti gli script e le ritiri su.
e invece ...
alter table NOMETABELLA drop NOMECOLONNA ;
Vabbe' che andavo meglio quando andavo giu' di Toad su Oracle, ma cribbio, DB2 te lo permette, di droppare una colonna!
... in attesa del prossimo lunedi', Davide!
ciao
Zappa
Paolo Di Paolo postato il 10/09/2008 19:42
ahaha
PS: WebSphere SUKA anche secondo me!
Massimo M. Di Massimo M. postato il 11/09/2008 08:50
Cosa e' cambiato che non ti convince piu'?
Non e' che non mi convince. Se devo scegliere un database 'gratuito' allora e' un conto, se devo scegliere un database su cui deve girare una azienda e' un altro conto.
Anche io ho avuto dei casini con p.g. (8.0 windows: nelle select non accettava i nomi di nessuna colonna, bug segnalato e poi risolto nella versione successiva)
Quale db free consigli per un uso professionale "light", che sia piu' che tutto affidabile (naturalmente parlando di dbms veri, che supportano almeno le chiavi esterne, integrita' referenziale, e acid)?
per un uso PROFESSIONALE, non consiglio un database free.
A suo tempo avevo provato anche sapdb, ma mi sembrava abbastanza pesante e incasinato.
Mr.Wolf Di Mr.Wolf postato il 11/09/2008 08:50
Ma ora ho la fortuna di essere passato dall'altra parte, e finalmente il consulente esterno di cui si fidano sono io!
... dato che prevenire e' meglio che curare, no non sono un gabbiano... al limite un pellicano!
Michele Montanari Di Michele Montanari postato il 11/09/2008 08:50
E vedessi quanto s'innajano sugli editor di testo o tool di sviluppo
maxgrante Di maxgrante postato il 11/09/2008 08:54
I problemi ci sono e ci saranno sempre, meglio cosi', senno' nada lavoro...
Comunque per la cronaca, ho appena avuto un'esperienza con Oracle e vi assicuro che anche lui tiene i suoi cazzi, anche piu' di MySQL per certi versi.
Soprattutto non capisco Oracle in contesti dove davvero non serve affatto... e' come sparare ad una mosca con un bazzuca...
Saluti!
KM Di KM postato il 11/09/2008 11:12
Templare Di Templare postato il 11/09/2008 11:32
Ciauz
Paolo Di Paolo postato il 11/09/2008 14:38
@Michele Montanari: bene bene, e quando ne parliamo che son curioso ed impaziente di imparare cose nuove e divertirmi un po'?
Tommaso Di Tommaso postato il 11/09/2008 15:17
Non so voi, ma io non vorrei essere nella pelle del signore incravattato che ha messo su l'accrocchio...
Nik Di Nik postato il 11/09/2008 19:30
Zappa Di Zappa postato il 12/09/2008 08:33
Non e' la tua Sala Macchine, vero? Pero' potresti farci un pensierino!
Questo sembra l'interno della co-lo, peccato che le fotografie non trasmettano anche i suoni. Sono sicuro che la "colonna sonora" sarebbe una roba tipo "WROOOOOOOOOOOOOOOOOOO...." (per non parlare del clima)
(l'immagine fa vedere una parte dei servers GNU/Linux del CERN per l'esperimento LHC. E c'e' una sola consolle (almeno se ne vede una)
Ciao!
Andrea
Alfredo Di Alfredo postato il 12/09/2008 10:33
Io mi ritrovo a fare il programmatore scimmia con linguaggi nati prima 1989 ( anno di pubblicazione del mio manuale ) con altri 1432 persone, tutte ammassate in una sola stanza di 10x10 (centrimeti) e con una temperatura che varia dai 40° in inverno a gli 80° in estate...
Voglio anche io una sala macchine con clima, rumore di dischi che girano e pc da demolire...
....
Penso di lavorare troppo...
si, di sicuro.
Va be ciao...
Paolo Di Paolo postato il 12/09/2008 14:52
e io che cercavo di dimenticare...
Il presente sito e' frutto del sudore della mia fronte (e delle mie dita), se siete interessati a ripubblicare uno degli articoli, documenti o qualunque altra cosa presente in questo sito per cortesia datemene comunicazione (o all'autore dell'articolo se non sono io), cosi' il giorno che faccio delle aggiunte potro' avvisarvi e magari mandarvi il testo aggiornato.
Questo sito era composto con VIM, ora e' composto con VIM ed il famosissimo CMS FdT.
Questo sito non e' ottimizzato per la visione con nessun browser particolare, ne' richiede l'uso di font particolari o risoluzioni speciali. Siete liberi di vederlo come vi pare e piace, o come disse qualcuno: "Finalmente uno dei POCHI siti che ancora funzionano con IE5 dentro Windows 3.1".