Tales from the Machine Room |
Home Page | Comments | Articles | Faq | Documents | Search | Archive | Tales from the Machine Room | Contribute | Set language to:en it | Login/Register
E finalmente, dopo una settimana di influenza spaccacranio, ritorno in ufficio e mi scontro subito con un bel casino. Ne sentivo la mancanza.
Ho gia' descritto anche troppo il nostro famoso "cluster" di scansione della posta. Basti dire che esistono 'n' (con n==4) server di ingresso. Questi non solo accettano la posta ma fanno anche il primo controllo (blacklisting, spf, dkim, graylisting e vari riti voodoo per purificare il contenuto delle mail). Orbene, io arrivo in ufficio alle otto del mattino, attacco il mio lapdog e scopro che tutti e 4 i server di input sono inattivi.
Morti, cadaveri, kaputt. Niente ping, ssh, smtp. Nada!
Mi attacco alla console remota e scopro che tutti e 4 i server sono in Kernel Panic. Prima che il Panic venga ai nostri clienti decido di avvisare subito Bert (cosi' sa cosa raccontare quando cominciano a telefonare) e poi procedo a riavviare i servers.
Avvia il primo, avvia il secondo ed il primo e' di nuovo in panic. Riavvia il primo, avvia il terzo ed il secondo e' in panic... Dopo aver madonnato per una buona oretta continuando a saltare da una console all'altra come un giocoliere che cerca di tenere dei piatti in bilico sui bastoni, i quattro maledetti ripigliano vita e la posta ricomincia a fluire.
Un rapido controllo pare imputare il problema al solito maledetto XFS che si incarta ogni due per tre. Ergo, decido di prendere il toro per le corna, acchiappo DaBoss e gli propongo la reinstallazione seduta stante di tutto l'ambaradan usando la nuova configurazione da me messa a punto.
Quindi acchiappo un paio di server ed 8 (otto) dischi fissi ed installo 4 server (1 server di input, 2 server di scan, 1 server di output) in modo da sostituire meta' di uno dei cluster in un colpo solo. Dopo di che, mi dirigo rapidamente alla colo ed effettuo la sostituzione dei dischi. Tutto sembra andare per il meglio.
Il mattino dopo ricomincio l'installazione sui dischi che ho rimosso dal cluster il giorno prima per sostituire anche l'altra meta'. A questo punto pero' arriva l'imprevisto, nella forma di una telefonata da parte di CL di $ditta che lamenta che non gli arriva piu' posta.
IO - Ma non vi arriva piu' posta da quando?
CL - Ma, direi da almeno 3 o 4 giorni...
mepensa: e adesso mi telefoni?
IO - Che dominio hai detto?
Guardo sul log e noto che tutte le mail dirette al loro dominio sono in coda con un bel "timed out while sending end of data". Oh che gioia.
IO - Vedo qui che il nostro server prova a mandarvi la posta ma sembra
che ci siano dei problemi nella connessione e va' in timeout. Voi per
caso avete fatto qualche cambiamento nella connessione di rete? Aggiunto
dei pezzi, cambiato configurazione nel router, cambiato provider...
roba cosi'?
CL - No no, noi non abbiamo cambiato niente.
Sicomeno...
Io penso un momento: non e' possibile che sostituire UN server di output cambi le cose su tutti i server insieme, ed io non ho alterato la configurazione di rete. Ergo, deve essere un problema relativo al networking... hummm fammi vedere un po'... telnet ip.server.cl.qui 25... Connection refused.
Hummm... "connection refused"? Controllo e vedo che questi beduini usano la porta 2525 perche', apparentemente, il loro provider gli blocca la porta 25. Ok. Telnet ... 2525 e mi becco l'HELO del loro server. Ovviamente un bellissimo sexchange 2000.
IO - Il vostro server e' un po' vecchiotto... come' che non lo avete mai aggiornato?
CL - Heeeuuuu.... E' una storia un po' lunga...
IO - E la versione corta magari e' "costo delle licenze"?
CL - Hemmm...
Provo ad inviare una mail da telnet e viene accettata senza problemi. Ooookkeey.... Quindi una mail da telnet funziona mentre una mail 'normale' no... dimensione della mail? Mi viene un dubbio atroce. Visto che gia' ho avuto questo stesso problema piu' volte, e sempre con in mezzo un qualche server Microsoft, provo "al buio" a loggarmi su uno dei server di output ed a dare un bel ifconfig eth0 mtu 1000 e poi a ri-accodare i messaggi di posta per CL. Ed indovina un po': Funziona! Con l'MTU a 1000 la posta viene consegnata senza problemi.
IO - Okey, ho trovato il problema...
CL - Adesso riceviamo posta!
IO - Si', ho appena detto che ho trovato il problema...
CL - A bene, benissimo grazie ta...
IO - AHO' MA FAMMI PARLA'! Il problema e' che la vostra connessione di rete ha un
MTU troppo basso e non invia correttamente i messaggi ICMP per la negoziazione in
modo automatico...
Ovviamente, di tutto questo CL non capisce un accidente. Mettete qui', se vi pare, una lunghissima spiegazione delle intricazioni del TCP/IP, il tutto fatto cercando di non mandare il cervello di CL in kernel panic ovviamente. Dopo un bel po' un pelo di luce rischiara le tenebre nel suo cranio.
CL - Quindi... cosa dovremmo fare?
IO - Contattare il vostro provider o chi vi fa assistenza sulla vostra rete e
fargli controllare i parametri di connessione.
CL - Ma se io resettassi il cosi li' per la connessione ad internet?
IO - Lo avete resettato di recente?
CL - No, noi non abbiamo toccato niente.
Sicomeno.
IO - E allora lascialo stare e chiama chi vi gestisce la rete.
CL - Ma non possiamo lasciare le cose come sono adesso che funziona?
IO - No, perche' in questo modo sprechiamo un terzo della nostra banda
per consegnare la posta a voi. E dato che di oltre 8000 clienti voi siete
gli unici che hanno questo problema, ritengo che la cosa migliore sia
per voi scoprire cosa c'e' che non va nella vostra connessione di rete e metterla
a posto. O farlo fare al vostro isp che pagate per questo.
CL - Ah-hummm... vabbe'...
Passa una mezz'oretta e mi ri-suona il telefono.
CL - Allora, ho provato a riavviare il router...
IO - Ma hai parlato prima con il vostro provider?
CL - No.
mepensa: ecchemipareva...
CL - Solo che adesso non riusciamo piu' a connetterci ad internet...
Io controllo e noto che, in effetti, il server di CL adesso e' completamente irraggiungibile.
IO - Ma perche' non lo dici al vostro provider?
Ovviamente, loro non hanno mai toccato niente...
Davide
25/01/2010 08:00
Comments are added when and more important if I have the time to review them and after removing Spam, Crap, Phishing and the like. So don't hold your breath. And if your comment doesn't appear, is probably becuase it wasn't worth it.
Xfs... By Cobra78 posted 25/01/2010 08:35
Per la cronaca lo uso da...ummh...1 anno e mezzo per la partizione con le macchine virtuali e problemi particolari, anche in caso di shutdown brutale della macchina non si è mai introiato, e visto quanto sperimento su quella macchina di assicuro che di shutdown brutali ce ne sono stati parecchi XD -- Prendi la vita al minuto, non all'ingrosso.
Sogna come se dovessi vivere per sempre; vivi come se dovessi morire
oggi.
@ Cobra78 By Davide Bianchi posted 25/01/2010 08:48
Evidentemente perche' a te non ti manda tutti i servers in kernel panic ogni volta che gli girano le balle (che e' sempre).
-- Davide Bianchi
Ottima partenza By Minibill posted 25/01/2010 09:05
cmq
non l'avevi già usato questo titolo? -- Minibill
Solo... By dpantaleo posted 25/01/2010 11:19
"Nemo reverte ab nos..."
MTU e ICMP By Kurgan posted 25/01/2010 11:43
@ Kurgan By maxxfi posted 25/01/2010 14:04
I network admin paranoici che filtrano ICMP ci mettono del loro, vabbe'.
Pero', chi e' in primo luogo che usa valori di MTU estratti al lotto?
-- maxxfi
Troppo buono By Cymon posted 26/01/2010 01:09
@ Cymon By Davide Bianchi posted 26/01/2010 08:05
E' che ci ho ancora questa idea che educare e' meglio che martellare. Ma non ti preoccupare, prima o poi cambiero' idea.
-- Davide Bianchi
maldetto mtu By Vindicator posted 26/01/2010 10:51
ovviamente, anche in questo caso, nessuno di network aveva toccato niente. -- Vindicator
Nessuno tocca mai nulla... By Eremita Solitario posted 27/01/2010 22:12
This site is made by me with blood, sweat and gunpowder, if you want to republish or redistribute any part of it, please drop me (or the author of the article if is not me) a mail.
This site was composed with VIM, now is composed with VIM and the (in)famous CMS FdT.
This site isn't optimized for vision with any specific browser, nor
it requires special fonts or resolution.
You're free to see it as you wish.