Tales from the Machine Room


Home Page | Comments | Articles | Faq | Documents | Search | Archive | Tales from the Machine Room | Contribute | Login/Register

Noi Non Abbiamo Toccato Niente

E finalmente, dopo una settimana di influenza spaccacranio, ritorno in ufficio e mi scontro subito con un bel casino. Ne sentivo la mancanza.

Ho gia' descritto anche troppo il nostro famoso "cluster" di scansione della posta. Basti dire che esistono 'n' (con n==4) server di ingresso. Questi non solo accettano la posta ma fanno anche il primo controllo (blacklisting, spf, dkim, graylisting e vari riti voodoo per purificare il contenuto delle mail). Orbene, io arrivo in ufficio alle otto del mattino, attacco il mio lapdog e scopro che tutti e 4 i server di input sono inattivi.

Morti, cadaveri, kaputt. Niente ping, ssh, smtp. Nada!

Mi attacco alla console remota e scopro che tutti e 4 i server sono in Kernel Panic. Prima che il Panic venga ai nostri clienti decido di avvisare subito Bert (cosi' sa cosa raccontare quando cominciano a telefonare) e poi procedo a riavviare i servers.

Avvia il primo, avvia il secondo ed il primo e' di nuovo in panic. Riavvia il primo, avvia il terzo ed il secondo e' in panic... Dopo aver madonnato per una buona oretta continuando a saltare da una console all'altra come un giocoliere che cerca di tenere dei piatti in bilico sui bastoni, i quattro maledetti ripigliano vita e la posta ricomincia a fluire.

Un rapido controllo pare imputare il problema al solito maledetto XFS che si incarta ogni due per tre. Ergo, decido di prendere il toro per le corna, acchiappo DaBoss e gli propongo la reinstallazione seduta stante di tutto l'ambaradan usando la nuova configurazione da me messa a punto.

Quindi acchiappo un paio di server ed 8 (otto) dischi fissi ed installo 4 server (1 server di input, 2 server di scan, 1 server di output) in modo da sostituire meta' di uno dei cluster in un colpo solo. Dopo di che, mi dirigo rapidamente alla colo ed effettuo la sostituzione dei dischi. Tutto sembra andare per il meglio.

Il mattino dopo ricomincio l'installazione sui dischi che ho rimosso dal cluster il giorno prima per sostituire anche l'altra meta'. A questo punto pero' arriva l'imprevisto, nella forma di una telefonata da parte di CL di $ditta che lamenta che non gli arriva piu' posta.

IO - Ma non vi arriva piu' posta da quando?
CL - Ma, direi da almeno 3 o 4 giorni...
mepensa: e adesso mi telefoni?
IO - Che dominio hai detto?

Guardo sul log e noto che tutte le mail dirette al loro dominio sono in coda con un bel "timed out while sending end of data". Oh che gioia.

IO - Vedo qui che il nostro server prova a mandarvi la posta ma sembra che ci siano dei problemi nella connessione e va' in timeout. Voi per caso avete fatto qualche cambiamento nella connessione di rete? Aggiunto dei pezzi, cambiato configurazione nel router, cambiato provider... roba cosi'?
CL - No no, noi non abbiamo cambiato niente.

Sicomeno...

Io penso un momento: non e' possibile che sostituire UN server di output cambi le cose su tutti i server insieme, ed io non ho alterato la configurazione di rete. Ergo, deve essere un problema relativo al networking... hummm fammi vedere un po'... telnet ip.server.cl.qui 25... Connection refused.

Hummm... "connection refused"? Controllo e vedo che questi beduini usano la porta 2525 perche', apparentemente, il loro provider gli blocca la porta 25. Ok. Telnet ... 2525 e mi becco l'HELO del loro server. Ovviamente un bellissimo sexchange 2000.

IO - Il vostro server e' un po' vecchiotto... come' che non lo avete mai aggiornato?
CL - Heeeuuuu.... E' una storia un po' lunga...
IO - E la versione corta magari e' "costo delle licenze"?
CL - Hemmm...

Provo ad inviare una mail da telnet e viene accettata senza problemi. Ooookkeey.... Quindi una mail da telnet funziona mentre una mail 'normale' no... dimensione della mail? Mi viene un dubbio atroce. Visto che gia' ho avuto questo stesso problema piu' volte, e sempre con in mezzo un qualche server Microsoft, provo "al buio" a loggarmi su uno dei server di output ed a dare un bel ifconfig eth0 mtu 1000 e poi a ri-accodare i messaggi di posta per CL. Ed indovina un po': Funziona! Con l'MTU a 1000 la posta viene consegnata senza problemi.

IO - Okey, ho trovato il problema...
CL - Adesso riceviamo posta!
IO - Si', ho appena detto che ho trovato il problema...
CL - A bene, benissimo grazie ta...
IO - AHO' MA FAMMI PARLA'! Il problema e' che la vostra connessione di rete ha un MTU troppo basso e non invia correttamente i messaggi ICMP per la negoziazione in modo automatico...

Ovviamente, di tutto questo CL non capisce un accidente. Mettete qui', se vi pare, una lunghissima spiegazione delle intricazioni del TCP/IP, il tutto fatto cercando di non mandare il cervello di CL in kernel panic ovviamente. Dopo un bel po' un pelo di luce rischiara le tenebre nel suo cranio.

CL - Quindi... cosa dovremmo fare?
IO - Contattare il vostro provider o chi vi fa assistenza sulla vostra rete e fargli controllare i parametri di connessione.
CL - Ma se io resettassi il cosi li' per la connessione ad internet?
IO - Lo avete resettato di recente?
CL - No, noi non abbiamo toccato niente.

Sicomeno.

IO - E allora lascialo stare e chiama chi vi gestisce la rete.
CL - Ma non possiamo lasciare le cose come sono adesso che funziona?
IO - No, perche' in questo modo sprechiamo un terzo della nostra banda per consegnare la posta a voi. E dato che di oltre 8000 clienti voi siete gli unici che hanno questo problema, ritengo che la cosa migliore sia per voi scoprire cosa c'e' che non va nella vostra connessione di rete e metterla a posto. O farlo fare al vostro isp che pagate per questo.
CL - Ah-hummm... vabbe'...

Passa una mezz'oretta e mi ri-suona il telefono.

CL - Allora, ho provato a riavviare il router...
IO - Ma hai parlato prima con il vostro provider?
CL - No.
mepensa: ecchemipareva...
CL - Solo che adesso non riusciamo piu' a connetterci ad internet...

Io controllo e noto che, in effetti, il server di CL adesso e' completamente irraggiungibile.

IO - Ma perche' non lo dici al vostro provider?

Ovviamente, loro non hanno mai toccato niente...

Davide
25/01/2010 08:00

Previous Next

Comments are added when and more important if I have the time to review them and after removing Spam, Crap, Phishing and the like. So don't hold your breath. And if your comment doesn't appear, is probably becuase it wasn't worth it.

10 messages this document does not accept new posts
Cobra78Xfs... By Cobra78 - posted 25/01/2010 08:35
...come mai lo definisci "solito maledetto XFS che si incarta ogni due per tre"? Non lo dico provocatoriamente, è che davvero a me pare un ottimo filesystem, soprattutto per determinati usi, quali gestire grossi moli di dati e file di grandi dimensioni, e può rompere un po' giusto in caso di shutdown brutali.
Per la cronaca lo uso da...ummh...1 anno e mezzo per la partizione con le macchine virtuali e problemi particolari, anche in caso di shutdown brutale della macchina non si è mai introiato, e visto quanto sperimento su quella macchina di assicuro che di shutdown brutali ce ne sono stati parecchi XD

--
Prendi la vita al minuto, non all'ingrosso.
Sogna come se dovessi vivere per sempre; vivi come se dovessi morire
oggi.


Davide Bianchi@ Cobra78 By Davide Bianchi - posted 25/01/2010 08:48

> ...come mai lo definisci "solito maledetto XFS che si incarta ogni due per tre"? Non lo dico provocatoriamente, è che davvero a me pare un ottimo filesystem,

Evidentemente perche' a te non ti manda tutti i servers in kernel panic ogni volta che gli girano le balle (che e' sempre).

--
Davide Bianchi


MinibillOttima partenza By Minibill - posted 25/01/2010 09:05

E dopo la storia posso anche mettermi a studiare per l'esame di domani :\)
cmq
non l'avevi già usato questo titolo?

--
Minibill


dpantaleoSolo... By dpantaleo - posted 25/01/2010 11:19

...7200 RPM? Mi aspettavo un qualcosa come 15000... tiro ad indovinare: DaBoss ha tirato sulla spesa dei dischi?

--
dpantaleo
"Nemo reverte ab nos..."


KurganMTU e ICMP By Kurgan - posted 25/01/2010 11:43

Sembra che questo dell' MTU stia diventando un problema serio e molto diffuso. Con l'abitudine che hanno tutti di bloccare tutto ICMP (manco fosse satana, tanto quando ti craccano IIS, mica usando l' ICMP), mi capita sempre piu` spesso di scontrarmi con problemi di questo tipo. Ho trovato problemi in router home da 50 euro (Zyxel, tutti i modelli recenti) e anche in firewall "seri" quali quelli usati da diversi provider.

--
Il massimo danno con il minimo sforzo


maxxfi@ Kurgan By maxxfi - posted 25/01/2010 14:04

> Sembra che questo dell' MTU stia diventando un problema serio e molto diffuso.

I network admin paranoici che filtrano ICMP ci mettono del loro, vabbe'.
Pero', chi e' in primo luogo che usa valori di MTU estratti al lotto?

--
maxxfi


CymonTroppo buono By Cymon - posted 26/01/2010 01:09

Perdere ore dietro CL per raccontargli vita, morte e miracoli dei protocolli internet dimostra che alla fine sei un uomo fin troppo buono. Di fronte a una questione del genere il mio approccio è: "Ti scrivo una mail dettagliata sul problema, tu salpa in cerca di un uomo che riesca a capirla"

--
Cymon


Davide Bianchi@ Cymon By Davide Bianchi - posted 26/01/2010 08:05

> sei un uomo fin troppo buono.

E' che ci ho ancora questa idea che educare e' meglio che martellare. Ma non ti preoccupare, prima o poi cambiero' idea.

--
Davide Bianchi


Vindicatormaldetto mtu By Vindicator - posted 26/01/2010 10:51

maledetto MTU. ho avuto giornate terribili a compilare da remoto delle stored procedure remote che andavano a totani per via di quel foxxuto MTU!

ovviamente, anche in questo caso, nessuno di network aveva toccato niente.

--
Vindicator


Eremita SolitarioNessuno tocca mai nulla... By Eremita Solitario - posted 27/01/2010 22:12

come da oggetto... le cose si toccano da sole...

--
Eremita Solitario


10 messages this document does not accept new posts

Previous Next


This site is made by me with blood, sweat and gunpowder, if you want to republish or redistribute any part of it, please drop me (or the author of the article if is not me) a mail.


This site was composed with VIM, now is composed with VIM and the (in)famous CMS FdT.

This site isn't optimized for vision with any specific browser, nor it requires special fonts or resolution.
You're free to see it as you wish.

Web Interoperability Pleadge Support This Project
Powered By Gojira