Dischi Volanti!

Questa settimana mi sono ritrovato a fare da "conslutante" per la selezione di un NAS. Sorvolero' sul perche' ed il percome qualcuno ha chiesto a me che cosa dovrebbero comperare invece di di comperare prima e poi lamentarsi che non funziona. Comunque, mentre stavo facendo i miei compiti a casa cercando un po' di documenti su questa cosa, sono capitato su un bello studio fatto da Google riguardo la vita (e la morte) dei dischi fissi.

Che trovate a http://labs.google.com/papers/disk_failures.pdf, riporta parecche cose molto interessanti.

Per prima cosa, viene fatto notare che gli studi ed i dati di MTBF (mean time before failure) pubblicati dai vari produttori sono in genere basati su test di "vita accellerata" (sottoporre i drive a torture inenarrabili per affrettarne l'usura e verificare quanti ne sopravvivono) che non sono rappresentativi del "normale" modo di utilizzo dei dischi o dai dati raccolti dal supporto tecnico per la sostituzione dei dischi in garanzia.

In quest'ultimo caso pero' i dischi che vengono ritornati al fabbricante per sostituzione sono quasi sempre nei primi 3 anni di vita (durata della garanzia) e quindi non danno alcuna indicazione della mortalita' dei dischi in periodi successivi. Inoltre, non vi e' alcuna indicazione di quale sia stata la causa principale del crash del disco, ne' di come il disco sia stato usato.

Dato che Google usa una caterva di dischi e tutti in un vero ambiente di produzione, hanno potuto fare una analisi dei vari fattori.

La prima cosa che viene specificata e' che il concetto di "rottura" e' piuttosto difficile da definire in modo completo e spesso il produttore del disco e l'utente finale hanno idee diverse su cosa significa "disco rotto". In particolare, in molti casi il "problema" e' causato non dal disco stesso ma dalla combinazione disco/cavo/controller. Quindi un disco "rotto" potrebbe tranquillamente funzionare se montato in una macchina diversa.

La seconda cosa che viene indicata e' che analizzando i dati separatamente per produttore e modello di disco si notano delle interessanti caratteristiche. In sostanza esistono delle marche/modelli di disco che risultano piu' proni a rompersi di altri. Sfortunatamente, "per via della natura riservata di queste informazioni" tali marche/modelli non si trovano nel rapporto... Hey Google! Che e' successo a quel "rendere le informazioni accessibili..." ?

La "percentuale di utilizzo" del disco, intesa come la quantita' media di dati letti/scritti per settimana, si rivela non un gran bel parametro per identificare i dischi che stanno per rompersi. I dati di Google rivelano che solo i dischi molto nuovi o relativamente vecchi tendono a rompersi di piu' se sono usati di piu'. Per i dischi da 1 a 3 anni di vita questo parametro non sembra essere piu' importante di altri.

In effetti, il gruppo di 3 anni di vita pare funzionare al contrario, con i dischi che lavorano di piu' che tendono a sopravvivere mentre quelli che lavorano di meno che tendono a morire.

Un altro parametro spesso additato come causa della rottura dei dischi e' la temperatura di esercizio. Ed ancora i dati di Google non seguono questa tendenza. In generale hanno rilevato che solo temperature estremamente basse o estremamente alte hanno degli effetti percettibili sulle percentuali di rottura.

Un discorso a parte sono i dati comunicati da SMART, in particolare, di tutti i vari parametri comunicati, solo 4 sono effettivamente sinonimo di una prossima rottura: Scan Errors, Reallocation Counts, Offline Reallocation e Probational Counts. Tutti questi hanno a che fare con il progressivo degrado della superficie dei dischi e della loro capacita' di memorizzare le informazioni in modo accurato.

In particolare i ricercatori hanno trovato che dopo il primo Scan Error segnalato il disco ha il 39% di probabilita' in piu' di guastarsi di prima.

Un'altra cosa molto importante in questo senso e' la scoperta che il Power Cycles ha una certa influenza sulla probabilita' di guastarsi del disco, in molti casi risulta che dischi con Power Cycle piu' elevato siano piu' a soggetto di guasti di dischi con P.C. basso. Il che significa (in soldoni) che lasciare i dischi accesi anche quando non sono usati non fa' male e che cose come MAID (dove i dischi sono spenti quando non sono usati per evitarne il degrado) siano un grande strunzata.

Altra cosa molto importante e' la conclusione che SMART da solo non serve ad una cippa e che guardare solo i dati di Smart per prevedere possibili guasti non funziona.

E' difficile estrarre verita' assolute da un qualunque studio, questo ha qualche punto in piu' perche' e' fatto su una "popolazione" molto larga (piu' di 100.000 dischi) e su un sistema di produzione reale invece che su un sistema di testing. Quello che viene evidenziato e' che:

I dati di MTBF del produttore lasciano un po' il tempo che trovano.
La temperatura elevata e l'uso intenso del disco non sono sufficienti da soli a provocarne il guasto.
Smart e' utile ma non da solo.
Se il vostro disco ha piu' di 3 anni cominciate a pensare di sostituirlo ed assicuratevi di fare dei backup regolari. Stessa cosa se SMART comincia a riportarvi Scan Error.

I commenti sono aggiunti quando e soprattutto se ho il tempo di guardarli e dopo aver eliminato le cagate, spam, tentativi di phishing et similia. Quindi non trattenete il respiro.

4 messaggi this document does not accept new posts

Di Sandman postato il 16/02/2011 12:41

Ho sempre pensato che i vecchi dischi siano migliori di quelli nuovi. A volte ho ragione.

Sistema NAS, installato 2 anni fa, composto da 1 disco di S.O. (4 gb vecchio come il male, credo fabbricato nel 1998) PATA e 2 dischi SATA in raid 1 da 500 gb (anno 2009) con i dati.

Ho da poco sostituito i dischi da 500 dopo degradamento del RAID e bestemmie di freebsd che riempiva la console di LBA etc etc. (segnalo comunque che non è andato perso nemmeno 1 bit dei dati nonostante la dipartita di entrambi i dischi dei dati).

Il disco da 4gb è ancora 100% vitale e operativo $:\)$

-- Sandman

Anonymous coward

Di Anonymous coward postato il 07/06/2012 20:49

Il documento di google non e' piu' accessibile $:-\)$ -- Anonymous coward

Anonymous coward

@ Anonymous coward Di Anonymous coward postato il 09/08/2012 10:33

Il documento di google non e' piu' accessibile $:-\)$

http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/it//archive/disk_failures.pdf

-- Anonymous coward

giovanni.a

@ Anonymous coward Di giovanni.a postato il 14/08/2015 10:28

statistiche sui fornitori 2014

Seagate sono i peggiori (con un faillure rate annuale per il modello baracuda del 25%)

https://www.backblaze.com/blog/hard-drive-reliability-update-september-2014/

Seagate Barracuda 7200.11

(ST31500341AS)

1.5TB

365

4.3

24.9%

-- giovanni.a

Precedente Successivo

Davide Bianchi, lavora come Unix/Linux System Administrator presso una societa' di Hosting in Olanda.

Volete contribuire? Leggete come!.

Il presente sito e' frutto del sudore della mia fronte (e delle mie dita), se siete interessati a ripubblicare uno degli articoli, documenti o qualunque altra cosa presente in questo sito per cortesia datemene comunicazione (o all'autore dell'articolo se non sono io), cosi' il giorno che faccio delle aggiunte potro' avvisarvi e magari mandarvi il testo aggiornato.