Diagnosi e sostituzione di un disco rigido difettoso (Server Dedicato Linux con hardware RAID)

In questo articolo ti spieghiamo come identificare un disco rigido difettoso e preparare il server alla sua sostituzione.

Nota bene:

Questo articolo presuppone una conoscenza di base su come amministrare un server con sistema operativo Linux. Se hai domande o hai bisogno di assistenza per la sostituzione di un disco rigido difettoso, contatta l'Assistenza Clienti IONOS.

Per poter garantire la massima affidabilità possibile, è necessario monitorare l'hardware RAID del server dedicato. Se scopri che un disco rigido è difettoso o ricevi un'e-mail di notifica che ti informa che un disco rigido difettoso, è necessario contattare l'Assistenza Clienti per organizzare la sostituzione del disco rigido. Per farlo, è necessario prima di tutto identificare quale disco rigido è difettoso e preparare il server alla sua sostituzione.

Attenzione:

I sistemi RAID consentono una maggiore affidabilità e/o una maggiore velocità. Tuttavia, non sostituiscono i backup regolari. Per evitare la perdita di dati, ti consigliamo di eseguire regolarmente un backup dei tuoi dati. Assicurati inoltre di eseguire un backup dei tuoi dati prima di eseguire i passaggi descritti di seguito.

Per ulteriori informazioni sull'esecuzione di un backup, consulta i seguenti articoli:

Soluzioni di backup

Salvare dati su un server di backup (Linux)

Controller hardware RAID: informazioni generali

Un controller hardware RAID è un controller fisico integrato nel server come componente hardware. Questo controller ha un proprio processore per il calcolo delle operazioni RAID e organizza e gestisce lo spazio di memoria. In questo modo la CPU del server non è appesantita dai calcoli RAID. Per i controller hardware RAID, la funzionalità RAID è indipendente dal sistema operativo. Questi sono infatti gestiti da speciali programmi CLI (Command Line Interface), che possono variare a seconda del produttore e del modello.

Diagnosi degli errori del disco rigido

Al fine di rilevare gli errori del disco rigido, ti consigliamo di utilizzare il programma smartctl.

Smartctl è un programma a riga di comando per il monitoraggio dei volumi tramite SMART (Self-Monitoring, Analysis and Reporting Technology). Con questo programma puoi verificare se un disco rigido è difettoso. Smartctl fa parte degli Smartmontools, che sono disponibili come pacchetti per molte distribuzioni Linux.

Nota bene:

In alcuni casi può accadere che un difetto del disco rigido non possa essere rilevato dai valori smart. Per questo motivo ti consigliamo di analizzare anche il file di log /var/log/messages.

Installare Smartctl

Per installare Smartctl, digita il seguente comando:

CentOS:

yum install smartmontools

Ubuntu:

sudo apt-get install smartmontools

Determinare il tipo di controller hardware

Per verificare quale controller hardware è installato nel tuo server, puoi utilizzare il programma lshw. Questo programma crea informazioni dettagliate sui componenti hardware.

Per installare il programma, immetti il seguente comando:

CentOS:

um install lshw

Ubuntu:

sudo apt-get install lshw

Visualizzare le informazioni relative all'hardware

Per visualizzare un riepilogo delle informazioni relative all'hardware, digita il seguente comando:

lshw -short

Per visualizzare le informazioni hardware come file di testo, digita il seguente comando:

lshw > lshw_output.txt

Nell'esempio seguente, nel server è installato un controller hardware PERC H330:

root@829F6DF:~# lshw -short
H/W path             Device     Class          Description
==========================================================
                                system         PowerEdge R230 (SKU=NotProvided;ModelName=PowerEdge R230)
/0                              bus            0DWX9P
/0/0                            memory         64KiB BIOS
/0/400                          processor      Intel(R) Xeon(R) CPU E3-1270 v6 @ 3.80GHz
/0/400/700                      memory         256KiB L1 cache
/0/400/701                      memory         1MiB L2 cache
/0/400/702                      memory         8MiB L3 cache
/0/1000                         memory         32GiB System Memory
/0/1000/0                       memory         16GiB DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
/0/1000/1                       memory         16GiB DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
/0/1000/2                       memory         [empty]
/0/1000/3                       memory         [empty]
/0/100                          bridge         Intel Corporation
/0/100/1                        bridge         Skylake PCIe Controller (x16)
/0/100/1/0           scsi0      storage        MegaRAID SAS-3 3008 [Fury]
/0/100/1/0/2.0.0     /dev/sda   disk           799GB PERC H330 Adp
/0/100/1/0/2.0.0/1   /dev/sda1  volume         2047KiB BIOS Boot partition
/0/100/1/0/2.0.0/2   /dev/sda2  volume         27GiB EXT3 volume
/0/100/1/0/2.0.0/3   /dev/sda3  volume         9536MiB Linux swap volume
/0/100/1/0/2.0.0/4   /dev/sda4  volume         707GiB LVM Physical Volume
/0/100/1.1                      bridge         Skylake PCIe Controller (x8)
/0/100/14                       bus            Sunrise Point-H USB 3.0 xHCI Controller
/0/100/14/0          usb1       bus            xHCI Host Controller
/0/100/14/0/3                   bus            Gadget USB HUB
/0/100/14/1          usb2       bus            xHCI Host Controller
/0/100/14.2                     generic        Sunrise Point-H Thermal subsystem
/0/100/16                       communication  Sunrise Point-H CSME HECI #1
/0/100/16.1                     communication  Sunrise Point-H CSME HECI #2
/0/100/17                       storage        Sunrise Point-H SATA controller [AHCI mode]
/0/100/1d                       bridge         Sunrise Point-H PCI Express Root Port #9
/0/100/1d/0          eth0       network        NetXtreme BCM5720 Gigabit Ethernet PCIe
/0/100/1d/0.1        eth1       network        NetXtreme BCM5720 Gigabit Ethernet PCIe
/0/100/1d.2                     bridge         Sunrise Point-H PCI Express Root Port #11
/0/100/1d.2/0                   bridge         SH7758 PCIe Switch [PS]
/0/100/1d.2/0/0                 bridge         SH7758 PCIe Switch [PS]
/0/100/1d.2/0/0/0               bridge         SH7758 PCIe-PCI Bridge [PPB]
/0/100/1d.2/0/0/0/0             display        G200eR2
/0/100/1f                       bridge         Sunrise Point-H LPC Controller
/0/100/1f.2                     memory         Memory controller
/0/100/1f.4                     bus            Sunrise Point-H SMBus

Visualizzare le informazioni relative al disco rigido

Per poter visualizzare le informazioni relative al disco rigido tramite Smartctl, è necessario digitare il comando necessario sempre in combinazione con un'opzione e un dispositivo di destinazione. Il dispositivo di destinazione dipende dal produttore del controller.

Con i comandi sotto elencati puoi visualizzare le informazioni relative al disco rigido necessarie per la diagnosi:

Produttore	Disco rigido	Comando
ARECA	1	smartctl -iHAl error /dev/sg1 -d areca,1
ARECA	2	smartctl -iHAl error /dev/sg1 -d areca,2
LSI / 3Ware	1	smartctl -iHAl error /dev/twe0 -d 3ware,0
LSI / 3Ware	2	smartctl -iHAl error /dev/twe0 -d 3ware,1
Adaptec	1	smartctl -iHAl error /dev/sg2 -d sat
Adaptec	2	smartctl -iHAl error /dev/sg3 -d sat
Adaptec	(3)	smartctl -iHAl error /dev/sg4 -d sat
Adaptec	(4)	smartctl -iHAl error /dev/sg5 -d sat
Dell	1	smartctl -iHAl error -d sat+megaraid,0 /dev/sda
Dell	2	smartctl -iHAl error -d sat+megaraid,1 /dev/sda
Broadcom	1	smartctl -iHAl error -d sat+megaraid,0 /dev/sda
Broadcom	2	smartctl -iHAl error -d sat+megaraid,1 /dev/sda

Al seguente link puoi trovare ulteriori comandi per i controller hardware supportati:

https://www.smartmontools.org/wiki/Supported_RAID-Controllori

Esempio:

[root@localhost ~]# smartctl -iHAl error /dev/sg1 -d areca,1

smartctl 7.0 2018-12-30 r4883 [x86_64-w64-mingw32-2016] (sf-7.0-1)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Hitachi/HGST Ultrastar 7K2
Device Model:     HGST HUS722T1TALA604
Serial Number:    WMC6M0JAUEV8
LU WWN Device Id: 5 0014ee 00482c2ec
Firmware Version: RAGNWA07
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Thu Jan 17 06:17:05 2019 CAST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   141   140   021    Pre-fail  Always       -       3933
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       15
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       34
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       10
 16 Gas_Gauge               0x0022   000   200   000    Old_age   Always       -       1822115874
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       6
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       9
194 Temperature_Celsius     0x0022   113   109   000    Old_age   Always       -       30
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

Interpretazione dei parametri

Analizza le informazioni che hai ottenuto. Nella prima sezione puoi trovare le informazioni necessarie per poter identificare il disco rigido. Puoi visualizzare as es. il modello del dispositivo, il numero di serie e le dimensioni del disco rigido che stai analizzando.

=== START OF INFORMATION SECTION ===
Model Family:     Hitachi/HGST Ultrastar 7K2
Device Model:     HGST HUS722T1TALA604
Serial Number:    WMC6M0JAUEV8
LU WWN Device Id: 5 0014ee 00482c2ec
Firmware Version: RAGNWA07
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Thu Jan 17 06:17:05 2019 CAST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

Nella seconda sezione, Smartctl valuta lo stato attuale del disco rigido. Se ad es. il disco presenta il valore Failed o UNKNOWN al posto del valore PASSED, è necessario sostituire il disco rigido il prima possibile.

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

Nella terza sezione, vengono elencati in dettaglio i VALORI SMART che sono stati determinati. Accanto ad ogni valore percentuale attuale (VALUE), vengono elencati anche il valore peggiore mai rilevato (WORST) e il rispettivo valore limite (THRESH). Se il valore percentuale attuale (VALUE) o il valore peggiore rilevato (WORST) superano il valore limite (THRESH), nella colonna WHEN_FAILED viene visualizzato un avviso SMART (ad es. FAILING_NOW).

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   141   140   021    Pre-fail  Always       -       3933
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       15
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       34
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       10
 16 Gas_Gauge               0x0022   000   200   000    Old_age   Always       -       1822115874
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       6
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       9
194 Temperature_Celsius     0x0022   113   109   000    Old_age   Always       -       30
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

I seguenti parametri possono indicare la minaccia di un guasto imminente del disco rigido prima che questo venga visualizzato in un avviso SMART:

Reallocated_Sector_Ct: specifica il numero di settori che sono stati riassegnati a causa di errori di lettura. Se un settore non può più essere letto, scritto o controllato correttamente, gli viene automaticamente assegnato un settore di sostituzione. Il settore difettoso è contrassegnato in modo permanente come illeggibile. Se questo valore non è uguale a zero, è probabile che si verificherà un guasto del disco rigido. Questo valore è l'indicatore più importante per la sostituzione di un disco rigido.

Current_Pending_Sector_Ct: specifica il numero di settori instabili in attesa di rimappatura. Se un settore non può essere letto e scritto correttamente, riceve prima lo stato "Current Pending Sector". Il settore non viene riassegnato in questo stato, poiché i dati del settore sono sconosciuti. Solo dopo diversi tentativi di lettura o scrittura non riusciti viene assegnato un settore di sostituzione e il settore difettoso viene contrassegnato in modo permanente come illeggibile. Il valore Current_Pending_Sector_Ct è un indicatore importante per la sostituzione di un disco rigido. Se questo valore non è uguale a zero, è probabile che si verificherà un guasto del disco rigido.

Offline_Uncorrectable: specifica il numero di errori agli accessi di lettura e scrittura per un settore.

L'ultima sezione riguarda il log interno del disco rigido. Gli errori vengono registrati qui se gli ordini di lavoro del server non sono stati elaborati correttamente dal disco rigido. Se il numero di errori in questa sezione è di almeno due cifre, è necessario sostituire il disco rigido il prima possibile.

SMART Error Log Version: 1
No Errors Logged

Visualizzare i file di log

Per maggiori informazioni su come visualizzare i file di log, consulta la documentazione del rispettivo produttore.

Areca
http://areca.starline.de/RaidCards/Documents/Manual_Spec/Software

Adaptec
http://download.adaptec.com/pdfs/user_guide/microsemi_raid_controller_iug_6_2017.pdf

Dell
https://www.dell.com/support/home/de/de/debsdt1/product-support/product/poweredge-rc-h330/manuals

Broadcom
https://www.broadcom.com/products/storage/raid-controllers/megaraid-9440-8i#documentation

Preparare la sostituzione del disco rigido

Visualizzare le informazioni dettagliate per la sostituzione del disco

Per poter sostituire il disco rigido difettoso, sono necessarie le seguenti informazioni:

Nome del disco rigido nel RAID
Numero di serie
Modello
File di log (opzionale)

Creare un log SMART

Utilizza i comandi elencati di seguito per generare un log SMART completo:

Produttore	Disco rigido	Comando
ARECA	1	smartctl –x /dev/sg1 -d areca,1
ARECA	2	smartctl –x /dev/sg1 -d areca,2
LSI / 3Ware	1	smartctl –x /dev/twe0 -d 3ware,0
LSI / 3Ware	2	smartctl –x /dev/twe0 -d 3ware,1
Adaptec	1	smartctl –x /dev/sg2 -d sat
Adaptec	2	smartctl –x /dev/sg3 -d sat
Adaptec	(3)	smartctl –x /dev/sg4 -d sat
Adaptec	(4)	smartctl –x /dev/sg5 -d sat
Dell	1	smartctl –x -d sat+megaraid,0 /dev/sda
Dell	2	smartctl –x -d sat+megaraid,1 /dev/sda
Broadcom	1	smartctl –x -d sat+megaraid,0 /dev/sda
Broadcom	2	smartctl –x -d sat+megaraid,1 /dev/sda

Nota bene:

Se il log SMART è stato creato come descritto sopra, le informazioni in esso contenute sono sufficienti. A questo punto puoi far sostituire il disco rigido difettoso. Per farlo, contatta l'Assistenza Clienti IONOS.
Se non riesci a visualizzare il numero di serie del disco rigido difettoso utilizzando smartctl, è possibile, in alternativa, fornire all'Assistenza Clienti il numero di serie del disco rigido funzionante.
Se non riesci a determinare le informazioni necessarie per la sostituzione del disco e desideri sostituirlo, è necessario verificare l'hardware prima della sostituzione. Durante questa verifica, il server è di solito temporaneamente non disponibile. Se durante questo test viene rilevato un difetto del disco rigido, questo viene sostituito.

Organizzare la sostituzione del disco rigido

A questo punto puoi fa sostituire il disco rigido. Per farlo, contatta l'Assistenza Clienti IONOS.

Passaggi necessari dopo la sostituzione del disco rigido

Dopo che il disco rigido difettoso è stato sostituito, di solito inizia automaticamente la ricostruzione del sistema RAID. Verifica se la ricostruzione del sistema RAID è stata avviata ed eseguita con successo.

Contenuto

Controller hardware RAID: informazioni generali
Diagnosi degli errori del disco rigido
Interpretazione dei parametri
Visualizzare i file di log
Preparare la sostituzione del disco rigido
Organizzare la sostituzione del disco rigido
Passaggi necessari dopo la sostituzione del disco rigido
Torna su