Diagnosi e sostituzione di un disco rigido difettoso (Server Dedicato Linux con hardware RAID)
Per creare un PDF, utilizzare la funzione “Stampa” in fondo alla pagina.
In questo articolo ti spieghiamo come identificare un disco rigido difettoso e preparare il server alla sua sostituzione.
Nota bene:
Questo articolo presuppone una conoscenza di base su come amministrare un server con sistema operativo Linux. Se hai domande o hai bisogno di assistenza per la sostituzione di un disco rigido difettoso, contatta l'Assistenza Clienti IONOS.
Per poter garantire la massima affidabilità possibile, è necessario monitorare l'hardware RAID del server dedicato. Se scopri che un disco rigido è difettoso o ricevi un'e-mail di notifica che ti informa che un disco rigido difettoso, è necessario contattare l'Assistenza Clienti per organizzare la sostituzione del disco rigido. Per farlo, è necessario prima di tutto identificare quale disco rigido è difettoso e preparare il server alla sua sostituzione.
Attenzione:
I sistemi RAID consentono una maggiore affidabilità e/o una maggiore velocità. Tuttavia, non sostituiscono i backup regolari. Per evitare la perdita di dati, ti consigliamo di eseguire regolarmente un backup dei tuoi dati. Assicurati inoltre di eseguire un backup dei tuoi dati prima di eseguire i passaggi descritti di seguito.
Per ulteriori informazioni sull'esecuzione di un backup, consulta i seguenti articoli:
Salvare dati su un server di backup (Linux)
Controller hardware RAID: informazioni generali
Un controller hardware RAID è un controller fisico integrato nel server come componente hardware. Questo controller ha un proprio processore per il calcolo delle operazioni RAID e organizza e gestisce lo spazio di memoria. In questo modo la CPU del server non è appesantita dai calcoli RAID. Per i controller hardware RAID, la funzionalità RAID è indipendente dal sistema operativo. Questi sono infatti gestiti da speciali programmi CLI (Command Line Interface), che possono variare a seconda del produttore e del modello.
Diagnosi degli errori del disco rigido
Al fine di rilevare gli errori del disco rigido, ti consigliamo di utilizzare il programma smartctl.
Smartctl è un programma a riga di comando per il monitoraggio dei volumi tramite SMART (Self-Monitoring, Analysis and Reporting Technology). Con questo programma puoi verificare se un disco rigido è difettoso. Smartctl fa parte degli Smartmontools, che sono disponibili come pacchetti per molte distribuzioni Linux.
Nota bene:
In alcuni casi può accadere che un difetto del disco rigido non possa essere rilevato dai valori smart. Per questo motivo ti consigliamo di analizzare anche il file di log /var/log/messages.
Installare Smartctl
Per installare Smartctl, digita il seguente comando:
CentOS:
yum install smartmontools
Ubuntu:
sudo apt-get install smartmontools
Determinare il tipo di controller hardware
Per verificare quale controller hardware è installato nel tuo server, puoi utilizzare il programma lshw. Questo programma crea informazioni dettagliate sui componenti hardware.
Per installare il programma, immetti il seguente comando:
CentOS:
um install lshw
Ubuntu:
sudo apt-get install lshw
Visualizzare le informazioni relative all'hardware
Per visualizzare un riepilogo delle informazioni relative all'hardware, digita il seguente comando:
lshw -short
Per visualizzare le informazioni hardware come file di testo, digita il seguente comando:
lshw > lshw_output.txt
Nell'esempio seguente, nel server è installato un controller hardware PERC H330:
root@829F6DF:~# lshw -short
H/W path Device Class Description
==========================================================
system PowerEdge R230 (SKU=NotProvided;ModelName=PowerEdge R230)
/0 bus 0DWX9P
/0/0 memory 64KiB BIOS
/0/400 processor Intel(R) Xeon(R) CPU E3-1270 v6 @ 3.80GHz
/0/400/700 memory 256KiB L1 cache
/0/400/701 memory 1MiB L2 cache
/0/400/702 memory 8MiB L3 cache
/0/1000 memory 32GiB System Memory
/0/1000/0 memory 16GiB DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
/0/1000/1 memory 16GiB DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
/0/1000/2 memory [empty]
/0/1000/3 memory [empty]
/0/100 bridge Intel Corporation
/0/100/1 bridge Skylake PCIe Controller (x16)
/0/100/1/0 scsi0 storage MegaRAID SAS-3 3008 [Fury]
/0/100/1/0/2.0.0 /dev/sda disk 799GB PERC H330 Adp
/0/100/1/0/2.0.0/1 /dev/sda1 volume 2047KiB BIOS Boot partition
/0/100/1/0/2.0.0/2 /dev/sda2 volume 27GiB EXT3 volume
/0/100/1/0/2.0.0/3 /dev/sda3 volume 9536MiB Linux swap volume
/0/100/1/0/2.0.0/4 /dev/sda4 volume 707GiB LVM Physical Volume
/0/100/1.1 bridge Skylake PCIe Controller (x8)
/0/100/14 bus Sunrise Point-H USB 3.0 xHCI Controller
/0/100/14/0 usb1 bus xHCI Host Controller
/0/100/14/0/3 bus Gadget USB HUB
/0/100/14/1 usb2 bus xHCI Host Controller
/0/100/14.2 generic Sunrise Point-H Thermal subsystem
/0/100/16 communication Sunrise Point-H CSME HECI #1
/0/100/16.1 communication Sunrise Point-H CSME HECI #2
/0/100/17 storage Sunrise Point-H SATA controller [AHCI mode]
/0/100/1d bridge Sunrise Point-H PCI Express Root Port #9
/0/100/1d/0 eth0 network NetXtreme BCM5720 Gigabit Ethernet PCIe
/0/100/1d/0.1 eth1 network NetXtreme BCM5720 Gigabit Ethernet PCIe
/0/100/1d.2 bridge Sunrise Point-H PCI Express Root Port #11
/0/100/1d.2/0 bridge SH7758 PCIe Switch [PS]
/0/100/1d.2/0/0 bridge SH7758 PCIe Switch [PS]
/0/100/1d.2/0/0/0 bridge SH7758 PCIe-PCI Bridge [PPB]
/0/100/1d.2/0/0/0/0 display G200eR2
/0/100/1f bridge Sunrise Point-H LPC Controller
/0/100/1f.2 memory Memory controller
/0/100/1f.4 bus Sunrise Point-H SMBus
Visualizzare le informazioni relative al disco rigido
Per poter visualizzare le informazioni relative al disco rigido tramite Smartctl, è necessario digitare il comando necessario sempre in combinazione con un'opzione e un dispositivo di destinazione. Il dispositivo di destinazione dipende dal produttore del controller.
Con i comandi sotto elencati puoi visualizzare le informazioni relative al disco rigido necessarie per la diagnosi:
Produttore | Disco rigido | Comando |
---|---|---|
ARECA | 1 | smartctl -iHAl error /dev/sg1 -d areca,1 |
ARECA | 2 | smartctl -iHAl error /dev/sg1 -d areca,2 |
LSI / 3Ware | 1 | smartctl -iHAl error /dev/twe0 -d 3ware,0 |
LSI / 3Ware | 2 | smartctl -iHAl error /dev/twe0 -d 3ware,1 |
Adaptec | 1 | smartctl -iHAl error /dev/sg2 -d sat |
Adaptec | 2 | smartctl -iHAl error /dev/sg3 -d sat |
Adaptec | (3) | smartctl -iHAl error /dev/sg4 -d sat |
Adaptec | (4) | smartctl -iHAl error /dev/sg5 -d sat |
Dell | 1 | smartctl -iHAl error -d sat+megaraid,0 /dev/sda |
Dell | 2 | smartctl -iHAl error -d sat+megaraid,1 /dev/sda |
Broadcom | 1 | smartctl -iHAl error -d sat+megaraid,0 /dev/sda |
Broadcom | 2 | smartctl -iHAl error -d sat+megaraid,1 /dev/sda |
Al seguente link puoi trovare ulteriori comandi per i controller hardware supportati:
https://www.smartmontools.org/wiki/Supported_RAID-Controllori
Esempio:
[root@localhost ~]# smartctl -iHAl error /dev/sg1 -d areca,1
smartctl 7.0 2018-12-30 r4883 [x86_64-w64-mingw32-2016] (sf-7.0-1)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Hitachi/HGST Ultrastar 7K2
Device Model: HGST HUS722T1TALA604
Serial Number: WMC6M0JAUEV8
LU WWN Device Id: 5 0014ee 00482c2ec
Firmware Version: RAGNWA07
User Capacity: 1,000,204,886,016 bytes [1.00 TB]
Sector Size: 512 bytes logical/physical
Rotation Rate: 7200 rpm
Form Factor: 3.5 inches
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-3 T13/2161-D revision 5
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Thu Jan 17 06:17:05 2019 CAST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 141 140 021 Pre-fail Always - 3933
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 15
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 34
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 10
16 Gas_Gauge 0x0022 000 200 000 Old_age Always - 1822115874
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 6
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 9
194 Temperature_Celsius 0x0022 113 109 000 Old_age Always - 30
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0
SMART Error Log Version: 1
No Errors Logged
Interpretazione dei parametri
Analizza le informazioni che hai ottenuto. Nella prima sezione puoi trovare le informazioni necessarie per poter identificare il disco rigido. Puoi visualizzare as es. il modello del dispositivo, il numero di serie e le dimensioni del disco rigido che stai analizzando.
=== START OF INFORMATION SECTION ===
Model Family: Hitachi/HGST Ultrastar 7K2
Device Model: HGST HUS722T1TALA604
Serial Number: WMC6M0JAUEV8
LU WWN Device Id: 5 0014ee 00482c2ec
Firmware Version: RAGNWA07
User Capacity: 1,000,204,886,016 bytes [1.00 TB]
Sector Size: 512 bytes logical/physical
Rotation Rate: 7200 rpm
Form Factor: 3.5 inches
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-3 T13/2161-D revision 5
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Thu Jan 17 06:17:05 2019 CAST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
Nella seconda sezione, Smartctl valuta lo stato attuale del disco rigido. Se ad es. il disco presenta il valore Failed o UNKNOWN al posto del valore PASSED, è necessario sostituire il disco rigido il prima possibile.
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
Nella terza sezione, vengono elencati in dettaglio i VALORI SMART che sono stati determinati. Accanto ad ogni valore percentuale attuale (VALUE), vengono elencati anche il valore peggiore mai rilevato (WORST) e il rispettivo valore limite (THRESH). Se il valore percentuale attuale (VALUE) o il valore peggiore rilevato (WORST) superano il valore limite (THRESH), nella colonna WHEN_FAILED viene visualizzato un avviso SMART (ad es. FAILING_NOW).
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 141 140 021 Pre-fail Always - 3933
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 15
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 34
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 10
16 Gas_Gauge 0x0022 000 200 000 Old_age Always - 1822115874
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 6
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 9
194 Temperature_Celsius 0x0022 113 109 000 Old_age Always - 30
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0
I seguenti parametri possono indicare la minaccia di un guasto imminente del disco rigido prima che questo venga visualizzato in un avviso SMART:
Reallocated_Sector_Ct: specifica il numero di settori che sono stati riassegnati a causa di errori di lettura. Se un settore non può più essere letto, scritto o controllato correttamente, gli viene automaticamente assegnato un settore di sostituzione. Il settore difettoso è contrassegnato in modo permanente come illeggibile. Se questo valore non è uguale a zero, è probabile che si verificherà un guasto del disco rigido. Questo valore è l'indicatore più importante per la sostituzione di un disco rigido.
Current_Pending_Sector_Ct: specifica il numero di settori instabili in attesa di rimappatura. Se un settore non può essere letto e scritto correttamente, riceve prima lo stato "Current Pending Sector". Il settore non viene riassegnato in questo stato, poiché i dati del settore sono sconosciuti. Solo dopo diversi tentativi di lettura o scrittura non riusciti viene assegnato un settore di sostituzione e il settore difettoso viene contrassegnato in modo permanente come illeggibile. Il valore Current_Pending_Sector_Ct è un indicatore importante per la sostituzione di un disco rigido. Se questo valore non è uguale a zero, è probabile che si verificherà un guasto del disco rigido.
Offline_Uncorrectable: specifica il numero di errori agli accessi di lettura e scrittura per un settore.
L'ultima sezione riguarda il log interno del disco rigido. Gli errori vengono registrati qui se gli ordini di lavoro del server non sono stati elaborati correttamente dal disco rigido. Se il numero di errori in questa sezione è di almeno due cifre, è necessario sostituire il disco rigido il prima possibile.
SMART Error Log Version: 1
No Errors Logged
Visualizzare i file di log
Per maggiori informazioni su come visualizzare i file di log, consulta la documentazione del rispettivo produttore.
Areca
http://areca.starline.de/RaidCards/Documents/Manual_Spec/Software
Adaptec
http://download.adaptec.com/pdfs/user_guide/microsemi_raid_controller_iug_6_2017.pdf
Dell
https://www.dell.com/support/home/de/de/debsdt1/product-support/product/poweredge-rc-h330/manuals
Broadcom
https://www.broadcom.com/products/storage/raid-controllers/megaraid-9440-8i#documentation
Preparare la sostituzione del disco rigido
Visualizzare le informazioni dettagliate per la sostituzione del disco
Per poter sostituire il disco rigido difettoso, sono necessarie le seguenti informazioni:
Nome del disco rigido nel RAID
Numero di serie
Modello
File di log (opzionale)
Creare un log SMART
Utilizza i comandi elencati di seguito per generare un log SMART completo:
Produttore | Disco rigido | Comando |
---|---|---|
ARECA | 1 | smartctl –x /dev/sg1 -d areca,1 |
ARECA | 2 | smartctl –x /dev/sg1 -d areca,2 |
LSI / 3Ware | 1 | smartctl –x /dev/twe0 -d 3ware,0 |
LSI / 3Ware | 2 | smartctl –x /dev/twe0 -d 3ware,1 |
Adaptec | 1 | smartctl –x /dev/sg2 -d sat |
Adaptec | 2 | smartctl –x /dev/sg3 -d sat |
Adaptec | (3) | smartctl –x /dev/sg4 -d sat |
Adaptec | (4) | smartctl –x /dev/sg5 -d sat |
Dell | 1 | smartctl –x -d sat+megaraid,0 /dev/sda |
Dell | 2 | smartctl –x -d sat+megaraid,1 /dev/sda |
Broadcom | 1 | smartctl –x -d sat+megaraid,0 /dev/sda |
Broadcom | 2 | smartctl –x -d sat+megaraid,1 /dev/sda |
Nota bene:
Se il log SMART è stato creato come descritto sopra, le informazioni in esso contenute sono sufficienti. A questo punto puoi far sostituire il disco rigido difettoso. Per farlo, contatta l'Assistenza Clienti IONOS.
Se non riesci a visualizzare il numero di serie del disco rigido difettoso utilizzando smartctl, è possibile, in alternativa, fornire all'Assistenza Clienti il numero di serie del disco rigido funzionante.
Se non riesci a determinare le informazioni necessarie per la sostituzione del disco e desideri sostituirlo, è necessario verificare l'hardware prima della sostituzione. Durante questa verifica, il server è di solito temporaneamente non disponibile. Se durante questo test viene rilevato un difetto del disco rigido, questo viene sostituito.
Organizzare la sostituzione del disco rigido
A questo punto puoi fa sostituire il disco rigido. Per farlo, contatta l'Assistenza Clienti IONOS.
Passaggi necessari dopo la sostituzione del disco rigido
Dopo che il disco rigido difettoso è stato sostituito, di solito inizia automaticamente la ricostruzione del sistema RAID. Verifica se la ricostruzione del sistema RAID è stata avviata ed eseguita con successo.