Diagnosi e sostituzione di un disco rigido difettoso (Server Dedicato Windows con hardware RAID)

In questo articolo ti spieghiamo come identificare un disco rigido difettoso e preparare il server alla sua sostituzione.

Nota bene:

Questo articolo presuppone una conoscenza di base su come amministrare un server con sistema operativo Linux. Se hai domande o hai bisogno di assistenza per la sostituzione di un disco rigido difettoso, contatta l'Assistenza Clienti IONOS.

Per poter garantire la massima affidabilità possibile, è necessario monitorare l'array RAID del server dedicato. Se scopri che un disco rigido è difettoso o ricevi un'e-mail di notifica che ti informa che un disco rigido difettoso, è necessario contattare l'Assistenza Clienti per organizzare la sostituzione del disco rigido. Per farlo, è necessario prima di tutto identificare quale disco rigido è difettoso e preparare il server alla sua sostituzione.

Attenzione:

I sistemi RAID consentono una maggiore affidabilità e/o una maggiore velocità. Tuttavia, non sostituiscono i backup regolari. Per evitare la perdita di dati, ti consigliamo di eseguire regolarmente un backup dei tuoi dati. Assicurati inoltre di eseguire un backup dei tuoi dati prima di eseguire i passaggi descritti di seguito.

Per ulteriori informazioni sull'esecuzione di un backup, consulta la seguente sezione del nostro Centro Assistenza: Soluzioni di backup

Controller hardware RAID: informazioni generali

Un controller hardware RAID è un controller fisico integrato nel server come componente hardware. Questo controller ha un proprio processore per il calcolo delle operazioni RAID e organizza e gestisce lo spazio di memoria. In questo modo la CPU del server non è appesantita dai calcoli RAID. Per i controller hardware RAID, la funzionalità RAID è indipendente dal sistema operativo. Questi sono infatti gestiti da speciali programmi CLI (Command Line Interface), che possono variare a seconda del produttore e del modello.

Diagnosi degli errori del disco rigido

Al fine di rilevare gli errori del disco rigido, ti consigliamo di utilizzare il programma smartctl.

Smartctl è un programma a riga di comando per il monitoraggio dei volumi tramite SMART (Self-Monitoring, Analysis and Reporting Technology). Con questo programma puoi verificare se un disco rigido è difettoso. Smartctl fa parte degli Smartmontools.

Puoi trovare un elenco dei controller hardware supportati al seguente indirizzo:

https://www.smartmontools.org/wiki/Supported_RAID-Controllori

Installare Smartctl

Puoi scaricare gli Smartmontools al seguente link:

https://www.smartmontools.org/wiki/Download#InstalltheWindowspackage

Determinare il tipo di controller hardware RAID

Per verificare quale controller RAID è installato nel server, procedi come segue:

Apri il pannello di controllo.
Clicca su Hardware > Dispositivi e stampanti > Gestione dispositivi.
Nella sezione Memory Controller, verifica quale controller è installato nel server.

Verificare lo stato dell'hardware RAID

Per sapere come visualizzare le informazioni sullo stato del controller RAID, consulta il seguente articolo: Monitorare / ricostruire un hardware RAID (Windows)

Se manca un disco nell'array RAID, è possibile che questo sia difettoso oppure rotto. Un RAID difettoso potrebbe presentarsi così:

CLI> rsf info
# Name Disks TotalCap FreeCap DiskChannels State
===============================================================================
1 Raid Set # 00 3 2250.5GB 0.0GB 1x3 Degrade
2 Raid Set # 00 3 2250.5GB 2250.5GB x2x Incompleted
===============================================================================
GuiErrMsg<0x00>: Success.

Nell'esempio precedente, il disco 2 presenta lo stato Incomplete. Questo indica che il disco è difettoso.

Visualizzare le informazioni relative al disco rigido

Smartctl si comporta allo stesso modo sia con Windows che con Linux. Per questo motivo, puoi utilizzare gli stessi comandi. Per utilizzare Smartctl per la risoluzione di problemi, è necessario aprire il prompt dei comandi e passare alla directory in cui si trovano gli Smartmontools.

Per poter visualizzare le informazioni relative al disco rigido tramite Smartctl, è necessario digitare il comando necessario sempre in combinazione con un'opzione e un dispositivo di destinazione. Il dispositivo di destinazione dipende dal produttore del controller.

Con i comandi sotto elencati puoi visualizzare le informazioni relative al disco rigido necessarie per la diagnosi:

Produttore	Disco rigido	Comando
ARECA	1	smartctl -iHAl error /dev/sg1 -d areca,1
ARECA	2	smartctl -iHAl error /dev/sg1 -d areca,2
LSI / 3Ware	1	smartctl -iHAl error /dev/twe0 -d 3ware,0
LSI / 3Ware	2	smartctl -iHAl error /dev/twe0 -d 3ware,1
Adaptec	1	smartctl -iHAl error /dev/sg2 -d sat
Adaptec	2	smartctl -iHAl error /dev/sg3 -d sat
Adaptec	(3)	smartctl -iHAl error /dev/sg4 -d sat
Adaptec	(4)	smartctl -iHAl error /dev/sg5 -d sat
Dell	1	smartctl -iHAl error -d sat+megaraid,0 /dev/sda
Dell	2	smartctl -iHAl error -d sat+megaraid,1 /dev/sda
Broadcom	1	smartctl -iHAl error -d sat+megaraid,0 /dev/sda
Broadcom	2	smartctl -iHAl error -d sat+megaraid,1 /dev/sda

Al seguente link puoi trovare ulteriori comandi per i controller hardware supportati:

https://www.smartmontools.org/wiki/Supported_RAID-Controllori

Esempio:

C:\Program Files\smartmontools\bin>smartctl -iHAl error /dev/sg1 -d areca,1

smartctl 7.0 2018-12-30 r4883 [x86_64-w64-mingw32-2016] (sf-7.0-1)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Hitachi/HGST Ultrastar 7K2
Device Model:     HGST HUS722T1TALA604
Serial Number:    WMC6M0JAUEV8
LU WWN Device Id: 5 0014ee 00482c2ec
Firmware Version: RAGNWA07
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Thu Jan 17 06:17:05 2019 CAST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   141   140   021    Pre-fail  Always       -       3933
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       15
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       34
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       10
 16 Gas_Gauge               0x0022   000   200   000    Old_age   Always       -       1822115874
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       6
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       9
194 Temperature_Celsius     0x0022   113   109   000    Old_age   Always       -       30
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

Interpretazione dei parametri

Nella prima sezione puoi trovare le informazioni necessarie per poter identificare il disco rigido. Puoi visualizzare as es. il modello del dispositivo, il numero di serie e le dimensioni del disco rigido che stai analizzando.

=== START OF INFORMATION SECTION ===
Model Family:     Hitachi/HGST Ultrastar 7K2
Device Model:     HGST HUS722T1TALA604
Serial Number:    WMC6M0JAUEV8
LU WWN Device Id: 5 0014ee 00482c2ec
Firmware Version: RAGNWA07
User Capacity:    1,000,204,886,016 bytes [1.00 TB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 5
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Thu Jan 17 06:17:05 2019 CAST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

Nella seconda sezione, Smartctl valuta lo stato attuale del disco rigido. Se ad es. il disco presenta il valore Failed o UNKNOWN al posto del valore PASSED, è necessario sostituire il disco rigido il prima possibile.

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

Nella terza sezione, vengono elencati in dettaglio i VALORI SMART che sono stati determinati. Accanto ad ogni valore percentuale attuale (VALUE), vengono elencati anche il valore peggiore mai rilevato (WORST) e il rispettivo valore limite (THRESH). Se il valore percentuale attuale (VALUE) o il valore peggiore rilevato (WORST) superano il valore limite (THRESH), nella colonna WHEN_FAILED viene visualizzato un avviso SMART (ad es. FAILING_NOW).

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   141   140   021    Pre-fail  Always       -       3933
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       15
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       34
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       10
 16 Gas_Gauge               0x0022   000   200   000    Old_age   Always       -       1822115874
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       6
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       9
194 Temperature_Celsius     0x0022   113   109   000    Old_age   Always       -       30
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

I seguenti parametri possono indicare la minaccia di un guasto imminente del disco rigido prima che questo venga visualizzato in un avviso SMART:

Reallocated_Sector_Ct: specifica il numero di settori che sono stati riassegnati a causa di errori di lettura. Se un settore non può più essere letto, scritto o controllato correttamente, gli viene automaticamente assegnato un settore di sostituzione. Il settore difettoso è contrassegnato in modo permanente come illeggibile. Se questo valore non è uguale a zero, è probabile che si verificherà un guasto del disco rigido. Questo valore è l'indicatore più importante per la sostituzione di un disco rigido.

Current_Pending_Sector_Ct: specifica il numero di settori instabili in attesa di rimappatura. Se un settore non può essere letto e scritto correttamente, riceve prima lo stato "Current Pending Sector". Il settore non viene riassegnato in questo stato, poiché i dati del settore sono sconosciuti. Solo dopo diversi tentativi di lettura o scrittura non riusciti viene assegnato un settore di sostituzione e il settore difettoso viene contrassegnato in modo permanente come illeggibile. Il valore Current_Pending_Sector_Ct è un indicatore importante per la sostituzione di un disco rigido. Se questo valore non è uguale a zero, è probabile che si verificherà un guasto del disco rigido.

Offline_Uncorrectable: specifica il numero di errori agli accessi di lettura e scrittura per un settore.

L'ultima sezione riguarda il log interno del disco rigido. Gli errori vengono registrati qui se gli ordini di lavoro del server non sono stati elaborati correttamente dal disco rigido. Se il numero di errori in questa sezione è di almeno due cifre, è necessario sostituire il disco rigido il prima possibile.

SMART Error Log Version: 1
No Errors Logged

Visualizzare i file di log

Per maggiori informazioni su come visualizzare i file di log, consulta la documentazione del rispettivo produttore.

Areca
http://areca.starline.de/RaidCards/Documents/Manual_Spec/Software

Adaptec
http://download.adaptec.com/pdfs/user_guide/microsemi_raid_controller_iug_6_2017.pdf

dell
https://www.dell.com/support/home/de/de/debsdt1/product-support/product/poweredge-rc-h330/manuals

Broadcom
https://www.broadcom.com/products/storage/raid-controllers/megaraid-9440-8i#documentation

Preparare la sostituzione del disco rigido

Visualizzare le informazioni dettagliate per la sostituzione del disco

Per poter sostituire il disco rigido difettoso, sono necessarie le seguenti informazioni:

Nome del disco rigido nel RAID
Numero di serie
Modello
File di log (opzionale)

Creare un log SMART

Utilizza i comandi elencati di seguito per generare un log SMART completo:

Produttore	Disco rigido	Comando
ARECA	1	smartctl –x /dev/sg1 -d areca,1
ARECA	2	smartctl –x /dev/sg1 -d areca,2
LSI / 3Ware	1	smartctl –x /dev/twe0 -d 3ware,0
LSI / 3Ware	2	smartctl –x /dev/twe0 -d 3ware,1
Adaptec	1	smartctl –x /dev/sg2 -d sat
Adaptec	2	smartctl –x /dev/sg3 -d sat
Adaptec	(3)	smartctl –x /dev/sg4 -d sat
Adaptec	(4)	smartctl –x /dev/sg5 -d sat
Dell	1	smartctl –x -d sat+megaraid,0 /dev/sda
Dell	2	smartctl –x -d sat+megaraid,1 /dev/sda
Broadcom	1	smartctl –x -d sat+megaraid,0 /dev/sda
Broadcom	2	smartctl –x -d sat+megaraid,1 /dev/sda

Nota bene:

Se il log SMART è stato creato come descritto sopra, le informazioni in esso contenute sono sufficienti. A questo punto puoi far sostituire il disco rigido difettoso. Per farlo, contatta l'Assistenza Clienti IONOS.
Se non riesci a visualizzare il numero di serie del disco rigido difettoso utilizzando smartctl, è possibile, in alternativa, fornire all'Assistenza Clienti il numero di serie del disco rigido funzionante.
Se non riesci a determinare le informazioni necessarie per la sostituzione del disco e desideri sostituirlo, è necessario verificare l'hardware prima della sostituzione. Durante questa verifica, il server è di solito temporaneamente non disponibile. Se durante questo test viene rilevato un difetto del disco rigido, questo viene sostituito.

Organizzare la sostituzione del disco rigido

A questo punto puoi fa sostituire il disco rigido. Per farlo, contatta l'Assistenza Clienti IONOS.

Passaggi necessari dopo la sostituzione del disco rigido

Dopo che il disco rigido difettoso è stato sostituito, di solito inizia automaticamente la ricostruzione del sistema RAID. Verifica se la ricostruzione del sistema RAID è stata avviata ed eseguita con successo.

Contenuto

Controller hardware RAID: informazioni generali
Diagnosi degli errori del disco rigido
Visualizzare le informazioni relative al disco rigido
Interpretazione dei parametri
Visualizzare i file di log
Preparare la sostituzione del disco rigido
Organizzare la sostituzione del disco rigido
Passaggi necessari dopo la sostituzione del disco rigido
Torna su