Diagnosi e sostituzione di un disco rigido difettoso (Server Dedicato Windows con hardware RAID)
Per creare un PDF, utilizzare la funzione “Stampa” in fondo alla pagina.
In questo articolo ti spieghiamo come identificare un disco rigido difettoso e preparare il server alla sua sostituzione.
Nota bene:
Questo articolo presuppone una conoscenza di base su come amministrare un server con sistema operativo Linux. Se hai domande o hai bisogno di assistenza per la sostituzione di un disco rigido difettoso, contatta l'Assistenza Clienti IONOS.
Per poter garantire la massima affidabilità possibile, è necessario monitorare l'array RAID del server dedicato. Se scopri che un disco rigido è difettoso o ricevi un'e-mail di notifica che ti informa che un disco rigido difettoso, è necessario contattare l'Assistenza Clienti per organizzare la sostituzione del disco rigido. Per farlo, è necessario prima di tutto identificare quale disco rigido è difettoso e preparare il server alla sua sostituzione.
Attenzione:
I sistemi RAID consentono una maggiore affidabilità e/o una maggiore velocità. Tuttavia, non sostituiscono i backup regolari. Per evitare la perdita di dati, ti consigliamo di eseguire regolarmente un backup dei tuoi dati. Assicurati inoltre di eseguire un backup dei tuoi dati prima di eseguire i passaggi descritti di seguito.
Per ulteriori informazioni sull'esecuzione di un backup, consulta la seguente sezione del nostro Centro Assistenza: Soluzioni di backup
Controller hardware RAID: informazioni generali
Un controller hardware RAID è un controller fisico integrato nel server come componente hardware. Questo controller ha un proprio processore per il calcolo delle operazioni RAID e organizza e gestisce lo spazio di memoria. In questo modo la CPU del server non è appesantita dai calcoli RAID. Per i controller hardware RAID, la funzionalità RAID è indipendente dal sistema operativo. Questi sono infatti gestiti da speciali programmi CLI (Command Line Interface), che possono variare a seconda del produttore e del modello.
Diagnosi degli errori del disco rigido
Al fine di rilevare gli errori del disco rigido, ti consigliamo di utilizzare il programma smartctl.
Smartctl è un programma a riga di comando per il monitoraggio dei volumi tramite SMART (Self-Monitoring, Analysis and Reporting Technology). Con questo programma puoi verificare se un disco rigido è difettoso. Smartctl fa parte degli Smartmontools.
Puoi trovare un elenco dei controller hardware supportati al seguente indirizzo:
https://www.smartmontools.org/wiki/Supported_RAID-Controllori
Installare Smartctl
Puoi scaricare gli Smartmontools al seguente link:
https://www.smartmontools.org/wiki/Download#InstalltheWindowspackage
Determinare il tipo di controller hardware RAID
Per verificare quale controller RAID è installato nel server, procedi come segue:
Apri il pannello di controllo.
Clicca su Hardware > Dispositivi e stampanti > Gestione dispositivi.
Nella sezione Memory Controller, verifica quale controller è installato nel server.
Verificare lo stato dell'hardware RAID
Per sapere come visualizzare le informazioni sullo stato del controller RAID, consulta il seguente articolo: Monitorare / ricostruire un hardware RAID (Windows)
Se manca un disco nell'array RAID, è possibile che questo sia difettoso oppure rotto. Un RAID difettoso potrebbe presentarsi così:
CLI> rsf info
# Name Disks TotalCap FreeCap DiskChannels State
===============================================================================
1 Raid Set # 00 3 2250.5GB 0.0GB 1x3 Degrade
2 Raid Set # 00 3 2250.5GB 2250.5GB x2x Incompleted
===============================================================================
GuiErrMsg<0x00>: Success.
Nell'esempio precedente, il disco 2 presenta lo stato Incomplete. Questo indica che il disco è difettoso.
Visualizzare le informazioni relative al disco rigido
Smartctl si comporta allo stesso modo sia con Windows che con Linux. Per questo motivo, puoi utilizzare gli stessi comandi. Per utilizzare Smartctl per la risoluzione di problemi, è necessario aprire il prompt dei comandi e passare alla directory in cui si trovano gli Smartmontools.
Per poter visualizzare le informazioni relative al disco rigido tramite Smartctl, è necessario digitare il comando necessario sempre in combinazione con un'opzione e un dispositivo di destinazione. Il dispositivo di destinazione dipende dal produttore del controller.
Con i comandi sotto elencati puoi visualizzare le informazioni relative al disco rigido necessarie per la diagnosi:
Produttore | Disco rigido | Comando |
---|---|---|
ARECA | 1 | smartctl -iHAl error /dev/sg1 -d areca,1 |
ARECA | 2 | smartctl -iHAl error /dev/sg1 -d areca,2 |
LSI / 3Ware | 1 | smartctl -iHAl error /dev/twe0 -d 3ware,0 |
LSI / 3Ware | 2 | smartctl -iHAl error /dev/twe0 -d 3ware,1 |
Adaptec | 1 | smartctl -iHAl error /dev/sg2 -d sat |
Adaptec | 2 | smartctl -iHAl error /dev/sg3 -d sat |
Adaptec | (3) | smartctl -iHAl error /dev/sg4 -d sat |
Adaptec | (4) | smartctl -iHAl error /dev/sg5 -d sat |
Dell | 1 | smartctl -iHAl error -d sat+megaraid,0 /dev/sda |
Dell | 2 | smartctl -iHAl error -d sat+megaraid,1 /dev/sda |
Broadcom | 1 | smartctl -iHAl error -d sat+megaraid,0 /dev/sda |
Broadcom | 2 | smartctl -iHAl error -d sat+megaraid,1 /dev/sda |
Al seguente link puoi trovare ulteriori comandi per i controller hardware supportati:
https://www.smartmontools.org/wiki/Supported_RAID-Controllori
Esempio:
C:\Program Files\smartmontools\bin>smartctl -iHAl error /dev/sg1 -d areca,1
smartctl 7.0 2018-12-30 r4883 [x86_64-w64-mingw32-2016] (sf-7.0-1)
Copyright (C) 2002-18, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Hitachi/HGST Ultrastar 7K2
Device Model: HGST HUS722T1TALA604
Serial Number: WMC6M0JAUEV8
LU WWN Device Id: 5 0014ee 00482c2ec
Firmware Version: RAGNWA07
User Capacity: 1,000,204,886,016 bytes [1.00 TB]
Sector Size: 512 bytes logical/physical
Rotation Rate: 7200 rpm
Form Factor: 3.5 inches
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-3 T13/2161-D revision 5
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Thu Jan 17 06:17:05 2019 CAST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 141 140 021 Pre-fail Always - 3933
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 15
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 34
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 10
16 Gas_Gauge 0x0022 000 200 000 Old_age Always - 1822115874
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 6
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 9
194 Temperature_Celsius 0x0022 113 109 000 Old_age Always - 30
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0
SMART Error Log Version: 1
No Errors Logged
Interpretazione dei parametri
Nella prima sezione puoi trovare le informazioni necessarie per poter identificare il disco rigido. Puoi visualizzare as es. il modello del dispositivo, il numero di serie e le dimensioni del disco rigido che stai analizzando.
=== START OF INFORMATION SECTION ===
Model Family: Hitachi/HGST Ultrastar 7K2
Device Model: HGST HUS722T1TALA604
Serial Number: WMC6M0JAUEV8
LU WWN Device Id: 5 0014ee 00482c2ec
Firmware Version: RAGNWA07
User Capacity: 1,000,204,886,016 bytes [1.00 TB]
Sector Size: 512 bytes logical/physical
Rotation Rate: 7200 rpm
Form Factor: 3.5 inches
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-3 T13/2161-D revision 5
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Thu Jan 17 06:17:05 2019 CAST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
Nella seconda sezione, Smartctl valuta lo stato attuale del disco rigido. Se ad es. il disco presenta il valore Failed o UNKNOWN al posto del valore PASSED, è necessario sostituire il disco rigido il prima possibile.
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
Nella terza sezione, vengono elencati in dettaglio i VALORI SMART che sono stati determinati. Accanto ad ogni valore percentuale attuale (VALUE), vengono elencati anche il valore peggiore mai rilevato (WORST) e il rispettivo valore limite (THRESH). Se il valore percentuale attuale (VALUE) o il valore peggiore rilevato (WORST) superano il valore limite (THRESH), nella colonna WHEN_FAILED viene visualizzato un avviso SMART (ad es. FAILING_NOW).
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 141 140 021 Pre-fail Always - 3933
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 15
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 34
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 10
16 Gas_Gauge 0x0022 000 200 000 Old_age Always - 1822115874
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 6
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 9
194 Temperature_Celsius 0x0022 113 109 000 Old_age Always - 30
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0
I seguenti parametri possono indicare la minaccia di un guasto imminente del disco rigido prima che questo venga visualizzato in un avviso SMART:
Reallocated_Sector_Ct: specifica il numero di settori che sono stati riassegnati a causa di errori di lettura. Se un settore non può più essere letto, scritto o controllato correttamente, gli viene automaticamente assegnato un settore di sostituzione. Il settore difettoso è contrassegnato in modo permanente come illeggibile. Se questo valore non è uguale a zero, è probabile che si verificherà un guasto del disco rigido. Questo valore è l'indicatore più importante per la sostituzione di un disco rigido.
Current_Pending_Sector_Ct: specifica il numero di settori instabili in attesa di rimappatura. Se un settore non può essere letto e scritto correttamente, riceve prima lo stato "Current Pending Sector". Il settore non viene riassegnato in questo stato, poiché i dati del settore sono sconosciuti. Solo dopo diversi tentativi di lettura o scrittura non riusciti viene assegnato un settore di sostituzione e il settore difettoso viene contrassegnato in modo permanente come illeggibile. Il valore Current_Pending_Sector_Ct è un indicatore importante per la sostituzione di un disco rigido. Se questo valore non è uguale a zero, è probabile che si verificherà un guasto del disco rigido.
Offline_Uncorrectable: specifica il numero di errori agli accessi di lettura e scrittura per un settore.
L'ultima sezione riguarda il log interno del disco rigido. Gli errori vengono registrati qui se gli ordini di lavoro del server non sono stati elaborati correttamente dal disco rigido. Se il numero di errori in questa sezione è di almeno due cifre, è necessario sostituire il disco rigido il prima possibile.
SMART Error Log Version: 1
No Errors Logged
Visualizzare i file di log
Per maggiori informazioni su come visualizzare i file di log, consulta la documentazione del rispettivo produttore.
Areca
http://areca.starline.de/RaidCards/Documents/Manual_Spec/Software
Adaptec
http://download.adaptec.com/pdfs/user_guide/microsemi_raid_controller_iug_6_2017.pdf
dell
https://www.dell.com/support/home/de/de/debsdt1/product-support/product/poweredge-rc-h330/manuals
Broadcom
https://www.broadcom.com/products/storage/raid-controllers/megaraid-9440-8i#documentation
Preparare la sostituzione del disco rigido
Visualizzare le informazioni dettagliate per la sostituzione del disco
Per poter sostituire il disco rigido difettoso, sono necessarie le seguenti informazioni:
Nome del disco rigido nel RAID
Numero di serie
Modello
File di log (opzionale)
Creare un log SMART
Utilizza i comandi elencati di seguito per generare un log SMART completo:
Produttore | Disco rigido | Comando |
---|---|---|
ARECA | 1 | smartctl –x /dev/sg1 -d areca,1 |
ARECA | 2 | smartctl –x /dev/sg1 -d areca,2 |
LSI / 3Ware | 1 | smartctl –x /dev/twe0 -d 3ware,0 |
LSI / 3Ware | 2 | smartctl –x /dev/twe0 -d 3ware,1 |
Adaptec | 1 | smartctl –x /dev/sg2 -d sat |
Adaptec | 2 | smartctl –x /dev/sg3 -d sat |
Adaptec | (3) | smartctl –x /dev/sg4 -d sat |
Adaptec | (4) | smartctl –x /dev/sg5 -d sat |
Dell | 1 | smartctl –x -d sat+megaraid,0 /dev/sda |
Dell | 2 | smartctl –x -d sat+megaraid,1 /dev/sda |
Broadcom | 1 | smartctl –x -d sat+megaraid,0 /dev/sda |
Broadcom | 2 | smartctl –x -d sat+megaraid,1 /dev/sda |
Nota bene:
Se il log SMART è stato creato come descritto sopra, le informazioni in esso contenute sono sufficienti. A questo punto puoi far sostituire il disco rigido difettoso. Per farlo, contatta l'Assistenza Clienti IONOS.
Se non riesci a visualizzare il numero di serie del disco rigido difettoso utilizzando smartctl, è possibile, in alternativa, fornire all'Assistenza Clienti il numero di serie del disco rigido funzionante.
Se non riesci a determinare le informazioni necessarie per la sostituzione del disco e desideri sostituirlo, è necessario verificare l'hardware prima della sostituzione. Durante questa verifica, il server è di solito temporaneamente non disponibile. Se durante questo test viene rilevato un difetto del disco rigido, questo viene sostituito.
Organizzare la sostituzione del disco rigido
A questo punto puoi fa sostituire il disco rigido. Per farlo, contatta l'Assistenza Clienti IONOS.
Passaggi necessari dopo la sostituzione del disco rigido
Dopo che il disco rigido difettoso è stato sostituito, di solito inizia automaticamente la ricostruzione del sistema RAID. Verifica se la ricostruzione del sistema RAID è stata avviata ed eseguita con successo.
Contenuto
- Controller hardware RAID: informazioni generali
- Diagnosi degli errori del disco rigido
- Visualizzare le informazioni relative al disco rigido
- Interpretazione dei parametri
- Visualizzare i file di log
- Preparare la sostituzione del disco rigido
- Organizzare la sostituzione del disco rigido
- Passaggi necessari dopo la sostituzione del disco rigido
- Torna su