Malfunzionamento del server: rischi, conseguenze e contromisure
Quando si tratta di criminalità su Internet, gli imprenditori pensano per prima cosa allo spionaggio industriale, al furto di dati aziendali e con ciò ad una infrazione della sicurezza dei dati. Chiaramente, con l’aumento della digitalizzazione, gli attacchi in rete hanno raggiunto una nuova proporzione. Sempre più settori fanno affidamento a sistemi informatici. Questi sistemi legano però le aziende a reti pubbliche, diventando così un bersaglio facile per gli hacker. Nel caso in cui un attacco hacker porti ad un malfunzionamento del server, ne conseguono costose interruzioni dell’attività. In pochi minuti un guasto al server può causare un danno di diverse migliaia di euro. Le aziende rischiano di incorrere in perdite particolarmente gravi, se sul server non più raggiungibile viene gestito un software per l’e-commerce o vengono messe a disposizione delle banche dati. Ma i malfunzionamenti del server non dipendono solo da cause esterne, bensì vi sono anche fonti di rischio interne che compromettono il normale andamento dell’attività commerciale.
Una sicurezza solida dipende, oltre che dalla difesa dalle minacce esterne e da procedure standard nel campo della Disaster Recovery, dall’attuazione di misure del personale ed organizzative. Le contromisure sono solitamente una questione di compensazione. La compensazione da un punto di vista tecnico si basa sull’utilizzo di server ridondanti, per garantire così un’alta disponibilità dei servizi o contenuti, o sul superamento del downtime del server attraverso sistemi di standby. Gli amministratori si assicurano la sicurezza dei dati attraverso programmi di backup e di recovery, così come attraverso infrastrutture ridondanti per la memorizzazione dei dati. Le conseguenze finanziarie di un malfunzionamento del server possono essere evitate prendendo le dovute precauzioni.
Panoramica sui vari tipi di malfunzionamento
Quando si parla di fonti di pericolo in relazione ad un malfunzionamento del server, gli esperti distinguono tra minacce interne ed esterne. Le minacce interne possono essere di qualunque entità, tra le quali anche malfunzionamenti alla propria infrastruttura IT, delle impostazioni inadeguate o il comportamento errato di un dipendente. Invece le minacce esterne includono temerari attacchi dall’esterno o eventi imprevedibili, come incidenti e catastrofi.
Fonti di rischio interne:
- Incendio nel data center
- Black out nel data center
- Guasto hardware (crash dei dischi fissi, sovraccarico, surriscaldamento)
- Errore del software (malfunzionamento della banca dati)
- Problemi di rete
- Errore umano
Fonti di rischio esterne:
- Infiltrazione (attacco man in the middle, phishing, ingegneria sociale)
- Sabotaggio (attacchi al sistema SCADA)
- Virus, trojan, worm
- Attacchi DDoS (Distributed Denial of Service)
- Furto dell’hardware
- Cause di forza maggiore (terremoto, caduta di un fulmine, inondazione)
- Incidenti (caduta di un aereo)
- Attentati
Solitamente è più facile per le aziende prepararsi contro i rischi interni piuttosto che contro le minacce esterne. Il motivo è che gli hacker aggiornano i propri schemi di attacco in base agli ultimissimi standard di sicurezza e che le reti aziendali si confrontano continuamente con strategie di infiltrazione e programmi dannosi. Al contrario i rischi interni possono essere evitati dalle aziende grazie a impianti elettrici a prova di black out, misure antiincendio, server ad alta disponibilità e continui corsi di formazione sulla sicurezza.
Conseguenze di un malfunzionamento del server
Un malfunzionamento del server causa dei danni economici. Questo è chiaro a tutti gli imprenditori. Ma quali siano i costi corrispondenti ad un’ora di down del server lo ha mostrato uno studio della Techconsul del 2013. Su commissione di HP Germania un’azienda per le ricerche di mercato ha condotto uno studio in tutta la Germania su 300 aziende di medie dimensioni con un numero di impiegati compreso tra 200 e 4.999. Circa il 77% delle aziende ha riscontrato, nell’anno precedente allo studio, malfunzionamenti ai sistemi IT fondamentali per i loro affari. Tra gli altri sono stati colpiti l’informazione dei prodotti, la produzione e la vendita. In media si registrano quattro casi di malfunzionamento per azienda. Il tempo medio per la risoluzione dei problemi e per il ripristino dei dati è di 3,8 ore.
Quali costi si sostengono per ogni ora di down del server varia in base alle dimensioni dell’azienda. Mentre le aziende con meno di 500 impiegati registrano dei costi di circa 20.000 euro all’ora, i costi per azienda con più di 1000 lavoratori per ogni ora di down si aggirano attorno ai 40.000 euro. In media un’ora di down del server provoca un danno corrispondente a 25.000 euro per le aziende medio-grandi. Da conteggiare sono il tempo per la risoluzione del problema e per il ripristino dei dati. Le aziende medie tedesche perdono in media 380.000 euro l’anno.
Se ed in che proporzione avvenga l’interruzione dei servizi presso un’azienda, dipende molto dal settore in cui opera e dal modello aziendale adottato. Principalmente è possibile per gli impiegati ripiegare su alcune attività, come ad esempio convocare riunioni, stare al telefono o anticipare appuntamenti con i clienti. Chiaramente non solo se i processi centrali si appoggiano ad un sistema informatico, ma anche se la loro intera gestione ne dipende, un downtime diventa allora particolarmente pesante. Diventa molto costoso quando, ad esempio, un negozio online è offline e i clienti non possono perciò fare alcun ordine, o quando la produzione viene bloccata per via di un malfunzionamento del sistema SCADA.
Il calcolo dei costi per l’interruzione dell’attività dovrebbe tenere conto anche degli ordini mancanti e delle penali che possono conseguire da un ritardo di consegna, oltre alla paga degli impiegati costretti all’inattività. Inoltre è impossibile quantificare la perdita in immagine dovuta all’arrabbiatura da parte dei clienti.
Contromisure
Attraverso l’attuazione di misure di prevenzione è possibile ovviare a rischi reali e quindi ridurre l’eventualità di malfunzionamenti del server. Normalmente queste si riferiscono ad una serie di misure infrastrutturali ed organizzative in relazione alla scelta e allo spazio in cui si trova il server. Una raccolta di informazioni utili riguardanti le minacce, le misure di sicurezza e quant’altro è offerta dal Bundesamt für Sicherheit in der Informationstechnik (BSI, o in italiano Ufficio Federale tedesco per la sicurezza informatica).
Protezione antincendio ed altre misure preventive
Al fine di evitare malfunzionamenti del server dovuti a condizioni fisiche esterne, come incendi, allagamenti, black out o sabotaggi hardware, le stanze dei server e dei data center devono essere allestite secondo determinati criteri. Si inizia già con la scelta del luogo. Sconsigliabili sono le cantine, in cui vi è sempre il rischio che, nel caso di tempeste o catastrofi naturali, si allaghino. Inoltre l’accesso ai locali dovrebbe essere limitato al personale specializzato ed, eventualmente, controllato. Le stanze dei server non sono concepite come luoghi di lavoro veri e propri.
I danni dovuti agli incendi sono compensabili attraverso l’utilizzo di sistemi antincendio, che includono l’installazione di porte antincendio, allarmi antincendio, estintori a mano e automatici (impianti ed estinguenti gassosi). Ulteriori misure di prevenzione sono la stesura di una direttiva per un corretto immagazzinamento di materiali infiammabili, l’isolamento del fuoco attraverso strutture per la conduzione dei cavi e l’utilizzo di materiali isolanti per coibentazione al calore o all’isolamento acustico.
Gli apparecchi tecnici trasformano l’energia elettrica in calore. L’irradiamento solare può causare un ulteriore aumento della temperatura nella stanza del server. Per contrastare guasti ai server e ai dati causati da surriscaldamento e da un livello di umidità nell’aria maggiore, dovrebbero essere utilizzati sistemi di raffreddamento e di areazione efficienti. In genere le condizioni ambientali ottimali per i dispositivi di archiviazione dati nel lungo periodo si riscontrano ad una temperatura tra i 20° ed i 22°, con un’umidità del 40 percento.
Per il corretto funzionamento di un server è indispensabile che venga costantemente erogata l’elettricità. Infatti, già 10 millisecondi di interruzione della corrente possono causare problemi ai sistemi informatici. Grazie all’utilizzo di generatori di emergenza, che garantiscono il funzionamento dei sistemi anche in mancanza dell’erogazione dell’elettricità pubblica, si riesce però a provvedere a casi di brevi interruzioni e anche a problemi di maggiore durata.
Affidabilità del server
In particolar modo nelle aziende di medie dimensioni si sottovalutano le conseguenze sul proprio business dei problemi legati all’IT. Un motivo è l’alta affidabilità dei componenti standard utilizzati oggigiorno dalle aziende operanti nell’IT. Solitamente viene garantita una disponibilità del 99,9 percento. Un valore che sembra alto, ma che prevede un massimo di 9 ore di downtime in un anno. Dovesse poi capitare nelle ore di punta, anche un’irraggiungibilità del server di breve durata potrebbe essere molto costosa per l’azienda. I sistemi IT con una disponibilità del 99,9 percento sono ormai diventati degli standard per consentire l’apertura di dati e il funzionamento di programmi critici. Per questi viene garantito un downtime non superiore ai 52 minuti all’anno. Alcuni esperti IT parlano addirittura di una disponibilità del 99,999 percento e così questi sistemi permetterebbero di non superare i 5 minuti all’anno di downtime. Il problema con tali indicazioni è che queste fanno riferimento solamente alla sicurezza da guasti dell’hardware del server. La definizione dell’IEEE (Institute of Electrical and Elcetronics Engineers) perciò considera un sistema come altamente disponibile, se questo, nonostante il guasto di componenti di sistema, è in grado di mettere in sicurezza la disponibilità delle sue risorse IT: “High Availability (HA for short) refers to the availability of resources in a computer system, in the wake of component failures in the system.” Questa disponibilità viene raggiunta ad esempio attraverso server ridondanti. Tutte le parti fondamentali sono doppie, ed in particolare lo sono i processori, i chip di archiviazione e le unità I/O. In questo modo si evita che un difetto di un componente paralizzi il server, ma l’alta disponibilità non difende chiaramente da un incendio nel centro di elaborazione dati, da attacchi mirati tramite malware e attacchi DDoS, da un sabotaggio o dal controllo del server da parte di hacker. In realtà però gli imprenditori devono tenere conto di tempi di inattività ben più lunghi ed attuare quindi misure adeguate di prevenzione e di limitazione dei danni. Ulteriori strategie per compensare un malfunzionamento del server, consistono in sistemi di standby e cluster ad alta disponibilità. Entrambi i sistemi si basano sulla connessione di due o più server, che assieme mettono a disposizione più risorse hardware di quelle necessarie per il normale funzionamento. Un sistema di standby è un secondo server che serve per la messa in sicurezza del sistema principale e che assume le sue funzioni, appena questo smetta di funzionare a causa di un problema hardware o software. Lo spostamento del controllo dei servizi ad un altro server viene chiamato failover e viene attuato attraverso un software cluster manager (ovvero un software dedicato alla gestione di computer cluster), senza che sia necessario l’intervento dell’amministratore. Una struttura simile composta da un nodo attivo e da uno passivo può essere considerata come un cluster asimmetrico ad alta disponibilità. Se invece tutti i nodi del cluster consentono il normale funzionamento dei servizi, si parlerà di una struttura simmetrica. Poiché durante la migrazione di un servizio da un sistema ad un altro avviene comunque un ritardo, i sistemi standby e i cluster ad alta disponibilità presentano comunque la possibilità di una breve interruzione.
Sistemi di difesa
Gli amministratori contrappongono diverse soluzioni hardware e software all’influsso dannoso degli hacker, le quali servono a scoprire attacchi, a difendersi da essi, a registrarli e a deviarli. Al fine di proteggere un server da accessi non autorizzati, i sistemi critici vengono isolati dalle reti pubbliche con firewall e zone demilitarizzate (DMZ).
I sistemi di rilevamento degli attacchi, i cosiddetti Intrusion Detection System (IDS), servono a monitorare automaticamente i server e le reti e a lanciare l’allarme, non appena vengano registrati tentativi di accesso manuali non autorizzati o attacchi automatici tramite software dannosi: un processo basato sul riconoscimento degli schemi di attacco e su analisi statistiche. Quando invece entrano in azione gli Instrusion Prevention Systems (IPS), all’allarme seguono delle contromisure automatizzate. Comune è combinare questi sistemi ai firewall, attraverso i quali è possibile rifiutare pacchetti dati o interrompere connessioni sospette.
Allo scopo di tenere lontani gli hacker dai sistemi IT di importanza critica, gli amministratori si servono dei cosiddetti honeypot, che appaiono agli hacker come obbiettivi ipoteticamente interessanti, ma operano in realtà in maniera indipendente dal sistema produttivo e non hanno quindi alcuna influenza sulle sue funzionalità. Gli honeypot vengono tenuti costantemente sotto osservazione e permettono così di reagire in breve tempo a dei tentativi di infrazione e di analizzare le strategie e gli schemi di attacco utilizzati.
Sicurezza dati e backup
Si raccomanda in genere l’elaborazione di un piano di messa in sicurezza dei dati secondo gli standard internazionali dell’industria ISO 27001, in modo da ripristinare velocemente i dati critici anche in caso di un malfunzionamento del server. Grazie a questo standard viene regolato il responsabile per la sicurezza dati, che ha anche il compito di nominare chi dovrà poi provvedere al ripristino dei dati. Inoltre il piano prevede indicazioni su quando deve essere fatto un backup, quante versioni di dati debbano essere salvate, quale supporto di archiviazione vada utilizzato e se siano necessarie o meno delle modalità di trasporto dei dati particolari, come ad esempio l’impiego della crittografia. In aggiunta viene definito anche il tipo di messa in sicurezza dei dati:
- Backup completo: se la totalità dei dati da mettere in sicurezza viene salvata su una memoria aggiuntiva ad intervalli ben scanditi, si parla di backup completo. In questo tipo di backup non si tiene però conto se i dati siano stati variati dall’ultimo salvataggio. Il backup completo richiede perciò molto tempo e memoria, il che fa sì che con il tempo, quando diverse versioni di dati sono state salvate, i dati occuperanno molto spazio. Questo tipo di memorizzazione mira ad un ripristino dei dati facile e veloce, poiché deve essere ripristinato solo l’ultimo backup effettuato. Questo vantaggio viene però perduto quando il backup viene eseguito troppo di rado. In questo caso è richiesta una grande mole di lavoro per riuscire a riportare i dati modificati allo stato attuale.
- Backup incrementale: il backup incrementale comprende solamente i dati che sono stati modificati dall’ultima volta e così facendo viene diminuito il tempo necessario per l’esecuzione del backup. Anche lo spazio necessario per il salvataggio di diverse versioni di dati è chiaramente minore rispetto ad un backup completo. Una messa in sicurezza dei dati incrementale richiede però che sia stato effettuato almeno un backup completo. Nella pratica avviene spesso una combinazione delle due metodologie di backup, quindi tra due backup completi se ne susseguono diversi incrementali. Nel caso sia necessario un ripristino dei dati, verrà preso l’ultimo backup completo come base di partenza per completare poi con i dati contenuti in quelli incrementali.
- Backup differenziale: anche il differenziale si basa su una messa in sicurezza dei dati completa, in modo da salvare tutti i dati che sono stati modificati dall’ultimo salvataggio. A differenza dell’incrementale non vi è nessuna concatenazione di più backup. Per il ripristino dei dati basterà un allineamento dell’ultimo salvataggio completo con il backup differenziale più aggiornato.
Su quale metodo di salvataggio un’azienda faccia ricadere la propria scelta dipende diversi fattori, quali la tollerabilità dei tempi per il ripristino dei dati, la frequenza e la data del salvataggio così come il rapporto tra la quantità di modifica dei dati e il volume totale del backup. Se i due valori sono pressappoco uguali, il risparmio di spazio derivato dall’impiego di processi incrementali o differenziali rimane di poco conto.
Formazione
Le misure per la sicurezza delle informazioni possono essere stabilite all’interno di un’azienda, solo quando tutti gli impiegati riconoscono ed accettano il loro ruolo fondamentale per il successo della propria attività. La creazione e la cura di una consapevolezza riguardo alla sicurezza va fatta nascere attraverso una formazione regolare, sensibilizzando i dipendenti sulle fonti di pericolo interne ed esterne, improvvisando scenari di rischio e spiegandone le possibili conseguenze.
La base di una formazione sistematica sono regole e disposizioni sulla dimestichezza nell’uso dei dispositivi rilevanti per la sicurezza ed indicazioni come un piano di emergenza, che offra ai lavoratori delle istruzioni su come operare, quale passaggio eseguire, al fine di ritornare nel minor tempo possibile al normale funzionamento. Un approccio strutturato alla realizzazione di un simile piano lo offre la Business Continuity Management (traducibile in italiano con gestione della continuità operativa).
Business Continuity Management (BMC)
Le aziende investono sempre più nelle misure di prevenzione, in modo da mantenere quanto più bassi possibili i danni provocati da malfunzionamenti del server. Si tratta della cosiddetta Business Continuity Management (BMC). Riguardo al settore IT, le strategie BMC mirano a contrastare un malfunzionamento del server in un settore di importanza critica e nei casi di un’interruzione, ne assicurano una pronta ripresa. Un requisito fondamentale per un’adeguata gestione di un’emergenza è la cosiddetta Business Impact Analysis (BIA), che aiuta l’azienda ad identificare i processi critici. Per critico si intende quando un malfunzionamento ha una ripercussione sull’attività. La BIA si concentra innanzitutto sulle conseguenze concrete di uno scenario dannoso. Le cause di un malfunzionamento del server, le possibilità che si verifichi una situazione pericolosa e le contromisure fanno tutte parte dell’analisi del rischio. Vi sono diversi modi per realizzare una BIA ed un’analisi del rischio in conformità con la BMC, una guida chiara è fornita ad esempio dal manuale Standard 100-4 del BSI, fornito sempre dall’Ufficio Federale (Tedesco) per la sicurezza informatica.
Business Impact Analyse (BIA)
Il primo passo per una Business Continuity Management completa è la Business Impact Analysis, che in italiano si traduce con analisi d’impatto sul business. Le domande centrali di questa analisi sono: quali sistemi sono di importanza centrale per mantenere le attività vitali? Quali conseguenze ha un malfunzionamento di questo sistema sull’attività? Perciò è consigliato identificare i prodotti ed i servizi più importanti di un’azienda e dell’infrastruttura IT che ne stanno alla base. Ad esempio nel caso di un’azienda che vende principalmente su Internet, ad essere particolarmente importanti da proteggere saranno i server che mettono a disposizione l’online shop e i relativi database. Invece un call center classificherà i mezzi tecnici per consentire le telefonate come vitali per il proprio funzionamento. La BIA consiste dunque nel dare la priorità ai sistemi necessari da proteggere, in un calcolo dei danni e in una rilevazione delle risorse necessarie per il ripristino dei sistemi.
Analisi del rischio
Un’analisi del rischio ha la funzione, nell’ambito della gestione di un’emergenza, di identificare le fonti di pericolo interne ed esterne, che potrebbero causare un malfunzionamento del server e quindi un’interruzione del servizio. Lo scopo è quello di rendere trasparenti i rischi per la sicurezza e le loro cause, sviluppando misure correttive adeguate, così da ridurre i potenziali pericoli conosciuti. Una valutazione dei rischi si stila in base ai danni previsti e alla possibilità di occorrenza. La tabella seguente mostra un esempio per una classificazione del rischio, presa dallo Standard 100-4 del BSI:
Rilevamento dello stato attuale
Una volta individuate le fonti di rischio e il potenziale dei danni degli scenari reali di malfunzionamento del server nell’ambito della BIA e dell’analisi del rischio, il prossimo passo della strategia della continuità è il rilevamento dello stato attuale delle cose. Sono importanti per il rilevamento le misure cautelari già stabilite in caso d’emergenza, così come le attuali tempistiche per il ripristino. Il rilevamento dello stato attuale permette all’azienda di valutare le necessità comportate da concreti rischi di sicurezza e i relativi costi d’investimento.
Scelta della strategia di continuità
Generalmente esistono diverse strategie per le fonti di pericolo interne ed esterne, che permettono il proseguimento del funzionamento, nonostante il malfunzionamento, o un veloce ripristino. Nell’ambito del Business Continuity Management è compito del responsabile delle scelte valutare quale strategia di continuità debba venire utilizzata in caso di emergenza. Alla base di questa scelta vi è l’analisi costi-benefici, che si basa su fattori quali i mezzi finanziari necessari, l’affidabilità della soluzione o il tempo di ripristino valutato.
Se ad esempio dovesse venir sviluppata una strategia di continuità, che previene un incendio nel centro di elaborazione dati, vi sono diverse soluzioni tra le quali sarebbe possibile scegliere: le soluzioni minimali comprendono la compensazione dei danni attraverso un assicurazione sul fermo aziendale e l’uso di un data center alternativo presso un provider. Più caro sarebbe invece l’ammodernamento della stanza del server secondo gli standard antincendio attuali. Dovessero essere possibili maggiori investimenti, sarebbe possibile ridurre i danni impliciti attraverso la costruzione di una stanza server ridondante.
Le strategie di continuità vengono fissate nel piano di sicurezza di emergenza, il quale contiene istruzioni per tutti i rilevanti scenari di emergenza.