Dark Data
Nell’era dell’informazione, le organizzazioni raccolgono costantemente grandi quantità di dati. Ma nella maggior parte dei casi, i dati raccolti vengono archiviati senza essere analizzati. Questi dati, che esistono ma non vengono utilizzati, sono chiamati Dark Data.
- vCPU estremamente vantaggiose e potenti core dedicati
- Massima flessibilità senza periodo contrattuale minimo
- Servizio di assistenza tecnica 24 ore su 24, 7 giorni su 7
Cosa sono i Dark Data?
Per Dark Data si intendono tutti quei dati acquisiti e memorizzati in vario modo da un’organizzazione, che però non sono né conosciuti né sfruttati dall’azienda stessa. Questi dati possono essere incompleti, non analizzati, segreti oppure non (ancora) raccolti. Per comprendere al meglio il termine, è essenziale capire la sua relatività. Infatti, l’oscurità di questi dati per un’azienda dipende fondamentalmente dalla relazione che questa organizzazione ha con essi.
I Dark Data hanno strettamente a che fare con il Big Data Management. La quantità di dati generati da un’azienda solitamente è talmente elevata che elaborarli e analizzarli tutti è semplicemente impossibile. Come affermato dallo statistico britannico David Hand:
“In tempi di Big Data, è facile pensare di avere tutte le informazioni di cui abbiamo bisogno per prendere buone decisioni. Ma in realtà i dati non sono mai completi e possono rappresentare solo la punta dell’iceberg.”
(“In the era of big data, it is easy to imagine that we have all the information we need to make good decisions. But in fact the data we have are never complete, and may be only the tip of the iceberg.”)
- David Hand
Ma cosa sono esattamente i Dark Data? Analizziamoli all’interno di quattro scenari differenti:
- dati di cui non si conosce ancora l’esistenza;
- dati che sono soggetti a incertezze;
- dati che vengono memorizzati ma mai utilizzati;
- dati che non sono stati ancora registrati.
In tutti e quattro gli scenari, possiamo fare distinzione tra due casi distinti:
- l’organizzazione è consapevole che i dati sono mancanti, incompleti o soggetti a incertezza.
Questo caso è il meno problematico. Se c’è la consapevolezza che i dati disponibili possano essere solo la punta di un iceberg, l’organizzazione può prendere delle contromisure, come ad esempio cercare di ottenere dati più completi o valutare i dati disponibili in relazione alle incertezze. Adesso il secondo caso:
- l’organizzazione non sa che mancano dei dati o si presume che i dati disponibili siano completi.
Questo caso è più problematico. Presumendo di avere un quadro completo della situazione sulla base dei dati disponibili, l’organizzazione sta operando contrariamente alla realtà dei fatti. Le conclusioni tratte da dati incompleti possono portare a decisioni non ottimali.
In tempi di Big Data e Data Mining i dati possono essere di vitale importanza per le organizzazioni, che fanno di tutto per sfruttarli nel modo più profittevole possibile.
Cosa si intende con “dati”?
Il termine dati esiste da quando esiste l’informatica. Ne parlano i politici, così come gli imprenditori e gli scienziati. Nonostante ciò, il suo significato risulta difficile da comprendere per molte persone. Questo perché i dati non hanno una natura fisica. Si tratta infatti di un concetto astratto.
I dati non sono uguali alle informazioni
Prima di tutto, bisogna ricordare che i dati sono una rappresentazione dell’informazione. In pratica, i dati sono i più piccoli elementi costitutivi dell’informazione, allo stesso modo in cui gli atomi lo sono della materia, o i fotoni dell’energia.
Qui usiamo il termine “informazione” come un concetto astratto, come la materia e l’energia. Quando si parla di “informazioni”, al plurale, si intendono invece espressioni concrete.
Ogni dato preso singolarmente è privo di significato. Solo l’interpretazione di diversi dati dà come risultato un’informazione utilizzabile. Per capirlo, pensate ai dati come a lettere individuali. Una singola lettera, per esempio la lettera ‘A’, non ha alcun significato in sé. Solo quando si combinano diverse lettere si ottiene una parola, per esempio “mela”. In questo caso, inoltre, è importante anche l’ordine in cui le lettere vengono disposte.
Le informazioni non sono quindi altro che dati, riassunti in strutture e delimitati gli uni dagli altri. Il processo di interpretazione dipende dal contesto. Ciò significa che una serie di dati può essere interpretata in modo diverso, e può risultare in diversi significati. Pensate di nuovo alla parola “mela”: invece di combinare le singole lettere in una parola, potremmo contare le lettere. Il risultato sarebbe un’informazione diversa basata sugli stessi dati.
Immaginiamo la totalità dei dati di un’organizzazione come una montagna. La sfida per un’azienda è quindi proprio estrarre informazioni utili da questa montagna di dati. In contrasto con una montagna fisica, dove i materiali di valore vengono estratti e quindi rimossi, le informazioni utili possono in linea di principio essere estratte da una montagna di dati più volte. Dipende dal contesto e dalla prospettiva.
La gerarchia dell’informazione
Se l’informazione è composta da dati, come la materia è composta da atomi, è naturale supporre che esistano ulteriori strutture superiori. In effetti, esiste una gerarchia dell’informazione: i dati sono in fondo, seguiti dall’informazione e infine dalla conoscenza.
La conoscenza non è altro che una serie di informazioni collegate fra loro. Ogni singola informazione ha una diversa importanza: alcune sono primarie, altre secondarie. Cruciale per la conoscenza è il concetto di riferimento, che in informatica corrisponde a un (hyper)link: un’informazione che riporta a un’altra unità di conoscenza. Esempi di conoscenza sono voci di Wikipedia, ricette o processi documentati.
Dalla conoscenza consegue l’intelligenza, che ci permette di trarre conclusioni e riconoscere dinamiche ricorrenti dalla conoscenza appresa e dall’esperienza accumulata. Le nuove conoscenze vengono ricavate creando e testando delle ipotesi. Cruciale per l’intelligenza è l’informazione eseguibile, o in altre parole: il codice. Questi possono essere algoritmi o euristiche. Mentre i dati, le informazioni e la conoscenza sono inerti, l’intelligenza richiede un ambiente di esecuzione. Cellule, organismi, computer e reti sono tutti sistemi dotati di intelligenza.
Il livello più alto nella gerarchia dell’informazione è la saggezza. La saggezza è la somma della conoscenza e dell’intelligenza, e permette di valutare diversi modi per trovare una soluzione equilibrata. Le domande interessanti non sono tanto “cosa” (dati, informazioni) o “come” (conoscenza, intelligenza), ma “perché” e “per cosa”. Un buon esempio di saggezza è una biblioteca, che include non solo la conoscenza sotto forma di libri e altri media, ma anche l’intelligenza sotto forma di personale e sistemi di catalogazione.
- Massima sicurezza dei tuoi dati
- Strumenti di collaborazione per lavorare in team
- Aggiornamenti automatici
Come vengono creati i Dark Data?
I processi organizzativi, che sono supportati da metodi moderni di elaborazione delle informazioni, producono continuamente dati. Una certa parte dei dati è costituita da Dark Data. Nei Dark Data, o l’informazione che i dati esistono viene persa, o manca fin dall’inizio, oppure la conoscenza di come i dati possono essere analizzati non è disponibile.
I Dark Data si presentano in diverse forme. Come ha dichiarato l’esperto di marketing Sky Cassidy:
“I Dark Data sono tutti i dati che le aziende raccolgono e conservano come parte dei normali processi aziendali, senza l’intenzione di analizzarli. Questo include file di log, statistiche di un sito web, filmati di telecamere di sorveglianza, corrispondenza e-mail di ex dipendenti e molto altro ancora.”
(“So as for Dark Data, it’s all the information companies collect in their regular business processes, don’t use, have no plans to use, but will never throw out. It’s web logs, visitor tracking data, surveillance footage, email correspondences from past employees, and so much more.”)
- Sky Cassidy
Dark Data generati da dati dimenticati o non più accessibili
Una grande categoria di Dark Data è composta da dati a cui, per vari motivi, non è più possibile accedere.
I dipendenti conservano continuamente dati sui loro dispositivi privati e aziendali. Succede facilmente che questi dati vengano dimenticati e diventino Dark Data. Ne fanno parte anche i dati su chiavette USB e dischi rigidi portatili, così come i supporti dati interni di dispositivi desktop e mobili dismessi, ma anche i dati negli allegati di posta elettronica e nei database inutilizzati.
La scalabilità quasi infinita è uno dei vantaggi del cloud, ma allo stesso tempo anche una condanna. Questo perché il cloud storage permette di continuare ad accumulare dati senza limite, spingendo quindi le persone a farlo. Se l’accumulazione di dati avviene al di fuori di processi strettamente regolamentati, come risultato si avrà la produzione di Dark Data.
I dati archiviati digitalmente devono essere memorizzati tenendo conto della loro sicurezza e protezione. A questo proposito, i dati vengono criptati e l’accesso ai sistemi protetto tramite autorizzazioni. Ma se le credenziali di accesso vengono smarrite o dimenticate, si perde l’accesso ai dati e di conseguenza alle informazioni da essi contenute.
Un’altra modalità di perdita dei dati può verificarsi quando questi sono disponibili in un formato a cui non è più possibile accedere. Nel caso di un formato di file proprietario, per esempio, potrebbe essere necessario un programma specifico per leggerlo. Tuttavia, può essere che il programma non possa più essere utilizzato o che non sia più disponibile nella versione richiesta. In questo caso, i dati rimangono intrappolati nel Vendor Lock-In.
Dark Data derivanti da dati incompleti o non aggiornati
Con Dark Data non si intendono sono solo i dati non più accessibili, ma anche dati incompleti o non aggiornati. Di nuovo con le parole dello statistico David Hand:
“I Dark Data sono dati mancanti. Può essere che tu voglia i dati di oggi, ma hai solo quelli di ieri. Forse c’è un campione distorto, magari mancano alcuni tipi di casi, oppure i valori misurati sono imprecisi - d’altronde, non esistono strumenti di misura perfetti.”
(“Dark Data are data you don’t have. This might be because you want today’s data, but all you have is yesterday’s. It might be because your sample is distorted, perhaps certain types of cases are missing. It might be because the recorded values are inaccurate – after all, no measurement instrument is perfect.”)
- David Hand
Ricordate che i dati sono il livello più basso della gerarchia dell’informazione. Le imprecisioni e le deviazioni nei dati si manifestano nei livelli di informazione più alti. Questo di solito si traduce in effetti a cascata: piccole deviazioni portano a grandi cambiamenti. Allo stesso modo, pochi dati incompleti possono avere grandi conseguenze.
Dark Data derivanti da dati che non sono stati analizzati.
Una grande categoria di Dark Data consiste in quei dati che sono stati raccolti e immagazzinati ma mai analizzati. Un volume particolarmente elevato di questi dati proviene da fonti che ne generano automaticamente. Questo include i sensori, i file di log e le statistiche dei siti web. I dati generati vengono spesso immagazzinati per lunghi periodi di tempo senza che le informazioni che contengono siano estratte e analizzate.
Alcuni dati sono disponibili in formati che richiedono procedure complesse per essere analizzate. Questo include testi contenuti in file di immagini e parole contenute in file audio. In generale, le immagini digitali contengono informazioni che possono essere recuperate in maniera automatizzata solo con metodi moderni di intelligenza artificiale. Per identificare e assegnare gli oggetti raffigurati nei dati dell’immagine vengono utilizzate tecnologie per il riconoscimento e la classificazione dei modelli. Dato che questi metodi sono ancora relativamente nuovi, è probabile che la maggior parte del materiale d’immagine immagazzinato in tutto il mondo contenga una certa quantità di Dark Data.
Un altro scenario è quello in cui i Dark Data derivano da dati esistenti ma non analizzati. Ovvero, quando i dati vengono immagazzinati e conservati nel corso di security audit, senza l’intenzione di analizzarli. Il problema è ben spiegato dallo statistico David Hand:
“Può anche accadere che i dati esistano e siano accessibili, ma rimangano ignorati. Dati raccolti solo per motivi di conformità, destinati a rimanere sepolti in un enorme magazzino di dati.”
(„It might even be that the data are available, but unexamined, gently decaying in a giant data warehouse, unlooked at because they were collected purely for compliance reasons.”)
- David Hand
Dark Data derivanti da dati che non sono ancora stati raccolti
I Dark Data possono assumere anche un’altra forma. In questo caso di natura più teorica, perché si tratta di dati che non sono ancora stati raccolti. Naturalmente, questi dati (che non esistono ancora) sono al di fuori della visione dell’organizzazione. Pertanto, possono anche loro essere considerati Dark Data.
Lo statistico David Hand si rifà all’astrofisica proponendo un’analogia con il famoso concetto di “materia oscura”:
“Proprio come gran parte dell’universo è composto da materia oscura, invisibile per noi ma comunque presente, l’universo dell’informazione è pieno di dati oscuri, che trascuriamo a nostro rischio e pericolo.”
(„Just as much of the universe is composed of dark matter, invisible to us but nonetheless present, the universe of information is full of Dark Data that we overlook at our peril.”)
-David Hand
Perché i Dark Data sono un problema?
I Dark Data sono un problema per le aziende e altre organizzazioni. Le ragioni sono diverse. Qui di seguito discutiamo solo i casi in cui i dati esistono realmente, escludendo quei casi in cui i dati non esistono ancora.
Conservare i Dark Data è inefficiente
L’immagazzinamento di qualsiasi dato richiede risorse. Questo include, in particolare, lo spazio di archiviazione e l’energia da parte del gestore dello spazio, che comportano dei costi da parte dell’organizzazione.
L’efficienza è definita come il quoziente tra il beneficio e le energie spese. Se si ottiene un alto beneficio con un basso dispendio di energia, si parla di alta efficienza. Invece, un basso beneficio con un alto dispendio di energia significa che l’efficienza è bassa.
Efficienza = beneficio / energia spesa
I dati dovrebbero essere utili. Invece, l’utilità effettiva dei Dark Data è limitata. Ciononostante, è necessario un dispendio di energie continuo per conservare questi dati. Di conseguenza, l’archiviazione dei Dark Data è inefficiente.
La difficoltà di trovare l’ago delle informazioni nel pagliaio dei Dark Data
Immaginiamo l’insieme dei dati di un’organizzazione come un iceberg. La maggior parte dei dati sono Dark Data. Purtroppo però, i dati utili non si accumulano in superficie, ma si mescolano con i Dark Data, e separarli spesso può rivelarsi piuttosto complicato. Per trovare dati utili, bisogna cercare in nell’intero iceberg, dalla punta alla base.
A causa dell’enorme massa di Dark Data, le informazioni utili spesso rimangono nascoste. A volte non è chiaro se i dati abbiano un qualche valore. Inoltre, dati mancanti o errati portano a informazioni errate. I Dark Data influenzano quindi quali conclusioni vengono tratte dalle informazioni disponibili. Questo limita il comportamento “intelligente” dell’organizzazione.
Nessuno sa cosa contengano esattamente i Dark Data
I Dark Data sono per definizione oscuri. Non si può mai essere sicuri che contengano informazioni utili, ma non si può nemmeno escludere che i dati contengano informazioni sensibili, che non devono cadere nelle mani sbagliate.
I dati sono di solito conservati per lunghi periodi di tempo. Ed essendo i Dark Data solitamente poco utili per le organizzazioni, spesso manca la motivazione per metterli al sicuro, e una volta memorizzati rimangono inutilizzati e presto dimenticati. Per questo non è improbabile che ci siano Dark Data non adeguatamente protetti.
In linea di principio, i dati possono sempre contenere informazioni soggette a una protezione speciale. Nella maggior parte dei casi, i dati individuali sono innocui. D’altra parte, però, non è improbabile che da grandi volumi di dati possano essere estratte informazioni sensibili. Per esempio, dai dati di localizzazione raccolti su lunghi periodi di tempo possono essere ricostruiti i movimenti di una persona. Un’eventuale perdita di Dark Data può quindi comportare rischi non indifferenti.
Oltre alla perdita di dati sensibili, c’è un altro rischio associato ai Dark Data: dopo un guasto, questi dati potrebbero non essere recuperati durante un Disaster Recovery. Facciamo un esempio: immaginiamo un sistema perfettamente funzionante, di cui si pensa di conoscere tutte le componenti, opportunamente salvate tramite backup cloud. Nessuno sapeva però che una di queste componenti comprendeva dei Dark Data. Una volta ripristinato il sistema tramite disaster recovery, ci si accorge che una parte fondamentale di quel sistema è andata perduta. Nel peggiore dei casi, questo sistema non potrà più essere ripristinato.
- Massima sicurezza dei tuoi dati
- Strumenti di collaborazione per lavorare in team
- Aggiornamenti automatici
I Dark Data sono difficili da smaltire
Una montagna di dati è difficile da tenere sotto controllo. I Dark Data potrebbero contenere informazioni utili o sensibili. A volte le organizzazioni sono tenuta a conservare questi dati per un certo periodo di tempo. Questo significa che non è possibile eliminarli facilmente.
Questa condizione è approssimativamente paragonabile ai rifiuti tossici, che sono difficili o impossibili da separare e smaltire. Se una tonnellata di rifiuti contiene un grammo di materiale altamente tossico, l’intera tonnellata viene trattata come rifiuto pericoloso. Così i dati continuano ad essere immagazzinati, la montagna di dati continua a aumentare, e con essa aumentano anche i costi per il loro stoccaggio.