Riduzione dei dati

Il termine “riduzione dei dati” si riferisce ai metodi che possono essere utilizzati per ridurre la quantità di dati da memorizzare fisicamente. Ciò consente di risparmiare spazio e costi di archiviazione.

Che cos’è la riduzione dei dati?

Il termine riduzione dei dati comprende vari metodi di ottimizzazione della capacità di memorizzazione, che mirano a ridurre la quantità di dati da memorizzare. Alla luce dell’aumento globale dei volumi di dati, tale riduzione è necessaria per garantire un’archiviazione dei dati efficiente in termini di risorse e di costi.

Esistono due approcci principali alla riduzione dei dati: la compressione e la deduplicazione. Mentre la compressione senza perdita utilizza le ridondanze all’interno di un file per comprimere i dati, gli algoritmi di deduplicazione sincronizzano i dati tra i file per evitare le ripetizioni.

Deduplicazione

La deduplicazione è un processo di riduzione dei dati che si basa essenzialmente sull’eliminazione della ridondanza dei dati in un sistema di archiviazione. Può essere realizzata sia a livello di destinazione dell’archiviazione che di origine dei dati. Viene utilizzato un motore di deduplicazione che utilizza algoritmi speciali per identificare ed eliminare file o blocchi di dati ridondanti. Il principale campo di applicazione della deduplicazione è il backup dei dati.

L’obiettivo della riduzione dei dati mediante deduplicazione è scrivere su un supporto dati non volatile solo la quantità di informazioni necessaria per poter ricostruire un file senza perdite. Più duplicati vengono rimossi, minore è la quantità di dati da memorizzare o trasferire.

I duplicati possono essere identificati a livello di file, ad esempio con Git o Dropbox, ma gli algoritmi di deduplicazione che operano a livello di sottofile sono più efficienti. A tal fine, i file vengono prima suddivisi in blocchi di dati (chunks) e assegnati a somme di controllo (checksum) univoche, i cosiddetti valori hash. Un database di tracciamento contenente tutte le somme di controllo funge da istanza di controllo centrale.

È possibile distinguere tra due tipologie di deduplicazione a blocchi:

  • Lunghezza dei blocchi predefinita: i file vengono suddivisi in sezioni di lunghezza esattamente uguale in base alla dimensione del cluster del file o del sistema RAID (che ha solitamente una dimensione di 4 kB).
  • Lunghezza dei blocchi variabile: l’algoritmo divide i dati in diversi blocchi, di lunghezza variabile a seconda del tipo di dati da elaborare.

La tipologia di divisione dei blocchi influisce notevolmente sull’efficienza della deduplicazione dei dati. Ciò diventa particolarmente evidente quando i file deduplicati vengono successivamente modificati: se si utilizzano dimensioni di blocco predefinite, tutti i segmenti successivi vengono classificati come nuovi dall’algoritmo di deduplicazione quando un file viene modificato a causa dello spostamento dei confini dei blocchi. Questo aumenta lo sforzo di calcolo e l’utilizzo della larghezza di banda.

Se, invece, un algoritmo utilizza limiti variabili per la lunghezza dei blocchi, le modifiche a un singolo blocco di dati non influiscono sui segmenti vicini. Solo il blocco di dati modificato viene ampliato con i nuovi byte e salvato. Questo riduce il carico sulla rete. La flessibilità rispetto alle modifiche dei file è però più impegnativa dal punto di vista computazionale, poiché l’algoritmo deve prima scoprire come sono suddivisi i blocchi.

Cloud Backup powered by Acronis
Riduci i tempi di inattività e proteggi i carichi di lavoro
  • Backup automatici e recupero dei dati
  • Pianificazione e gestione intuitive delle attività
  • Protezione dalle minacce basata sull'intelligenza artificiale

Compressione dei dati

La compressione dei dati consiste nel convertire i file in una rappresentazione alternativa più efficiente di quella originale. Lo scopo di questa riduzione dei dati è quello di ridurre sia lo spazio di archiviazione richiesto che il tempo di trasmissione. Questo guadagno di codifica può essere ottenuto utilizzando due metodi differenti:

  • Compressione delle ridondanze: con la compressione dei dati senza perdita, i dati possono essere nuovamente decompressi anche dopo la compressione. In questo modo, i file in ingresso e in uscita saranno identici. Questo tipo di compressione è possibile solo se un file contiene informazioni ridondanti.
  • Compressione delle irrilevanze: nella compressione con perdita di dati, la riduzione delle dimensioni del file viene effettuata eliminando le informazioni irrilevanti in esso contenute. Tale operazione comporta sempre una perdita di dati, e permette di ripristinare i dati originali solo in maniera approssimativa. I criteri utilizzati per determinare quali dati siano irrilevanti sono variabili. Nella compressione di file audio MP3, ad esempio, vengono rimossi modelli di frequenza che si ritiene siano appena udibili o non lo siano affatto.

Mentre la compressione a livello di sistemi di memorizzazione è fondamentalmente priva di perdite, la perdita di dati in altre aree, come la trasmissione di immagini, video e audio, è largamente accettata al fine di ottenere una riduzione delle dimensioni dei file.

Sia la codifica che la decodifica di un file richiedono uno sforzo computazionale. Ciò dipende principalmente dal metodo di compressione utilizzato. Mentre alcune tecniche sono progettate per rappresentare i dati in uscita nel modo più compatto possibile, altre si concentrano sulla riduzione del tempo di calcolo richiesto. La scelta del metodo di compressione dipende quindi sempre dai requisiti dell’area di applicazione.

Deduplicazione e compressione: le due modalità di riduzione dei dati a confronto

Per implementare procedure di backup o ottimizzare lo spazio di archiviazione nei file system standard, le aziende ricorrono generalmente alla deduplicazione. Ciò è dovuto principalmente al fatto che i sistemi di deduplicazione funzionano in modo estremamente efficiente quando si tratta di memorizzare file identici.

I metodi di compressione dei dati, invece, sono generalmente associati a costi di elaborazione più elevati e richiedono quindi piattaforme più complesse. La soluzione più efficace, però, è certamente rappresentata dai sistemi di archiviazione che si avvalgono di una combinazione di entrambi i metodi di riduzione dei dati. In questo modo, infatti, è possibile rimuovere prima le ridondanze dai file da archiviare mediante deduplicazione e successivamente servirsi della compressione per ridurre le dimensioni dei dati rimanenti.

Hai trovato questo articolo utile?
Per offrirti una migliore esperienza di navigazione online questo sito web usa dei cookie, propri e di terze parti. Continuando a navigare sul sito acconsenti all’utilizzo dei cookie. Scopri di più sull’uso dei cookie e sulla possibilità di modificarne le impostazioni o negare il consenso.
Page top