Data Mining: metodi di analisi per i Big Data
I dati sono di primaria importanza nel settore dell’e-commerce. Con l’intento di ottimizzare i processi di vendita, i diversi negozi online fanno incetta di dati. Grazie agli strumenti di analisi si rilevano i numeri e i valori relativi al comportamento dei clienti, ai carelli e ai prodotti. Ma di per sé, un’enorme quantità di dati non offre alcun valore aggiunto. Chi volesse ottimizzare i metodi di vendita e aumentare gli introiti, deve valutare le informazioni in modo mirato. A tal proposito, si può utilizzare un approccio analitico conosciuto come “Data Mining”.
Che cos’è il Data Mining?
Per dare una definizione di Data Mining, è utile decifrare la metafora su cui si basa e scoprirne il metodo di analisi alla base. Se si tende a considerare l’output notevole che deriva dal tracking costante delle attività dei visitatori su Internet come una montagna di dati inutile, con il Data Mining (letteralmente “estrazione dei dati”) si avranno gli strumenti necessari per comprendere i risultati raccolti e accedere alle informazioni rilevanti. Al contrario di quanto avvenga in miniera (il classico luogo dedicato alle estrazioni), vengono applicati dei metodi statistici, che consentono di identificare le tendenze e i collegamenti trasversali. Generalmente il Data Mining è strettamente connesso ai Big Data, cioè delle banche dati che non possono essere comprese manualmente e richiedono quindi un’analisi effettuata con l’aiuto del computer. In linea di massima, però, i metodi di Data Mining si applicano su qualsiasi quantità di dati. Il Data Mining è parte integrante del Knowledge Discovery in Databases (KDD), che comprende i seguenti processi:
- scelta dei database;
- preelaborazione con l’obiettivo di normalizzare i dati;
- trasformazione nella forma necessaria per il processo di analisi;
- analisi per mezzo di processi matematici (Data Mining);
- interpretazione dei risultati dell’analisi.
Le conoscenze che vengono acquisite tramite KDD vengono impiegate nella strategia del business e nelle varie decisioni di marketing. Ugualmente eterogenei sono i campi di applicazione.
Campi di applicazione del Data Mining
Il Data Mining offre la possibilità di ottimizzare l’e-commerce su base scientifica. Infatti i grandi database, utilizzati nel business online, sono alla base di spiegazioni e pronostici. Elaborati statisticamente e visualizzati sotto forma di statistiche, consentono ai gestori del negozio online di identificare i fattori per un business online di successo e di calcolare le strategie sulla base di modelli. Il Data Mining viene applicato per:
- segmentare i mercati;
- analizzare i carrelli;
- delineare i profili dei compratori;
- calcolare i prezzi dei prodotti;
- formulare i pronostici sulla durata dei contratti;
- analizzare la domanda;
- identificare gli errori nel processo di vendita.
I metodi del Data Mining
Per poter estrarre le informazioni rilevanti per il proprio business dai database di grandi dimensioni, si sono affermati diversi metodi, che si basano sull’identificazione di relazioni importanti, schemi, tendenze e si servono di procedimenti statistici.
- Identificazione delle anomalie (Outlier Detection): con anomalia si indicano i valori assoluti che emergono dal resto dei dati complessivi, visto che si allontanano dal trend generale della sequenza di misurazione. Nel Data Mining viene applicata l’identificazione delle anomalie per individuare delle serie di dati non comuni. Nella pratica questo metodo di Data Mining si utilizza per smascherare delle transazioni sospette nel caso di falsificazioni di carte di credito.
- Analisi del cluster: con cluster si indica un raggruppamento di oggetti, che si basa sulle similitudini dei membri del gruppo. Lo scopo di questo metodo di analisi è la segmentazione dei dati non strutturati. Per questo si applicano gli algoritmi che ricercano nei database di grandi dimensioni le strutture simili per identificare dei nuovi cluster. Al contrario della classificazione, l’analisi del cluster mira a scoprire delle nuove possibilità di raggruppamento. Se non si riesce ad assegnare una serie di dati a un cluster, questa viene interpretata come un’anomalia. Un classico caso di applicazione per l’analisi del cluster è l’identificazione di gruppi di visitatori.
- Classificazione: mentre nel caso dell’analisi del cluster l’identificazione dei nuovi gruppi rimane in primo piano, con la classificazione vengono applicate delle classi predefinite. La distribuzione avviene in base a proprietà concordanti dei singoli dati dal database complessivo. Un metodo comune di classificazione automatica dei dati è rappresentato dall’albero decisionale (decision tree). Ad ogni nodo viene richiesta una proprietà dell’oggetto, la cui presenza o assenza determina la scelta del nodo successivo. Nel settore dell’e-commerce si applica questo procedimento per suddividere i clienti in diversi segmenti.
- Analisi di associazione: un’analisi di associazione mira all’identificazione delle relazioni in un database, che sono formulabili come regole finali. Nell’e-commerce si ricorre a questo metodo per identificare le correlazioni dei singoli prodotti presenti nei carrelli, secondo lo schema “se viene comprato un prodotto A, allora viene acquistato anche il prodotto B”.
- Analisi di regressione: grazie alle analisi di regressione vengono creati dei modelli di Data Mining, che hanno il compito di chiarire una variabile dipendente tramite diverse indipendenti. Di norma si può creare ad esempio un pronostico per la vendita di un prodotto, instaurando una relazione tra il prezzo del prodotto e il reddito medio di un cliente basandosi su un modello di regressione.
Limiti del Data Mining
Nel Data Mining si applicano procedimenti statistici che consentono un’analisi sostanzialmente oggettiva dei database disponibili. Ma la scelta soggettiva del processo di analisi, come pure di diversi algoritmi e parametri sulla base di determinate previsioni, può portare alla falsificazione dei risultati (probabilmente voluta). È possibile aggirare questi effetti affidando i processi di Data Mining a servizi esterni.
Inoltre, la natura della base di dati è decisiva per la qualità delle informazioni ricavate dal Data Mining. In sostanza: si ottengono dei risultati rappresentativi solo da dati rappresentativi. Il Data Mining prevede perciò nella maggior parte dei casi una preelaborazione delle banche dati, grazie alla quale vengono sistemati i valori errati o le alterazioni.
Infine è da notare che il Data Mining fornisce i risultati solo sotto forma di schemi e collegamenti trasversali. Si ottengono delle risposte solo quando i risultati dell’analisi vengono interpretati in relazione alle domande precedenti e agli obiettivi preposti.