I tool di data mining permettono un’analisi dei dati approfondita
Sempre più aziende dispongono di una grande quantità di dati, i cosiddetti big data, che sono risorse preziose per la segmentazione dei clienti, la gestione della distribuzione e il target marketing. Tuttavia finché questi set di dati non vengono analizzati e valutati adeguatamente, rimarranno senza valore per l’azienda. C’è una grande quantità di informazioni, ma solo chi sa come utilizzarla ne ricaverà qualcosa. Si riferisce a questo stesso concetto anche il ricercatore dei trend e futurologo John Naisbitt con la sua famosa frase:
“We are drowning in information, but starving for knowledge.“
“Stiamo affogando in un mare di informazioni, ma siamo affamati di conoscenza”.
– il ricercatore dei trend e futurologo John Naisbitt sulla quantità crescente di dati digitali
I tool di data mining vi aiutano a gestire i dati e a riconoscere i possibili trend e schemi decisivi che vi sono contenuti. Per questo motivo i software di data mining diventano sempre più complessi e la scelta di tool è sempre più vasta. Per aiutarvi a mantenere una visione di insieme, mettiamo a confronto i programmi più importanti di data mining.
Tecniche, compiti e componenti del data mining
Con data mining si intendono dei metodi algoritmici di valutazione dei dati che vengono applicati a set di dati particolarmente grandi e complessi. Il data mining dovrebbe ricavare le informazioni nascoste da grandi set di dati (in particolare dai big data, i dati di massa) e riconoscere così relazioni, trend e schemi nascosti che vi sono riprodotti all’interno. Per fare ciò sono di grande aiuto i tool di data mining. Il termine “Data mining“ si riferisce esclusivamente alla pratica dell’analisi dei dati, esulando dalla generazione dei dati e dai set di dati in sé. Molti dei procedimenti derivano dalla statistica; il data mining non è un semplice processo statistico, ma si tratta piuttosto di un procedimento interdisciplinare che collega le conoscenze dell’informatica e della matematica con le tecniche dell’apprendimento automatico (in particolar modo dell’apprendimento non supervisionato) e dell’intelligenza artificiale. Questi metodi efficaci vengono integrati nel software di data mining per consentire la valutazione dei big data.
Il text mining è una forma specifica di data mining che ottiene una notevole importanza data dalla diffusione dei software e della tecnologia vocali. Le informazioni ottenute non si riferiscono qui ai set di dati, bensì ai documenti testuali. Da grandi quantità di testi (articoli specialisti o documenti di un’azienda) vengono estratte le frasi principali. Perciò il text mining è utile per le aziende, ad esempio per fare ricerche su nuovi progetti.
Vale sempre la regola che anche per un data mining di successo gli utenti devono avere una buona comprensione dei set di dati, perché solo in questo caso possono utilizzare gli strumenti di data mining in modo sensato ed efficace per riconoscere relazioni implicite, fare dei pronostici sui volumi di vendita o analizzare il comportamento di acquisto. Conoscenze di programmazione non sono richieste in questo frangente.
Singoli compiti del data mining:
- Classificazione: assegna singoli oggetti di dati di precise classi predefinite (ad esempio gatti o ciclisti) che non rientravano finora in queste classi; per la classificazione si adatta particolarmente l’analisi con l’albero di decisione.
- Analisi della variazione o delle anomalie: identifica oggetti che non corrispondono alle regole della subordinazione negli oggetti imparentati; in questo modo si possono trovare le cause per le variazioni.
- Analisi dei gruppi: identifica gli elementi simili e crea dopo dei gruppi di oggetti che si assomigliano per dei precisi aspetti rispetto agli altri gruppi; al contrario della classificazione i gruppi (o cluster) non sono predefiniti e possono assumere diverse forme a seconda dei dati analizzati.
- Analisi tramite regole di associazione: riscontra correlazioni tra due o più elementi indipendenti che non si trovano in una relazione diretta ma che compaiono spesso insieme.
- Analisi della regressione: rivela le relazioni tra una variabile dipendente (ad esempio la vendita del prodotto) e una o più variabili indipendenti (ad esempio il prezzo del prodotto o il reddito del cliente); viene anche utilizzato per fare pronostici sulla variabile dipendente (ad esempio un pronostico di vendita).
- Analisi predittiva: si tratta in realtà di un compito sovraordinato che mira a far delle previsioni sui trend futuri; si serve così del data mining e lavora con una variabile (predicatore) che è misurata per le singole persone o per entità più grandi.
Grazie all’analisi tramite le regole di associazione sono state create relazioni illuminanti nelle decisioni di acquisto di diversi prodotti, con cui è stata migliorata notevolmente l’analisi dei carrelli. Con questo metodo vengono individuati i consigli di acquisto nei negozi online.
I diversi procedimenti possono essere suddivisi in maniera approssimativa in cosiddetti problemi di osservazione (analisi della variazione, analisi dei gruppi) e problemi di pronostici (analisi della regressione, classificazione).
I tool di data mining a confronto
Vi presentiamo ora un confronto dei migliori tool di data mining tra cui rientrano gli strumenti RapidMiner, WEKA, Orange, KNIME e SAS. È emerso che gli utenti utilizzano vari tool contemporaneamente: ognuno di loro offre infatti punti di forza diversi e permette quindi di essere combinato con altri strumenti; infatti i tool di data mining sono spesso compatibili tra loro. Nonostante ciò un unico tool completo consente una grande libertà, anche a chi è alle prime armi.
RapidMiner
RapidMiner (prima conosciuto come YALE, “Yet Another Learning Environment“) è uno dei tool di data mining più famoso. Secondo un sondaggio di KDnuggets effettuato nel 2014 questo tool era il più utilizzato tra i software di data mining, superando lo strumento R. È accessibile gratuitamente e si utilizza facilmente anche senza particolari conoscenze di programmazione. Nonostante ciò mette a disposizione un’ampia scelta di operatori. In particolare le start-up ricorrono spesso a questo tool.
RapidMiner è stato scritto in Java e comprende più di 500 operatori con diversi approcci per mostrare le relazioni nei dati; ci sono anche opzioni per il data mining, il text mining e il web mining, ma anche per l’analisi del sentiment (Sentiment Analysis, Opinion Mining). Inoltre il programma importa tabelle Excel, file SPSS e record di molti database, integrando anche tool di data mining come WEKA e R. Per questo motivo è uno strumento completo a tutto tondo.
RapidMiner supporta tutti i passaggi del processo di data mining, comprendendo anche la visualizzazione dei risultati. Il tool è composto da tre grandi moduli: RapidMiner Studio, RapidMiner Server e RapidMiner Radoop che eseguono rispettivamente diverse tecniche del data mining. Inoltre il software prepara i dati prima dell’analisi e li ottimizza per una rielaborazione veloce. Per ognuno di questi tre moduli sono disponibili una versione gratuita e diverse versioni a pagamento.
La forza particolare di RapidMiner risiede nell’analisi predittiva, quindi nella previsione degli sviluppi futuri sulla base dei dati raccolti. Se si confrontano i diversi software di data mining, RapidMiner risulta uno dei tool più potenti tra quelli presentati.
WEKA
WEKA (Waikato Environment for Knowledge Analysis) è un software open source sviluppato dall’università di Waikato, in Nuova Zelanda. Il tool di data mining si basa su Java e può essere utilizzato su Windows, macOS e Linux. È famoso per le sue funzioni complete di apprendimento automatico e supporta tutti i compiti più importanti di data mining come il clustering, l’associazione, la regressione e la classificazione. L’interfaccia utente facilita l’accesso al software. Inoltre WEKA si collega ai database SQL dove può elaborare i dati richiesti. Il punto di forza di WEKA risiede nella classificazione: lo strumento di data mining è conosciuto per le sue molte classificazioni, tra cui le reti neurali artificiali, gli alberi di decisione e gli algoritmi ID3 o C4.5. Invece risulta meno efficace nelle altre tecniche, come l’analisi dei gruppi: in questo caso vengono offerti solo i principali procedimenti. Un altro svantaggio: WEKA può avere problemi di elaborazione quando deve gestire grandi quantità di dati, visto che il tool di data mining cerca di caricarli tutti insieme nella RAM. Una soluzione è offerta quindi dalla riga di comando facile (CLI) che permette di elaborare meglio le grandi quantità di dati.
WEKA è stata premiata nel 2005 con il “SIGKDD Service Award“ dell’Association for Computing Machinery per il suo elevato contributo alla ricerca. L’opera sull’apprendimento autonomo di Eibe Frank e Ian H. Witten, pubblicata per la prima volta nel 1999 e disponibile in inglese con il nome di “Data Mining: Practical Machine Learning Tools and Techniques”, si riferisce in buona parte a questo software. A confronto con gli altri strumenti di data mining WEKA si è affermato in particolare per scopi di ricerca e insegnamento.
Orange
Il tool di data mining Orange esiste da più di 20 anni ed è un progetto dell’università di Lubiana, in Slovenia. La base del software originariamente era stata scritta in C++, ma è stata poi presto ampliata con il linguaggio di programmazione Python, che viene ora utilizzato come linguaggio per l’accesso ai dati. Le operazioni complicate vengono invece sempre eseguite in C++. Orange è un software di data mining vasto che dimostra la grande libertà di impostazione consentita da Python: offre applicazioni utili per l’analisi dei dati e dei testi, oltre che funzioni per l’apprendimento automatico, e nell’ambito del data mining lavora con gli operatori per la classificazione, la regressione, il clustering e molti altri. Inoltre questo tool di data mining integra una programmazione visuale.
La particolarità di questo tool è il fatto che gli utenti sottolineano sempre come si divertono a utilizzare questo software di data mining. Sia i nuovi utenti che quelli avanzati sono sempre più affascinati da Orange. Questa sua popolarità deriva da due fattori: il primo riguarda l’accattivante visualizzazione dei dati; il secondo prende in considerazione la velocità e la facilità con cui avviene questa visualizzazione. Il programma prepara i dati immessi subito sotto forma visuale. Non solo la comprensione di questi grafici, ma anche l’elaborazione delle analisi dei dati avviene in modo facile rispetto agli altri software e consente di prendere decisioni relative alla propria attività in modo veloce. Tutto questo rende Orange il tool ideale per avvicinarsi al data mining.
Un altro vantaggio per i nuovi utenti è che sono disponibili moltissimi tutorial online per il tool. Oltre a ciò Orange impara a conoscere con il tempo le preferenze dei suoi utenti e si regola di conseguenza, rendendo l’utilizzo dello strumento di data mining ancora più piacevole.
KNIME
KNIME (Konstanz Information Miner) è stato sviluppato dall’università di Costanza, in Germania, ed è diventato popolare nella grande comunità internazionale di sviluppatori. In realtà KNIME era pensato sin dall’inizio per un uso commerciale, ma è disponibile come software open source. È stato scritto in Java ed elaborato con Eclipse. Confrontando questo software di data mining con gli altri, balza subito agli occhi la sua varietà di funzioni: con più di 1000 moduli e pacchetti di applicazioni preimpostati questo tool aiuta ampiamente a scoprire le strutture nascoste dei dati. I moduli si possono ampliare con altre funzioni commerciali. Tra le feature convince soprattutto l’analisi dei dati integrativa: in questo settore KNIME è uno degli strumenti più potenti e consente l’integrazione di innumerevoli procedimenti dell’apprendimento automatico e del data mining. Inoltre è particolarmente efficace nella preelaborazione dei dati, quindi nell’estrazione, nella trasformazione e nel caricamento dei dati. Grazie ad una pipeline di dati modulare, il software si configura soprattutto come uno strumento di data mining orientato al flusso di dati. A partire dal 2006 KNIME è utilizzato nella ricerca farmaceutica ed è un potente tool di data mining anche per il settore dei dati finanziari. Ma è usato spesso anche nel settore della Business Intelligence (BI). Là KNIME si è affermato come il tool che ha reso accessibile l’analisi predittiva anche agli utenti poco esperti. Inoltre anche per i nuovi utenti lo strumento è interessante, visto che malgrado le sue molte funzioni ha bisogno solo di un tempo relativamente breve di orientamento. KNIME è disponibile come programma gratuito e a pagamento.
SAS
SAS (Statistical Analysis System) è un prodotto dell’Istituto SAS, una delle aziende private di software più grandi al mondo. SAS è il tool di data mining leader per le analisi di business e anche il più costoso dei programmi qui presentati. In compenso però è l’unico maggiormente adatto a un utilizzo nelle grandi aziende. SAS dà prova della sua eccellenza soprattutto nel settore delle previsioni e della visualizzazione interattiva dei dati, la quale è particolarmente adatta in modo ottimale per le grandi presentazioni. Essenzialmente con questo software di data mining si dispone di uno strumento completo a tutto tondo. Così il tool si contraddistingue per un’elevata scalabilità, infatti è in grado di aumentare le sue prestazioni con l’aggiunta di hardware o altre risorse in proporzione. Anche questo lo rende uno strumento potente per soluzioni business di alta qualità. Infine un’interfaccia grafica facile da usare e ben strutturata viene in aiuto dei meno affini alle nuove tecnologie. Inoltre il software si può utilizzare gratuitamente solo se si è ricevuta la rispettiva licenza da un’istituzione pubblica, per cui SAS è essenzialmente sempre a pagamento. I costi vengono regolati su richiesta; sono possibili delle condizioni speciali, ad esempio per le autorità o gli istituti di istruzione. In concreto si può acquistare una licenza utente a circa 5.500 euro all’anno, motivo per cui SAS risulta anche il più caro tra i tool commerciali. È però possibile personalizzare la varietà delle funzioni e influenzarne così il prezzo. SAS viene soprattutto utilizzato nelle aziende farmaceutiche, dove si è potuto affermare come standard. Viene usato spesso anche nel settore bancario e offre delle soluzioni ottimali per i settori della BI e del web mining. Per questo motivo dispone anche di un proprio software di Business Intelligence. Risulta perciò uno dei tool di data mining più potenti sul mercato.
Tool di data mining a confronto
Dopo il confronto dettagliato dei software di data mining riepiloghiamo in una tabella tutte le caratteristiche più importanti di questi tool:
Caratteristiche | Linguaggio di programmazione | Sistemi operativi | Costi/licenze | |
---|---|---|---|---|
RapidMiner | Strumento completo e potente, eccelle soprattutto nell’analisi predittiva | Java | Windows, macOS, Linux | Freeware, diversi versioni a pagamento |
WEKA | Numerosi metodi di classificazione | Java | Windows, macOS, Linux | Software libero (GPL) |
Orange | Crea visualizzazioni dei dati particolarmente accattivanti e interessanti senza che siano necessarie molte preconoscenze | Base del software: C++, estensioni e linguaggio per l’accesso ai dati: Python | Windows, macOS, Linux | Software libero (GPL) |
KNIME | Il leader del settore tra i tool open source di data mining, che ha reso universalmente accessibile l’analisi predittiva | Java | Windows, macOS, Linux | Software libero (GPL) (a partire dalla versione 2.1) |
SAS | Il software di data mining più potente, anche se costoso, adatto per le grandi aziende | SAS Language | Windows, macOS, Linux | Versione limitata freeware per gli istituti di istruzione, prezzo su richiesta, diversi modelli completi |