Sviluppo software e web

Perché il data mining è così importante

data mining

Indice

  1. Introduzione
  2. Un po’ di storia del data mining
  3. Il processo di estrazione di conoscenza, il KDD
  4. Il data mining e la ricerca scientifica
  5. Data mining per il marketing
  6. Data mining e ricerche di mercato
  7. Data visualisation e comunicazione, i dati come non li avete mai visti
  8. Conclusioni

Introduzione

Il data mining è stato per un certo periodo una buzzword del settore informatico, attirando l’attenzione mondiale e trovando via via una maggiore diffusione a livello pratico. Quindi i tempi sono maturi per parlare di data mining in modo approfondito e chiaro. Prima di proseguire però è opportuno dare una definizione di data mining:

“Il data mining è un processo per la scoperta di pattern in grandi collezioni di dati, intersecando competenze dai campi del machine learning, della statistica e dei database system.”

Quindi non bisogna pensare che riguardi l’estrazione di dati fini a sé stessi ma piuttosto si punta a ricavare pattern e conoscenza da grandi quantità di dati. Né bisogna pensare al data mining come una scienza o tecnologia a sé stante.

Si può estendere la definizione del processo, di data mining, aggiungendo che esso è volto alla ricerca di informazioni non note a priorie che possono essere tramutate in azioni, commerciali e non solo, al fine di ottenere un vantaggio.

Nonostante sia stata una buzzword soltanto di recente, il data mining non è un qualcosa nato dieci o venti anni fa ma ha piuttosto radici molto profonde nelle scienze informatiche. Per spiegare bene questo processo è quindi opportuno dare alcune nozioni circa la sua origine ed evoluzione fino ai giorni nostri.

Un po’ di storia del data mining

Il data mining non è un processo recente come detto ma viene da lontano, sebbene in una forma e con metodologie ben diverse da quelle conosciute oggigiorno. È da considerare inoltre la correlazione tra le tecnologie in ambito dei sistemi di database ed il data mining, difatti le basi di dati hanno fornito uno strumento eccezionale per la gestione di grandi moli di dati, consentendo con facilità operazioni che solo decenni prima avrebbero richiesto moltissima manodopera.

Dopo questa premessa passiamo ad una breve scaletta temporale:

  • 1960: Inizia la raccolta dei dati su dispositivi informatici, prime basi di dati con modelli gerarchici o relazionali.
  • 1970: Si afferma il modello relazione dei dati e si sviluppano i primi DBMS(Data Base Managing System) relazionali, la correlazione tra varie collezioni di dati diventa in questo modo più semplice.
  • 1980: I DBMS relazionali si diffondono ed affermano nel mondo commerciale diventando di fatto una grande realtà nel panorama informatico e non solo.
  • 1994: Inizia lo sviluppo dei Data Warehouse ed in seguito inizia lo sviluppo del data mining in chiave moderna, ossia si afferma il processo che interseca competenze del machine learning, della statistica e della gestione di basi di dati(o data warehouse).
  • 2011: Il data mining raggiunge lo stadio oggi conosciuto ed il mondo commerciale, permettendo di costruire modelli predittivi e/o offrendo un affidabile supporto decisionale.

Da questa piccola scaletta possiamo comprendere che la maggiore disponibilità di dati, la maggiore potenza di calcolo a buon mercato ed il progredire delle conoscenze abbiano portato all’evoluzione del data mining ed in generale al processo di estrazione di conoscenza dai database.

Questo però non significa che il processo sia totalmente diverso rispetto al passato quanto piuttosto migliorato di molte volte, infatti oggigiorno si può accumulare sufficiente conoscenza da realizzare modelli predittivi.

Il processo di estrazione di conoscenza, il KDD

Poco fa ho citato il “processo di estrazione di conoscenza”, il KDD ossia Knowledge Discovery Databases. Il significato letterale è semplice da comprendere ma la sua formalizzazione potrebbe non essere così immediata, soprattutto quando si tratta di mettere in pratica un simile processo. Esistono moltissimi modi con cui estrarre dati da un database a seconda del contesto ma ci si può sempre rifare ad un generale che va sotto il nome di KDD.

Di seguito viene mostrato un grafico che riassume le principali componenti del processo di KDD.

Schema-KDD

Tale processo descrive la selezione, la preparazione, la trasformazione, il data mining ed infine la valutazione dei dati al fine di ottenere conoscenza, da utilizzare successivamente nei processi decisionali.

Ovviamente lungo il percorso che porta dai dati alla conoscenza comporta una notevole riduzione del volume di informazioni ma un aumento del valore delle stesse, poiché se all’inizio bisogna selezionare i dati grezzi da enormi collezioni(i così detti big data), spesso generiche, dopo il data mining si ottengono pattern di informazioni utili allo scopo del processo KDD.

È inoltre molto importante fare una considerazione sul data mining moderno, infatti esso prevede un ampio uso di strumenti e tecnologie atte all’automatizzazione o semi automatizzazione del processo.

Il data mining e la ricerca scientifica

Dopo aver fatto la dovuta conoscenza del data mining possiamo chiederci, in quali ambiti può essere utilizzato?

La risposta corretta sarebbequasi tutti anche a causa della natura generale di un simile processo. Tuttavia in questo articolo verranno presi in esame solo alcuni campi ed uno di essi è la ricerca scientifica.

Il data mining può davvero aiutare la ricerca scientifica? La risposta è si senza ombra di dubbio. Le potenzialità di questo strumento permettono di scoprire nuove correlazioni tra fenomeni di varia natura e di conseguenza tenere sotto controllo eventuali reazioni non previste, o semplicemente aggiungere nuovi aspetti alla ricerca stessa.

Uno degli usi notevoli del data mining nell’ambito della ricerca è quello del riuscire a trovare correlazioni tra sequenze di DNA e suscettibilità alle malattie, ossia stabilire se nel DNA umano vi sono geni responsabili di qualche malattia ed individuarli.

Un altro uso nella ricerca è quello di migliorare la rappresentazione geografica, permettendo di visualizzare lo spazio come un insieme di oggetti complessi e relazioni tra gli stessi, ad esempio distanze non euclidee, direzioni, ecc…

Viene utilizzato anche per il monitoraggio di apparecchiature elettroniche ad alto voltaggio al fine di aumentare la sicurezza delle stesse. Anche in questo caso vengono presi in esame moltissimi tipi di dati anche eterogenei al fine di trovare nuovi pattern utili alla gestione.

Questi sono solo alcuni esempi e rappresentano una piccola parte di un processo più comune di quanto non si possa pensare e che trova applicazioni in quasi ogni ramo delle scienze.

Per questa ragione non c’è affatto da sorprendersi se il data mining è entrato anche nel mondo del business con una massiccia diffusione.

Data mining per il marketing

Il data mining come abbiamo appena visto ha assunto una grande importanza all’interno della ricerca scientifica, tuttavia non è il solo ambito in cui questo processo viene utilizzato. Uno dei settori dove trova spazio è quello del marketing.

Probabilmente tutti, almeno una volta, abbiamo desiderato poter prevedere il futuro quando si trattava di prendere decisioni e nel campo del marketing, spesso, si spera sempre che la decisione presa riesca a raggiungere il maggior numero di persone possibili e riesca a trasformarle in clienti.

Beh, il data mining non fa questo. Non è come un oracolo capace di darci assolute certezze o risultati miracolosi. È uno strumento che permette di ottenere maggiore conoscenza nel suo campo di applicazione, e nel caso del marketing dei nostri potenziali clienti e non solo.

Grazie a questo processo è possibile ottenere effettuare un clustering dei propri clienti individuando i gruppi accomunati dagli acquisti effettuati, caratteristiche sociali e demografiche, migliorando la segmentazione dei propri acquirenti.

Si possono scoprire quali sono i pattern che portano i clienti ad allontanarsi dal proprio brand, individuando così le cause di tali abbandoni e poter elaborare strategie per contrastare questi fenomeni nel modo migliore.

Non meno importante è la possibilità di scoprire quali beni o servizi vengono abitualmente acquistati insieme, permettendo di elaborare anche qui opportune strategie di marketing per spingere il cliente all’acquisto.

Con la Regression Analysis è possibile ottenere una serie di indicatori con cui capire verosimilmente cosa accadrà modificando alcuni parametri della strategia di marketing, ottenendo un risultato che si avvicina ad alla realtà.

Non è meno rivelante la possibilità di trovare eventuali anomalie od incongruenze proprio grazie ai patter ottenuti, infatti attraverso l’anomaly detection, una particolare tecnica di data mining, con cui vengono individuati possibili errori umani commessi dai dipendenti o di altro tipo.

Attraverso il data mining quindi si può migliorare la propria strategia di marketing a 360°, ottenendo un supporto decisionale formidabile.

Data mining e ricerche di mercato

Il data mining è per sua stessa natura rivolto alla scoperta di pattern precedentemente sconosciuti, quindi è un ottimo strumento quando si vuole ricercare dinamiche di interesse all’interno del proprio mercato di riferimento.

I risultati quindi di questo processo possono essere utilizzati per creare un data warehouse per semplificare l’applicazione delle informazioni ottenute in strategie di mercato.

Ad esempio attraverso il data mining si può venire a conoscenza di comportamenti sconosciuti da parte dei clienti all’interno delle grandi catene commerciali, individuare prodotti che i clienti acquistano insieme ed avvicinare i reparti dei due favorendone l’acquisto.

Ovviamente i dati sulle ricerche di mercato sono legati anche a fattori geografici, le abitudini del cittadino americano differiscono largamente da quelle europeo, quindi è importante definire il contesto di analisi per il data mining e scoprire quindi i comportamenti dei clienti.

Questo può includere anche la misura temporale, individuando magari eventi ciclici- come festività nazionali o regionali- che portano all’aumento della richiesta per un determinato bene, evitando così che proprio durante queste finestre tali prodotti si esauriscano.

Data visualisation e comunicazione, i dati come non li avete mai visti

Tutti abbiamo avuto delle difficoltà con la matematica, prima o poi arriva per tutti il confronto con un problema che ci causa un forte mal di testa. E per alcuni la matematica è ancora oggi un’arte oscura.

Eppure è la base di molte discipline ed è parte fondante del data mining. E quindi dei pattern che esso restituisce. Tali pattern possono essere rappresentati in svariati modi ed è qui che la scienza incontra, ancora una volta, l’arte.

Le infografie stanno diventando sempre più comuni e diffuse, rappresentano un metodo semplice ed immediato per comunicare in modo efficace ed efficiente informazioni, anche se si parla di dati, o di big data come accade sempre più spesso in questi ultimi anni.

Quindi se è naturale porre tanta attenzione al processo di data mining, non va dimenticato che quei pattern sono gli esseri umani a leggerli e valutarli. Trovare il modo migliore per la loro rappresentazione rende più semplice consultarli e quindi usufruirne al fine decisionale del KDD.

Inoltre il data visualisation si occupa di comunicare in modo coerente anche dati eterogenei ed apparentemente non connessi tra loro, rendendo immediata la comprensione dei pattern anche a persone che non vivono una determinata realtà a 360°.

E questo può tornare utile anche in ambito di marketing, poiché anche i risultati della propria azienda possono diventare materiale per comunicare con i propri clienti, e scegliere un approccio visuale che riesca a rendere tali dati interessanti quanto accattivanti è importante.

I numeri attirano facilmente l’interesse delle persone, ma generalmente l’attenzione delle stesse è breve. Quindi attraverso l’approccio visuale si concentra il messaggio in un grafico.

L’arte del rappresentare i numeri in grafici quindi non è solo una questione di mera praticità ma può anche aiutare la comunicazione del proprio brand.

Conclusioni

Il data mining oggigiorno è un processo per lo più automatizzato o semi automatizzato, che si integra bene con soluzioni del tipo CRM od ERP, capaci di fornire quei dati necessari alla scoperta di nuove informazioni utili.

Il suo contributo in fase decisionale può essere consistente, anche se si tratta di ottenere semplicemente il polso della propria attività. Non deve quindi stupire nessuno se il mondo del business ha inglobato questa metodologia facendone parte integrante dei processi decisionali in aziende di certe dimensioni.