Questo articolo fa parte di una serie di mie riflessioni sull’innovazione technology-driven, cominciata qui.
L’obiettivo generale dell’analisi dei dati è quello di generare conoscenza e una grande varietà di tecniche è stata sviluppata o adattata per aggregare, manipolare, analizzare e visualizzare i cosiddetti Big Data. Queste tecniche producono modelli che rendono possibile identificare relazioni fra i dati (variabili) e capire come queste variabili (lavorando da sole o collegate) possono influenzare il sistema che stiamo analizzando. Tipicamente le variabili si dividono in variabili note a priori (cioè estratte dai nostri dati) e variabili non note (cioè i dati che vogliamo ottenere dall’analisi), che vengono derivate dalle prime tramite sistemi di equazioni o formule matematiche.
Le tecniche di cui parliamo derivano da vari campi, quali la statistica, l’informatica, la matematica applicata e l’economia. Una organizzazione che voglia estrarre valore da un progetto di Big Data deve adottare un approccio multidisciplinare.
Va inoltre evidenziato che il campo dei Big Data è in piena evoluzione, alcune delle tecniche che descriverò sono state sviluppate nell’ambito dei data base relazionali (tradizionali) ed hanno trovato applicazione in ambito Big Data, altre sono state sviluppate recentemente per risolvere problemi specifici dei Big Data, altre ancora sono in fase sperimentale.
Qui vedremo le principali, soprattutto per diventare familiari con la terminologia, per approfondimenti leggete qui e qui.
Partiamo dal Data Mining, termine con il quale si identifica un insieme di tecniche per identificare uno schema ricorrente (pattern di dati) da un grande insieme di dati (data set), combinando metodi di natura statistica e computazionale. Fra queste tecniche si annoverano:
- L’Association Rule Learning: si utilizza per scoprire regole di associazione fra più elementi di una base dati. Una delle applicazioni più interessanti è la «Market Basket Analysis», in cui in ambito retail si valuta quali prodotti vengono acquistati più frequentemente insieme e quindi possono essere oggetto di offerte pacchettizzate
- Cluster Analysis: metodo statistico per identificare dei sottogruppi con analoghe caratteristiche (ignote a priori) in una popolazione di (s)oggetti. La tecnica suddivide un gruppo disomogeneo in sottogruppi più piccoli e omogenei, le cui caratteristiche di omogeneità non sono note a priori. Viene molto utilizzata per identificare gruppi omogenei di clienti, da far diventare target di un’offerta commerciale. In un progetto che ho realizzato per un gruppo bancario, la Cluster Analysis è stata utilizzata – ad esempio – per valutare azioni a supporto delle prestazioni commerciali di una rete sportelli
- Classificazione: tecniche per determinare le categorie alle quali può appartenere un nuovo (s)oggetto, in funzione delle sue caratteristiche. È una tecnica spesso utilizzata per predire comportamenti, quali ad esempio il livello di fidelizzazione
- Modelli predittivi (ed in particolare Regressione): insieme di tecniche statistiche per determinare come il valore di una variabile dipendente (ad esempio la probabilità di acquisto di un prodotto, i volumi di vendita) varia al variare di una o più variabili indipendenti (caratteristiche del soggetto, variabili economiche e di mercato).
Proseguendo l’analisi delle tecniche più utilizzate per aggregare, manipolare, analizzare e visualizzare i cosiddetti Big Data, troviamo il Natural language processing (NLP): una serie di tecniche derivate dall’informatica e dalla linguistica, che utilizza algoritmi per analizzare conversazioni in linguaggio naturale. Uno dei principali utilizzi (oltre al campo dei motori di ricerca) è quello della Sentiment Analysis rispetto ad un prodotto, servizio o marchio, che mira ad identificare il parere prevalente (se polarizzato su positivo, negativo o neutro) e l’intensità di tale sentimento.