
Il rapporto tra data mining e piccole-medie imprese è un tema che diventerà sempre più importante in un prossimo futuro. Internet e i database aziendali contengono un’enorme massa di dati (“big data”) di notevole valore ma che è impossibile gestire a livello umano. Occorrono perciò delle tecniche per automatizzare il più possibile il trattamento dei dati, basate su tecnologie di intelligenza artificiale come il “machine learning”, che dà al software la capacità di prendere decisioni. Queste tecnologie sono in grado di estrarre informazioni utili dai “big data”, e la scienza informatica che si occupa di questo è il “data mining”.
Data mining: che cos’è
Il “data mining” estrae “conoscenza” dai dati ricavando da questi dei modelli” (“pattern”), ossia degli andamenti regolari che sono espressione di comportamenti e situazioni reali spesso difficili da individuare. Alla fine del processo, ci si trova con un complesso di informazioni utili comprensibili e trattabili a livello umano.
Oggi infatti ci si trova ad operare in ambienti economici e sociali sempre più complessi, ed è impossibile tener conto di tutte le variabili senza ricorrere al data mining, basando il “decision making” su scelte “guidate dai dati” e non “guidate dall’intuito”.
Ambiti di applicazione del data mining sono:
- “business intelligence”: la raccolta di informazioni per la strategia aziendale;
- “decision making”: nel processo decisionale, lo studio delle alternative tra cui occorre scegliere quella giusta;
- marketing, soprattutto nella segmentazione del mercato e nella “targettizzazione” del cliente;
- web semantico: in pratica, quelle tecnologie che permetterebbero la ricerca dei documenti internet in modo più vicino al linguaggio naturale e perciò più preciso;
- Internet-of-Things: la raccolta e la catalogazione di tutti i dati derivati da dispositivi (elettrodomestici, automobili, ecc.) collegati in rete.

Data mining: le tecniche principali
Senza entrare troppo in dettagli specialistici, alcune delle tecniche principali di data mining sono:
- clustering e classificazione: prima si raggruppano gli individui di un insieme a seconda della loro somiglianza (clustering), e dopo aver definito delle tipologie, si inserisce ogni individuo nella tipologia a lui più adatta. È una tecnica fondamentale per la segmentazione del mercato a seconda delle categorie di clienti e del loro comportamento;
- regressione: predice per ogni “individuo” il grado di propensione ad un determinato comportamento. Ad esempio, stima per ogni cliente la quantità di prodotto che è propenso ad acquistare;
- “similarity matching” e co-occorrenze: identificano individui simili tra loro in base ad un certo comportamento. Servono nell’analisi di mercato, ad esempio per comprendere le relazioni tra l’acquisto di prodotti: un individuo che compra il prodotto x è propenso a comprare anche il prodotto y (analisi del “market-basket”). I semplici scontrini fiscali contengono un’enorme massa di dati interessanti;
- profiling: descrive il comportamento di un individuo o di un gruppo; si tratta di una tecnica diffusissima per la pubblicità su Internet;
- link prediction: prevede quali relazioni possano sussistere tra individui. È usato ad esempio per suggerire le amicizie sui social network;
- causal modeling (pattern sequenziali): è una tecnica utile per comprendere le relazioni di causa-effetto. Ad esempio può essere utilizzata per stabilire il “ritorno sull’investimento” di una campagna di marketing, ma anche per stabilire statisticamente l’efficacia dei trattamenti medici.
Si nota facilmente come siano tutte cose fondamentali per i processi aziendali, non solo per le grandi realtà. Per questo si sta pensando a come mettere in contatto data mining e piccole-medie imprese.
Data mining e piccole-medie imprese
Si può pensare, ed in parte è ancora vero, che il data mining sia una tecnologia adatta soprattutto ad aziende medio-grandi capaci di grandi investimenti. Ma è anche vero che in prospettiva questa tecnologia sarà sempre più diffusa e sempre meno costosa man mano che le basi di dati diventeranno sempre più consistenti e si diffonderà l’intelligenza artificiale, indispensabile per trattare le grandi masse di dati contenute nei particolari database necessari al data mining, i cosiddetti “data warehouse”. Già esistono librerie di “machine learning” (apprendimento automatico) dedicate al data mining (anche open-source, come “Weka”) disponibili per progetti non eccessivamente costosi. Il rapporto tra data mining e piccole-medie imprese è destinato così ad approfondirsi.
Infatti, in un ambiente economico sempre più complesso e competitivo, nessuna azienda potrà più permettersi di non avere una chiara “situation awareness” (consapevolezza della situazione) del suo mercato. Anche le piccole-medie imprese avranno necessità di una “business intelligence” e quindi di soluzioni informatiche per il “data mining”.
Fonti
Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, An Introduction to Information Retrieval, draft 2009, https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf
http://cabibbo.inf.uniroma3.it/dw/pdf/020_intro_dm.pdf
http://www.dis.uniroma1.it/~bruni/files/bruni04dm.pdf
http://bias.csr.unibo.it/golfarelli//DataMining/MaterialeDidattico/DMISI-Introduzione.pdf
https://www.cs.waikato.ac.nz/ml/weka/
https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining
http://www.di.uniba.it/~malerba/publications/datalight.pdf