Immagino dei big data ben fatti
l'opinione di
Se c’è qualcosa che non può dirsi innovativa è l’idea dei big data come soluzione esplicativa della complessa fenomenologia socio-economica
Se c’è qualcosa che non può dirsi innovativa è l’idea dei big data come soluzione esplicativa della complessa fenomenologia socio-economica. Tale può apparire solo agli spiriti semplici sempre pronti a farsi apostoli dell’ultimo neologismo americano. Il mito dei tanti dati, della più diversa natura, da cui derivare ‘leggi’ che governano il comportamento umano, ha affascinato uomini di genio già molto tempo fa. Francis Galton, un cugino di Charles Darwin, visse di rendita per 89 anni, assecondando la sua smodata bulimia per le più diverse ‘metriche’ socio-antropologiche.
Per anni e anni classificò migliaia di delitti e di sentenze per scoprirne le regolarità implicite. Allo stesso tempo misurò ossessivamente tutte le caratteristiche antropomorfiche dei suoi contemporanei: nasi, occhi, capelli e loro colore, gambe, braccia, peso, ecc. Fu affascinato dalle diverse abitudini comportamentali e culturali, persino le reazioni dei visi alle corse dei cavalli. Tentò di mappare l’estetica femminile britannica classificando i tratti che rendevano le ragazze più o meno attraenti. Infine, instancabile, concluse anche che le impronte delle dita non solo erano diverse le une dalle altre, ma che non mutavano nel corso della vita umana, fornendo così la chiave per nuovi metodi investigativi ancor oggi in uso. Tuttavia le induzioni più rilevanti di questo suo misurare e correlare maniacalmente tutto, confluirono nella sua ‘nuova scienza’ che egli battezzò eugenica, un nome che oggi evoca orribili ricordi sia delle tesi segregazioniste, sia di quelle naziste. Prima di Galton, il mito dei big data aveva ossessionato anche un’altra mente geniale: quella del belga Lambert Adolphe Jaques Quetelet, che giunse a formulare la celeberrima (e deteriore) definizione di 'uomo medio' (energicamente respinta, già ai suoi tempi, da Antoine-Augustin Cournot). Tuttavia la questione essenziale era stata evidenziata. Come distinguere, nel marasma delle informazioni disponibili, la significatività o la casualità di ciò che si documenta? I fenomeni sociali ed umani hanno natura diversa da quelli naturali, fisici - osservava Cournot! Oggi gli americani (sempre loro!) convengono su un punto: garbage-in-garbage-out, ovvero con dati spazzatura si ottiene spazzatura.
Ecco perché risulta fastidioso sentir parlare di grandi progetti che, in virtù di una potenza di calcolo crescente, dovrebbero dare significato a dati di vendita, opinioni sui social network, analisi semiologiche. Tutti mischiati in una bouillabaisse algoritmica miracolosa.
Nondimeno, per far seguire alla critica un pensiero positivo, diremo che esistono progressi seri ed utili sul piano informativo. Tra essi ne citiamo uno originale e di casa nostra: il progetto Immagino di GS1 Italy. L’idea è semplice e sfidante, ovvero rilevare e classificare tutte le caratteristiche riportate sulla confezione dei prodotti di largo consumo, assieme alla loro immagine riconducendoli all'identificativo del codice a barre GS1 (ex EAN).
Il marketing del settore non sembra aver ancora compreso le potenzialità di questi nuovi big data strutturati e standardizzati. Eppure esse sono enormi. Ciò per varie ragioni. La prima è che l’informazione raccolta è oggettiva e dunque confrontabile trasversalmente e lungo la dimensione del tempo. La seconda è che questa rigorosa base definitoria di marche e prodotti, è stabile nel tempo. Ciò permette una corretta individuazione di eventuali trend di specifiche merceologie. La terza è la sua adattabilità a ragionamenti di tipo abduttivo, grazie alla possibilità di definire, logicamente, proprie arene competitive. Possiamo cioè scegliere un ampio numero di caratteristiche oggettive, per esempio organolettiche o chimiche o di altra natura per paragonare razionalmente qualcosa a qualcosa d’altro.
Per essere più chiari presenteremo allora un semplicissimo esempio introduttivo. Prendiamo da Immagino due piccoli gruppi di marche di yogurt bianco e alla fragola, con le loro caratteristiche nutrizionali. Usando una statistica multivariata, la correspondence analysis o la multidimensional scaling, otteniamo una mappa percettiva che rappresenta la distanza multidimensionale di queste marche. Si tratta di un primo elementare passo nello studio dell’arena competitiva basandoci su tutto ciò che è scritto sulla confezione. Che cosa leggiamo dunque nelle mappe così ottenute? Nel caso dello yogurt alla fragola, il posizionamento delle marche è maggiormente distribuito nello spazio ed alcune si collocano in prossimità di specifiche caratteristiche; diciamo la quantità di grassi. Allora utilizzando altri dati Nielsen, potremmo verificare se i dati di vendita seguono una tendenza comune ad altri prodotti anch’essi più grassi degli altri, oppure se la spiegazione vada cercata in altre direzioni. Nel caso dello yogurt bianco notiamo, invece, un addensamento in una zona del grafico, a comprova che le caratteristiche organolettiche (grassi, zucchero, calorie, ecc.) non discriminano tra quelle marche, poiché il prodotto è più o meno lo stesso. Proseguendo e sfruttando altri dati disponibili, potremmo poi verificare se questi marchi convivono nei medesimi punti di vendita, misurandone l’overlapping. Nel caso siano presenti negli stessi negozi, passeremmo a evidenziare la distribuzione dei loro prezzi relativi. Ulteriormente, tenteremmo di introdurre aspetti soggettivi tratti da altre analisi, tipo la qualità percepita, la fedeltà alla marca, l’estetica delle confezioni, il goodwill pubblicitario. In breve, la logica di tipo abduttivo introdurrebbe progressivamente e in modo ragionato informazioni di diversa natura volte a rendere probabile la veridicità di una certa conclusione. Sino a prova contraria questo tipo di ragionamenti alla Sherlock Holmes, un computer non è in grado di farli, perché la nostra 'misteriosa' capacità di intuire e poi dedurne qualcosa è ciò che ci rende (non tutti) più intelligenti delle macchine. I dati di per sé non sono informazione. L’informazione di per sé non è conoscenza. Il progetto Immagino di GS1 Italy è un bell'esempio di come dei big data well done (!) possano effettivamente rivitalizzare lo stanco marketing del largo consumo, purché si aggiunga loro una reale, seria competenza statistica e soprattutto la pazienza, la meticolosità, lo spirito critico e il buon senso che governano la vera ricerca scientifica.