RIFLESSIONI: L’INTELLIGENZA (UMANA) DIETRO I BIG DATA – PRIMA PARTE

17 Febbraio 2020

Pubblichiamo in due parti un articolo di Antonio Besana (Docente presso l’Università Cattolica di Milano) sul trattamento dei Big Data al fine di poter fare sviluppare analisi efficaci a supporto della crescita.

Nel corso dell’ultimo decennio il tema dei Big Data ha spesso tenuto banco nelle discussioni delle grandi multinazionali e delle aziende di ricerche di mercato. Taluni hanno ipotizzato che i Big Data, sempre disponibili, potessero sostituire le ricerche di mercato come fonte di informazione affidabile, magari annullandone i costi. Una più approfondita conoscenza del fenomeno ha ampiamente dimostrato come queste conclusioni si siano dimostrate errate.

Quelle che seguono sono note come le “otto V” dei Big Data, che ne descrivono i potenziali vantaggi teorici, di cui ancora si discute in ambito accademico, in quanto il sorgere di alcune domande ne identifica anche le potenziali criticità.

1.Volume: la dimensione del dataset. Il grande volume di dati disponibile sembra non essere un problema: cloud e visualizzazione semplificano raccolta, storage e accesso ai dati.

2. Valore: in teoria i big data sono disponibili 24/7, senza costi. Possiamo facilmente reperire le informazioni corrette quando ne abbiamo bisogno? Siamo davvero in grado di identificarle? Quanto tempo sarà necessario? Con quali costi?

3. Veridicità: l’attendibilità dell’informazione è data per scontata, in quanto rilevata in modo passivo (social media, navigazione in internet, geolocalizzazione, utilizzo delle app). In realtà la veridicità dovrebbe essere verificata per ogni singola fonte di dati. Considerata la penetrazione delle fake news nella rete, siamo di fronte a informazione o disinformazione?

4. Visualizzazione: informazioni ampie e complesse raramente sono facilmente ed immediatamente comprensibili. Innescano decisioni? Spingono all’azione?

5. Varietà: Abbiamo a disposizione varie tipologie di dati, provenienti da fonti diverse, strutturate ma anche non strutturate. Proviamo ad immaginare una tavola con 1000 parole in 70 lingue diverse. Si tratta di informazioni bilanciate? Siamo in grado di leggerle e comprenderle?

6. Velocità: si riferisce alla generazione dei dati. Ciò significa che i dataset si aggiornano in tempo reale o quasi. È possibile effettuare analisi ripetute dei dati? Saremmo in grado di fare analisi quotidiane entro tempi ragionevoli?

7. Viscosità: maggiore è la dimensione dei dataset, maggiore è la complessità dei dati da gestire. Siamo davvero in grado di collegare correttamente le diverse informazioni e comprenderne il significato?

8. Viralità: metodologie e fonti diverse non garantiscono la comparabilità generando elevate probabilità di inconsistenza tra i dati. Le informazioni di cui disponiamo sono affidabili? Possiamo utilizzarle per analisi e pianificazione? Sono in grado di ridurre i rischi nella presa di decisioni?

Talvolta ci sfugge che i grandi database hanno proprietà profondamente diverse dai piccoli database. Richiedono specifici metodi di data science per differenziare i segnali (la corretta interpretazione dei dati basata sulla scienza trasformata in evidenza scientifica e conoscenza) dal rumore di fondo (una interpretazione dei dati che non può essere considerate una evidenza scientifica) e interpretarne il significato, attraverso software complessi e potenti.

Per chi non mastica troppo la statistica è utile ricordare che per misurare la correlazione tra due fenomeni si utilizza il coefficiente di correlazione lineare (r, coefficiente di Pearson), che misura la forza e la direzione di una correlazione tra due variabili. Il suo valore atteso varia tra -1 e +1. Se si verifica una forte correlazione lineare positiva, esso si avvicina a 1, mentre se si verifica una forte correlazione lineare negativa si avvicina a -1. In genere una correlazione con r superiore a 0,8 è generalmente considerate “forte”, mentre una correlazione con r inferiore a 0,5 è considerata “debole”. Vale inoltre la pena ricordare che la presenza di una correlazione fra due fenomeni non significa necessariamente che fra di essi ci sia un legame di causa ed effetto. Molte delle correlazioni tra due variabili indipendenti trovate nei big data, pur producendo valori vicini a 1, sono del tutto casuali, senza alcun nesso tra di loro: si tratta di correlazioni spurie[1].

I modelli matematici applicati a grandi database producono un numero superiore di correlazioni tra i dati, ma anche un maggiore “rumore di fondo”, dove il numero di falsi positivi cresce in modo significativo. Diventa quindi indispensabile saper identificare i veri segnali distinguendoli dai rumori di fondo. In altre parole: i Big Data tendono a generare più facilmente correlazioni spurie, e cioè fenomeni solo apparentemente correlati (un elevato valore di r) senza tuttavia una reale identificazione della causa, creando una visione illusoria della realtà e rendendo più difficile trovare il cuore del problema. Quanto più grandi sono i database, o gli insiemi di database, tanto più frequente sarà imbattersi in correlazioni spurie, con il pericolo di essere progressivamente ingannati dalle casualità, e quindi prendere decisioni sbagliate perché basate sui rumori di fondo invece che sui segnali. (fine prima parte – la seconda parte sarà pubblicata a marzo)

[1] A questo proposito si veda Tyler Vigen – Spurious Correlations – Hachette, 2015

Cookie	Durata	Descrizione
cookielawinfo-checbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.