Si poteva evitare il disastro dell’uragano Sandy? Quando si tratta di grandi eventi naturali, la risposta che di solito tendiamo a dare è no, ovviamente tralasciando il discorso del rischio prodotto da un’eccessiva urbanizzazione e antropizzazione del territorio. Ma ultimamente diversi esperti stanno cambiando idea. La scienza sta dimostrando che è possibile prevedere la dinamica dei sistemi complessi, ma siamo ancora lontani dal riuscirci. Come mai? Non sono i dati a mancarci, anzi, il problema sono proprio i dati: molti, troppi, al punto che non riusciamo a gestirli e a elaborarli in modo da produrre scenari e risposte precise. Se riuscissimo a districarci nell’oceano dei cosiddetti “Big Data” le cose forse cambierebbero. E se numerose multinazionali hi-tech si sono gettate nell’impresa, non è tanto perché anche a loro Sandy (e le sue inevitabili sorelle future) fa paura; ma perché chi saprà gestire i Big Data potrà acquisire un vantaggio enorme sulla concorrenza.

Conoscere in anticipo i gusti del cliente

Ne è convinta, per esempio, l’IBM, che guida le ricerche nel settore. “Ogni giorno produciamo 2,5 quintilioni di byte di dati – così tanti che il 90% dei dati nel mondo oggi sono stati creati solo negli ultimi due anni”, spiegano gli esperti di Big Data alla IBM. “Questi dati provengono dappertutto: sensori usati per raccogliere informazioni climatiche, post sui social media, foto digitali e video, registri di compravendite, segnali GPS, solo per fare qualche esempio”. Ma estrarre informazioni da tutto questo materiale è estremamente difficile, nonostante il perfezionamento dei motori di ricerca. Non solo. Prendiamo il caso di Amazon: il suo successo mondiale non deriva solo dal fatto di possedere una modernissima struttura logistica, che riesce in tempo reale a gestire gli ordini online e le giacenze dei magazzini, ma sta anche nella capacità di usare algoritmi per scandagliare gli interessi dei lettori. Dopo qualche ricerca su Amazon, al prossimo acquisto scopriremo che la libreria online ci consiglia già quali libri potrebbero interessarci. Siamo abituati a non meravigliarci di questo fatto, ma per le aziende si tratta di una svolta radicale: anticipare i nostri desideri analizzando ed elaborando le nostre ricerche online permette di calibrare la pubblicità sul web (come fa Google e come succede su Facebook), massimizzando i guadagni.

Ogni giorno produciamo 2,5 quintilioni di byte di dati – così tanti che il 90% dei dati nel mondo oggi sono stati creati solo negli ultimi due anni.

IBM
Creare algoritmi potenti e raffinati per estrarre informazioni dalla miniera dei Big Data è la nuova frontiera dell’information technologies. In gergo si chiama “data mining” e dà un po’ l’idea di minatori che si calano in profondità per estrarre diamanti e pepite d’oro. I dati sono l’oro del XXI secolo. Analizzare i 12 terabyte di informazioni prodotti quotidianamente su Twitter o i registri di 5 milioni di compravendite online ogni giorno permetterebbe di comprendere meglio gusti e orientamenti dei potenziali clienti. Un colosso come Wallmart raccoglie ogni ora 2,5 milioni di petabyte di dati sulle transazioni dei propri clienti, e certo non basterebbe un esercito di analisti umani per elaborarli compiutamente. Occorrono computer dotati di straordinarie velocità e potenza di calcolo, insieme ad algoritmi raffinati capaci di estrarre da quei file le informazioni che vogliamo. Google si è già gettata nell’affare con BigQuery, che permette alle aziende di “affittare” gli algoritmi di data mining e i computer di Google per estrarre informazioni dai dati caricati dal cliente, al costo di tre centesimi e mezzo di euro per gigabyte processato.

I minatori dei dati

Il settore è appena nato ma già promette di realizzare un giro d’affari di diversi miliardi di euro in pochi anni. Sta già nascendo una nuova categoria professionale: i data scientists, a metà tra informatici e matematici, capaci di elaborare gli algoritmi necessari affinché i supercomputer trovino quel che vogliamo. Giovanna Miritiello, laurea in fisica in Italia e dottorato in sistemi complessi a Madrid, è tra le giovani ricercatrici che volerà a Palo Alto in California per seguire un corso intensivo per data scientists: “Si tratta di un programma per formare una figura professionale emergente, il ‘ricercatore analista’. Il corso è finanziato dalle principali società delle nuove tecnologie e nuovi media, da Facebook a Google e Linkedin, che proprio a Palo Alto hanno le loro sedi principali”, racconta su Asimmetrie, la rivista dell’Istituto Nazionale di Fisica Nucleare. Le grandi società vogliono persone capaci di individuare nel marasma dei dati qualche struttura riconoscibile, qualche modello ricorsivo che permetta di predire i comportamenti di sistemi complessi che vanno dalla formazione degli uragani al tipo di libro che potrebbe riuscire a vendere milioni di copie.

Anche la sanità pubblica potrebbe beneficiare dei Big Data. Secondo la IBM, si potrebbe riuscire a ridurre la mortalità del 20% attraverso una migliore, veloce e puntuale elaborazione dei dati medici di ciascun paziente. L’idea è che in futuro ciascun cittadino possa produrre quotidianamente dati riguardanti la propria salute – temperatura corporea, pressione sanguigna, numero di globuli rossi, bianchi, piastrine, quantità di ferro e così via – e potenti piattaforme di elaborazione riescano a prevedere l’insorgere di malattie attraverso l’analisi in tempo reale dei markers. L’Unione europea sta lavorando già a questo obiettivo, attraverso una rete di partner riuniti nel progetto “Guardian Angels” (candidato a ottenere un finanziamento di un miliardo di euro in dieci anni): l’idea è che ciascuno di noi avrà un piccolo esercito di nanorobot che ci terrà sotto controllo e invierà le informazioni ai processori che le elaboreranno e ci avviseranno al primo sintomo di qualcosa che non va. Del resto, è così che è iniziata la storia: quando il progetta Genoma Umano, circa dieci anni fa, cercava di portare a termine la mappatura del nostro DNA, ci vollero supercomputer velocissimi per raggiungere l’obiettivo. Bene, ora conosciamo tutti i nostri geni. Ma finché non saremo in grado di sapere come interagiscono tra loro e con il nostro organismo, della mappa del genoma non sapremo che farcene. Ecco perché la genetica non ci ha ancora regalato la cura per il cancro; chissà se i data scientists ci riusciranno…