Data Science

Data Science

a cura di Ernesto De Vito Professore Ordinario di Probabilità e Statistica Matematica e Alessandro Verri, Professore Ordinario di Informatica, Università di Genova.

 

Nell’ultimo decennio la simultanea crescita delle reti informatiche e delle capacità di memorizzazione dei supporti hanno permesso di avere a disposizione grandi quantità di dati accessibili anche in remoto.  L’obiettivo dell’apprendimento automatico (machine learning) e, più in generale, dell’analisi dati è di costruire modelli che permettano di estrarre le informazioni rilevanti e di definire algoritmi che possano ricavare le informazioni mancanti. 

Ad esempio, le aziende di commercio elettronico adattano l’offerta dei prodotti alle esigenze dei singoli clienti analizzando i precedenti acquisti fatti sul proprio sito e le preferenze espresse dai possibili acquirenti sui social network. In ambito medico, confrontando le sequenze genetiche di persone sane e di pazienti affetti da una specifica patologia si cerca di prevedere la comparsa e l’evoluzione della malattia, anche al fine di predisporre la terapia più funzionale al singolo malato. 

Tuttavia la disponibilità di “laghi di dati” facilmente accessibili non è sufficiente a garantire che i modelli inferiti siano affidabili, per molte ragioni: 

  • i dati sono “rumorosi”, non strutturati o non completamente affidabili;
  • i dati sono rappresentati da un grande numero di variabili, di cui solo poche possono essere significative per il problema;
  • i dati possono cambiare rapidamente nel tempo;
  • la numerosità del campione può essere piccola rispetto alle dimensioni dei dati;
  • il campione può non essere rappresentativo dell’intera popolazione;
  • l’efficacia del modello predittivo dipende dalla domanda cui si vuol rispondere.

Benché gli algoritmi di machine learning siano a volte usati come “scatole nere" in un approccio dal basso verso l’alto (bottom-up), solo una comprensione della teoria su cui questi algoritmi si fondano ed una conoscenza specifica dei dati che si vogliono analizzare garantiscono risposte significative. Citando il blog di John Haddad “it doesn’t matter how good of a fisherman you are—you’re not going to catch anything if you’re not where the fish are”

L’analisi dati richiede quindi competenze trasversali in cui l’informatica e la matematica svolgono un ruolo centrale. In particolare quest’ultima fornisce un linguaggio universale per descrivere astrattamente i modelli e studiarne le loro proprietà statistiche, mettendo a disposizione tecniche  di calcolo avanzate per risolvere gli algoritmi di previsione. 

 

Competenze richieste

 

In ambito lavorativo il nome “data scientist” è spesso usato per descrivere la figura professionale che ha questo tipo di competenze. Le principali competenze matematiche richieste al data-scientist  sono:

  • di tipo probabilistico e statistico, che forniscono il fondamento teorico dell’inferenza statistica e del machine learning;
  • nell’ambito dell’analisi armonica e della teoria dei segnali, che mettono a disposizione rappresentazioni efficienti dei dati;
  • nel campo dell’analisi numerica e dell’ottimizzazione, che sono alla base dell’implementazione numerica degli algoritmi di machine learning.

Inoltre al data-scientist è indispensabile un’approfondita conoscenza dei linguaggi di programmazione per poter implementare gli algoritmi in modo computazionalmente efficiente, sia in termini di tempo di esecuzione sia di memoria occupata. Infine, è necessaria un’attitudine a lavorare in gruppo ed a interagire con persone di altre discipline poiché solo una profonda conoscenza  della tipologia specifica dei dati garantisce un’analisi statistica efficiente. 

 

Offerta formativa e prospettive di lavoro

 

Nella maggior parte delle sedi italiane, la laurea in Matematica offre un’ampia scelta di insegnamenti che coprono le competenze richieste. Fra le lauree triennali in Matematica citiamo Statistica matematica e trattamento informatico dei dati, a Genova. Inoltre vi sono anche lauree magistrali più mirate. I Dipartimenti di Matematica delle Università di Torino, Padova, hanno attivato corsi di laurea magistrale in data science; altrettanto hanno fatto i dipartimenti di Trieste e Udine in collaborazione con la SISSA di Trieste. Corsi di laurea magistrale in data science sono stati attivati anche da Dipartimenti di Informatica o Ingegneria come a Pisa, Genova e Roma La Sapienza. 

Infine molte università offrono master di specializzazione nell’ambito dell’analisi dati che permettono al laureato di completare la propria preparazione. Va inoltre segnalato che il MIUR ha creato un gruppo di lavoro su “Big Data” ed è stato redatto un dettagliato rapporto sullo stato dell’arte in Italia ed all’estero aggiornato al 2016.

Il laureato in Matematica ha in generale ottime possibilità di essere assunto come data-scientist nelle aziende del settore. Si troverà a lavorare in ambienti molto dinamici, interagendo con informatici, fisici ed ingegneri. È fortemente consigliata un’ottima conoscenza dell’inglese ed una spiccata attitudine a viaggiare sia in Italia sia all’estero.  Il lavoro è molto stimolante e, per la sua specificità, tale da valorizzare le competenze specifiche del matematico.