Recensione di Big Data Analytics – Andrea de Mauro

Dopo aver letteralmente divorato questo libro, è giunto il momento di fare una recensione e spendere qualche riga sull'ottimo lavoro di Andrea De Mauro con il suo libro "Big Data Analytics".

Faccio una premessa: il tema mi è abbastanza caro e, dopo aver letto diverse recensioni, ho deciso di acquistare questo libro senza alcun preconcetto e cancellando qualsiasi idea che mi ero fatta in precedenza sul tema. I Big Data sono infatti un tema sempre più frequente e rappresentano ormai una realtà nel settore IT: in questo specifico campo, la professione del data scientist assume ancor di più delle responsabilità complesse in merito alla gestione e all'analisi dei dati.

In breve
Autore Andrea de Mauro
Genere Tecnico
Livello Per tutti
Scorrevolezza 10 / 10
Originalità 10 / 10
Valutazione 10 / 10

Recensione

Comincio dicendo che questo manuale ha una struttura molto chiara: dopo una panoramica teorica -ma mai banale- sul tema, si passa subito all’azione: viene infatti introdotto KNIME, uno strumento davvero ben fatto -e open source- dotato di un’interfaccia che consente agli utenti meno “smanettoni” in termini di programmazione di sfruttare tutto il potenziale delle tecniche di machine learning e di creare dei workflow per l’analisi dei dati. KNIME non è stato scelto a caso: si tratta infatti di una delle piattaforme leader nell’ambito dei Big Data Analytics ed è un competitor diretto di grosse multinazionali (tra le quali, IBM).

 

Attraverso i diversi capitoli, vengono analizzate diverse tecniche di gestione dei dati: esempi concreti di come importare i dati, ripulirli e utilizzare delle formule matematiche (sono elementari, giuro!) per eseguire un’esempio di analisi. Non solo: attraverso un capitolo dedicato al machine learning, uno alle tecniche di classificazione ed altri algoritmi, l’autore ha portato ad un livello successivo il materiale, corredando ogni singolo esempio da un caso di studio pratico e reale.

 

In un manuale del genere non si possono non apprezzare aspetti come la semplicità del linguaggio, l’immediatezza degli esempi (predire un cliente che cambierà operatore o i prezzi degli immobili di una certa zona, per dirne due) e la linearità del testo. Non ci si perde in chiacchere e ogni singolo passaggio è curato nei minimi dettagli, proprio per rendere l’esperienza del lettore alla portata di una futura applicazione pratica. E se questo non fosse abbastanza, l’ultimo capitolo è dedicato a chi di programmazione ne sa qualcosa: KNIME permette infatti di utilizzare delle estensioni che consentano la programmazione in Python e R; si tratta di una funzionalità che personalmente ho adorato (le black-box non piacciono a nessuno, diciamocelo pure!) e che, anche in questo caso, l’autore ha trattato con estrema semplicità, senza mai avere troppa fretta nel concludere l’argomento.

 

Credo che parlare di temi non sempre semplici come questi in un modo così interessante sia una dote eccezionale: e questo non vale solo per una persona come Andrea De Mauro che ha un curriculum impressionante, ma è indicativo del fatto che non tutte le persone professionalmente valide sono davvero in grado di rendere in parole la propria conoscenza, mentre lui ci è riuscito alla perfezione. Se per questo libro non bastasse, per fortuna ce n’è un altro: Big Data per il Business, ovviamente già nella pila di libri da leggere quest’anno.

 

Lezione imparata

  • Il sovraccarico informativo è una delle più grosse piaghe del XXI secolo;
  • La differenza tra clustering e classificazione è così sottile che a volte non viene compresa a pieno;
  • Il metodo del gomito è un’ottima tecnica euristica quando vorresti sbattere la testa nel decidere come gestire un cluster.

 

Quotes

 

“Una valutazione qualitativa deve necessariamente tradursi in qualcosa di riproducibile da una macchina in fase di apprendimento”

“L’euforia legata alla loro [intelligenza artificiale, Big Data, machine learning] affermazione si è trovata spesso a superare la loro stessa comprensione”

 

Sapevi che…

  • “KNIME” è l’unione di “KN” (la sigla della città di Costanza, dove nasce il progetto), “IM” (Information Mining) e “E”, aggiunto per questioni di suono.

 

Disponibile su Amazon