avatar

4 librerie per data scientist @ Serena Sensini | Giovedì 20 Ottobre 2022 | 6 minuti

La data science è un campo che può interagire con un’ampia varietà di domini tematici, dalla biologia e finanza alla geografia e al dettaglio. Ciò significa che i progetti di Data Science possono avere una varietà di formati e avere sfide molto diverse. Ciò non significa, tuttavia, che non ci siano punti in comune tra di loro.

Quali sono gli strumenti che ogni Data Scientist dovrebbe avere nella propria cassetta degli attrezzi per essere in grado di lavorare nel modo più fluido possibile?

Cosa vedrai

Libreria di plotting

Uno degli strumenti più importanti nella maggior parte dei toolkit di una persona che lavora come Data Scientist dovrebbe includere la padronanza di almeno una libreria di plotting, indipendentemente dal linguaggio scelto.

Il vantaggio di essere in grado di padroneggiare una libreria di visualizzazione sarà la possibilità di creare rappresentazioni efficaci per mostrare i tuoi dati, metodo e risultati.

Quando si dice che un’immagine vale 1.000 parole, questo è particolarmente vero nel campo della scienza dei dati.

Visualizzazioni chiare possono consentirti di comunicare in modo efficace con una varietà di stakeholder diversi, aumentando il valore e la portata dei tuoi progetti.

La padronanza della libreria di visualizzazione scelta dovrebbe includere come creare in modo semplice e veloce grafici altrettanto semplici. Questo ti gioverà quando sei bloccato/a o quando avrai bisogno di comprendere i dati.

9 volte su 10, queste sfide possono essere risolte semplicemente guardando un grafico veloce, anche se non perfetto. Questo non significa che devi includere una legenda, colorare correttamente il grafico o perdere tempo ad aggiungere un titolo: l’importante è che tu abbia una rappresentazione dei dati che ti permetta di visualizzare a chiare lettere il problema .

Essere in grado di creare queste semplici visualizzazioni ti aiuterà anche a gettare le basi per crearne di più complesse di modo che possano essere aggiunte a pubblicazioni, presentazioni o mostrate alla leadership.

Per renderle adatte ad un pubblico più eterogeneo, sarà utile sapere come aggiungere legende, etichette, annotazioni, gestire i colori e combinare più grafici sulla stessa visualizzazione, tra le altre cose.

Queste visualizzazioni saranno in grado di supportare la storia che stai cercando di raccontare al tuo pubblico in un modo che nessun discorso sarebbe mai in grado di trasmettere in uno spazio così breve e aggiungeranno valore al tuo risultato finale.

Esempi

Libreria algebrica

Uno strumento comune che dovrebbe apparire nel kit di strumenti della maggior parte dei data scientist sarebbe quello di una libreria matematica e/o di statistica di base.

Questo perché mentre la maggior parte dei linguaggi di programmazione avrà funzioni matematiche integrate, nella maggior parte dei flussi di lavoro di Data Science molti processi possono essere semplificati con l’uso di una libreria oltre a quelle funzionalità esistenti.

I vantaggi che ne derivano possono includere la capacità di utilizzare facilmente costanti o notazioni matematiche, eseguire calcoli o operazioni avanzati in modo rapido ed efficiente, archiviando anche grandi quantità di dati.

Esempi

Libreria di analisi

Il terzo strumento che deve essere presente in ogni toolkit di Data Scientist deve essere una libreria che può essere utilizzata per archiviare, analizzare e manipolare i tuoi dati. Sebbene molti linguaggi dispongano di strutture di dati integrate, la loro funzionalità è spesso limitata quando si tratta di flussi di lavoro di Data Science.

Una libreria efficace dovrebbe essere in grado di leggere i dati da una varietà di formati, consentire di eseguire calcoli di base, aggiungere le comuni librerie di visualizzazione (o essere in grado di produrli da sola) ed essere in grado di integrarsi con una varietà di modelli di apprendimento automatico per inserire i dati.

Affinché questo strumento venga utilizzato in modo efficace, ci sono tre azioni che devi essere in grado di eseguire.

Il primo è la possibilità di caricare dati da una varietà di fonti e da una varietà di formati.

I dati dei progetti di data science spesso coinvolgono dati provenienti da sorgenti diversi, quindi una libreria in grado di gestirli tutti sarà incredibilmente utile.

La padronanza di questo ti consentirà di caricare i dati e iniziare a lavorare molto più rapidamente rispetto all’utilizzo di una varietà di librerie o strumenti che altrimenti aumenterebbero la complessità di qualsiasi flusso di lavoro di Data Science.

Sebbene una libreria potrebbe non essere in grado di caricare da tutte le origini dati, dovrebbe essere in grado di gestire almeno quelle più comuni come csv, file Excel, file di testo, formati json e da database.

Un Data Scientist dovrebbe anche essere in grado di eseguire semplici manipolazioni di dati con la libreria scelta.

Ciò includerebbe la possibilità di eseguire semplici calcoli tra colonne o righe, selezionare uno o più elementi in base a determinate condizioni, raggruppare i dati per ottenere statistiche di riepilogo e poter creare sottoinsiemi di dati. Ciò consentirà a qualsiasi Data Scientist di avere un’idea e una panoramica dei dati prima che venga eseguita qualsiasi visualizzazione o modellazione, contribuendo a restringere i passaggi successivi.

L’ultima azione che devi essere in grado di eseguire è passare la struttura dei dati in un’altra libreria per la visualizzazione o la modellazione.

Essere in grado di creare in modo efficace una struttura dei dati che sia possibile utilizzare anche in altre librerie è fondamentale per creare un flusso di lavoro di Data Science efficace all’interno del progetto. Ciò potrebbe comportare molte delle semplici manipolazioni dei dati di cui sopra, ma è necessario assicurarsi che i dati possano essere passati nel formato corretto per lo strumento scelto.

Esempi

Libreria per database

Oltre agli strumenti sopra menzionati, la maggior parte dei/delle data scientist dovrebbe almeno avere una conoscenza di base del linguaggio di query strutturato.

Ciò ti consentirà di interagire con i dati provenienti da una varietà di fonti e in modo tale da poter estrarre facilmente i dati che ti interessano.

Ciò è particolarmente vantaggioso per i progetti che interagiscono con set di dati di grandi dimensioni che sarebbero semplicemente troppo grandi da archiviare o manipolare in modo efficiente in formati o strutture di dati comuni o per archiviare i dati quando non vengono utilizzati.

Un/a data scientist dovrebbero almeno apprendere le basi del linguaggio SQL per interagire con i database. Queste abilità includono essere in grado di selezionare i dati e filtrare i dati, proprio come con la libreria per conservare i tuoi dati, in modo da poter estrarre solo le informazioni che ti interessano.

In alcuni casi questo filtraggio deve essere eseguito a livello di database, piuttosto che il livello di flusso di lavoro, perché altrimenti potremmo non avere abbastanza potenza di calcolo per gestire la quantità di dati passati.

Inoltre, il vantaggio di farlo in una fase iniziale, consente di caricare solo i dati che ci interessano e quindi di ridurre la quantità richiesta di risorse di calcolo nel flusso di lavoro attuale.

Oltre a ciò, bisognerebbe anche essere in grado di eseguire semplici raggruppamenti e join di dati.

Esempi

Risorse utili

Se ti è piaciuto questo articolo, non ti dimenticare di commentare e condividere! ⬇️

Ti potrebbe interessare anche...

avatar

Social