I data scientist sono molto richiesti e, in alcuni casi, i data scientist stanno assumendo ruoli statistici legacy. Mentre una carriera nella scienza dei dati potrebbe sembrare interessante e disponibile, i potenziali scienziati dei dati dovrebbero considerare il loro comfort con le statistiche prima di pianificare il loro prossimo passo, come guadagnare un master in scienza dei dati.
Mentre una carriera nella scienza dei dati potrebbe sembrare interessante e disponibile, i potenziali scienziati dei dati dovrebbero considerare il loro comfort con le statistiche prima di pianificare il loro prossimo passo, come guadagnare un master in scienza dei dati.
Ruolo della statistica nella scienza dei dati
La statistica, come disciplina accademica e professionale, è la raccolta, l’analisi e l’interpretazione dei dati. Anche i professionisti che lavorano con le statistiche devono essere in grado di comunicare i loro risultati. In quanto tale, le statistiche sono uno strumento fondamentale dei data scientist, che dovrebbero raccogliere e analizzare grandi quantità di dati strutturati e non strutturati e riferire sui loro risultati.
I dati sono informazioni grezze e gli scienziati dei dati imparano come estrarli, secondo Data Science Central. I data scientist utilizzano una combinazione di formule statistiche e algoritmi informatici per notare modelli e tendenze all’interno dei dati. Quindi, usano la loro conoscenza delle scienze sociali e di un particolare settore o settore per interpretare il significato di quei modelli e come si applicano alle situazioni del mondo reale. Lo scopo è generare valore per un’azienda o un’organizzazione.
Per diventare uno scienziato dei dati, è necessario avere una forte comprensione della matematica, ragionamento statistico, informatica e scienza dell’informazione. È necessario comprendere i concetti statistici, come utilizzare le formule statistiche chiave e come interpretare e comunicare i risultati statistici.
Concetti statistici importanti nella scienza dei dati
Secondo Elite Data Science, una piattaforma educativa di scienza dei dati, gli scienziati dei dati devono comprendere i concetti fondamentali delle statistiche descrittive e della teoria della probabilità, che includono i concetti chiave della distribuzione di probabilità, della significatività statistica, del test di ipotesi e della regressione. Il pensiero bayesiano è importante anche per l’apprendimento automatico; i suoi concetti chiave includono probabilità condizionale, priori e posteriori e massima verosimiglianza.
Statistiche descrittive
Le statistiche descrittive sono un modo di analizzare e identificare le caratteristiche di base di un set di dati. Le statistiche descrittive forniscono riassunti e descrizioni dei dati, nonché un modo per visualizzare i dati. Un sacco di informazioni grezze è difficile da rivedere, riassumere e comunicare. Con le statistiche descrittive, è possibile presentare i dati in modo significativo.
Importanti analisi nelle statistiche descrittive includono distribuzione normale (curva a campana), tendenza centrale (media, mediana e modalità), variabilità (25%, 50%, 75% quartili), varianza, deviazione standard, modalità, asimmetria e curtosi, secondo Towards Data Science, un blog dell’industria della scienza dei dati.
Le statistiche descrittive sono separate dalle statistiche inferenziali. Le statistiche descrittive mostrano quali sono i dati; le statistiche inferenziali vengono utilizzate per raggiungere conclusioni e trarre inferenze dai dati.
Teoria della probabilità
La teoria della probabilità è una branca della matematica che misura la probabilità che si verifichi un evento casuale, secondo Encyclopedia Britannica. Un esperimento casuale è una situazione fisica con un risultato che non può essere previsto fino a quando non viene osservato. Come lanciare una moneta. La probabilità è un numero quantificabile compreso tra zero e uno che misura la probabilità che un determinato evento accada. Maggiore è la probabilità (più vicino a uno), più è probabile che accada. La probabilità di lanciare una moneta è 0.5 dal momento che l’atterraggio su teste o code è altrettanto probabile.
La probabilità esamina ciò che potrebbe accadere in base a una grande quantità di dati — quando un esperimento viene ripetuto più e più volte. Non fa alcuna conclusione su ciò che potrebbe accadere a una persona specifica o in una situazione specifica. Le formule statistiche relative alla probabilità sono utilizzate in molti modi, tra cui grafici attuariali per le compagnie di assicurazione, la probabilità del verificarsi di una malattia genetica, sondaggi politici e studi clinici, secondo Britannica.
Caratteristiche statistiche
Le caratteristiche statistiche sono spesso le prime tecniche che gli scienziati utilizzano per esplorare i dati. Le caratteristiche statistiche (PDF, 21.6 MB) includono l’organizzazione dei dati e la ricerca dei valori minimi e massimi, la ricerca del valore mediano e l’identificazione dei quartili. I quartili mostrano quanto dei dati cade sotto 25%, 50% e 75%. Altre caratteristiche statistiche includono la media, la modalità, il bias e altri fatti di base sui dati.
Distribuzioni di probabilità
Una distribuzione di probabilità è tutti i possibili risultati di una variabile casuale e i loro corrispondenti valori di probabilità tra zero e uno, secondo Investopedia. Gli scienziati dei dati utilizzano le distribuzioni di probabilità per calcolare la probabilità di ottenere determinati valori o eventi.
La distribuzione di probabilità ha una forma e diverse proprietà che possono essere misurate, tra cui il valore atteso, la varianza, l’asimmetria e la curtosi. Il valore atteso è il valore medio (medio) di una variabile casuale. La varianza è la diffusione dei valori di una variabile casuale lontano dalla media (media). La radice quadrata della varianza è nota come deviazione standard, che è il modo più comune per misurare la diffusione dei dati.
Riduzione della dimensionalità
La riduzione della dimensionalità è il processo di riduzione delle dimensioni del set di dati (PDF, 751 KB) secondo l’Università della California Merced. Lo scopo di questo è risolvere i problemi che sorgono con i set di dati in dimensioni elevate che non esistono in dimensioni inferiori. In altre parole, ci sono troppi fattori coinvolti. Le caratteristiche più incluse in un set di dati, quindi i campioni più scienziati hanno bisogno di avere ogni combinazione di caratteristiche rappresentate. Ciò aumenta la complessità dell’esperimento. La riduzione della dimensionalità ha una serie di potenziali vantaggi, tra cui meno dati da archiviare, elaborazione più rapida, meno ridondanze e modelli più accurati.
Over – e Under-Sampling
Non tutti i set di dati sono intrinsecamente bilanciati. I data scientist utilizzano il sovracampionamento e il sottocampionamento per modificare insiemi di dati disuguali (PDF, 4.9 MB), noto anche come ricampionamento. L’over-sampling viene utilizzato quando i dati attualmente disponibili non sono sufficienti. Esistono tecniche consolidate su come imitare un campione naturale, come la tecnica di sovra-campionamento delle minoranze sintetiche (SMOTE). Il sottocampionamento viene utilizzato quando una parte dei dati è sovrarappresentata. Le tecniche di sottocampionamento si concentrano sulla ricerca di dati sovrapposti e ridondanti per utilizzare solo alcuni dei dati.
Statistiche bayesiane
La Società Internazionale per l’analisi bayesiana spiega il teorema di Bayes: “Nel paradigma bayesiano, le attuali conoscenze sui parametri del modello sono espresse ponendo una distribuzione di probabilità sui parametri, chiamata distribuzione precedente.”
La distribuzione precedente è l’attuale conoscenza di un soggetto da parte di uno scienziato. Quando nuove informazioni vengono alla luce, si esprime come la probabilità, che è “proporzionale alla distribuzione dei dati osservati dati i parametri del modello.”Questa nuova informazione è” combinata con la prima per produrre una distribuzione di probabilità aggiornata chiamata distribuzione posteriore.”
Questo potrebbe essere fonte di confusione per i nuovi studenti di statistiche, ma ci sono definizioni semplificate. Il pensiero bayesiano comprende l’aggiornamento delle credenze basate su nuovi dati, secondo Elite Data Science. Questa è un’alternativa alle statistiche di frequenza, che è comunemente usato per calcolare le probabilità.
Usa Statistiche e scienza dei dati
Se sei desideroso di saperne di più sulle statistiche e su come estrarre set di dati di grandi dimensioni per informazioni utili, data science potrebbe essere giusto per te. Competenza in statistica, programmazione informatica e tecnologia dell’informazione potrebbe portare a una carriera di successo in una vasta gamma di settori. Gli scienziati dei dati sono necessari quasi ovunque, dall’assistenza sanitaria e dalla scienza alle imprese e alle banche.