Statistik begreber hver Data Scientist bør vide

Data scientists er i høj efterspørgsel og i nogle tilfælde, data scientists overtager arv statistiker roller. Mens en karriere inden for datalogi måske lyder interessant og tilgængelig, bør potentielle dataforskere overveje deres komfort med statistik, før de planlægger deres næste skridt, som at tjene en kandidatgrad i datalogi.

mens en karriere inden for datalogi måske lyder interessant og tilgængelig, bør potentielle dataforskere overveje deres komfort med statistik, før de planlægger deres næste skridt, som at tjene en kandidatgrad i datalogi.

rolle statistik i datalogi

statistik, som en akademisk og faglig disciplin, er indsamling, analyse og fortolkning af data. Fagfolk, der arbejder med statistik, skal også være i stand til at kommunikere deres fund. Som sådan er Statistik et grundlæggende værktøj for dataforskere, der forventes at indsamle og analysere store mængder strukturerede og ustrukturerede data og rapportere om deres fund.

Data er rå information, og dataforskere lærer, hvordan man udvinder det, ifølge Data Science Central. Dataforskere bruger en kombination af statistiske formler og computeralgoritmer til at bemærke mønstre og tendenser inden for data. Derefter bruger de deres viden om samfundsvidenskab og en bestemt industri eller sektor til at fortolke betydningen af disse mønstre, og hvordan de gælder for virkelige situationer. Formålet er at skabe værdi for en virksomhed eller organisation.

for at blive dataforsker skal du have en stærk forståelse af matematik, statistisk ræsonnement, datalogi og Informationsvidenskab. Du skal forstå statistiske begreber, hvordan du bruger vigtige statistiske formler, og hvordan du fortolker og kommunikerer statistiske resultater.

vigtige Statistikkoncepter i datalogi

ifølge Elite Data Science, en datavidenskabelig uddannelsesplatform, skal dataforskere forstå de grundlæggende begreber i beskrivende statistik og sandsynlighedsteori, som inkluderer nøglebegreberne sandsynlighedsfordeling, statistisk signifikans, hypotesetest og regression. Bayesian tænkning er også vigtig for maskinindlæring; dens nøglebegreber inkluderer betinget sandsynlighed, priors og posteriors og maksimal sandsynlighed.

Beskrivende statistik

Beskrivende statistik er en måde at analysere og identificere de grundlæggende funktioner i et datasæt. Beskrivende statistikker giver oversigter og beskrivelser af dataene samt en måde at visualisere dataene på. En masse rå information er vanskelig at gennemgå, opsummere og kommunikere. Med beskrivende statistik kan du præsentere dataene på en meningsfuld måde.

vigtige analyser i beskrivende statistik inkluderer normalfordeling (klokkekurve), central tendens (middel, median og tilstand), variabilitet (25%, 50%, 75% kvartiler), varians, standardafvigelse, modalitet, skævhed og kurtose, ifølge mod Data Science, en Datalogisk industriblog.

Beskrivende statistik er adskilt fra inferentiel statistik. Beskrivende statistikker viser, hvad dataene er; inferentiel statistik bruges til at nå konklusioner og drage slutninger fra dataene.

sandsynlighedsteori

sandsynlighedsteori er en gren af matematik, der måler sandsynligheden for en tilfældig begivenhed, ifølge Encyclopedia Britannica. Et tilfældigt eksperiment er en fysisk situation med et resultat, der ikke kan forudsiges, før det er observeret. Som at vende en mønt. Sandsynlighed er et kvantificerbart tal mellem nul og et, der måler sandsynligheden for, at en bestemt begivenhed sker. Jo højere sandsynlighed (jo tættere på en), desto mere sandsynligt er det at ske. Sandsynligheden for at vende en mønt er 0.5 da landing på hoveder eller haler er lige så sandsynligt.

Sandsynlighed ser på, hvad der kan ske baseret på en stor mængde data — når et eksperiment gentages igen og igen. Det gør ikke nogen konklusioner om, hvad der kan ske med en bestemt person eller i en bestemt situation. Statistiske formler relateret til Sandsynlighed anvendes på mange måder, herunder aktuarmæssige diagrammer for forsikringsselskaber, sandsynligheden for forekomsten af en genetisk sygdom, politisk afstemning og kliniske forsøg, ifølge Britannica.

Statistiske funktioner

Statistiske funktioner er ofte de første teknikker, som dataforskere bruger til at udforske data. Statistiske funktioner (PDF, 21,6 MB) omfatter organisering af data og finde minimums-og maksimumværdier, finde medianværdien og identificere kvartilerne. Kvartilerne viser, hvor meget af dataene falder under 25%, 50% og 75%. Andre statistiske funktioner inkluderer middelværdi, tilstand, bias og andre grundlæggende fakta om dataene.

sandsynlighedsfordelinger

en sandsynlighedsfordeling er alle mulige resultater af en tilfældig variabel og deres tilsvarende sandsynlighedsværdier mellem nul og en, ifølge Investopedia. Dataforskere bruger sandsynlighedsfordelinger til at beregne sandsynligheden for at opnå bestemte værdier eller begivenheder.

sandsynlighedsfordelingen har en form og flere egenskaber, der kan måles, herunder den forventede værdi, varians, skævhed og kurtose. Den forventede værdi er den gennemsnitlige (gennemsnitlige) værdi af en tilfældig variabel. Variansen er spredningen af værdierne for en tilfældig variabel væk fra gennemsnittet (middelværdi). Kvadratroden af variansen er kendt som standardafvigelsen, som er den mest almindelige måde at måle spredningen af data på.

Dimensionalitetsreduktion

Dimensionalitetsreduktion er processen med at reducere dimensionerne på dit datasæt, (PDF, 751 KB) ifølge University of California Merced. Formålet med dette er at løse problemer, der opstår med datasæt i høje dimensioner, der ikke findes i lavere dimensioner. Med andre ord er der for mange faktorer involveret. Jo flere funktioner der er inkluderet i et datasæt, jo flere prøver skal forskere have hver kombination af funktioner repræsenteret. Dette øger eksperimentets kompleksitet. Dimensionalitetsreduktion har en række potentielle fordele, herunder mindre data til lagring, hurtigere computing, færre afskedigelser og mere nøjagtige modeller.

over – og Underprøveudtagning

ikke alle datasæt er i sagens natur afbalanceret. Dataforskere bruger overprøveudtagning og undersampling til at ændre ulige datasæt (PDF, 4.9 MB), som også er kendt som resampling. Overprøveudtagning bruges, når de aktuelt tilgængelige data ikke er nok. Der er etablerede teknikker til, hvordan man efterligner en naturligt forekommende prøve, som syntetisk mindretals Overprøvetagningsteknik (SMOTE). Underprøveudtagning anvendes, når en del af dataene er overrepræsenteret. Underprøvetagningsteknikker fokuserer på at finde overlappende og overflødige data til kun at bruge nogle af dataene.

Bayesian statistik

Det Internationale Samfund for Bayesian analyse forklarer Bayes sætning: “I det bayesiske paradigme udtrykkes den nuværende viden om modelparametrene ved at placere en sandsynlighedsfordeling på parametrene, kaldet den forudgående distribution.”

den forudgående distribution er en videnskabsmands nuværende viden om et emne. Når nye oplysninger kommer frem, udtrykkes det som sandsynligheden, som er “proportional med fordelingen af de observerede data givet modelparametrene.”Denne nye information er” kombineret med forud for at producere en opdateret sandsynlighedsfordeling kaldet den bageste fordeling.”

dette kan være forvirrende for nye statistikstuderende, men der er forenklede definitioner. Bayesian thinking omfatter opdatering af overbevisninger baseret på nye data, ifølge Elite Data Science. Dette er et alternativ til frekvensstatistik, som ofte bruges til at beregne sandsynligheder.

brug statistik og datalogi

hvis du er ivrig efter at lære mere om statistik og hvordan man udvinder store datasæt til nyttig information, kan datalogi være det rigtige for dig. Kompetence inden for statistik, computerprogrammering og informationsteknologi kan føre dig til en succesrig karriere inden for en lang række brancher. Der er brug for dataforskere næsten overalt, fra sundhedspleje og videnskab til forretning og bankvirksomhed.