Statistikbegrepp varje datavetenskapare borde veta

datavetenskapare är i hög efterfrågan och i vissa fall tar datavetenskapare över äldre statistikerroller. Medan en karriär inom datavetenskap kanske låter intressant och tillgänglig, bör potentiella datavetenskapare överväga sin komfort med statistik innan de planerar sitt nästa steg, som att tjäna en magisterexamen i datavetenskap.

medan en karriär inom datavetenskap kanske låter intressant och tillgänglig, bör potentiella datavetenskapare överväga sin komfort med statistik innan de planerar sitt nästa steg, som att tjäna en magisterexamen i datavetenskap.

statistikens roll i datavetenskap

statistik, som akademisk och professionell disciplin, är insamling, analys och tolkning av data. Professionella som arbetar med statistik måste också kunna kommunicera sina resultat. Som sådan är statistik ett grundläggande verktyg för datavetenskapare, som förväntas samla och analysera stora mängder strukturerad och ostrukturerad data och rapportera om sina resultat.

Data är rå information, och dataforskare lär sig att bryta den, enligt Data Science Central. Dataforskare använder en kombination av statistiska formler och datoralgoritmer för att märka mönster och trender inom data. Sedan använder de sin kunskap om samhällsvetenskap och en viss bransch eller sektor för att tolka betydelsen av dessa mönster och hur de gäller för verkliga situationer. Syftet är att skapa värde för ett företag eller en organisation.

för att bli datavetenskapare måste du ha en stark förståelse för matematik, statistisk resonemang, datavetenskap och informationsvetenskap. Du måste förstå statistiska begrepp, hur man använder viktiga statistiska formler och hur man tolkar och kommunicerar statistiska resultat.

viktiga Statistikbegrepp i datavetenskap

enligt Elite Data Science, en datavetenskaplig utbildningsplattform, måste Dataforskare förstå de grundläggande begreppen beskrivande statistik och sannolikhetsteori, som inkluderar nyckelbegreppen för sannolikhetsfördelning, statistisk signifikans, hypotesprovning och regression. Bayesianskt tänkande är också viktigt för maskininlärning; dess nyckelbegrepp inkluderar villkorlig sannolikhet, priors och posteriors och maximal sannolikhet.

beskrivande statistik

beskrivande statistik är ett sätt att analysera och identifiera de grundläggande funktionerna i en datamängd. Beskrivande statistik ger sammanfattningar och beskrivningar av data, samt ett sätt att visualisera data. Mycket rå information är svår att granska, sammanfatta och kommunicera. Med beskrivande statistik kan du presentera data på ett meningsfullt sätt.

viktiga analyser i beskrivande statistik inkluderar normalfördelning (klockkurva), central tendens (medelvärdet, medianen och läget), variabilitet (25%, 50%, 75% kvartiler), varians, standardavvikelse, modalitet, skevhet och kurtos, enligt Towards Data Science, en datavetenskapsindustriblogg.

beskrivande statistik är skild från inferentiell statistik. Beskrivande statistik visar vad data är; inferentiell statistik används för att dra slutsatser och dra slutsatser från data.

sannolikhetsteori

sannolikhetsteori är en gren av matematik som mäter sannolikheten för att en slumpmässig händelse inträffar, enligt Encyclopedia Britannica. Ett slumpmässigt experiment är en fysisk situation med ett resultat som inte kan förutsägas förrän det observeras. Som att vända ett mynt. Sannolikhet är ett kvantifierbart tal mellan noll och ett som mäter sannolikheten för att en viss händelse inträffar. Ju högre sannolikhet (ju närmare en), desto mer sannolikt är det att hända. Sannolikheten att vända ett mynt är 0.5 eftersom landning på krona eller klave är lika troligt.

Sannolikhet tittar på vad som kan hända baserat på en stor mängd data — när ett experiment upprepas om och om igen. Det gör inga slutsatser om vad som kan hända med en viss person eller i en specifik situation. Statistiska formler relaterade till sannolikhet används på många sätt, inklusive aktuariella diagram för försäkringsbolag, sannolikheten för förekomst av en genetisk sjukdom, politisk omröstning och kliniska prövningar, enligt Britannica.

Statistiska funktioner

Statistiska funktioner är ofta de första teknikerna som Dataforskare använder för att utforska data. Statistiska funktioner (PDF, 21,6 MB) inkluderar att organisera data och hitta minimi-och maximivärden, hitta medianvärdet och identifiera kvartilerna. Kvartilerna visar hur mycket av data som faller under 25%, 50% och 75%. Andra statistiska funktioner inkluderar medelvärdet, läge, bias och andra grundläggande fakta om data.

sannolikhetsfördelningar

en sannolikhetsfördelning är alla möjliga resultat av en slumpmässig variabel och deras motsvarande sannolikhetsvärden mellan noll och en, enligt Investopedia. Dataforskare använder sannolikhetsfördelningar för att beräkna sannolikheten för att få vissa värden eller händelser.

sannolikhetsfördelningen har en form och flera egenskaper som kan mätas, inklusive förväntat värde, varians, skevhet och kurtos. Det förväntade värdet är medelvärdet (medelvärdet) för en slumpmässig variabel. Variansen är spridningen av värdena för en slumpmässig variabel bort från genomsnittet (medelvärdet). Kvadratroten av variansen är känd som standardavvikelsen, vilket är det vanligaste sättet att mäta spridningen av data.

Dimensionalitetsreduktion

Dimensionalitetsreduktion är processen att minska dimensionerna för din dataset, (PDF, 751 KB) enligt University of California Merced. Syftet med detta är att lösa problem som uppstår med datamängder i höga dimensioner som inte finns i lägre dimensioner. Med andra ord är det för många faktorer inblandade. Ju fler funktioner som ingår i en datamängd, desto fler prover måste forskare ha alla kombinationer av funktioner representerade. Detta ökar komplexiteten i experimentet. Dimensioneringsminskning har ett antal potentiella fördelar, inklusive mindre data att lagra, snabbare databehandling, färre uppsägningar och mer exakta modeller.

över – och Underprovtagning

inte alla datauppsättningar är i sig balanserade. Dataforskare använder överprovtagning och undersampling för att ändra ojämlika datamängder, (PDF, 4.9 MB) som också kallas omsampling. Överprovtagning används när data som för närvarande är tillgängliga inte räcker. Det finns etablerade tekniker för hur man imiterar ett naturligt förekommande prov, som syntetisk Minoritetsöverprovtagningsteknik (SMOTE). Underprovtagning används när en del av uppgifterna är överrepresenterade. Underprovtagningstekniker fokuserar på att hitta överlappande och överflödiga data för att endast använda en del av data.

Bayesian Statistics

International Society for Bayesian Analysis förklarar Bayes sats: ”I det bayesiska paradigmet uttrycks aktuell kunskap om modellparametrarna genom att placera en sannolikhetsfördelning på parametrarna, kallad tidigare distribution.”

den tidigare distributionen är en forskares nuvarande kunskaper om ett ämne. När ny information kommer fram uttrycks den som sannolikheten, som är ”proportionell mot fördelningen av de observerade data med tanke på modellparametrarna.”Denna nya information är” kombinerad med den tidigare för att producera en uppdaterad sannolikhetsfördelning som kallas den bakre fördelningen.”

detta kan vara förvirrande för nya statistikstudenter, men det finns förenklade definitioner. Bayesianskt tänkande omfattar uppdatering av övertygelser baserade på nya data, enligt Elite Data Science. Detta är ett alternativ till frekvensstatistik, som vanligtvis används för att beräkna sannolikheter.

använd statistik och datavetenskap

om du är angelägen om att lära dig mer om statistik och hur du bryter stora datamängder för användbar information kan datavetenskap vara rätt för dig. Kompetens inom statistik, datorprogrammering och informationsteknik kan leda dig till en framgångsrik karriär inom ett brett spektrum av branscher. Datavetenskapare behövs nästan överallt, från hälsovård och vetenskap till företag och Bank.

Lämna ett svar

Din e-postadress kommer inte publiceras.

Previous post 1% stadgar exempel
Next post hur man torkar fikon