Datové vědci jsou ve vysoké poptávce, a v některých případech, datové vědci jsou převzetí dědictví statistik role. Zatímco kariéra ve vědě o datech může znít zajímavě a dostupně, potenciální vědci v oblasti dat by měli zvážit své pohodlí se statistikami, než plánují další krok, jako je získání magisterského titulu v oboru datové vědy.
Zatímco kariéru v data science může znít zajímavě a je k dispozici, potenciální datové vědci by měli zvážit jejich pohodlí se statistikami před plánování jejich příští krok, jako je vydělávat magisterský titul v oboru data science.
Role statistiky v datové vědě
statistika, jako akademická a profesní disciplína, je sběr, analýza a interpretace dat. Odborníci, kteří pracují se statistikami, musí být také schopni sdělit svá zjištění. Jako takový, statistika je základním nástrojem dat vědci, kteří se očekává, že shromažďovat a analyzovat velké množství strukturovaných a nestrukturovaných dat a zprávu o svých zjištěních.
Data jsou surová informace a vědci v oblasti dat se podle Data Science Central učí, jak je těžit. Vědci dat používají kombinaci statistických vzorců a počítačových algoritmů k zaznamenání vzorců a trendů v datech. Pak, využívají své znalosti společenských věd a konkrétního odvětví nebo odvětví k interpretaci významu těchto vzorců a toho, jak se vztahují na situace v reálném světě. Účelem je generovat hodnotu pro firmu nebo organizaci.
Chcete-li se stát datovým vědcem, musíte mít silné znalosti o matematice, statistickém uvažování, informatice a informatice. Musíte pochopit statistické pojmy, jak používat klíčové statistické vzorce a jak interpretovat a sdělovat statistické výsledky.
Důležité Pojmy Statistiky v Data Science
Podle Elitních vědeckých Dat, data science vzdělávací platformy, datové vědci musí pochopit základní pojmy popisné statistiky a teorie pravděpodobnosti, které zahrnují klíčové pojmy, rozdělení pravděpodobnosti, statistická významnost, testování hypotéz a regresní. Bayesovské myšlení je také důležité pro strojové učení; jeho klíčové pojmy zahrnují podmíněnou pravděpodobnost, priors a posteriors a maximální pravděpodobnost.
Popisná statistika
Popisná statistika je způsob analýzy a identifikace základních vlastností souboru dat. Popisné statistiky poskytují souhrny a popisy dat,stejně jako způsob vizualizace dat. Mnoho surových informací je obtížné přezkoumat, shrnout a komunikovat. S popisnými statistikami můžete data prezentovat smysluplným způsobem.
Důležité analýzy v popisné statistiky patří normálního rozložení (gaussovy křivky), centrální tendence (průměr, medián, a režim), variabilita (25%, 50%, 75% kvartil), rozptyl, směrodatná odchylka, způsob, šikmost a špičatost, podle K Vědecké Údaje, data, věda, průmysl blog.
popisné statistiky jsou oddělené od inferenčních statistik. Popisné statistiky ukazují, co jsou data; inferenční statistiky se používají k dosažení závěrů a vyvození závěrů z dat.
teorie pravděpodobnosti
teorie pravděpodobnosti je obor matematiky, který měří pravděpodobnost náhodné události podle Encyclopedia Britannica. Náhodný experiment je fyzická situace s výsledkem, který nelze předvídat, dokud není pozorován. Jako hodit mincí. Pravděpodobnost je kvantifikovatelné číslo mezi nulou a jednou, které měří pravděpodobnost určité události. Čím vyšší je pravděpodobnost (čím blíže k jedné), tím je pravděpodobnější. Pravděpodobnost převrácení mince je 0.5 protože přistání na hlavách nebo ocasech je stejně pravděpodobné.
Pravděpodobnost se dívá na to, co se může stát na základě velkého množství dat-když se experiment opakuje znovu a znovu. Nedělá žádné závěry ohledně toho, co se může stát konkrétní osobě nebo v konkrétní situaci. Statistické vzorce vztahující se k pravděpodobnosti jsou použity v mnoha způsoby, včetně pojistně-matematické tabulky pro pojišťovny, pravděpodobnost výskytu genetické choroby, politické průzkumy a klinických studií, podle Britannica.
statistické rysy
statistické rysy jsou často prvními technikami, které vědci používají k prozkoumání dat. Statistické funkce (PDF, 21,6 MB) zahrnují organizaci dat a nalezení minimálních a maximálních hodnot, nalezení střední hodnoty a identifikaci kvartilů. Kvartily ukazují, kolik dat spadá pod 25%, 50% a 75%. Mezi další statistické funkce patří průměr, režim, zaujatost a další základní fakta o datech.
Rozdělení Pravděpodobnosti
rozdělení pravděpodobnosti, je všech možných výsledků náhodné veličiny a jim odpovídající pravděpodobnosti hodnot mezi nulou a jedničkou, podle Investopedia. Vědci dat používají rozdělení pravděpodobnosti k výpočtu pravděpodobnosti získání určitých hodnot nebo událostí.
rozdělení pravděpodobnosti má tvar a několik vlastností, které lze měřit, včetně očekávaná hodnota, rozptyl, šikmost a špičatost. Očekávaná hodnota je průměrná (střední) hodnota náhodné proměnné. Rozptyl je rozpětí hodnot náhodné proměnné od průměru (průměr). Druhá odmocnina rozptylu je známá jako směrodatná odchylka,což je nejběžnější způsob měření šíření dat.
redukce dimenzionality
redukce dimenzionality je proces snižování rozměrů vaší datové sady (PDF, 751 KB) podle University of California Merced. Účelem je vyřešit problémy, které vznikají s datovými soubory ve vysokých rozměrech, které neexistují v nižších rozměrech. Jinými slovy, existuje příliš mnoho faktorů. Čím více funkcí je součástí datové sady, tím více vzorků musí mít vědci zastoupenou každou kombinaci funkcí. To zvyšuje složitost experimentu. Redukce dimenzionality má řadu potenciálních výhod, včetně méně dat k ukládání, rychlejšího výpočtu, méně propouštění a přesnějších modelů.
nadměrné a nedostatečné vzorkování
ne všechny datové sady jsou ze své podstaty vyvážené. Vědci dat používají nadměrné vzorkování a nedostatečné vzorkování ke změně nerovných datových sad (PDF, 4.9 MB), které je také známé jako převzorkování. Nadměrné vzorkování se používá, když aktuálně dostupná data nestačí. Existují zavedené techniky, jak napodobit přirozeně se vyskytující vzorek, jako je technika nadměrného odběru syntetických menšin (SMOTE). Nedostatečné vzorkování se používá, když je část dat nadměrně zastoupena. Techniky nedostatečného vzorkování se zaměřují na nalezení překrývajících se a redundantních dat pro použití pouze některých dat.
Bayesovská Statistika
Mezinárodní společnost pro Bayesovskou analýzu vysvětluje Bayesovu větu: „V Bayesovském paradigmatu jsou současné znalosti o parametrech modelu vyjádřeny umístěním rozdělení pravděpodobnosti na parametry, nazývané předchozí rozdělení.“
předchozí distribuce je současná znalost vědce o předmětu. Když se objeví nové informace, vyjadřuje se jako pravděpodobnost, která je „úměrná distribuci pozorovaných dat vzhledem k parametrům modelu.“Tato nová informace je“ kombinována s předchozí k vytvoření aktualizované distribuce pravděpodobnosti zvané zadní distribuce.“
to může být matoucí pro nové studenty statistik, ale existují zjednodušené definice. Bayesovské myšlení zahrnuje aktualizaci přesvědčení na základě nových dat, podle Elite Data Science. Toto je alternativa ke statistice frekvence, která se běžně používá k výpočtu pravděpodobností.
použijte statistiku a vědu o datech
pokud se chcete dozvědět více o statistikách a o tom, jak těžit velké datové sady pro užitečné informace, může být datová věda pro vás to pravé. Kompetence ve statistice, počítačovém programování a informačních technologiích by vás mohla vést k úspěšné kariéře v celé řadě průmyslových odvětví. Vědci v oblasti dat jsou potřební téměř všude, od zdravotní péče a vědy po podnikání a bankovnictví.