Pojęcia statystyczne każdy analityk danych powinien wiedzieć

analitycy danych są bardzo poszukiwani, aw niektórych przypadkach analitycy danych przejmują role starszego statystyka. Podczas gdy kariera w naukach o danych może wydawać się interesująca i dostępna, potencjalni naukowcy zajmujący się danymi powinni rozważyć swój komfort ze statystykami przed planowaniem kolejnego kroku, na przykład zdobycia tytułu magistra w dziedzinie nauk o danych.

podczas gdy kariera w naukach o danych może wydawać się interesująca i dostępna, potencjalni naukowcy zajmujący się danymi powinni rozważyć swój komfort ze statystykami przed planowaniem kolejnego kroku, na przykład zdobycia tytułu magistra w dziedzinie nauk o danych.

rola statystyki w nauce o danych

Statystyka, jako dyscyplina akademicka i zawodowa, to gromadzenie, analiza i interpretacja danych. Specjaliści, którzy pracują ze statystykami, również muszą być w stanie przekazać swoje wyniki. W związku z tym statystyka jest podstawowym narzędziem naukowców zajmujących się danymi, którzy mają gromadzić i analizować duże ilości ustrukturyzowanych i nieustrukturyzowanych danych oraz raportować o swoich ustaleniach.

dane są surowymi informacjami, a analitycy danych uczą się, jak je wydobywać, zgodnie z Data Science Central. Analitycy danych wykorzystują kombinację formuł statystycznych i algorytmów komputerowych, aby zauważyć wzorce i trendy w danych. Następnie wykorzystują swoją wiedzę z zakresu nauk społecznych i konkretnej branży lub sektora, aby zinterpretować znaczenie tych wzorców i ich zastosowanie do rzeczywistych sytuacji. Celem jest generowanie wartości dla firmy lub organizacji.

aby zostać analitykiem danych, musisz mieć silne zrozumienie matematyki, rozumowania statystycznego, informatyki i Informatyki. Musisz zrozumieć pojęcia statystyczne, jak korzystać z kluczowych formuł statystycznych oraz jak interpretować i przekazywać wyniki statystyczne.

ważne pojęcia statystyczne w naukach o danych

według Elite Data Science, platformy edukacyjnej Data science, analitycy danych muszą zrozumieć podstawowe pojęcia statystyki opisowej i teorii prawdopodobieństwa, które obejmują kluczowe pojęcia rozkładu prawdopodobieństwa, istotności statystycznej, testowania hipotez i regresji. Bayesowskie myślenie jest również ważne dla uczenia maszynowego; jego kluczowe pojęcia obejmują prawdopodobieństwo warunkowe, Priory i posteriors oraz prawdopodobieństwo maksymalne.

Statystyka opisowa

Statystyka opisowa jest sposobem analizy i identyfikacji podstawowych cech zbioru danych. Statystyki opisowe dostarczają podsumowań i opisów danych, a także sposobu wizualizacji danych. Wiele surowych informacji trudno jest przejrzeć, podsumować i przekazać. Dzięki statystykom opisowym można przedstawić dane w znaczący sposób.

ważne analizy w statystyce opisowej obejmują rozkład normalny (krzywa Dzwonowa), tendencję centralną (średnia, mediana i tryb), zmienność (25%, 50%, 75% kwartyli), wariancję, odchylenie standardowe, modalność, skewness i kurtosis, zgodnie z Towards Data Science, blog branży Data science.

statystyki opisowe są oddzielone od statystyk wnioskowych. Statystyki opisowe pokazują, czym są dane; statystyki wnioskowania są wykorzystywane do wyciągania wniosków i wyciągania wniosków z danych.

Teoria prawdopodobieństwa

Teoria prawdopodobieństwa jest gałęzią matematyki, która mierzy prawdopodobieństwo wystąpienia zdarzenia losowego, zgodnie z Encyclopedia Britannica. Losowy eksperyment to sytuacja fizyczna z wynikiem, którego nie można przewidzieć, dopóki nie zostanie zaobserwowany. Jak rzucanie monetą. Prawdopodobieństwo jest liczbą wymierną między zerem a jedynką, która mierzy prawdopodobieństwo wystąpienia określonego zdarzenia. Im większe prawdopodobieństwo (im bliżej), tym bardziej prawdopodobne jest, że tak się stanie. Prawdopodobieństwo wyrzucenia monety wynosi 0.5 ponieważ lądowanie na orzeł lub reszka jest równie prawdopodobne.

prawdopodobieństwo patrzy na to, co może się zdarzyć na podstawie dużej ilości danych – gdy eksperyment jest powtarzany w kółko. Nie wyciąga żadnych wniosków dotyczących tego, co może się stać z konkretną osobą lub w konkretnej sytuacji. Wzory statystyczne związane z prawdopodobieństwem są wykorzystywane na wiele sposobów, w tym wykresy aktuarialne dla firm ubezpieczeniowych, prawdopodobieństwo wystąpienia choroby genetycznej, sondaże polityczne i badania kliniczne, według Britannica.

cechy statystyczne

cechy statystyczne są często pierwszymi technikami, których naukowcy używają do badania danych. Funkcje statystyczne (PDF, 21.6 MB) obejmują organizowanie danych i znajdowanie wartości minimalnych i maksymalnych, znajdowanie wartości mediany i identyfikowanie kwartyli. Kwartyle pokazują, ile danych mieści się poniżej 25%, 50% i 75%. Inne Funkcje statystyczne obejmują średnią, tryb, odchylenie i inne podstawowe fakty dotyczące danych.

rozkłady prawdopodobieństwa

rozkład prawdopodobieństwa to wszystkie możliwe wyniki zmiennej losowej i odpowiadające im wartości prawdopodobieństwa od zera do jedynki, zgodnie z Investopedia. Analitycy danych wykorzystują rozkłady prawdopodobieństwa do obliczenia prawdopodobieństwa uzyskania pewnych wartości lub zdarzeń.

rozkład prawdopodobieństwa ma kształt i kilka właściwości, które można zmierzyć, w tym wartość oczekiwaną, wariancję, skośność i kurtozę. Wartość oczekiwana to średnia (średnia) wartość zmiennej losowej. Wariancja jest rozłożeniem wartości zmiennej losowej od średniej (średniej). Pierwiastek kwadratowy wariancji jest znany jako odchylenie standardowe, które jest najczęstszym sposobem pomiaru rozprzestrzeniania się danych.

redukcja wymiarowości

redukcja wymiarowości jest procesem zmniejszania wymiarów zestawu danych, (PDF, 751 KB) według University of California Merced. Celem tego jest rozwiązanie problemów, które pojawiają się w przypadku zbiorów danych w dużych wymiarach, które nie istnieją w niższych wymiarach. Innymi słowy, jest zbyt wiele czynników. Im więcej funkcji znajduje się w zbiorze danych, tym więcej próbek naukowcy muszą mieć każdą kombinację cech reprezentowanych. Zwiększa to złożoność eksperymentu. Zmniejszenie wymiarowości wiąże się z szeregiem potencjalnych korzyści, w tym mniejszą ilością danych do przechowywania, szybszym przetwarzaniem, mniejszą redundancją i dokładniejszymi modelami.

próbkowanie nad i pod

nie wszystkie zbiory danych są z natury zrównoważone. Analitycy danych wykorzystują nadmierne próbkowanie i zaniżanie próbek do zmiany nierównych zestawów danych (PDF, 4.9 MB), który jest również znany jako resampling. Nadmierne pobieranie próbek jest stosowane, gdy obecnie dostępne dane nie są wystarczające. Istnieją ustalone techniki naśladowania naturalnie występującej próbki, takie jak syntetyczna mniejszość techniki nadmiernego pobierania próbek (SMOTE). Niedostateczne pobieranie próbek stosuje się, gdy część danych jest nadmiernie reprezentowana. Techniki niedostatecznego pobierania próbek koncentrują się na znajdowaniu nakładających się i nadmiarowych danych w celu wykorzystania tylko niektórych danych.

Statystyka Bayesa

Międzynarodowe Towarzystwo analizy Bayesa wyjaśnia twierdzenie Bayesa: „W paradygmacie Bayesa aktualna wiedza o parametrach modelu wyraża się poprzez umieszczenie na parametrach rozkładu prawdopodobieństwa, zwanego rozkładem poprzedzającym.”

wcześniejsza Dystrybucja to aktualna wiedza naukowca na dany temat. Gdy nowe informacje wychodzą na jaw, wyraża się je jako prawdopodobieństwo, które jest ” proporcjonalne do rozkładu obserwowanych danych, biorąc pod uwagę parametry modelu.”Ta nowa informacja jest” w połączeniu z przed wytworzyć zaktualizowany rozkład prawdopodobieństwa zwany rozkładem tylnym.”

to może być mylące dla nowych studentów statystyki, ale istnieją uproszczone definicje. Myślenie bayesowskie obejmuje aktualizowanie przekonań w oparciu o nowe dane, zgodnie z Elite Data Science. Jest to alternatywa dla Statystyki częstotliwości, która jest powszechnie używana do obliczania prawdopodobieństwa.

użyj statystyk i Data Science

jeśli chcesz dowiedzieć się więcej o statystykach i o tym, jak wydobywać duże zbiory danych w celu uzyskania przydatnych informacji, Data science może być dla ciebie właściwym rozwiązaniem. Kompetencje w zakresie statystyki, programowania komputerowego i technologii informatycznych mogą doprowadzić cię do udanej kariery w wielu branżach. Analitycy danych są potrzebni niemal wszędzie, od opieki zdrowotnej i nauki po biznes i bankowość.