Tilastokäsitteet jokaisen Datatieteilijän tulisi tuntea

Datatutkijat ovat erittäin kysyttyjä ja joissakin tapauksissa datatutkijat ottavat perintötason tilastotieteilijän tehtäviä. Vaikka ura data science saattaa kuulostaa mielenkiintoiselta ja käytettävissä, mahdollisille data tutkijat pitäisi harkita niiden mukavuutta tilastoja ennen suunnittelua niiden seuraava askel, kuten ansaita master ’ s degree data science.

vaikka ura data science saattaa kuulostaa mielenkiintoiselta ja käytettävissä, mahdollisille data tutkijat pitäisi harkita niiden mukavuutta tilastoja ennen suunnittelua niiden seuraava askel, kuten ansaita master ’ s degree data science.

tilastojen rooli Datatieteessä

Tilastotiede akateemisena ja ammatillisena tieteenalana on tietojen kerääminen, analysointi ja tulkinta. Myös tilastojen parissa työskentelevien ammattilaisten on pystyttävä kertomaan havainnoistaan. Tilastotiede on keskeinen työkalu tieteentekijöille, joiden odotetaan keräävän ja analysoivan suuria määriä jäsenneltyä ja jäsentämätöntä tietoa ja raportoivan havainnoistaan.

Data on raakaa tietoa, ja datatutkijat oppivat louhimaan sitä Data Science Centralin mukaan. Datatutkijat käyttävät tilastollisten kaavojen ja tietokonealgoritmien yhdistelmää havaitakseen kuvioita ja suuntauksia datassa. Sitten he käyttävät tietojaan yhteiskuntatieteistä ja tietystä toimialasta tai sektorista tulkitakseen näiden kuvioiden merkityksen ja sen, miten ne pätevät reaalimaailman tilanteisiin. Tarkoituksena on tuottaa arvoa yritykselle tai organisaatiolle.

tullakseen datatieteilijäksi täytyy olla vahva ymmärrys matematiikasta, tilastollisesta päättelystä, tietojenkäsittelytieteestä ja informaatiotieteestä. Sinun täytyy ymmärtää tilastollisia käsitteitä, miten käyttää keskeisiä tilastollisia kaavoja, ja miten tulkita ja välittää tilastollisia tuloksia.

datatieteen tärkeät Tilastokäsitteet

datatieteen koulutusalustana toimivan Elite Data Sciencen mukaan datatutkijoiden on ymmärrettävä deskriptiivisen tilastotieteen ja todennäköisyysteorian peruskäsitteet, joihin kuuluvat todennäköisyysjakauman, tilastollisen merkitsevyyden, hypoteesitestauksen ja regression keskeiset käsitteet. Bayesilainen ajattelu on tärkeää myös koneoppimisen kannalta; sen keskeisiä käsitteitä ovat ehdollinen todennäköisyys, prioriteetit ja posteriorit sekä maksimitodennäköisyys.

deskriptiivinen tilasto

deskriptiivinen tilasto on tapa analysoida ja tunnistaa tietoaineiston peruspiirteitä. Deskriptiiviset tilastot tarjoavat yhteenvetoja ja kuvauksia aineistosta sekä tavan visualisoida aineistoa. Paljon raakaa tietoa on vaikea tarkistaa,tiivistää ja viestiä. Kuvailevien tilastojen avulla voit esittää aineiston mielekkäällä tavalla.

deskriptiivisten tilastojen tärkeitä analyysejä ovat normaalijakauma (kellokäyrä), keskitaipumus (keskiarvo, mediaani ja moodi), vaihtelu (25%, 50%, 75% kvartiileja), varianssi, keskihajonta, modaalisuus, skewness ja kurtoosi, kertoo Data science-alan blogissaan Towards Data Science.

kuvaava tilasto on erillinen johdetuista tilastoista. Kuvailevista tilastoista käy ilmi, mitä aineisto on; johdettuja tilastoja käytetään johtopäätösten tekemiseen ja johtopäätösten tekemiseen aineistosta.

Todennäköisyyslaskenta

Todennäköisyyslaskenta on Encyclopedia Britannican mukaan matematiikan haara, joka mittaa satunnaisen tapahtuman todennäköisyyttä. Satunnaiskoe on fyysinen tilanne, jonka lopputulosta ei voi ennustaa ennen kuin se havaitaan. Kuin heittäisi kolikkoa. Todennäköisyys on nollan ja Ykkösen välissä oleva kvantifioitavissa oleva luku, joka mittaa tietyn tapahtuman todennäköisyyttä. Mitä suurempi todennäköisyys (lähempänä yhtä) on, sitä todennäköisemmin se tapahtuu. Todennäköisyys kolikon heittämiseen on 0.5 koska lasku kruuna tai klaava on yhtä todennäköistä.

todennäköisyys tarkastelee sitä, mitä voi tapahtua suuren tietomäärän perusteella — kun koe toistetaan yhä uudelleen. Se ei tee mitään johtopäätöksiä siitä, mitä tietylle henkilölle tai tietyssä tilanteessa voisi tapahtua. Todennäköisyyteen liittyviä tilastollisia kaavoja käytetään monin tavoin, mukaan lukien vakuutusyhtiöiden vakuutusmatemaattiset kaaviot, geneettisen sairauden esiintymisen todennäköisyys, poliittiset mielipidetutkimukset ja kliiniset kokeet, Britannica kertoo.

tilastolliset ominaisuudet

tilastolliset ominaisuudet ovat usein ensimmäisiä tekniikoita, joita datatutkijat käyttävät aineistojen tutkimiseen. Tilastollisia ominaisuuksia (PDF, 21.6 MB) ovat tietojen järjestäminen sekä minimi-ja maksimiarvojen löytäminen, mediaaniarvon löytäminen ja kvartiilien tunnistaminen. Kvartiilit kertovat, kuinka suuri osa aineistosta jää alle 25%: n, 50%: n ja 75%: n. Muita tilastollisia ominaisuuksia ovat keskiarvo, moodi, bias ja muut perustiedot aineistosta.

todennäköisyysjakaumat

todennäköisyysjakauma on Investopedian mukaan kaikki mahdolliset satunnaismuuttujan tulokset ja niitä vastaavat todennäköisyysarvot nollan ja yhden välillä. Datatutkijat käyttävät todennäköisyysjakaumia laskiessaan todennäköisyyttä saada tiettyjä arvoja tai tapahtumia.

todennäköisyysjakaumalla on muoto ja useita mitattavissa olevia ominaisuuksia, kuten odotusarvo, varianssi, skewness ja kurtoosi. Odotusarvo on satunnaismuuttujan keskiarvo. Varianssi on satunnaismuuttujan arvojen hajaantuminen pois keskiarvosta (keskiarvo). Varianssin neliöjuuri tunnetaan keskihajonnana, joka on yleisin tapa mitata datan leviämistä.

Dimensionality Reduction

Dimensionality reduction on prosessi, jolla vähennetään tietokokonaisuutesi dimensioita (PDF, 751 KB) University of California Mercedin mukaan. Tämän tarkoituksena on ratkaista ongelmia, joita syntyy korkeissa ulottuvuuksissa, joita ei ole alemmissa ulottuvuuksissa. Toisin sanoen asiaan liittyy liikaa tekijöitä. Mitä enemmän ominaisuuksia sisältyy tietoaineistoon, sitä enemmän näytteitä tutkijat tarvitsevat jokaisen ominaisuuksien yhdistelmän edustettuna. Tämä lisää kokeen monimutkaisuutta. Mitoituksen vähentämisellä on useita mahdollisia etuja, kuten vähemmän Tallennettavaa dataa, nopeampi laskenta, vähemmän päällekkäisyyksiä ja tarkemmat mallit.

yli-ja Ali-otanta

kaikki tietokokonaisuudet eivät ole luonnostaan tasapainossa. Data scientists use over-sampling and undersampling to alter different data setts, (PDF, 4.9 MB) which is also known as resampling. Ylinäytteenottoa käytetään silloin, kun saatavilla oleva tieto ei riitä. On olemassa vakiintuneita tekniikoita, miten jäljitellä luonnossa esiintyvää näytettä, kuten synteettinen vähemmistön Ylinäytteenottotekniikka (SMOTE). Alinäytteenottoa käytetään, kun osa tiedoista on yliedustettuina. Alinäytteenottotekniikoissa keskitytään päällekkäisten ja tarpeettomien tietojen löytämiseen, jotta vain osa aineistosta voidaan käyttää.

Bayesian tilastot

International Society for Bayesian Analysis selittää Bayesin lauseen: ”Bayesilaisessa paradigmassa nykyinen tieto mallin parametreista ilmaistaan sijoittamalla parametreille todennäköisyysjakauma, jota kutsutaan edeltäväksi jakaumaksi.”

edeltävä jakauma on tutkijan tämänhetkinen tieto jostakin aiheesta. Kun uutta tietoa tulee päivänvaloon, se ilmaistaan todennäköisyytenä, joka on ”verrannollinen havaitun tiedon jakaumaan mallin parametreille annettuna.”Tämä uusi tieto” yhdistetään edeltävään tuottamaan päivitetty todennäköisyysjakauma, jota kutsutaan posterioriseksi jakaumaksi.”

tämä saattaa hämmentää uusia tilastotieteen opiskelijoita, mutta määritelmiä on yksinkertaistettu. Bayesiläiseen ajatteluun kuuluu Elite Data Sciencen mukaan uskomusten päivittäminen uuteen dataan perustuen. Tämä on vaihtoehto taajuustilastoille, joita käytetään yleisesti todennäköisyyksien laskemiseen.

käytä Tilastotieteitä ja Datatieteitä

jos olet innokas oppimaan lisää tilastoista ja siitä, miten voit louhia suuria tietokokonaisuuksia hyödyllistä tietoa varten, datatiede saattaa sopia sinulle. Osaaminen tilastoissa, tietokoneohjelmoinnissa ja tietotekniikassa voi johtaa menestyksekkääseen uraan monilla eri toimialoilla. Datatutkijoita tarvitaan lähes kaikkialla terveydenhuollosta ja tieteestä liike-elämään ja pankkialaan.

Vastaa

Sähköpostiosoitettasi ei julkaista.

Previous post 1% Sääntöesimerkki
Next post miten kuivata viikunat