oamenii de știință de date sunt foarte solicitați și, în unele cazuri, oamenii de știință de date preiau roluri de statistician vechi. În timp ce o carieră în știința datelor ar putea părea interesantă și disponibilă, oamenii de știință potențiali ar trebui să ia în considerare confortul lor cu statisticile înainte de a-și planifica următorul pas, cum ar fi obținerea unui master în știința datelor.
în timp ce o carieră în știința datelor ar putea părea interesantă și disponibilă, oamenii de știință potențiali ar trebui să ia în considerare confortul lor cu statisticile înainte de a-și planifica următorul pas, cum ar fi obținerea unui master în știința datelor.
rolul statisticilor în știința datelor
Statisticile, ca disciplină academică și profesională, sunt colectarea, analiza și interpretarea datelor. Profesioniștii care lucrează cu statistici trebuie, de asemenea, să poată comunica constatările lor. Ca atare, Statisticile sunt un instrument fundamental al oamenilor de știință de date, care se așteaptă să adune și să analizeze cantități mari de date structurate și nestructurate și să raporteze rezultatele lor.
datele sunt informații brute, iar oamenii de știință de date învață cum să le exploateze, potrivit Data Science Central. Oamenii de știință de date folosesc o combinație de formule statistice și algoritmi de calculator pentru a observa modele și tendințe în cadrul datelor. Apoi, își folosesc cunoștințele despre științele sociale și o anumită industrie sau sector pentru a interpreta semnificația acestor tipare și modul în care acestea se aplică situațiilor din lumea reală. Scopul este de a genera valoare pentru o afacere sau organizație.
pentru a deveni un om de știință de date, trebuie să aveți o înțelegere puternică a matematicii, raționamentului statistic, informaticii și științei informației. Trebuie să înțelegeți concepte statistice, cum să utilizați formule statistice cheie și cum să interpretați și să comunicați rezultatele statistice.
concepte statistice importante în știința datelor
potrivit Elite data Science, o platformă educațională a științei datelor, oamenii de știință de date trebuie să înțeleagă conceptele fundamentale ale statisticilor descriptive și ale teoriei probabilităților, care includ conceptele cheie ale distribuției probabilității, semnificația statistică, testarea ipotezelor și regresia. Gândirea bayesiană este, de asemenea, importantă pentru învățarea automată; conceptele sale cheie includ probabilitatea condiționată, priors și posteriori și probabilitatea maximă.
statistici Descriptive
statisticile Descriptive sunt o modalitate de analiză și identificare a caracteristicilor de bază ale unui set de date. Statisticile Descriptive oferă rezumate și descrieri ale datelor, precum și o modalitate de vizualizare a datelor. O mulțime de informații brute este dificil de revizuit, rezumat și comunicat. Cu statistici descriptive, puteți prezenta datele într-un mod semnificativ.
analizele importante din statisticile descriptive includ distribuția normală (curba clopotului), tendința centrală (media, mediana și modul), variabilitatea (25%, 50%, 75% quartile), varianța, deviația standard, modalitatea, asimetria și kurtoza, conform către știința datelor, un blog al industriei științei datelor.
statisticile Descriptive sunt separate de Statisticile inferențiale. Statisticile Descriptive arată care sunt datele; Statisticile inferențiale sunt utilizate pentru a ajunge la concluzii și a trage inferențe din date.
teoria probabilităților
teoria probabilităților este o ramură a matematicii care măsoară probabilitatea apariției unui eveniment aleatoriu, potrivit Encyclopedia Britannica. Un experiment aleatoriu este o situație fizică cu un rezultat care nu poate fi prezis până când nu este observat. Ca și cum ai da cu banul. Probabilitatea este un număr cuantificabil între zero și unul care măsoară probabilitatea ca un anumit eveniment să se întâmple. Cu cât probabilitatea este mai mare (cu cât este mai aproape de una), cu atât este mai probabil să se întâmple. Probabilitatea de a răsturna o monedă este 0.5 deoarece aterizarea pe capete sau cozi este la fel de probabilă.
Probabilitatea analizează ceea ce s — ar putea întâmpla pe baza unei cantități mari de date-atunci când un experiment este repetat de mai multe ori. Nu face concluzii cu privire la ceea ce s-ar putea întâmpla cu o anumită persoană sau într-o anumită situație. Formulele statistice legate de probabilitate sunt utilizate în mai multe moduri, inclusiv diagrame actuariale pentru companiile de asigurări, probabilitatea apariției unei boli genetice, sondaje politice și studii clinice, potrivit Britannica.
caracteristici statistice
caracteristicile statistice sunt adesea primele tehnici pe care oamenii de știință le folosesc pentru a explora datele. Caracteristicile statistice (PDF, 21,6 MB) includ organizarea datelor și găsirea valorilor minime și maxime, găsirea valorii mediane și identificarea quartilelor. Quartilele arată cât de mult din date se încadrează sub 25%, 50% și 75%. Alte caracteristici statistice includ media, modul, părtinirea și alte fapte de bază despre date.
distribuții de probabilitate
o distribuție de probabilitate reprezintă toate rezultatele posibile ale unei variabile aleatorii și valorile lor de probabilitate corespunzătoare între zero și unu, conform Investopedia. Oamenii de știință de date folosesc distribuții de probabilitate pentru a calcula probabilitatea de a obține anumite valori sau evenimente.
distribuția probabilității are o formă și mai multe proprietăți care pot fi măsurate, inclusiv valoarea așteptată, varianța, asimetria și kurtoza. Valoarea așteptată este valoarea medie (medie) a unei variabile aleatorii. Varianța este răspândirea valorilor unei variabile aleatorii departe de medie (medie). Rădăcina pătrată a varianței este cunoscută sub numele de deviația standard, care este cel mai comun mod de măsurare a răspândirii datelor.
reducerea dimensionalității
reducerea dimensionalității este procesul de reducere a dimensiunilor setului dvs. de date (PDF, 751 KB), conform University of California Merced. Scopul acestui lucru este de a rezolva problemele care apar cu seturile de date în dimensiuni înalte care nu există în dimensiuni inferioare. Cu alte cuvinte, sunt prea mulți factori implicați. Cele mai multe caracteristici incluse într-un set de date, atunci mai multe probe oamenii de știință trebuie să aibă fiecare combinație de caracteristici reprezentate. Acest lucru crește complexitatea experimentului. Reducerea dimensionalității are o serie de beneficii potențiale, inclusiv mai puține date de stocat, calcul mai rapid, mai puține redundanțe și modele mai precise.
supra – și sub-eșantionare
nu toate seturile de date sunt în mod inerent echilibrate. Oamenii de știință de date folosesc supra-eșantionarea și subeșantionarea pentru a modifica seturile de date inegale (PDF, 4,9 MB), care este, de asemenea, cunoscut sub numele de reeșantionare. Supra-eșantionarea este utilizată atunci când datele disponibile în prezent nu sunt suficiente. Există tehnici stabilite pentru modul de imitare a unui eșantion natural, cum ar fi tehnica de supra-eșantionare a minorităților sintetice (lovit). Sub-eșantionarea este utilizată atunci când o parte din date este supra-reprezentată. Tehnicile de subeșantionare se concentrează pe găsirea de date suprapuse și redundante pentru a utiliza doar o parte din date.
statistici Bayesiene
Societatea Internațională de analiză Bayesiană explică Teorema Bayesiană: „În paradigma Bayesiană, cunoștințele actuale despre parametrii modelului sunt exprimate prin plasarea unei distribuții de probabilitate asupra parametrilor, numită distribuție anterioară.”
distribuția anterioară este cunoștințele actuale ale unui om de știință despre un subiect. Când apar noi informații, acestea sunt exprimate ca probabilitate, care este „proporțională cu distribuția datelor observate având în vedere parametrii modelului.”Această nouă informație este” combinată cu cea anterioară pentru a produce o distribuție de probabilitate actualizată numită distribuție posterioară.”
acest lucru ar putea fi confuz pentru studenții noi statistici, dar există definiții simplificate. Gândirea bayesiană cuprinde actualizarea credințelor bazate pe date noi, potrivit Elite Data Science. Aceasta este o alternativă la statisticile de frecvență, care este frecvent utilizată pentru a calcula probabilitățile.
utilizați Statisticile și știința datelor
dacă sunteți dornici să aflați mai multe despre statistici și cum să extrageți seturi mari de date pentru informații utile, știința datelor ar putea fi potrivită pentru dvs. Competența în statistici, programare pe calculator și tehnologia informației vă poate conduce la o carieră de succes într-o gamă largă de industrii. Oamenii de știință de date sunt necesari aproape peste tot, de la asistență medicală și știință la afaceri și servicii bancare.