Statistische concepten elke Data Scientist zou moeten weten dat

er veel vraag is naar Data scientists en in sommige gevallen nemen data scientists de taken van oudere statistici over. Terwijl een carrière in data science klinkt interessant en beschikbaar, potentiële data wetenschappers moeten overwegen hun comfort met statistieken voor het plannen van hun volgende stap, zoals het verdienen van een master in data science.

terwijl een carrière in data science klinkt interessant en beschikbaar, potentiële data wetenschappers moeten overwegen hun comfort met statistieken voor het plannen van hun volgende stap, zoals het verdienen van een master in data science.

rol van de Statistiek in de gegevenswetenschap

statistiek is als academische en professionele discipline het verzamelen, analyseren en interpreteren van gegevens. Professionals die met statistieken werken, moeten ook hun bevindingen kunnen communiceren. Als zodanig is Statistiek een fundamenteel instrument van datawetenschappers, van wie wordt verwacht dat ze grote hoeveelheden gestructureerde en ongestructureerde gegevens verzamelen en analyseren en rapporteren over hun bevindingen.

gegevens zijn ruwe informatie, en gegevenswetenschappers leren hoe ze deze kunnen ontginnen, volgens Data Science Central. Datawetenschappers gebruiken een combinatie van statistische formules en computeralgoritmen om patronen en trends binnen data op te merken. Vervolgens gebruiken ze hun kennis van Sociale Wetenschappen en een bepaalde industrie of sector om de Betekenis van die patronen te interpreteren en hoe ze van toepassing zijn op situaties in de echte wereld. Het doel is om waarde te genereren voor een bedrijf of organisatie.

om een data scientist te worden, moet u een goed begrip hebben van wiskunde, statistisch redeneren, informatica en informatiewetenschap. U moet statistische concepten begrijpen, hoe u belangrijke statistische formules kunt gebruiken en hoe u statistische resultaten kunt interpreteren en communiceren.

belangrijke statistische concepten in Data Science

volgens Elite Data Science, een educatief platform voor data science, moeten gegevenswetenschappers de fundamentele concepten van beschrijvende statistieken en kansrekening begrijpen, waaronder de belangrijkste concepten van kansverdeling, statistische significantie, hypothesen testen en regressie. Bayesiaans denken is ook belangrijk voor machine learning; de belangrijkste concepten zijn voorwaardelijke waarschijnlijkheid, priors en posteriors, en maximale waarschijnlijkheid.

beschrijvende statistieken

beschrijvende statistieken zijn een manier om de basiskenmerken van een gegevensverzameling te analyseren en te identificeren. Beschrijvende statistieken bieden samenvattingen en beschrijvingen van de gegevens, evenals een manier om de gegevens te visualiseren. Veel ruwe informatie is moeilijk te beoordelen, samen te vatten en te communiceren. Met beschrijvende statistieken kunt u de gegevens op een zinvolle manier presenteren.

belangrijke analyses in beschrijvende statistieken omvatten normale distributie( klokcurve), centrale tendens (het gemiddelde, mediaan en modus), variabiliteit (25%, 50%, 75% kwartielen), variantie, standaarddeviatie, modaliteit, scheefheid en kurtose, volgens Towards Data Science, a data science industry blog.

beschrijvende statistieken worden gescheiden van inferentiële statistieken. Beschrijvende statistieken laten zien wat de gegevens zijn; inferentiële statistieken worden gebruikt om conclusies te trekken en conclusies te trekken uit de gegevens. De kansrekening (“Probability Theory”) is een deelgebied van de wiskunde dat de waarschijnlijkheid van een willekeurige gebeurtenis meet volgens de Encyclopedia Britannica. Een willekeurig experiment is een fysieke situatie met een uitkomst die niet kan worden voorspeld totdat het wordt waargenomen. Alsof je een munt opgooit. Waarschijnlijkheid is een kwantificeerbaar getal tussen nul en één dat de waarschijnlijkheid van een bepaalde gebeurtenis meet. Hoe hoger de kans (hoe dichter bij een), hoe waarschijnlijker het is dat het gebeurt. De kans op het omgooien van een munt is 0.5 aangezien landen op kop of munt even waarschijnlijk is.

Probability kijkt naar wat er zou kunnen gebeuren op basis van een grote hoeveelheid gegevens — wanneer een experiment keer op keer wordt herhaald. Het maakt geen conclusies met betrekking tot wat er zou kunnen gebeuren met een specifieke persoon of in een specifieke situatie. Statistische formules met betrekking tot waarschijnlijkheid worden op vele manieren gebruikt, waaronder actuariële grafieken voor verzekeringsmaatschappijen, de waarschijnlijkheid van het optreden van een genetische ziekte, politieke opiniepeilingen en klinische proeven, volgens Britannica.

statistische kenmerken

statistische kenmerken zijn vaak de eerste technieken die gegevenswetenschappers gebruiken om gegevens te onderzoeken. Statistische kenmerken (PDF, 21.6 MB) omvatten het organiseren van de gegevens en het vinden van de minimum-en maximumwaarden, het vinden van de mediaanwaarde en het identificeren van de kwartielen. De kwartielen laten zien hoeveel van de gegevens onder de 25%, 50% en 75% valt. Andere statistische kenmerken zijn het gemiddelde, de modus, de vooringenomenheid en andere basisfeiten over de gegevens.

kansverdelingen

volgens Investopedia is een kansverdeling alle mogelijke uitkomsten van een willekeurige variabele en de bijbehorende waarschijnlijkheidswaarden tussen nul en één. Datawetenschappers gebruiken kansverdelingen om de waarschijnlijkheid van het verkrijgen van bepaalde waarden of gebeurtenissen te berekenen.

de kansverdeling heeft een vorm en verschillende eigenschappen die kunnen worden gemeten, waaronder de verwachte waarde, variantie, scheefheid en kurtose. De verwachte waarde is de gemiddelde (gemiddelde) waarde van een willekeurige variabele. De variantie is de spreiding van de waarden van een willekeurige variabele weg van het gemiddelde (gemiddelde). De vierkantswortel van de variantie staat bekend als de standaardafwijking, wat de meest voorkomende manier is om de spreiding van gegevens te meten.

Dimensionaliteitsreductie

Dimensionaliteitsreductie is het proces van het verminderen van de afmetingen van uw dataset, (PDF, 751 KB) volgens University of California Merced. Het doel hiervan is om problemen op te lossen die zich voordoen met datasets in hoge dimensies die niet bestaan in lagere dimensies. Met andere woorden, er zijn te veel factoren bij betrokken. Hoe meer functies in een dataset, hoe meer monsters wetenschappers nodig hebben om elke combinatie van functies vertegenwoordigd. Dit verhoogt de complexiteit van het experiment. Dimensionaliteitsreductie heeft een aantal potentiële voordelen, waaronder minder gegevens om op te slaan, snellere computing, minder redundanties en nauwkeurigere modellen.

Over-en Onderbemonstering

niet alle gegevensverzamelingen zijn inherent evenwichtig. Data scientists gebruiken over-sampling en undersampling om ongelijke datasets te veranderen, (PDF, 4.9 MB) die ook bekend staat als resampling. Over-sampling wordt gebruikt wanneer de momenteel beschikbare gegevens niet genoeg is. Er zijn gevestigde technieken voor het imiteren van een natuurlijk voorkomende steekproef, zoals synthetische minderheid over-Sampling techniek (SMOTE). Onderbemonstering wordt gebruikt wanneer een deel van de gegevens oververtegenwoordigd is. Onder-sampling technieken zijn gericht op het vinden van overlappende en redundante gegevens om slechts een deel van de gegevens te gebruiken.

Bayesiaanse statistiek

de International Society for Bayesian Analysis verklaart de Stelling van Bayes: “In het Bayesiaanse paradigma wordt de huidige kennis over de modelparameters uitgedrukt door een kansverdeling op de parameters te plaatsen, de zogenaamde voorafgaande verdeling.”

de voorafgaande verspreiding is de huidige kennis van een wetenschapper over een onderwerp. Wanneer nieuwe informatie aan het licht komt, wordt deze uitgedrukt als de waarschijnlijkheid, die “evenredig is met de verdeling van de waargenomen gegevens gezien de modelparameters.”Deze nieuwe informatie wordt” gecombineerd met de voorafgaand aan een bijgewerkte kansverdeling genaamd de posterieure distributie te produceren.”

dit kan verwarrend zijn voor nieuwe statistische studenten, maar er zijn vereenvoudigde definities. Bayesiaans denken omvat het updaten van overtuigingen op basis van nieuwe gegevens, volgens Elite Data Science. Dit is een alternatief voor frequentiestatistieken, die vaak worden gebruikt om waarschijnlijkheden te berekenen.

use Statistics and Data Science

Als u graag meer wilt weten over statistieken en hoe u grote datasets kunt ontginnen voor nuttige informatie, is data science misschien geschikt voor u. Competentie in statistiek, computerprogrammering en informatietechnologie kan leiden tot een succesvolle carrière in een breed scala van industrieën. Datawetenschappers zijn bijna overal nodig, van gezondheidszorg en wetenschap tot het bedrijfsleven en het bankwezen.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.

Previous post 1% statuten voorbeeld
Next post hoe vijgen drogen