Data Scientists sind sehr gefragt, und in einigen Fällen übernehmen Data Scientists ältere Statistikerrollen. Während eine Karriere in der Datenwissenschaft interessant und verfügbar klingen mag, sollten angehende Datenwissenschaftler ihren Komfort mit Statistiken in Betracht ziehen, bevor sie ihren nächsten Schritt planen, z. B. einen Master-Abschluss in Datenwissenschaft.
Während eine Karriere in der Datenwissenschaft interessant und verfügbar klingen mag, sollten angehende Datenwissenschaftler ihren Komfort mit Statistiken in Betracht ziehen, bevor sie ihren nächsten Schritt planen, z. B. einen Master-Abschluss in Datenwissenschaft.
Rolle der Statistik in der Datenwissenschaft
Statistik als akademische und berufliche Disziplin ist die Sammlung, Analyse und Interpretation von Daten. Fachleute, die mit Statistiken arbeiten, müssen auch in der Lage sein, ihre Ergebnisse zu kommunizieren. Daher ist Statistik ein grundlegendes Werkzeug von Datenwissenschaftlern, von denen erwartet wird, dass sie große Mengen strukturierter und unstrukturierter Daten sammeln und analysieren und über ihre Ergebnisse berichten.
Daten sind Rohinformationen, und Datenwissenschaftler lernen, wie man sie abbaut, so Data Science Central. Datenwissenschaftler verwenden eine Kombination aus statistischen Formeln und Computeralgorithmen, um Muster und Trends in Daten zu erkennen. Anschließend nutzen sie ihr Wissen über Sozialwissenschaften und eine bestimmte Branche oder Branche, um die Bedeutung dieser Muster und ihre Anwendung auf reale Situationen zu interpretieren. Ziel ist es, Wert für ein Unternehmen oder eine Organisation zu generieren.
Um Data Scientist zu werden, müssen Sie ein starkes Verständnis für Mathematik, statistisches Denken, Informatik und Informationswissenschaft haben. Sie müssen statistische Konzepte verstehen, wichtige statistische Formeln verwenden und statistische Ergebnisse interpretieren und kommunizieren.
Wichtige statistische Konzepte in der Datenwissenschaft
Laut Elite Data Science, einer datenwissenschaftlichen Bildungsplattform, müssen Datenwissenschaftler die grundlegenden Konzepte der deskriptiven Statistik und der Wahrscheinlichkeitstheorie verstehen, die die Schlüsselkonzepte der Wahrscheinlichkeitsverteilung, der statistischen Signifikanz, des Hypothesentests und der Regression umfassen. Bayes’sches Denken ist auch wichtig für das maschinelle Lernen; Zu den Schlüsselkonzepten gehören bedingte Wahrscheinlichkeit, Priors und Posteriors sowie maximale Wahrscheinlichkeit.
Deskriptive Statistik
Die deskriptive Statistik ist eine Methode zur Analyse und Identifizierung der grundlegenden Merkmale eines Datensatzes. Deskriptive Statistiken bieten Zusammenfassungen und Beschreibungen der Daten sowie eine Möglichkeit zur Visualisierung der Daten. Viele Rohinformationen sind schwer zu überprüfen, zusammenzufassen und zu kommunizieren. Mit deskriptiven Statistiken können Sie die Daten aussagekräftig darstellen.
Wichtige Analysen in der deskriptiven Statistik umfassen Normalverteilung (Glockenkurve), zentrale Tendenz (Mittelwert, Median und Modus), Variabilität (25%, 50%, 75% Quartile), Varianz, Standardabweichung, Modalität, Schiefe und Kurtosis, so Towards Data Science, ein Blog der Data Science-Branche.
Deskriptive Statistiken sind von Inferenzstatistiken getrennt. Deskriptive Statistiken zeigen, was die Daten sind; Inferenzstatistiken werden verwendet, um Schlussfolgerungen zu ziehen und Schlussfolgerungen aus den Daten zu ziehen.
Wahrscheinlichkeitstheorie
Die Wahrscheinlichkeitstheorie ist ein Zweig der Mathematik, der laut Encyclopedia Britannica die Wahrscheinlichkeit eines zufälligen Ereignisses misst. Ein Zufallsexperiment ist eine physikalische Situation mit einem Ergebnis, das erst vorhergesagt werden kann, wenn es beobachtet wird. Wie eine Münze werfen. Wahrscheinlichkeit ist eine quantifizierbare Zahl zwischen Null und eins, die die Wahrscheinlichkeit eines bestimmten Ereignisses misst. Je höher die Wahrscheinlichkeit (je näher an eins), desto wahrscheinlicher ist es, dass es passiert. Die Wahrscheinlichkeit, eine Münze zu werfen, beträgt 0.5 da die Landung auf Kopf oder Zahl gleichermaßen wahrscheinlich ist.
Die Wahrscheinlichkeit untersucht, was auf der Grundlage einer großen Datenmenge passieren könnte — wenn ein Experiment immer wieder wiederholt wird. Es macht keine Rückschlüsse darauf, was mit einer bestimmten Person oder in einer bestimmten Situation passieren könnte. Statistische Formeln in Bezug auf die Wahrscheinlichkeit werden auf viele Arten verwendet, einschließlich versicherungsmathematischer Diagramme für Versicherungsunternehmen, die Wahrscheinlichkeit des Auftretens einer genetischen Krankheit, politische Umfragen und klinische Studien, nach Britannica.
Statistische Merkmale
Statistische Merkmale sind oft die ersten Techniken, mit denen Datenwissenschaftler Daten untersuchen. Zu den statistischen Funktionen (PDF, 21,6 MB) gehören das Organisieren der Daten und das Ermitteln der Minimal- und Maximalwerte, das Ermitteln des Medianwerts und das Identifizieren der Quartile. Die Quartile zeigen, wie viel der Daten unter 25%, 50% und 75% fällt. Weitere statistische Merkmale sind der Mittelwert, der Modus, die Verzerrung und andere grundlegende Fakten zu den Daten.
Wahrscheinlichkeitsverteilungen
Eine Wahrscheinlichkeitsverteilung sind alle möglichen Ergebnisse einer Zufallsvariablen und ihre entsprechenden Wahrscheinlichkeitswerte zwischen Null und eins, nach Investopedia. Data Scientists verwenden Wahrscheinlichkeitsverteilungen, um die Wahrscheinlichkeit zu berechnen, bestimmte Werte oder Ereignisse zu erhalten.
Die Wahrscheinlichkeitsverteilung hat eine Form und mehrere Eigenschaften, die gemessen werden können, einschließlich Erwartungswert, Varianz, Schiefe und Kurtosis. Der Erwartungswert ist der durchschnittliche (mittlere) Wert einer Zufallsvariablen. Die Varianz ist die Streuung der Werte einer Zufallsvariablen vom Durchschnitt (Mittelwert). Die Quadratwurzel der Varianz wird als Standardabweichung bezeichnet, die die häufigste Methode zur Messung der Streuung von Daten ist.
Dimensionalitätsreduktion
Dimensionalitätsreduktion ist der Prozess der Reduzierung der Dimensionen Ihres Datensatzes (PDF, 751 KB) gemäß University of California Merced. Damit sollen Probleme gelöst werden, die bei Datensätzen in hohen Dimensionen auftreten, die in niedrigeren Dimensionen nicht vorhanden sind. Mit anderen Worten, es sind zu viele Faktoren beteiligt. Je mehr Merkmale in einem Datensatz enthalten sind, desto mehr Stichproben benötigen Wissenschaftler, um jede Kombination von Merkmalen darzustellen. Dies erhöht die Komplexität des Experiments. Die Reduzierung der Dimensionalität hat eine Reihe potenzieller Vorteile, darunter weniger zu speichernde Daten, schnellere Berechnungen, weniger Redundanzen und genauere Modelle.
Über- und Unterabtastung
Nicht alle Datensätze sind inhärent ausgeglichen. Datenwissenschaftler verwenden Über- und Unterabtastung, um ungleiche Datensätze zu ändern (PDF, 4,9 MB), was auch als Resampling bezeichnet wird. Oversampling wird verwendet, wenn die derzeit verfügbaren Daten nicht ausreichen. Es gibt etablierte Techniken, um eine natürlich vorkommende Probe zu imitieren, wie z. B. die Synthetic Minority Over-Sampling Technique (SMOTE). Unterabtastung wird verwendet, wenn ein Teil der Daten überrepräsentiert ist. Unterstichprobentechniken konzentrieren sich auf das Auffinden überlappender und redundanter Daten, um nur einen Teil der Daten zu verwenden.
Bayes’sche Statistik
Die International Society for Bayes’Sche Analysis erklärt den Bayes’schen Satz: „Im Bayesschen Paradigma wird das aktuelle Wissen über die Modellparameter ausgedrückt, indem eine Wahrscheinlichkeitsverteilung auf die Parameter gelegt wird, die als Vorverteilung bezeichnet wird.“
Die vorherige Verteilung ist das aktuelle Wissen eines Wissenschaftlers über ein Thema. Wenn neue Informationen ans Licht kommen, wird dies als Wahrscheinlichkeit ausgedrückt, die „proportional zur Verteilung der beobachteten Daten unter Berücksichtigung der Modellparameter“ ist.“ Diese neuen Informationen werden „mit dem Vorherigen kombiniert, um eine aktualisierte Wahrscheinlichkeitsverteilung zu erzeugen, die als posteriore Verteilung bezeichnet wird.“
Dies mag für neue Statistikstudenten verwirrend sein, aber es gibt vereinfachte Definitionen. Bayes’sches Denken umfasst die Aktualisierung von Überzeugungen auf der Grundlage neuer Daten, so Elite Data Science. Dies ist eine Alternative zur Häufigkeitsstatistik, die häufig zur Berechnung von Wahrscheinlichkeiten verwendet wird.
Verwenden Sie Statistiken und Data Science
Wenn Sie mehr über Statistiken erfahren und große Datensätze nach nützlichen Informationen durchsuchen möchten, ist Data Science möglicherweise das Richtige für Sie. Kompetenz in Statistik, Computerprogrammierung und Informationstechnologie könnte Sie zu einer erfolgreichen Karriere in einer Vielzahl von Branchen führen. Data Scientists werden fast überall benötigt, vom Gesundheitswesen und der Wissenschaft bis hin zu Wirtschaft und Banken.