Concepts de statistiques Que Tout Data Scientist Devrait connaître

Les Data scientist sont très demandés et, dans certains cas, les data scientist reprennent des rôles de statisticien hérités. Bien qu’une carrière en science des données puisse sembler intéressante et disponible, les scientifiques de données potentiels devraient considérer leur confort avec les statistiques avant de planifier leur prochaine étape, comme l’obtention d’une maîtrise en science des données.

Bien qu’une carrière en science des données puisse sembler intéressante et disponible, les scientifiques de données potentiels devraient considérer leur confort avec les statistiques avant de planifier leur prochaine étape, comme l’obtention d’une maîtrise en science des données.

Rôle de la statistique dans la science des données

La statistique, en tant que discipline académique et professionnelle, est la collecte, l’analyse et l’interprétation des données. Les professionnels qui travaillent avec des statistiques doivent également être en mesure de communiquer leurs conclusions. En tant que telles, les statistiques sont un outil fondamental des scientifiques des données, qui sont censés recueillir et analyser de grandes quantités de données structurées et non structurées et rendre compte de leurs résultats.

Les données sont des informations brutes, et les scientifiques des données apprennent à les exploiter, selon Data Science Central. Les scientifiques des données utilisent une combinaison de formules statistiques et d’algorithmes informatiques pour remarquer les tendances et les tendances dans les données. Ensuite, ils utilisent leurs connaissances des sciences sociales et d’une industrie ou d’un secteur particulier pour interpréter la signification de ces modèles et leur application à des situations réelles. Le but est de générer de la valeur pour une entreprise ou une organisation.

Pour devenir data scientist, vous devez avoir une bonne compréhension des mathématiques, du raisonnement statistique, de l’informatique et des sciences de l’information. Vous devez comprendre les concepts statistiques, comment utiliser les formules statistiques clés et comment interpréter et communiquer les résultats statistiques.

Concepts statistiques importants en science des données

Selon Elite Data Science, une plate-forme éducative en science des données, les scientifiques des données doivent comprendre les concepts fondamentaux de la statistique descriptive et de la théorie des probabilités, qui incluent les concepts clés de la distribution des probabilités, de la signification statistique, des tests d’hypothèses et de la régression. La pensée bayésienne est également importante pour l’apprentissage automatique; ses concepts clés incluent la probabilité conditionnelle, les antécédents et les postérieurs et le maximum de vraisemblance.

Statistiques descriptives

Les statistiques descriptives sont un moyen d’analyser et d’identifier les caractéristiques de base d’un ensemble de données. Les statistiques descriptives fournissent des résumés et des descriptions des données, ainsi qu’un moyen de visualiser les données. Beaucoup d’informations brutes sont difficiles à examiner, à résumer et à communiquer. Avec des statistiques descriptives, vous pouvez présenter les données de manière significative.

Les analyses importantes dans les statistiques descriptives comprennent la distribution normale (courbe en cloche), la tendance centrale (moyenne, médiane et mode), la variabilité (quartiles de 25%, 50%, 75%), la variance, l’écart type, la modalité, l’asymétrie et le kurtosis, selon Towards Data Science, un blog de l’industrie de la science des données.

Les statistiques descriptives sont distinctes des statistiques inférentielles. Les statistiques descriptives montrent quelles sont les données; les statistiques inférentielles sont utilisées pour tirer des conclusions et tirer des inférences à partir des données.

Théorie des probabilités

La théorie des probabilités est une branche des mathématiques qui mesure la probabilité qu’un événement aléatoire se produise, selon l’Encyclopedia Britannica. Une expérience aléatoire est une situation physique dont le résultat ne peut être prédit qu’après observation. Comme retourner une pièce de monnaie. La probabilité est un nombre quantifiable entre zéro et un qui mesure la probabilité qu’un certain événement se produise. Plus la probabilité est élevée (plus on s’en rapproche), plus cela a de chances de se produire. La probabilité de retourner une pièce est de 0.5 puisque l’atterrissage sur la tête ou la queue est tout aussi probable.

La probabilité examine ce qui pourrait se passer sur la base d’une grande quantité de données — lorsqu’une expérience est répétée encore et encore. Il ne tire aucune conclusion sur ce qui pourrait arriver à une personne spécifique ou dans une situation spécifique. Les formules statistiques liées à la probabilité sont utilisées de nombreuses manières, notamment les graphiques actuariels pour les compagnies d’assurance, la probabilité de survenue d’une maladie génétique, les sondages politiques et les essais cliniques, selon Britannica.

Caractéristiques statistiques

Les caractéristiques statistiques sont souvent les premières techniques utilisées par les scientifiques pour explorer les données. Les caractéristiques statistiques (PDF, 21,6 Mo) comprennent l’organisation des données et la recherche des valeurs minimales et maximales, la recherche de la valeur médiane et l’identification des quartiles. Les quartiles montrent combien de données tombent sous 25%, 50% et 75%. Les autres caractéristiques statistiques comprennent la moyenne, le mode, le biais et d’autres faits de base sur les données.

Distributions de probabilité

Une distribution de probabilité est l’ensemble des résultats possibles d’une variable aléatoire et leurs valeurs de probabilité correspondantes comprises entre zéro et un, selon Investopedia. Les scientifiques des données utilisent des distributions de probabilité pour calculer la probabilité d’obtenir certaines valeurs ou événements.

La distribution de probabilité a une forme et plusieurs propriétés qui peuvent être mesurées, y compris la valeur attendue, la variance, l’asymétrie et le kurtosis. La valeur attendue est la valeur moyenne (moyenne) d’une variable aléatoire. La variance est l’écart des valeurs d’une variable aléatoire par rapport à la moyenne (moyenne). La racine carrée de la variance est connue sous le nom d’écart-type, qui est le moyen le plus courant de mesurer la propagation des données.

Réduction de la dimensionnalité

La réduction de la dimensionnalité est le processus de réduction des dimensions de votre ensemble de données, (PDF, 751 KO) selon l’Université de Californie à Merced. Le but de ceci est de résoudre les problèmes qui surviennent avec des ensembles de données dans des dimensions élevées qui n’existent pas dans des dimensions inférieures. En d’autres termes, il y a trop de facteurs impliqués. Plus il y a de fonctionnalités incluses dans un ensemble de données, plus les scientifiques ont besoin d’échantillons pour représenter toutes les combinaisons de fonctionnalités. Cela augmente la complexité de l’expérience. La réduction de la dimensionnalité présente un certain nombre d’avantages potentiels, notamment moins de données à stocker, un calcul plus rapide, moins de redondances et des modèles plus précis.

Suréchantillonnage et sous-échantillonnage

Tous les ensembles de données ne sont pas intrinsèquement équilibrés. Les spécialistes des données utilisent le suréchantillonnage et le sous-échantillonnage pour modifier des ensembles de données inégaux (PDF, 4,9 Mo), également appelé rééchantillonnage. Le suréchantillonnage est utilisé lorsque les données actuellement disponibles ne suffisent pas. Il existe des techniques établies pour imiter un échantillon naturel, comme la Technique de suréchantillonnage de minorités synthétiques (SMOTE). Le sous-échantillonnage est utilisé lorsqu’une partie des données est surreprésentée. Les techniques de sous-échantillonnage se concentrent sur la recherche de données chevauchantes et redondantes pour n’utiliser qu’une partie des données.

Statistiques bayésiennes

La Société Internationale d’Analyse Bayésienne explique le Théorème de Bayes: « Dans le paradigme bayésien, les connaissances actuelles sur les paramètres du modèle sont exprimées en plaçant une distribution de probabilité sur les paramètres, appelée distribution antérieure. »

La distribution antérieure est la connaissance actuelle d’un scientifique sur un sujet. Lorsque de nouvelles informations apparaissent, elles sont exprimées comme la probabilité, qui est » proportionnelle à la distribution des données observées compte tenu des paramètres du modèle. »Cette nouvelle information est » combinée avec la distribution antérieure pour produire une distribution de probabilité mise à jour appelée distribution postérieure. »

Cela peut être déroutant pour les nouveaux étudiants en statistiques, mais il existe des définitions simplifiées. La pensée bayésienne englobe la mise à jour des croyances basées sur de nouvelles données, selon Elite Data Science. Il s’agit d’une alternative aux statistiques de fréquence, couramment utilisées pour calculer les probabilités.

Utilisez les statistiques et la science des données

Si vous souhaitez en savoir plus sur les statistiques et sur la façon d’extraire de grands ensembles de données pour obtenir des informations utiles, la science des données pourrait vous convenir. Des compétences en statistiques, en programmation informatique et en technologie de l’information pourraient vous mener à une carrière réussie dans un large éventail d’industries. Les scientifiques des données sont nécessaires presque partout, des soins de santé et de la science aux entreprises et aux banques.