os cientistas de dados têm uma procura elevada e, em alguns casos, os cientistas de dados estão a assumir funções estatísticas herdadas. Embora uma carreira na ciência dos dados possa parecer interessante e disponível, os potenciais cientistas dos dados devem considerar o seu conforto com as estatísticas antes de planear o seu próximo passo, como ganhar um mestrado em ciência dos dados.
embora uma carreira na ciência dos dados possa parecer interessante e disponível, os potenciais cientistas dos dados devem considerar o seu conforto com as estatísticas antes de planear o seu próximo passo, como ganhar um mestrado em ciência dos dados.
Role of Statistics in Data Science
Statistics, as an academic and professional discipline, is the collection, analysis and interpretation of data. Os profissionais que trabalham com estatísticas também têm de ser capazes de comunicar os seus resultados. Como tal, as Estatísticas são uma ferramenta fundamental dos cientistas de dados, que devem recolher e analisar grandes quantidades de dados estruturados e não estruturados e relatar suas descobertas.
os dados são informação bruta, e os cientistas de dados aprendem como extraí-la, de acordo com a Data Science Central. Data scientists use a combination of statistical formulas and computer algorithms to notice patterns and trends within data. Em seguida, eles usam seus conhecimentos de Ciências Sociais e de uma determinada indústria ou setor para interpretar o significado desses padrões e como eles se aplicam a situações do mundo real. O objetivo é gerar valor para uma empresa ou organização.
para se tornar um cientista de dados, você deve ter uma forte compreensão de matemática, raciocínio estatístico, ciência da computação e Ciência da informação. Você deve entender conceitos estatísticos, como usar fórmulas estatísticas chave, e como interpretar e comunicar resultados estatísticos. De acordo com a Elite Data Science, uma plataforma educacional de ciência de dados, os cientistas de dados precisam entender os conceitos fundamentais de estatística descritiva e teoria da probabilidade, que incluem os conceitos chave de distribuição de probabilidade, significância estatística, teste de hipóteses e regressão. O pensamento bayesiano também é importante para a aprendizagem de Máquinas; seus conceitos-chave incluem probabilidade condicional, priores e posteriores, e máxima probabilidade.
estatísticas descritivas
estatísticas descritivas é uma forma de analisar e identificar as características básicas de um conjunto de dados. As estatísticas descritivas fornecem resumos e descrições dos dados, bem como uma forma de visualizar os dados. Muita informação crua é difícil de rever, resumir e comunicar. Com estatísticas descritivas, você pode apresentar os dados de uma forma significativa.
análises importantes em estatísticas descritivas incluem distribuição normal( curva de bell), tendência central (média, mediana e modo), variabilidade (25%, 50%, 75% quartis), variância, desvio padrão, modalidade, skewness e kurtosis, de acordo com a Ciência dos dados, um blog da indústria de ciência dos dados.
as estatísticas descritivas são separadas das estatísticas inferenciais. As estatísticas descritivas mostram o que são os dados; as estatísticas inferenciais são usadas para chegar a conclusões e tirar inferências dos dados.
teoria da probabilidade
teoria da probabilidade é um ramo da matemática que mede a probabilidade de um evento aleatório ocorrer, de acordo com a Enciclopédia Britannica. Uma experiência Aleatória é uma situação física com um resultado que não pode ser previsto até ser observado. É como atirar uma moeda ao ar. A probabilidade é um número quantificável entre zero e um que mede a probabilidade de um determinado acontecimento acontecer. Quanto maior a probabilidade (mais próxima de uma), maior a probabilidade de acontecer. A probabilidade de atirar uma moeda é 0.5 uma vez que a aterragem em cabeças ou caudas é igualmente provável.
probabilidade olha para o que pode acontecer com base numa grande quantidade de dados — quando uma experiência é repetida vezes sem conta. Não tira conclusões sobre o que pode acontecer a uma pessoa específica ou numa situação específica. Fórmulas estatísticas relacionadas à probabilidade são usadas de muitas maneiras, incluindo gráficos atuariais para companhias de seguros, a probabilidade de ocorrência de uma doença genética, sondagens políticas e ensaios clínicos, de acordo com Britannica.
características estatísticas
características Estatísticas são muitas vezes as primeiras técnicas que os cientistas de dados usam para explorar dados. Características estatísticas (PDF, 21,6 MB) incluem organizar os dados e encontrar os valores mínimo e máximo, encontrar o valor mediano, e identificar os quartis. Os quartis mostram quanto dos dados cai abaixo de 25%, 50% e 75%. Outras características estatísticas incluem a média, modo, viés e outros fatos básicos sobre os dados.
Distribuições de Probabilidade
Uma distribuição de probabilidade é todos os resultados possíveis de uma variável aleatória e seus correspondentes valores de probabilidade entre zero e um, de acordo com Investopedia. Os cientistas de dados usam distribuições de probabilidade para calcular a probabilidade de obter certos valores ou eventos.
a distribuição de probabilidade tem uma forma e várias propriedades que podem ser medidas, incluindo o valor esperado, variância, skewness e kurtosis. O valor esperado é o valor médio de uma variável aleatória. A variância é a propagação dos valores de uma variável aleatória longe da média (média). A raiz quadrada da variância é conhecida como o desvio padrão, que é a maneira mais comum de medir a propagação de dados.
redução de dimensionalidade
redução de dimensionalidade é o processo de redução das dimensões do seu conjunto de dados, (PDF, 751 KB) de acordo com a Universidade da Califórnia Merced. O objetivo disto é resolver problemas que surgem com conjuntos de dados em altas dimensões que não existem em dimensões mais baixas. Por outras palavras, há demasiados factores envolvidos. Quanto mais recursos incluídos em um conjunto de dados, então mais amostras cientistas precisam ter cada combinação de recursos representados. Isto aumenta a complexidade da experiência. A redução de dimensionalidade tem uma série de benefícios potenciais, incluindo menos dados para armazenar, computação mais rápida, menos redundâncias e modelos mais precisos.
amostragem excessiva e insuficiente
nem todos os conjuntos de dados são inerentemente equilibrados. Data scientists use over-sampling and undersampling to alter unequal data sets, (PDF, 4.9 MB) which is also known as resampling. A amostragem excessiva é utilizada quando os dados actualmente disponíveis não são suficientes. Existem técnicas estabelecidas para imitar uma amostra que ocorre naturalmente, como a técnica de amostragem excessiva de minoria sintética (SMOTE). A sub-amostragem é utilizada quando uma parte dos dados está sobre-representada. As técnicas de subamostragem centram-se na procura de dados sobrepostos e redundantes para utilizar apenas alguns dos dados.
Estatísticas Bayesianas
a Sociedade Internacional para a análise bayesiana explica o teorema de Bayes: “No paradigma Bayesiano, o conhecimento atual sobre os parâmetros do modelo é expresso colocando uma distribuição de probabilidade sobre os parâmetros, chamada de distribuição prévia.”
a distribuição prévia é o conhecimento atual de um cientista sobre um assunto. Quando novas informações chegam à luz, elas são expressas como a probabilidade, que é ” proporcional à distribuição dos dados observados, dado os parâmetros do modelo.”Esta nova informação é” combinada com o anterior para produzir uma distribuição de probabilidade atualizada chamada de distribuição posterior.”
isto pode ser confuso para os novos estudantes de estatísticas, mas existem definições simplificadas. O pensamento bayesiano engloba a atualização de crenças baseadas em novos dados, de acordo com a Elite da ciência dos dados. Esta é uma alternativa às estatísticas de frequência, que é comumente usado para calcular probabilidades.
Use estatísticas e Ciência dos dados
se você está ansioso para aprender mais sobre estatísticas e como extrair grandes conjuntos de dados para informações úteis, a ciência dos dados pode ser o certo para você. A competência em estatística, Programação Informática e Tecnologia da informação pode levar a uma carreira de sucesso em uma ampla gama de indústrias. Os cientistas de dados são necessários em quase toda a parte, desde os cuidados de saúde e ciência até às empresas e Bancos.