통계 개념 모든 데이터 과학자가 알아야 할

데이터 과학자는 수요가 많으며 경우에 따라 데이터 과학자가 기존 통계 학자 역할을 맡고 있습니다. 데이터 과학 분야의 경력은 흥미롭고 유용 할 수 있지만 미래의 데이터 과학자들은 데이터 과학 석사 학위를 취득하는 것과 같이 다음 단계를 계획하기 전에 통계에 대한 편안함을 고려해야합니다.

데이터 과학 분야의 경력은 흥미롭고 유용 할 수 있지만 미래의 데이터 과학자들은 데이터 과학 석사 학위를 취득하는 것과 같이 다음 단계를 계획하기 전에 통계에 대한 편안함을 고려해야합니다.

데이터 과학 통계의 역할

통계는 학술 및 전문 분야로서 데이터의 수집,분석 및 해석입니다. 통계 작업 전문가는 또한 자신의 연구 결과를 통신 할 수 있어야합니다. 따라서 통계는 대량의 구조화 된 데이터와 구조화되지 않은 데이터를 수집 및 분석하고 연구 결과를보고 할 것으로 예상되는 데이터 과학자의 기본 도구입니다.

데이터는 원시 정보이며,데이터 과학자는 데이터 과학 센트럴에 따르면,그것을 채굴하는 방법에 대해 알아 봅니다. 데이터 과학자들은 통계 공식과 컴퓨터 알고리즘의 조합을 사용하여 데이터 내의 패턴과 추세를 확인합니다. 그런 다음 사회 과학 및 특정 산업 또는 부문에 대한 지식을 사용하여 이러한 패턴의 의미와 실제 상황에 어떻게 적용되는지 해석합니다. 목적은 비즈니스 또는 조직에 대 한 가치를 생성 하는.

데이터 과학자가되기 위해서는 수학,통계 추론,컴퓨터 과학 및 정보 과학에 대한 강한 이해가 있어야합니다. 통계 개념,주요 통계 공식을 사용하는 방법 및 통계 결과를 해석하고 전달하는 방법을 이해해야합니다.

데이터 과학의 중요한 통계 개념

엘리트 데이터 과학,데이터 과학 교육 플랫폼에 따르면,데이터 과학자들은 확률 분포,통계적 유의성,가설 테스트 및 회귀의 주요 개념을 포함 기술 통계와 확률 이론의 기본 개념을 이해할 필요가있다. 베이지안 사고는 기계 학습을위한 중요하다;그 핵심 개념은 조건부 확률,선행 및 사후,최대 가능성을 포함한다.

기술 통계

기술 통계는 데이터 세트의 기본 기능을 분석하고 식별하는 방법입니다. 기술 통계는 데이터의 요약 및 설명뿐만 아니라 데이터를 시각화하는 방법을 제공합니다. 많은 원시 정보를 검토,요약 및 의사 소통하기가 어렵습니다. 기술 통계를 사용하면 데이터를 의미 있는 방식으로 표시할 수 있습니다.

기술 통계의 중요한 분석에는 정규 분포(종 곡선),중심 경향(평균,중앙값 및 모드),변동성(25%,50%,75%사분위수),분산,표준 편차,양식,왜도 및 첨도가 포함됩니다.

기술 통계는 추론 통계와 별개입니다. 설명 통계는 데이터가 무엇인지 보여 주며,추론 통계는 결론에 도달하고 데이터에서 추론을 그리는 데 사용됩니다.

확률 이론

확률 이론은 브리태니커 백과 사전에 따르면 무작위 사건이 발생할 가능성을 측정하는 수학의 한 분야입니다. 무작위 실험은 관찰 될 때까지 예측할 수없는 결과를 가진 물리적 상황입니다. 동전을 뒤집기처럼. 확률은 특정 이벤트가 발생할 가능성을 측정하는 0 과 1 사이의 정량화 가능한 숫자입니다. 확률이 높을수록(1 에 가까울수록)일어날 가능성이 높아집니다. 동전을 튀길 확률은 0 입니다.5 머리 또는 꼬리에 착륙하기 때문에 똑같이 가능성이 높습니다.

확률은 실험이 반복해서 반복 될 때 많은 양의 데이터를 기반으로 일어날 수있는 일을 살펴 봅니다. 그것은 특정 사람이나 특정 상황에서 일어날 수있는 일에 관한 결론을 내리지 않습니다. 확률과 관련된 통계 공식은 브리태니커에 따르면,보험 회사에 대한 보험 수리적 차트,유전 질환,정치 폴링 및 임상 시험의 발생 가능성을 포함하여 여러 가지 방법으로 사용된다.

통계적 특징

통계적 특징은 종종 데이터 과학자들이 데이터를 탐색하는 데 사용하는 최초의 기술이다. 통계 기능에는 데이터 구성 및 최소값 및 최대 값 찾기,중앙값 찾기 및 사분위수 식별이 포함됩니다. 사분위수는 데이터의 양이 25%,50%및 75%미만인지 보여줍니다. 다른 통계 기능에는 평균,모드,편향 및 데이터에 대한 기타 기본 사실이 포함됩니다.

확률 분포

확률 분포는 확률 변수의 모든 가능한 결과와 0 과 1 사이의 해당 확률 값입니다. 데이터 과학자들은 확률 분포를 사용하여 특정 값이나 이벤트를 얻을 가능성을 계산합니다.

확률 분포는 예상 값,분산,왜도 및 첨도를 포함하여 측정 할 수있는 모양과 여러 특성을 가지고 있습니다. 예상 값은 확률 변수의 평균(평균)값입니다. 분산은 평균(평균)에서 떨어진 확률 변수의 값의 확산입니다. 분산의 제곱근을 표준 편차라고 하며,이는 데이터의 확산을 측정하는 가장 일반적인 방법입니다.

차원 감소

차원 감소는 데이터 세트의 차원을 줄이는 프로세스입니다. 이 목적은 낮은 차원에 존재하지 않는 높은 차원의 데이터 집합에서 발생하는 문제를 해결하는 것입니다. 즉 관련시키는 너무 많은 요인 있는다. 데이터 세트에 포함 된 더 많은 기능,다음 더 많은 샘플 과학자들은 표현 기능의 모든 조합을 가질 필요가있다. 이 실험의 복잡성을 증가시킨다. 차원 감소는 저장할 데이터 감소,빠른 컴퓨팅,중복 감소 및보다 정확한 모델을 포함하여 여러 가지 잠재적 이점을 제공합니다.

오버 및 언더 샘플링

모든 데이터 세트가 본질적으로 균형을 이루는 것은 아닙니다. 데이터 과학자들은 오버 샘플링과 언더 샘플링을 사용하여 불평등 한 데이터 세트를 변경합니다. 오버 샘플링은 현재 사용 가능한 데이터가 충분하지 않을 때 사용됩니다. 합성 소수 민족 오버 샘플링 기법(강타)과 같이 자연적으로 발생하는 샘플을 모방하는 방법에 대한 확립 된 기술이 있습니다. 언더 샘플링은 데이터의 일부가 과도하게 표현될 때 사용됩니다. 언더 샘플링 기술은 일부 데이터 만 사용하기 위해 중복 및 중복 데이터를 찾는 데 중점을 둡니다.

베이지안 통계

베이지안 분석을위한 국제 학회는 베이 즈 정리를 설명합니다: “베이지안 패러다임에서 모델 매개 변수에 대한 현재 지식은 이전 분포라고 불리는 매개 변수에 확률 분포를 배치하여 표현됩니다.”

이전 분포는 과학자의 주제에 대한 현재 지식입니다. 새로운 정보가 밝혀 질 때,그것은 가능성으로 표현되며,이는”모델 매개 변수가 주어진 관찰 된 데이터의 분포에 비례합니다.”이 새로운 정보는”후부 분포라는 업데이트 된 확률 분포를 생성하기 전에와 결합.”

이것은 새로운 통계 학생에게는 혼란 스러울 수 있지만 단순화 된 정의가 있습니다. 베이지안 사고는 엘리트 데이터 과학에 따르면 새로운 데이터를 기반으로 신념을 업데이트하는 것을 포함합니다. 이는 확률을 계산하는 데 일반적으로 사용되는 빈도 통계에 대한 대안입니다.

통계 및 데이터 과학 사용

통계 및 유용한 정보를 얻기 위해 대용량 데이터 세트를 채굴하는 방법에 대해 자세히 알고 싶다면 데이터 과학이 적합 할 수 있습니다. 통계,컴퓨터 프로그래밍 및 정보 기술의 역량은 광범위한 산업 분야에서 성공적인 경력을 쌓을 수 있습니다. 데이터 과학자는 의료 및 과학에서 비즈니스 및 은행 업무에 이르기까지 거의 모든 곳에서 필요합니다.