統計の概念すべてのデータサイエンティストは

データサイエンティストの需要が高く、場合によってはデータサイエンティストが従来の統計学者の役割を引き継いでいることを知っておく必要があります。 データサイエンスのキャリアは興味深く、利用可能に聞こえるかもしれませんが、将来のデータ科学者は、データサイエンスの修士号を取得するなど、彼らの次のステップを計画する前に、統計との彼らの快適さを考慮する必要があります。

データサイエンスのキャリアは興味深く、利用可能に聞こえるかもしれませんが、将来のデータ科学者は、データサイエンスの修士号を取得するなど、彼らの次のステップを計画する前に、統計との彼らの快適さを考慮する必要があります。

データサイエンスにおける統計の役割

統計は、学術的および専門的な分野として、データの収集、分析、解釈です。 統計を扱う専門家はまた、彼らの調査結果を伝えることができる必要があります。 このように、統計は、大量の構造化データと非構造化データを収集して分析し、その結果を報告することが期待されるデータ科学者の基本的なツールです。

データは生の情報であり、データ科学者はそれを採掘する方法を学ぶ、とData Science Centralによると。 データ科学者は、データ内のパターンや傾向に気づくために統計式とコンピュータアルゴリズムの組み合わせを使用します。 その後、彼らは社会科学と特定の産業やセクターの知識を使用して、それらのパターンの意味と実際の状況にどのように適用されるかを解釈します。 目的は、ビジネスや組織のための価値を生成することです。

データサイエンティストになるためには、数学、統計推論、計算機科学、情報科学を強く理解している必要があります。 統計の概念、主要な統計式の使用方法、および統計結果の解釈と伝達方法を理解する必要があります。

データサイエンスにおける重要な統計概念

データサイエンス教育プラットフォームであるElite Data Scienceによると、データサイエンティストは、確率分布、統計的有意性、仮説検定、回帰の重要な概念を含む記述統計と確率論の基本的な概念を理解する必要がある。 ベイズ思考は機械学習にとっても重要であり、その重要な概念には条件付き確率、事前確率と事後確率、最尤法が含まれます。

記述統計

記述統計は、データセットの基本的な特徴を分析および識別する方法です。 記述統計は、データの概要と説明、およびデータを視覚化する方法を提供します。 生の情報の多くは、見直し、要約し、通信することは困難です。 記述統計を使用すると、意味のある方法でデータを表示できます。

データサイエンス業界のブログであるTowards Data Scienceによると、記述統計における重要な分析には、正規分布(ベル曲線)、中心傾向(平均、中央値、モード)、変動性(25%、50%、75%四分位)、分散、標準偏差、モダリティ、歪度、尖度が含まれる。

記述統計は推論統計とは別のものです。 記述統計はデータが何であるかを示し、推論統計は結論に達し、データから推論を引き出すために使用されます。

確率論

確率論は、ブリタニカ百科事典によると、ランダムなイベントが発生する可能性を測定する数学の一分野です。 ランダムな実験は、それが観察されるまで予測することはできません結果を持つ物理的な状況です。 コインをひっくり返すように。 確率は、特定のイベントが発生する可能性を測定するゼロと1の間の定量化可能な数です。 確率が高いほど(1に近いほど)、それが起こる可能性が高くなります。 コインを反転する確率は0です。5頭や尾に着陸するので、同様に可能性があります。

確率は、実験が何度も繰り返されたときに、大量のデータに基づいて何が起こるかを調べます。 それは特定の人にまたは特定の状態で起こるかもしれないものがに関する結論をしない。 確率に関連する統計式は、保険会社の数理計算上のチャート、遺伝病の発生の可能性、政治的ポーリング、臨床試験など、多くの方法で使用されています。

統計的特徴

統計的特徴は、多くの場合、データ科学者がデータを探索するために使用する最初の技術です。 統計機能(PDF、21.6MB)には、データの編成と最小値と最大値の検索、中央値の検索、四分位数の識別が含まれます。 四分位数は、データの量が25%、50%、および75%に該当するかを示します。 他の統計的特徴には、平均、モード、バイアス、およびデータに関するその他の基本的な事実が含まれます。

確率分布

Investopediaによると、確率分布とは、確率変数のすべての可能な結果と、それに対応する確率値がゼロから1の間のものです。 データサイエンティストは、確率分布を使用して、特定の値またはイベントを取得する可能性を計算します。

確率分布には、期待値、分散、歪度、尖度など、測定可能な形状といくつかの特性があります。 期待値は、確率変数の平均(平均)値です。 分散は、平均(平均)から離れた確率変数の値の広がりです。 分散の平方根は、データの広がりを測定する最も一般的な方法である標準偏差として知られています。

次元削減

次元削減は、カリフォルニア大学マーセドによると、データセットの次元を削減するプロセスです(PDF、751KB)。 これの目的は、低い次元には存在しない高い次元のデータセットで発生する問題を解決することです。 言い換えれば、あまりにも多くの要因が関与しています。 データセットに含まれる機能が多いほど、科学者が機能のすべての組み合わせを表現する必要があるサンプルが増えます。 これにより、実験の複雑さが増します。 次元削減には、格納するデータの削減、高速なコンピューティング、冗長性の削減、より正確なモデルなど、多くの潜在的な利点があります。

オーバーサンプリングとアンダーサンプリング

すべてのデータセットが本質的にバランスされているわけではありません。 データサイエンティストは、リサンプリングとも呼ばれる不等なデータセット(PDF、4.9MB)を変更するために、オーバーサンプリングとアンダーサンプリングを使 オーバーサンプリングは、現在利用可能なデータが十分でない場合に使用されます。 合成少数過剰サンプリング技術(SMOTE)のように、天然に存在するサンプルを模倣する方法のための確立された技術があります。 アンダーサンプリングは、データの一部が過剰に表現されている場合に使用されます。 アンダーサンプリング手法では、データの一部のみを使用するために、重複した冗長データを見つけることに焦点を当てています。

ベイズ統計

国際ベイズ分析学会はベイズの定理を説明しています: “ベイズのパラダイムでは、モデルパラメータに関する現在の知識は、事前分布と呼ばれるパラメータに確率分布を配置することによって表現されます。”

以前の分布は、科学者の現在の主題に関する知識です。 新しい情報が明らかになると、それは尤度として表され、これは「モデルパラメータが与えられた観測データの分布に比例する。”この新しい情報は、”事後分布と呼ばれる更新された確率分布を生成する前に結合されます。”

これは新しい統計学の学生にとって混乱するかもしれませんが、単純化された定義があります。 エリートデータサイエンスによると、ベイジアン思考は、新しいデータに基づいて信念を更新することを包含する。 これは、確率を計算するために一般的に使用される頻度統計の代替です。

統計とデータサイエンスの使用

統計と有用な情報のために大規模なデータセットをマイニングする方法についての詳細を学びたい場合は、データサイ 統計、コンピュータプログラミングおよび情報技術の能力は企業の広い範囲の巧妙なキャリアに導くことができる。 データ科学者は、医療や科学からビジネスや銀行に至るまで、ほぼすべての場所で必要とされています。

コメントを残す

メールアドレスが公開されることはありません。

Previous post 1%細則の例
Next post イチジクの乾燥方法