最尤推定>EMアルゴリズム(期待値-最大化)
最初にこの記事を読むことができます:最尤推定とは何ですか?
EMアルゴリズムとは何ですか?
EMアルゴリズムは、混合分布から来たもののような潜在的な変数を推定するために使用できます(それらは混合分布から来た
期待値最大化(EM)アルゴリズムは、データが不完全な場合、データポイントが欠落している場合、または観測されていない(隠れた)潜在変数がある場合に、モデ これは、最尤関数を近似する反復的な方法です。 最尤推定では、データセットの「最適適合」モデルを見つけることができますが、不完全なデータセットでは特にうまく機能しません。 より複雑なEMアルゴリズムでは、欠損データがあってもモデルパラメータを見つけることができます。 これは、欠落しているデータポイントのランダムな値を選択し、それらの推測を使用して2番目のデータセットを推定することによって機能します。 新しい値は、最初のセットのより良い推測を作成するために使用され、アルゴリズムが固定小数点に収束するまでプロセスが続行されます。
関連項目:EMアルゴリズムを一枚の写真で説明した。
MLE対EM
最尤推定(MLE)とEMの両方が「最適」パラメータを見つけることができますが、モデルの見つけ方は非常に異なります。 MLEは最初にすべてのデータを蓄積し、次にそのデータを使用して最も可能性の高いモデルを構築します。 EMは、最初にパラメーターを推測して、欠損データを考慮してから、推測と観測データに合うようにモデルを調整します。 アルゴリズムの基本的な手順は次のとおりです:
- モデルのパラメータに対して最初の推測が行われ、確率分布が作成されます。 これは、”期待される”分布のための”Eステップ”と呼ばれることがあります。
- 新たに観測されたデータがモデルに供給されます。
- E-stepからの確率分布は、新しいデータを含むように微調整されます。 これは「Mステップ」と呼ばれることもあります。”
- ステップ2から4は、安定性(すなわち、EステップからMステップに変化しない分布)に達するまで繰り返されます。
EMアルゴリズムは、このマルチステッププロセスを通じて常にパラメータの推定を改善します。 しかし、アルゴリズムは(最適な)大域的な最大値にそれほど近くない局所的な最大値で磨くことができるので、最良のモデルを見つけるために数回の無作為な開始が必要になることがあります。 言い換えれば、それを強制的に再起動し、ステップ1からその「最初の推測」をもう一度やり直すと、より良いパフォーマンスが得られます。 可能なすべてのパラメータから、最大尤度が最も高いパラメータを選択できます。
実際には、ステップにはかなり重い微積分(積分)と条件付き確率が含まれていますが、これはこの記事の範囲を超えています。 より技術的な(つまり微積分ベースの)プロセスの内訳が必要な場合は、GuptaとChenの2010年の論文を読むことを強くお勧めします。
アプリケーション
EMアルゴリズムには以下のような多くのアプリケーションがあります:
- 絡み合う重畳信号、
- 混合ガウスモデル(GMMs)の推定、
- 隠れマルコフモデル(Hmm)の推定、
- 複合ディリクレ分布のパラメータの推定、
- 固定モデルの最適混合
制限
EMアルゴリズムは、最速のコンピュータであっても非常に遅くなる可能性があります。 不足しているデータの割合が少なく、データの次元があまり大きくない場合に最適です。 次元が高いほど、Eステップは遅くなります; 次元が大きいデータの場合、手順が局所的な最大値に近づくにつれて、Eステップの実行が非常に遅くなることがあります。
Dempster,A.,Laird,N.,And Rubin,D.(1977)EMアルゴリズムによる不完全なデータからの最大尤度,Journal of The Royal Statistical Society. シリーズB(方法論)、vol. 39,no.1,pp.1,pp.38.
Gupta,M.&Chen,Y.(2010)EMアルゴリズムの理論と使用。 信号処理の基礎と動向、Vol. 4、第3号223-296。
Stephanie Glen。 “EMアルゴリズム(期待値-最大化): 簡単な定義”からStatisticsHowTo.com:私たちの残りの部分のための基本的な統計! https://www.statisticshowto.com/em-algorithm-expectation-maximization/
——————————————————————————
宿題やテストの質問の助けが必要ですか? Cheggの調査を使うと、分野の専門家からのあなたの質問に段階的な解決を得ることができます。 Cheggの家庭教師とのあなたの最初の30分は無料です!