5データの粒度の間違い

ビッグデータの時代には、課題はもはや十分なデータにアクセスすることではなく、適切なデータを使用することです。 過去の記事では、私は重要なビジネス資産である代替データの価値に焦点を当てました。 しかし、代替データの利点があっても、データの粒度が間違っていると、データ駆動型管理のROIが損なわれる可能性があります。

“私たちはデータに夢中になっており、それを解釈する方法を忘れています”。 -Danah Boyd、Microsoft Researchの主任研究員

では、データをどのように密接に見るべきですか? 間違ったデータの粒度は、あなたが実現するよりも多くの費用がかかる可能性があ

簡単に言えば、データの粒度とは、データの詳細レベルを指します。 データが細かくなればなるほど、特定のデータポイントに含まれる情報が増えます。 国のすべての店舗で年間取引を測定すると、いつ、どこで顧客がそれらの購入を行うかについてほとんど知らないため、粒度が低くなります。 一方、個々の店舗の取引を秒単位で測定すると、非常に高い粒度が得られます。

理想的なデータの粒度は、実行している分析の種類によって異なります。 数十年にわたる消費者行動のパターンを探しているなら、粒度が低いことはおそらく問題ありません。 ただし、店舗の補充を自動化するには、より詳細なデータが必要です。

写真:Artem Beliaikin On Unsplash

分析に間違った粒度を選択すると、精度が低下し、有用性が低下します。 毎年のシステム全体のデータのみに基づいて毎週の店舗補充がいかに厄介であるかを考えてみてください! 過剰在庫と在庫切れの両方を継続的に経験し、膨大なコストと高レベルの廃棄物を蓄積します。 どのような分析でも、誤ったデータの粒度は、効率と収益にも同様に深刻な結果をもたらす可能性があります。

ビジネスインテリジェンスに正しいデータ粒度を使用していますか? ここでは、5つの一般的な—とコストのかかる—データ粒度の間違いがあります。

複数のビジネストレンドを単一のパターンにグループ化する(データが十分に細かくない場合)。

ビジネスインテリジェンスは、実用的であるためには明確で簡単である必要がありますが、単純さを達成しようとすると、人々はデータに十分に深く潜 あなたは貴重な洞察力を逃しますので、それは残念です。 データの粒度が低すぎる場合は、サーフェスに発生する大きなパターンのみが表示されます。 重要なデータが欠落する可能性があります。

あまりにも多くの場合、データを十分に見ていないと、異種の傾向を単一の結果に圧縮することになります。 この間違いを作っているビジネスは不均等な結果で終わる。 そのパターンは現実を反映していないため、全体的なパターンに適合しない予測不可能で極端な外れ値を持つ可能性が高くなります。

これは、多くの伝統的なサプライチェーン予測システムで共通の問題です。 個々の店舗でのSKUレベルの需要を予測するために必要な粒度のレベルを処理することはできません。 AIを搭載した自動化システムは、データを適切にセグメント化するために必要な複雑さに対処でき、これがサプライチェーンの効率を向上させる理由の1つです。 より正確なビジネスインテリジェンスを実現するには、十分なデータの粒度が不可欠です。

著者による画像(帰属とCC)

フォーカスポイントなしでデータが失われる(データが粒度が高すぎる場合)。

誤ってオンラインの地図にあまりにも遠くにズームしたことはありますか? それはとてもイライラしています! 文脈がないので有用な情報を作ることはできません。 それはデータでも起こります。

あなたのデータがあまりにも粒状である場合、あなたは失われます;あなたはすべての無関係なデータの中で有用なパターンを見つけるのに十分に集中 データに関しては、より詳細な方が常に優れているように感じるのは魅力的ですが、詳細が多すぎるとデータが実質的に役に立たなくなる可能性があ 非常に多くのデータに直面した多くの幹部は、分析麻痺で凍結されています。 信頼性の低い推奨事項、ビジネスコンテキストの欠如、不必要な混乱に終わります。

Unsplash

のDenise Jansによる写真は、ai予測に関しては、あまりにも細かいデータは特に高価な間違いです。 データは、今日の技術では不可能な将来についての仮定を行うのに十分なデータを持っていることを示すようにアルゴリズムをだましてもよいです。 たとえば、Evoでの私のサプライチェーンの仕事では、SKUごとの毎日の売上を予測することはまだ不可能です。 あなたの誤差は大きすぎて役に立たないでしょう。 このレベルの粒度は、目標を弱体化させ、ROIを減少させます。

時間変数の粒度を意図的に選択しない。

最も一般的なデータの粒度の間違いは、時間間隔、すなわち、毎時、毎日、毎週、毎年などの変数を測定することに関連しています。 基礎。 時間的な粒度の間違いは、便宜のためにしばしば発生します。 ほとんどの企業は、時限変数を報告する標準的な方法を持っています。 それはそれらを変更するにはあまりにも多くの努力を必要とするように感じているので、そうではありません。しかし、これはほとんど分析された問題に対処するための理想的な粒度ではありません。

システムがKpiを報告する方法を変更するコストと、一貫して不十分なビジネスインテリジェンスを取得するコストを比較すると、意図的に適切な粒度レジスタを選択することの利点があります。 時間の粒度に応じて、同じデータから非常に異なる洞察を認識します。 例えば小売りの季節性の傾向を、取りなさい。 一日の取引を見ると、季節の傾向が見えなくなったり、少なくともパターンがホワイトノイズになるほど多くのデータが含まれている可能性がありますが、毎月のデータは実際に使用できる個別のシーケンスを共有しています。 標準のKpiが月次レポートをスキップして四半期パターンにまっすぐ進むと、予測をより正確にする貴重な洞察が失われます。 あなたは最高の知性を取得したい場合は、額面で時間の粒度を取ることはできません。

毎日の季節性(ソース: http://r-tutorials.com/r-exercises-41-50-working-time-series-data/)

年間の季節性(ソース: https://commons.wikimedia.org/)

あなたが見るパターンが無意味であるという点にあなたのモデルを過度に適合または過小適合させます。

AIモデルは、有用な推奨事項を提供するために、既存および将来のデータから適切に一般化する必要があります。 基本的に良いモデルはこのデータを見ることができます:

著者による画像(帰属とCC)

そして、これを情報に基づいた作業モデルと仮定します:

著者による画像(帰属とCC)

このパターンはデータを完全に表すものではないかもしれませんが、あまりにも多くの知性を犠牲にすることなく、典型的な動作を予測するのは良い

ただし、適切なデータ粒度がない場合は、間違ったモデルになる可能性があります。 前に説明したように、過度に細かいデータはノイズを引き起こし、パターンを見つけることが困難になる可能性があります。 アルゴリズムがこのノイズの多い詳細レベルで一貫して学習すると、順番にノイズが発生します。 あなたはこのようなモデルになります:

著者による画像(帰属とCC)

これをモデルの過適合と呼びます。 すべてのデータポイントには、モデルがもはや有効に一般化できないほどの大きな影響があります。 高粒度によって最初に引き起こされた問題は拡大され、モデル内で永続的な問題になります。

データの粒度が低すぎると、モデルに長期的な損傷を与える可能性もあります。 アルゴリズムは、パターンを見つけるのに十分なデータを持っている必要があります。 十分な粒度のないデータを使用して訓練されたアルゴリズムは、重要なパター アルゴリズムがトレーニングフェーズを超えて移動すると、同様のパターンの識別に失敗し続けます。 あなたはこのようなモデルになります:

著者による画像(帰属とCC)

これはモデルに適合していません。 このアルゴリズムは正しい予測をすることに近づいていますが、決して正確ではありません。 オーバーフィットと同様に、それは初期の粒度問題の拡大です。

分析のためのモデルを作成するとき、適切な粒度は、安定したアルゴリズムを使用するよりも指数関数的に重要になります。 このため、多くの企業は、プロセスのこの部分を専門家に外部委託することを選択します。 それは間違いのための余りに敏感、高価な段階である。

不正なデータの粒度を完全に調整します。

おそらく、最もコストのかかるデータ粒度の間違いは、現在測定しているKpiの粒度を最適化することに集中しているだけで、それらが完全に間違ったKpiであることに気付かないことです。 私たちは、特定のKPIパフォーマンスを最適化するのではなく、実用的で貴重な洞察を提供するデータ内のパターンを認識するために、正しいデータ粒度を達成 たとえば、収益を向上させたい場合は、価格設定のパターンだけを見ることで成功を損なう可能性があります。 他の要因が関与している。

私の同僚から例を取ってみましょう。 新しいEvoクライアントは売上を増やしたいと考えており、サプライチェーンツールを適用した最初のテストでは、二週間未満で10%の改善が示されました。 私たちのCEOは、これらの前例のない結果に興奮を超えていましたが、彼の驚いたことに、サプライチェーンマネージャーは感銘を受けませんでした。 彼の主なKPIは、製品の可用性であり、内部番号によると、それは変更されていませんでした。 特定のKPIを改善することに焦点を当てたのは、他のデータから貴重な洞察を認識することを犠牲にしていました。

新しいサプライチェーンシステムのテスト(Fabrizio Fantiniによる画像)

テスト後の製品の可用性(Fabrizio Fantiniによる画像、帰属付きCC)

そのKPIが正確に測定されたかどうかにかかわらず、パフォーマンスの変更に完全に焦点を当てたことで、このマネージャーは新しいアプローチで価値を見 彼は誠実に行動する賢い男でしたが、データは彼を誤解させました—信じられないほど一般的で高価な間違いです。 正確なデータの粒度は不可欠ですが、それ自体が目標になることはできません。 AIからの収益を最大化するには、より大きな画像を見なければなりません。 最初に適切なデータがない場合、データをどの程度詳しく見るかは問題ではありません。

“データ駆動型管理の一般的な誤謬は、正しい質問に答えるために間違ったデータを使用しています”。 -Fabrizio Fantini、Evoの創設者兼CEO

適切なデータ粒度の利点

それはデータ粒度に来るとき魔法の弾丸はありません。 これらおよび他のあまり一般的ではない間違いを避けるために、慎重かつ意図的に選択する必要があります。 データからのリターンを最大化する唯一の方法は、通常、専門家のデータ科学者の助けを借りて、批判的にそれを見ることです。 最初の試行では粒度が正しく得られない可能性が高いため、完璧になるまでテストして調整する必要があります。

それは努力の価値がある、しかし。 密接に見るが、あまりにも密接ではない、あなたのデータは、最適なビジネスインテリジェンスを保証します。 分節化され、正しく分析されて、データはあなたが数えることができる比較優位に変形する。

コメントを残す

メールアドレスが公開されることはありません。

Previous post 前立腺癌以外にもPSA上昇の原因がいくつかあります。
Next post 'は、焦げたものと焦げたものの違いは何ですか?