データを扱う場合、おそらくこの用語を数回以上聞いたことがありますが、データ品質とは何ですか? あなたはそれが実際に何を意味するのか、そしてデータ品質アナリストが何をしているのかを知っていますか? そうでない場合は、この記事はあなたのためです。
ビッグデータほど人気のある流行語ではないかもしれませんが、データの世界ではよく使われる用語です。 データアナリストは、データから価値を引き出すためには品質を持つことが不可欠であることを皆に思い出させるのが好きです。
しかし、彼らはそれを定義したり、データ品質ツールが修正する問題の種類の実際の例を提供するのに時間がかかるとは限りません。 だから、見てみましょう。
データ品質とは何ですか? 定義
基本的な定義はこれです:データ品質は、意図された目的を果たすために、与えられたデータセットの能力です。
別の言い方をすれば、高品質のデータがあれば、あなたのデータはあなたがそれから抜け出すことを望む洞察を提供することができます。 逆に、データの品質が悪い場合は、データに問題があり、データを使用して達成したいことを行うことができなくなります。
例
さらに定義を説明するために、現実世界の課題のいくつかの例を調べてみましょう。
名前と住所で構成されるデータセットがあるとします。 このようなデータには、単純なものと複雑なものの両方のさまざまな理由で、いくつかのエラーが含まれている可能性があります。
データエラーの単純な原因は、誤って入力された名前と住所、または収集されてから変更された住所情報です。
データセットには他にも、より複雑な問題が存在する可能性があります。 一つは、不完全な情報のためにあいまいなエントリです。 たとえば、1つのエントリは、国が指定されていない都市「ロンドン」に住んでいるSmith氏の住所である可能性があります。 私たちはロンドンかどうかわからないので、これは問題です。 スミスが住んでいるロンドン、イングランド、ロンドン、オンタリオ州またはロンドンという名前の世界中の他のダースかそこらの都市の一つです。 この曖昧さを修正するためにデータ品質ツールを使用しない限り、スミス氏に到達するためにデータセットを使用することは困難に直面します。
複雑な問題の別の例として、データセット内の一見冗長なアドレスの問題を考えてみましょう。 123Main Streetに住むMr.Smithという名前の人々のために、データベースに複数のエントリがあるとしましょう。 これは単純な二重入力の結果である可能性があります:おそらくスミス氏のデータは誤って複数回入力されました。
もう一つの可能性は、同じ住所に複数のミスター・スミス(おそらく父と息子)が住んでいるということです。 あるいは、私たちは同じ姓を持ち、123メインストリートに住んでいるが、異なる町にいる全く無関係の男性のエントリを扱っているかもしれません。 訂正がなければ、マーケティングや顧客関係の目的でデータに頼ることができるように、このようなデータセットには多すぎるあいまいさがあります。
私たちの電子ブックを読む
データ品質を測定する4つの方法
品質評価が実際にどのように見えるかを参照してください。 組織がデータの品質を測定するために使用できる四つの主要な指標を確認します
問題の修正
このような品質の問題を修正する1つの方法は、それぞれの不一致やあいまいさを調査し、手動で修正することです。 しかし、それには膨大な時間がかかります。 大規模には実用的ではありません。
はるかに時間とコスト効率の高いアプローチは、人間の指導なしにデータの問題を特定、解釈、修正できる自動化されたツールを使用することです。 名前と住所で構成されるデータセットの場合は、データを他のデータセットと相関させてエラーをキャッチするか、予測分析を使用して空白を埋めることに
終わりのない戦い
データ品質は、データセットが与えられたタスクを提供する能力の観点から定義されているため、その正確な性質と特性はケースによっ ある組織が高品質のデータとして認識しているものは、別の組織の目にはゴミになる可能性があります。
コンテキストに基づいてデータ品質がどのように変化するかを理解することは、単に取得して保持できるものではないことを意味するため重要です。 あなたは今日それを持っているかもしれませんが、あなたの目標が変更され、現在の状態のデータがもはやそれらを満たすことができな
だから、データ品質は終わることのない戦いと考えてください。 それはあなたがそれで投げるどの仕事を満たしてあなたのデータが準備ができていることを保障するために絶えず取り組んで、改良する必要があ
データを信頼するために正確に使用
組織が企業全体の従来のサイロからデータを解放し、高性能な分析のためにデータレイクに集中するにつれて、データガバナンスは、特に銀行、保険、金融サービス、ヘルスケアなどの高度に規制された業界では、最優先事項になっています。 正確には、データ品質ツールを使用してそのデータをプロファイルしながら、迅速かつ効率的に任意のソースからデータにアクセスし、データレイクにロードする
あなたのデータの品質はどれくらい良いですか? 私たちの電子ブックを読んで見つける:データ品質を測定する4つの方法