Qu’est-ce que la Qualité des données? Expliquer Ce que signifie réellement la qualité des données

Si vous travaillez avec des données, vous avez probablement entendu le terme plus de plusieurs fois, mais qu’est-ce que la qualité des données? Savez-vous ce que cela signifie réellement et ce que font les analystes de la qualité des données ? Sinon, cet article est pour vous.

Ce n’est peut-être pas un mot à la mode aussi populaire que le big Data, mais c’est un terme souvent utilisé dans le monde des données. Les analystes de données aiment rappeler à tous qu’il est essentiel d’avoir de la qualité pour tirer de la valeur des données.

Mais ils ne prennent pas toujours le temps de le définir ou de fournir des exemples concrets des types de problèmes que les outils de qualité des données corrigent. Alors, jetons un coup d’œil.

Qu’est-ce que la qualité des données? Une définition

Une définition de base est la suivante : la qualité des données est la capacité d’un ensemble de données donné à servir l’objectif visé.

Pour le dire autrement, si vous disposez de données de haute qualité, vos données sont capables de fournir les informations que vous espérez en tirer. Inversement, si vos données sont de mauvaise qualité, il y a un problème dans vos données qui vous empêchera d’utiliser les données pour faire ce que vous espérez y parvenir.

Exemples

Pour illustrer davantage la définition, examinons quelques exemples de défis réels.

Imaginez que nous ayons un ensemble de données composé de noms et d’adresses. Des données comme celle–ci sont susceptibles de contenir des erreurs pour diverses raisons – à la fois simples et compliquées.

Les causes simples des erreurs de données sont les noms et adresses qui ont été saisis incorrectement, ou les informations d’adresse qui ont changé depuis leur collecte.

D’autres problèmes plus complexes peuvent exister dans l’ensemble de données. La première concerne les entrées ambiguës en raison d’informations incomplètes. Par exemple, une entrée peut être une adresse pour un M. Smith qui vit dans la ville « London », sans pays spécifié. C’est un problème parce que nous ne savons pas si le Londres dans lequel M. Smith réside à Londres, en Angleterre, à Londres, en Ontario ou dans l’une des douze autres villes du monde nommées Londres. À moins que vous n’utilisiez un outil de qualité des données pour corriger cette ambiguïté, vous rencontrerez des difficultés à utiliser votre ensemble de données pour joindre M. Smith.

Comme autre exemple de problème complexe, considérons la question des adresses apparemment redondantes dans l’ensemble de données. Disons que nous avons plusieurs entrées dans notre base de données pour les personnes nommées M. Smith qui résident au 123, rue Main. Cela pourrait être le résultat d’une simple entrée double: peut-être que les données de M. Smith ont été saisies plus d’une fois par erreur.

Une autre possibilité est qu’il y a plusieurs Brumisateurs Smith – un père et un fils, peut–être – résidant à la même adresse. Ou peut-être que nous avons affaire à des entrées pour des hommes totalement indépendants qui ont tous les deux le même nom de famille et résident au 123 Main Street, mais dans des villes différentes. Sans correction, il y a trop d’ambiguïté dans un ensemble de données comme celui-ci pour pouvoir s’appuyer sur les données à des fins de marketing ou de relation client.

Lisez notre eBook

4 Façons de mesurer la qualité des données

Voyez à quoi ressemble l’évaluation de la qualité dans la pratique. Passez en revue quatre indicateurs clés que les organisations peuvent utiliser pour mesurer la qualité de leurs données

Lire

Correction des problèmes

Une façon de corriger de tels problèmes de qualité consiste à rechercher chaque incohérence ou ambiguïté et à les corriger manuellement. Cela prendrait cependant énormément de temps. Ce n’est pas pratique à grande échelle.

Une approche beaucoup plus efficace en temps et en coûts consiste à utiliser des outils automatisés capables d’identifier, d’interpréter et de corriger les problèmes de données sans guidage humain. Dans le cas d’un ensemble de données composé de noms et d’adresses, ils peuvent le faire en corrélant les données avec d’autres ensembles de données pour détecter les erreurs, ou en utilisant l’analyse prédictive pour remplir les blancs.

La bataille sans fin

La qualité des données étant définie en fonction de la capacité d’un ensemble de données à accomplir une tâche donnée, sa nature et ses caractéristiques précises varient d’un cas à l’autre. Ce qu’une organisation perçoit comme des données de haute qualité pourrait être des déchets aux yeux d’une autre organisation.

Il est important de comprendre comment la qualité des données change en fonction du contexte, car cela signifie que ce n’est pas quelque chose que vous pouvez simplement obtenir et conserver. Vous pouvez l’avoir aujourd’hui mais le perdre demain si vos objectifs changent et que vos données dans leur état actuel ne peuvent plus les atteindre.

Alors, considérez la qualité des données comme une bataille sans fin. C’est quelque chose sur lequel vous devez constamment travailler et vous améliorer pour vous assurer que vos données sont prêtes à répondre aux tâches que vous leur confiez.

Utiliser précisément pour faire confiance à vos données

Alors que les organisations libèrent les données des silos traditionnels de l’entreprise et les centralisent dans des lacs de données pour des analyses de haute puissance, la gouvernance des données devient une priorité absolue, en particulier dans les secteurs hautement réglementés, tels que la banque, l’assurance, les services financiers et les soins de santé. Precisely a combiné la puissance d’un logiciel d’intégration de données hautes performances pour accéder rapidement et efficacement aux données de n’importe quelle source et les charger dans le lac de données, tout en utilisant des outils de qualité des données pour profiler ces données.

Quelle est la qualité de vos données ? Découvrez-le en lisant notre eBook: 4 façons de mesurer la qualité des données

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

Previous post Obtenir de l’aide
Next post Poitrine de Bœuf fumée primée – Grillocratie