Was ist Datenqualität? Erklären, was Datenqualität eigentlich bedeutet

Wenn Sie mit Daten arbeiten, haben Sie den Begriff wahrscheinlich schon öfter gehört, aber was ist Datenqualität? Wissen Sie, was es eigentlich bedeutet und was Datenqualitätsanalysten tun? Wenn nicht, ist dieser Artikel für Sie.

Es ist vielleicht nicht ganz so populär wie Big Data, aber es ist ein oft verwendeter Begriff in der Datenwelt. Datenanalysten möchten alle daran erinnern, dass Qualität unerlässlich ist, um aus Daten einen Mehrwert zu ziehen.

Sie nehmen sich jedoch nicht immer die Zeit, sie zu definieren oder Beispiele aus der Praxis für die Arten von Problemen bereitzustellen, die mit Datenqualitätstools behoben werden. Also, lass uns einen Blick darauf werfen.

Was ist Datenqualität? Eine Definition

Eine grundlegende Definition lautet: Datenqualität ist die Fähigkeit eines bestimmten Datensatzes, einen beabsichtigten Zweck zu erfüllen.

Anders ausgedrückt: Wenn Sie über qualitativ hochwertige Daten verfügen, können Ihre Daten die Erkenntnisse liefern, die Sie sich erhoffen. Umgekehrt, wenn Ihre Daten von schlechter Qualität sind, gibt es ein Problem in Ihren Daten, das Sie daran hindert, die Daten zu verwenden, um das zu tun, was Sie damit erreichen möchten.

Beispiele

Um die Definition weiter zu veranschaulichen, betrachten wir einige Beispiele für reale Herausforderungen.

Stellen Sie sich vor, wir haben einen Datensatz, der aus Namen und Adressen besteht. Daten wie diese enthalten wahrscheinlich aus verschiedenen Gründen einige Fehler – sowohl einfache als auch komplizierte.

Einfache Ursachen für Datenfehler sind Namen und Adressen, die falsch eingegeben wurden, oder Adressinformationen, die sich seit ihrer Erfassung geändert haben.

Es gibt andere, kompliziertere Probleme, die im Datensatz vorhanden sein können. Eine davon sind Einträge, die aufgrund unvollständiger Informationen mehrdeutig sind. Zum Beispiel könnte ein Eintrag eine Adresse für einen Herrn Smith sein, der in der Stadt „London“ lebt, ohne dass ein Land angegeben ist. Dies ist ein Problem, weil wir nicht wissen, ob das London, in dem Herr. Smith wohnt in London, England, London, Ontario oder einer der anderen Dutzend Städte auf der ganzen Welt namens London. Wenn Sie kein Datenqualitätstool verwenden, um diese Mehrdeutigkeit zu korrigieren, werden Sie Schwierigkeiten haben, Ihren Datensatz zu verwenden, um Mr. Smith zu erreichen.

Betrachten Sie als weiteres Beispiel für ein komplexes Problem das Problem scheinbar redundanter Adressen innerhalb des Datensatzes. Angenommen, wir haben mehrere Einträge in unserer Datenbank für Personen namens Mr. Smith, die in der 123 Main Street wohnen. Dies könnte das Ergebnis einer einfachen doppelten Eingabe sein: Vielleicht wurden die Daten für Herrn Smith mehr als einmal versehentlich eingegeben.

Eine andere Möglichkeit ist, dass mehrere Misters Smith – vielleicht ein Vater und ein Sohn – an derselben Adresse wohnen. Oder vielleicht haben wir es mit Einträgen für völlig unabhängige Männer zu tun, die beide den gleichen Nachnamen haben und in der 123 Main Street wohnen, aber in verschiedenen Städten. Ohne Korrektur gibt es zu viel Mehrdeutigkeit in einem Datensatz wie diesem, um sich auf die Daten für Marketing- oder Kundenbeziehungszwecke verlassen zu können.

Lesen Sie unser eBook

4 Möglichkeiten zur Messung der Datenqualität

Sehen Sie, wie Qualitätsbewertung in der Praxis aussieht. Überprüfen Sie vier wichtige Metriken, mit denen Unternehmen die Qualität ihrer Daten messen können

Lesen

Probleme beheben

Eine Möglichkeit, solche Qualitätsprobleme zu beheben, besteht darin, jede Inkonsistenz oder Mehrdeutigkeit zu untersuchen und manuell zu beheben. Das würde jedoch sehr viel Zeit in Anspruch nehmen. Es ist nicht praktisch in großem Maßstab.

Ein viel zeit- und kosteneffizienterer Ansatz besteht darin, automatisierte Tools zu verwenden, die Datenprobleme ohne menschliche Anleitung identifizieren, interpretieren und korrigieren können. Im Falle eines Datensatzes, der aus Namen und Adressen besteht, können sie dies tun, indem sie die Daten mit anderen Datensätzen korrelieren, um Fehler zu erkennen, oder Predictive Analytics verwenden, um die Lücken zu füllen.

The never-ending battle

Da die Datenqualität in Bezug auf die Fähigkeit eines Datensatzes definiert wird, eine bestimmte Aufgabe zu erfüllen, variieren seine genaue Art und Eigenschaften von Fall zu Fall. Was eine Organisation als qualitativ hochwertige Daten wahrnimmt, könnte in den Augen einer anderen Organisation Müll sein.

Es ist wichtig zu verstehen, wie sich die Datenqualität je nach Kontext ändert, da dies bedeutet, dass Sie nicht einfach abgerufen und gespeichert werden können. Sie können es heute haben, aber morgen verlieren, wenn sich Ihre Ziele ändern und Ihre Daten in ihrem aktuellen Zustand diese nicht mehr erfüllen können.

Stellen Sie sich die Datenqualität also als einen nie endenden Kampf vor. Es ist etwas, woran Sie ständig arbeiten und verbessern müssen, um sicherzustellen, dass Ihre Daten bereit sind, die Aufgaben zu erfüllen, die Sie darauf werfen.

Vertrauen in Ihre Daten durch Data Governance

Da Unternehmen Daten unternehmensweit aus traditionellen Silos befreien und in Data Lakes für leistungsstarke Analysen zentralisieren, wird Data Governance zu einer obersten Priorität, insbesondere in stark regulierten Branchen wie Banken, Versicherungen, Finanzdienstleistungen und Gesundheitswesen. Precise hat die Leistungsfähigkeit einer leistungsstarken Datenintegrationssoftware kombiniert, um schnell und effizient auf Daten aus jeder Quelle zuzugreifen und sie in den Data Lake zu laden, während Datenqualitätstools verwendet werden, um diese Daten zu profilieren.

Wie gut ist die Qualität Ihrer Daten? Finden Sie es heraus, indem Sie unser eBook lesen: 4 Möglichkeiten zur Messung der Datenqualität

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

Previous post Unterstützung erhalten
Next post Preisgekröntes geräuchertes Rinderbruststück – Grillocracy