jeśli pracujesz z danymi, prawdopodobnie słyszałeś ten termin więcej niż kilka razy, ale czym jest jakość danych? Czy wiesz, co to właściwie oznacza i czym zajmują się analitycy jakości danych? Jeśli nie, Ten artykuł jest dla Ciebie.
może nie jest to tak popularne hasło jak big data, ale jest często używanym terminem w świecie danych. Analitycy danych przypominają wszystkim, że jakość jest niezbędna, aby czerpać wartość z danych.
ale nie zawsze potrzebują czasu, aby go zdefiniować lub dostarczyć rzeczywistych przykładów rodzajów problemów, które korygują narzędzia do jakości danych. Spójrzmy.
co to jest jakość danych? Definicja
podstawowa definicja jest następująca: jakość danych to zdolność danego zbioru danych do osiągnięcia zamierzonego celu.
mówiąc inaczej, jeśli masz dane wysokiej jakości, Twoje dane są w stanie dostarczyć wglądu, który chcesz uzyskać. Z drugiej strony, jeśli Twoje dane są złej jakości, istnieje problem w Twoich danych, który uniemożliwi Ci korzystanie z danych w celu zrobienia tego, co chcesz osiągnąć.
przykłady
aby zilustrować definicję, przyjrzyjmy się kilku przykładom rzeczywistych wyzwań.
wyobraź sobie, że mamy zbiór danych, który składa się z nazwisk i adresów. Takie dane mogą zawierać błędy z różnych powodów-zarówno prostych, jak i skomplikowanych.
prostymi przyczynami błędów danych są nieprawidłowo wprowadzone nazwy i adresy lub informacje adresowe, które zmieniły się od momentu ich zebrania.
w zbiorze danych mogą występować inne, bardziej skomplikowane problemy. Jednym z nich są wpisy, które są niejednoznaczne z powodu niepełnych informacji. Na przykład, jeden wpis może być adresem pana Smitha, który mieszka w mieście „Londyn”, bez określonego kraju. Jest to problem, ponieważ nie wiemy, czy Londyn, w którym Mr. Smith zamieszkuje Londyn, Anglia, Londyn, Ontario lub jedno z pozostałych kilkunastu miast na świecie o nazwie Londyn. Jeśli nie użyjesz narzędzia do poprawiania jakości danych, aby poprawić tę niejednoznaczność, napotkasz trudności z użyciem zestawu danych, aby dotrzeć do pana Smitha.
jako kolejny przykład złożonego problemu rozważ kwestię pozornie zbędnych adresów w zbiorze danych. Powiedzmy, że mamy wiele wpisów w naszej bazie danych osób o nazwisku Smith, które mieszkają na 123 Main Street. Może to być wynikiem prostego podwójnego wpisu: być może DANE dla pana Smitha zostały wprowadzone więcej niż raz przez pomyłkę.
inna możliwość jest taka, że pod tym samym adresem mieszka wielu panów Smith – być może ojciec i syn. A może mamy do czynienia z wpisami dla zupełnie niezwiązanych mężczyzn, którzy mają to samo nazwisko i mieszkają na głównej ulicy 123, ale w różnych miastach. Bez korekty jest zbyt wiele niejasności w takim zestawie danych, aby móc polegać na danych do celów marketingowych lub relacji z klientami.
przeczytaj nasz eBook
4 sposoby pomiaru jakości danych
zobacz jak w praktyce wygląda ocena jakości. Przegląd czterech kluczowych wskaźników, które organizacje mogą wykorzystać do pomiaru jakości swoich danych
Naprawianie problemów
jednym ze sposobów naprawienia takich problemów z jakością jest zbadanie każdej niespójności lub niejednoznaczności i naprawienie jej ręcznie. Zajęłoby to jednak sporo czasu. To nie jest praktyczne na dużą skalę.
znacznie bardziej czasochłonne i opłacalne podejście polega na użyciu zautomatyzowanych narzędzi, które mogą identyfikować, interpretować i poprawiać problemy z danymi bez wskazówek człowieka. W przypadku zbioru danych składającego się z nazwisk i adresów mogą to zrobić poprzez korelację danych z innymi zbiorami danych w celu wykrycia błędów lub za pomocą analizy predykcyjnej w celu wypełnienia luk.
niekończąca się Bitwa
ponieważ jakość danych jest zdefiniowana w kategoriach zdolności zbioru danych do wykonania danego zadania, jego dokładny charakter i cechy będą się różnić w zależności od przypadku. To, co jedna organizacja postrzega jako dane wysokiej jakości, może być śmieciem w oczach innej organizacji.
zrozumienie, jak zmienia się jakość danych w oparciu o kontekst, jest ważne, ponieważ oznacza to, że nie jest to coś, co można po prostu uzyskać i zachować. Możesz go mieć dzisiaj, ale stracisz go jutro, jeśli Twoje cele się zmienią, a Twoje dane w obecnym stanie nie będą już mogły ich osiągnąć.
pomyśl o jakości danych jako niekończącej się bitwie. Jest to coś, nad czym musisz stale pracować i ulepszać, aby upewnić się, że Twoje dane są gotowe do realizacji niezależnie od tego, jakie zadania na nie rzucisz.
Korzystanie z precyzyjnego zaufania do danych
ponieważ organizacje wyzwalają dane z tradycyjnych silosów w całym przedsiębiorstwie i centralizują je w jeziorach danych na potrzeby analizy O Dużej Mocy, nadzór nad danymi staje się najwyższym priorytetem, szczególnie w branżach podlegających wysokim regulacjom, takich jak Bankowość, Ubezpieczenia, Usługi finansowe i opieka zdrowotna. Precyzyjnie połączył moc wysokowydajnego oprogramowania do integracji danych, aby szybko i sprawnie uzyskać dostęp do danych z dowolnego źródła i załadować je do jeziora danych, przy użyciu narzędzi do profilowania danych.
jak dobra jest jakość Twoich danych? Dowiedz się, czytając nasz eBook: 4 sposoby pomiaru jakości danych