dacă lucrați cu date, probabil că ați auzit termenul de mai multe ori, dar ce este calitatea datelor? Știți ce înseamnă de fapt și ce fac analiștii de calitate a datelor? Dacă nu, acest articol este pentru tine.
s-ar putea să nu fie un cuvânt la fel de popular ca big data, dar este un termen des folosit în lumea datelor. Analiștilor de date le place să reamintească tuturor că calitatea este esențială pentru a obține valoare din date.
dar nu își iau întotdeauna timp să o definească sau să ofere exemple din lumea reală a tipurilor de probleme pe care instrumentele de calitate a datelor le corectează. Deci, să aruncăm o privire.
ce este calitatea datelor? O definiție
o definiție de bază este aceasta: Calitatea Datelor este capacitatea unui set de date dat de a servi unui scop intenționat.
cu alte cuvinte, dacă aveți date de înaltă calitate, datele dvs. sunt capabile să ofere informațiile pe care sperați să le obțineți. În schimb, dacă datele dvs. sunt de calitate slabă, există o problemă în datele dvs. care vă va împiedica să utilizați datele pentru a face ceea ce sperați să realizați cu acestea.
Exemple
pentru a ilustra definiția în continuare, să examinăm câteva exemple de provocări din lumea reală.
Imaginați-vă că avem un set de date care constă din nume și adrese. Datele de acest gen pot conține unele erori din diverse motive – atât simple, cât și complicate.
cauzele Simple ale erorilor de date sunt numele și adresele care au fost introduse incorect sau informațiile de adresă care s-au schimbat de când au fost colectate.
există și alte probleme mai complicate care pot exista în setul de date. Una este intrările care sunt ambigue din cauza informațiilor incomplete. De exemplu, o intrare ar putea fi o adresă pentru un domn Smith care locuiește în orașul „Londra”, fără nicio țară specificată. Aceasta este o problemă pentru că nu știm dacă Londra în care dl. Smith locuiește în Londra, Anglia, Londra, Ontario sau unul dintre celelalte zeci de orașe din întreaga lume numite Londra. Dacă nu utilizați un instrument de calitate a datelor pentru a corecta această ambiguitate, vă veți confrunta cu dificultăți în utilizarea setului de date pentru a ajunge la Domnul Smith.
ca un alt exemplu de problemă complexă, luați în considerare problema adreselor aparent redundante din setul de date. Să presupunem că avem mai multe intrări în Baza noastră de date pentru Oameni pe nume dl Smith care locuiesc la 123 Main Street. Acesta ar putea fi rezultatul unei simple intrări duble: poate că datele pentru domnul Smith au fost introduse de mai multe ori din greșeală.
o altă posibilitate este că există mai mulți domni Smith – un tată și un fiu, probabil – care locuiesc la aceeași adresă. Sau poate avem de-a face cu intrări pentru bărbați total independenți care se întâmplă să aibă același nume de familie și să locuiască la 123 Main Street, dar în orașe diferite. Fără corecție, există prea multă ambiguitate într-un set de date ca acesta pentru a putea să se bazeze pe date în scopuri de marketing sau relații cu clienții.
citiți cartea noastră electronică
4 moduri de măsurare a calității datelor
vedeți cum arată evaluarea calității în practică. Examinați patru valori cheie pe care organizațiile le pot utiliza pentru a măsura calitatea datelor lor
rezolvarea problemelor
o modalitate de a corecta problemele de calitate ca acestea este de a cerceta fiecare inconsecvență sau ambiguitate și de a o remedia manual. Asta ar lua o cantitate foarte mare de timp, cu toate acestea. Nu este practic pe scară largă.
o abordare mult mai eficientă din punct de vedere al timpului și al costurilor este utilizarea instrumentelor automate care pot identifica, interpreta și corecta problemele de date fără îndrumare umană. În cazul unui set de date compus din nume și adrese, aceștia ar putea face acest lucru corelând datele cu alte seturi de date pentru a prinde erori sau folosind analize predictive pentru a completa spațiile libere.
bătălia fără sfârșit
deoarece calitatea datelor este definită în termenii capacității unui set de date de a îndeplini o anumită sarcină, natura și caracteristicile sale precise vor varia de la caz la caz. Ceea ce o organizație percepe ca date de înaltă calitate ar putea fi gunoi în ochii unei alte organizații.
înțelegerea modului în care se schimbă calitatea datelor în funcție de context este importantă, deoarece înseamnă că nu este ceva ce puteți obține și păstra pur și simplu. Este posibil să o aveți astăzi, dar să o pierdeți mâine dacă obiectivele dvs. se schimbă și datele dvs. în starea actuală nu le mai pot îndeplini.
deci, gândiți-vă la calitatea datelor ca la o luptă fără sfârșit. Este ceva la care trebuie să lucrați în mod constant și să vă îmbunătățiți pentru a vă asigura că datele dvs. sunt gata să îndeplinească orice sarcini pe care le aruncați.
folosind exact pentru a avea încredere în datele dvs.
pe măsură ce organizațiile eliberează datele din Silozurile tradiționale din întreaga întreprindere și le centralizează în lacurile de date pentru analize de mare putere, guvernanța datelor devine o prioritate de top, în special în industriile foarte reglementate, cum ar fi serviciile bancare, asigurările, serviciile financiare și asistența medicală. Precision a combinat puterea software-ului de integrare a datelor de înaltă performanță pentru a accesa rapid și eficient datele din orice sursă și a le încărca în lacul de date, în timp ce utilizează instrumente de calitate a datelor pentru profilarea acestor date.
cât de bună este calitatea datelor dumneavoastră? Aflați citind cartea noastră electronică: 4 moduri de măsurare a calității datelor