Hvad er datakvalitet? At forklare, hvad datakvalitet faktisk betyder

hvis du arbejder med data, Har du sikkert hørt udtrykket mere end et par gange, men hvad er datakvalitet? Ved du, hvad det faktisk betyder, Og hvad datakvalitetsanalytikere gør? Hvis ikke, er denne artikel til dig.

det er måske ikke lige så populært som big data, men det er et ofte brugt udtryk i dataverdenen. Dataanalytikere minder gerne alle om, at det er vigtigt at have kvalitet for at udlede værdi fra data.

men de tager ikke altid tid til at definere det eller give eksempler i den virkelige verden af de typer problemer, som datakvalitetsværktøjer korrigerer. Så lad os tage et kig.

hvad er datakvalitet? En definition

en grundlæggende definition er denne: datakvalitet er et givet datasæts evne til at tjene et bestemt formål.

for at sige det på en anden måde, hvis du har data af høj kvalitet, er dine data i stand til at levere den indsigt, du håber at komme ud af det. Omvendt, hvis dine data er af dårlig kvalitet, er der et problem i dine data, der forhindrer dig i at bruge dataene til at gøre, hvad du håber at opnå med dem.

eksempler

for at illustrere definitionen yderligere, lad os undersøge et par eksempler på virkelige udfordringer.

Forestil dig, at vi har et datasæt, der består af navne og adresser. Data som dette vil sandsynligvis indeholde nogle fejl af forskellige årsager – både enkle og komplicerede.

enkle årsager til datafejl er navne og adresser, der blev indtastet forkert, eller adresseoplysninger, der er ændret, siden de blev indsamlet.

der er andre, mere komplicerede problemer, der kan eksistere i datasættet. Den ene er poster, der er tvetydige på grund af ufuldstændige oplysninger. For eksempel kan en post være en adresse til en Mr. Smith, der bor i byen “London”, uden noget land angivet. Dette er et problem, fordi vi ikke ved, om London, hvor Hr. Smith bosat er London, England, London, Ontario eller en af de andre dusin-eller-så byer rundt om i verden ved navn London. Medmindre du bruger et datakvalitetsværktøj til at rette op på denne tvetydighed, vil du have svært ved at bruge dit datasæt til at nå Mr. Smith.

som et andet eksempel på et komplekst problem skal du overveje spørgsmålet om tilsyneladende overflødige adresser i datasættet. Lad os sige, at vi har flere poster i vores database for folk ved navn Mr. Smith, der bor på 123 Main Street. Dette kunne være resultatet af en simpel dobbeltindtastning: måske blev dataene for Mr. Smith indtastet mere end en gang ved en fejltagelse.

en anden mulighed er, at der er flere Misters Smith – en far og søn, måske – bosat på samme adresse. Eller måske har vi at gøre med poster for helt uafhængige mænd, der begge tilfældigvis har samme efternavn og bor på 123 Main Street, men i forskellige byer. Uden korrektion er der for meget tvetydighed i et datasæt som dette til at kunne stole på dataene til marketing-eller kunderelationsformål.

læs vores e-bog

4 måder at måle datakvalitet

se, hvordan kvalitetsvurdering ser ud i praksis. Gennemgå fire vigtige metrics organisationer kan bruge til at måle kvaliteten af deres data

Læs

løsning af problemer

en måde at rette kvalitetsproblemer som disse på er at undersøge hver inkonsekvens eller tvetydighed og rette den manuelt. Det ville dog tage meget tid. Det er ikke praktisk i stor skala.

en meget mere tids – og omkostningseffektiv tilgang er at bruge automatiserede værktøjer, der kan identificere, fortolke og rette dataproblemer uden menneskelig vejledning. I tilfælde af et datasæt, der består af navne og adresser, kan de gøre dette ved at korrelere dataene med andre datasæt for at fange fejl eller bruge forudsigelig analyse til at udfylde emnerne.

den uendelige kamp

da datakvalitet er defineret i form af et datasæts evne til at tjene en given opgave, vil dens præcise karakter og egenskaber variere fra sag til sag. Hvad en organisation opfatter som data af høj kvalitet, kan være affald i en anden organisations øjne.

det er vigtigt at forstå, hvordan datakvaliteten ændres baseret på kontekst, fordi det betyder, at det ikke er noget, du bare kan få og beholde. Du har muligvis det i dag, men mister det i morgen, hvis dine mål ændres, og dine data i dens nuværende tilstand ikke længere kan opfylde dem.

så tænk på datakvalitet som en uendelig kamp. Det er noget, du konstant skal arbejde på og forbedre for at sikre, at dine data er klar til at imødekomme de opgaver, du kaster på dem.

brug netop til at stole på dine data

da organisationer frigør data fra traditionelle Siloer på tværs af virksomheden og centraliserer dem i datasøer til højdrevne analyser, bliver datastyring en topprioritet, især i stærkt regulerede industrier, såsom bank, forsikring, finansielle tjenester og sundhedspleje. Netop har kombineret kraften i højtydende dataintegrationsprogrammer til hurtigt og effektivt at få adgang til data fra enhver kilde og indlæse dem i datasøen, mens du bruger datakvalitetsværktøjer til at profilere disse data.

hvor god er kvaliteten af dine data? Find ud af det ved at læse vores e-bog: 4 måder at måle datakvalitet på

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.

Previous post få Support
Next post Prisvindende røget oksekødsbryst-Grillokrati