Hva Er Datakvalitet? Forklarer Hva Datakvalitet Egentlig Betyr

hvis du jobber med data, har du sikkert hørt begrepet mer enn noen få ganger, men hva er datakvalitet? Vet du hva det egentlig betyr, og hva datakvalitet analytikere gjør? Hvis ikke, er denne artikkelen for deg.

det er kanskje ikke så populært et buzzword som big data, men det er et ofte brukt begrep i dataverdenen. Dataanalytikere liker å minne alle om at det å ha kvalitet er viktig for å utlede verdi fra data.

men de tar ikke alltid tid til å definere det eller gi virkelige eksempler på hvilke typer problemer som datakvalitetsverktøy korrigerer. Så, la oss ta en titt.

hva er datakvalitet? En definisjon

En grunnleggende definisjon er Dette: datakvalitet er evnen til et gitt datasett til å tjene et tiltenkt formål.

for å si det på en annen måte, hvis du har data av høy kvalitet, er dataene dine i stand til å levere innsikten du håper å få ut av det. Omvendt, hvis dataene dine er av dårlig kvalitet, er det et problem i dataene dine som hindrer deg i å bruke dataene til å gjøre det du håper å oppnå med det.

Eksempler

for å illustrere definisjonen ytterligere, la oss undersøke noen eksempler på virkelige utfordringer.

Tenk deg at vi har et datasett som består av navn og adresser. Data som dette vil trolig inneholde noen feil av ulike grunner-både enkle og kompliserte.

Enkle årsaker til datafeil er navn og adresser som ble skrevet feil, eller adresseinformasjon som er endret siden den ble samlet inn.

det er andre, mer kompliserte problemer som kan eksistere i datasettet. En er oppføringer som er tvetydige på grunn av ufullstendig informasjon. For eksempel kan en oppføring være en adresse For En Mr. Smith som bor i byen «London», uten land spesifisert. Dette er et problem fordi vi ikke vet om London Der Mr. Smith bor Er London, England, London, Ontario eller en av de andre dusin-eller-så byer rundt om I verden som heter London. Med mindre du bruker et datakvalitetsverktøy for å rette opp denne tvetydigheten, vil du møte problemer med å bruke datasettet ditt for Å nå Mr. Smith.

som et annet eksempel på et komplekst problem, bør du vurdere spørsmålet om tilsynelatende overflødige adresser i datasettet. La oss si at vi har flere oppføringer i vår database for folk som heter Mr. Smith som bor på 123 Main Street. Dette kan være et resultat av en enkel dobbeltoppføring: kanskje ble dataene For Mr. Smith skrevet inn mer enn en gang ved en feil.

En annen mulighet er at Det er flere Misters Smith-en far og sønn, kanskje-bosatt på samme adresse. Eller kanskje vi har å gjøre med oppføringer for helt urelaterte menn som begge tilfeldigvis har samme etternavn og bor på 123 Main Street, men i forskjellige byer. Uten korreksjon er det for mye tvetydighet i et datasett som dette for å kunne stole på dataene for markedsføring eller kunderelasjoner.

Les vår ebok

4 Måter Å Måle Datakvalitet

Se hvordan kvalitetsvurdering ser ut i praksis. Fire nøkkeltall organisasjoner kan bruke til å måle kvaliteten på dataene sine

Les

Fikse problemer

En måte å korrigere kvalitetsproblemer som disse er å undersøke hver inkonsekvens eller tvetydighet og fikse det manuelt. Det ville imidlertid ta mye tid. Det er ikke praktisk i stor skala.

en mye mer tids – og kostnadseffektiv tilnærming er å bruke automatiserte verktøy som kan identifisere, tolke og korrigere dataproblemer uten menneskelig veiledning. Når det gjelder et datasett som består av navn og adresser, kan de gjøre dette ved å korrelere dataene med andre datasett for å fange feil, eller ved å bruke prediktiv analyse for å fylle ut tomrommene.

den uendelige kampen

fordi datakvalitet er definert i form av et datasetts evne til å betjene en gitt oppgave, vil dens presise natur og egenskaper variere fra sak til sak. Hva en organisasjon oppfatter som data av høy kvalitet, kan være søppel i en annen organisasjons øyne.

Å Forstå hvordan datakvalitet endres basert på kontekst er viktig fordi det betyr at det ikke er noe du bare kan skaffe og beholde. Du kan ha det i dag, men mister det i morgen hvis målene dine endres og dataene dine i sin nåværende tilstand ikke lenger kan oppfylle dem.

så tenk på datakvalitet som en uendelig kamp. Det er noe du må jobbe kontinuerlig med og forbedre for å sikre at dataene dine er klare til å møte hvilke oppgaver du kaster på den.

Ved Hjelp Av Nøyaktig å stole på dataene dine

som organisasjoner frigjør data fra tradisjonelle siloer på tvers av bedriften og sentraliserer den i datasjøer for kraftige analyser, blir datastyring en topp prioritet, spesielt i høyt regulerte bransjer, som bank, forsikring, finansielle tjenester og helsetjenester. Precisely har kombinert kraften i dataintegrasjonsprogramvare med høy ytelse for å raskt og effektivt få tilgang til data fra en hvilken som helst kilde og laste den inn i datasjøen, mens du bruker datakvalitetsverktøy til å profilere dataene.

hvor god er kvaliteten på dataene dine? Finn ut ved å lese vår ebok: 4 Måter Å Måle Datakvalitet På

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.

Previous post Få Støtte
Next post Prisbelønt Røkt Biff Brisket-Grillocracy