Vad är datakvalitet? Förklara vad datakvalitet egentligen betyder

om du arbetar med data Har du förmodligen hört termen mer än några gånger, men vad är datakvalitet? Vet du vad det egentligen betyder, och vilka datakvalitetsanalytiker gör? Om inte, den här artikeln är för dig.

det kanske inte är lika populärt ett buzzword som big data, men det är en ofta använd term i datavärlden. Dataanalytiker vill påminna alla om att det är viktigt att ha kvalitet för att härleda värde från data.

men de tar inte alltid tid att definiera det eller ge verkliga exempel på de typer av problem som datakvalitetsverktyg korrigerar. Så, låt oss ta en titt.

vad är datakvalitet? En definition

en grundläggande definition är denna: datakvalitet är förmågan hos en given dataset att tjäna ett avsett syfte.

för att uttrycka det på ett annat sätt, om du har högkvalitativa data, kan dina data leverera den insikt du hoppas få ut av det. Omvänt, om dina data är av dålig kvalitet, finns det ett problem i dina data som hindrar dig från att använda data för att göra vad du hoppas uppnå med det.

exempel

för att illustrera definitionen ytterligare, låt oss undersöka några exempel på verkliga utmaningar.

Föreställ dig att vi har en dataset som består av namn och adresser. Data som detta kommer sannolikt att innehålla vissa fel av olika skäl – både enkla och komplicerade.

enkla orsaker till datafel är namn och adresser som matats in felaktigt eller adressinformation som har ändrats sedan den samlades in.

det finns andra, mer komplicerade problem som kan finnas i datamängden. En är poster som är tvetydiga på grund av ofullständig information. Till exempel kan en post vara en adress för en Mr.Smith som bor i staden ”London”, utan något land specificerat. Detta är ett problem eftersom vi inte vet om London där Mr. Smith bor är London, England, London, Ontario eller någon av de andra dussin-or-so städer runt om i världen som heter London. Om du inte använder ett datakvalitetsverktyg för att korrigera denna tvetydighet, kommer du att möta svårigheter att använda din dataset för att nå Mr.Smith.

som ett annat exempel på ett komplext problem, överväga frågan om till synes överflödiga adresser inom datamängden. Låt oss säga att vi har flera poster i vår databas för personer som heter Mr.Smith som bor på 123 Main Street. Detta kan vara resultatet av en enkel dubbelinmatning: kanske registrerades uppgifterna för Mr.Smith mer än en gång av misstag.

en annan möjlighet är att det finns flera Misters Smith – en far och son, kanske – bosatt på samma adress. Eller kanske vi har att göra med poster för helt orelaterade män som båda råkar ha samma efternamn och bor på 123 Main Street, men i olika städer. Utan korrigering finns det för mycket tvetydighet i en datamängd som denna för att kunna förlita sig på data för marknadsföring eller kundrelationer.

läs vår e-bok

4 sätt att mäta datakvalitet

se hur kvalitetsbedömning ser ut i praktiken. Granska fyra viktiga mätvärden organisationer kan använda för att mäta kvaliteten på sina data

Läs

åtgärda problem

ett sätt att korrigera kvalitetsproblem som dessa är att undersöka varje inkonsekvens eller tvetydighet och fixa det manuellt. Det skulle dock ta mycket tid. Det är inte praktiskt i stor skala.

ett mycket mer tids – och kostnadseffektivt tillvägagångssätt är att använda automatiserade verktyg som kan identifiera, tolka och korrigera dataproblem utan mänsklig vägledning. När det gäller en datamängd som består av namn och adresser kan de göra detta genom att korrelera data med andra datamängder för att fånga fel eller använda prediktiv analys för att fylla i tomrummen.

den oändliga striden

eftersom datakvaliteten definieras i termer av en datamängds förmåga att tjäna en viss uppgift, kommer dess exakta natur och egenskaper att variera från fall till fall. Vad en organisation uppfattar som högkvalitativ data kan vara skräp i en annan organisations ögon.

att förstå hur datakvalitet förändras baserat på sammanhang är viktigt eftersom det betyder att det inte är något du helt enkelt kan få och behålla. Du kan ha det idag men förlora det imorgon om dina mål ändras och dina data i sitt nuvarande tillstånd inte längre kan uppfylla dem.

så tänk på datakvalitet som en oändlig kamp. Det är något du måste ständigt arbeta med och förbättra för att säkerställa att dina data är redo att möta vilka uppgifter du kastar på den.

använda exakt för att lita på dina data

när organisationer frigör data från traditionella silor över hela företaget och centraliserar det i datasjöar för kraftfull analys, blir datastyrning en högsta prioritet, särskilt i högt reglerade branscher, såsom bank, försäkring, finansiella tjänster och hälso-och sjukvård. Precis har kombinerat kraften i högpresterande dataintegrationsprogramvara för att snabbt och effektivt få tillgång till data från vilken källa som helst och ladda den i datasjön, medan du använder datakvalitetsverktyg för att profilera den data.

hur bra är kvaliteten på dina data? Ta reda på det genom att läsa vår e-bok: 4 sätt att mäta datakvalitet

Lämna ett svar

Din e-postadress kommer inte publiceras.

Previous post få stöd
Next post Prisbelönt rökt nötkött – Grillocracy