Che cos’è la qualità dei dati? Spiegare cosa significa effettivamente la qualità dei dati

Se lavori con i dati, probabilmente hai sentito il termine più di un paio di volte, ma cos’è la qualità dei dati? Sai cosa significa in realtà e cosa fanno gli analisti della qualità dei dati? In caso contrario, questo articolo è per te.

Potrebbe non essere una parola d’ordine così popolare come big data, ma è un termine spesso usato nel mondo dei dati. Agli analisti dei dati piace ricordare a tutti che avere qualità è essenziale per ricavare valore dai dati.

Ma non sempre prendono il tempo per definirlo o fornire esempi reali dei tipi di problemi corretti dagli strumenti di qualità dei dati. Quindi, diamo un’occhiata.

Che cos’è la qualità dei dati? Una definizione

Una definizione di base è questa: la qualità dei dati è la capacità di un dato set di dati di servire uno scopo previsto.

Per dirla in un altro modo, se si dispone di dati di alta qualità, i dati sono in grado di fornire l’intuizione che si spera di uscirne. Al contrario, se i tuoi dati sono di scarsa qualità, c’è un problema nei tuoi dati che ti impedirà di utilizzare i dati per fare ciò che speri di ottenere con esso.

Esempi

Per illustrare ulteriormente la definizione, esaminiamo alcuni esempi di sfide del mondo reale.

Immagina di avere un set di dati composto da nomi e indirizzi. È probabile che dati come questo contengano alcuni errori per vari motivi, sia semplici che complicati.

Le cause semplici degli errori di dati sono nomi e indirizzi che sono stati inseriti in modo errato o informazioni di indirizzo che sono cambiate da quando sono state raccolte.

Ci sono altri problemi più complicati che possono esistere nel set di dati. Uno è voci che sono ambigue a causa di informazioni incomplete. Ad esempio, una voce potrebbe essere un indirizzo per un signor Smith che vive nella città “Londra”, senza paese specificato. Questo è un problema perché non sappiamo se la Londra in cui il signor. Smith risiede è Londra, Inghilterra, Londra, Ontario o una delle altre città dozzina-o-così in tutto il mondo chiamato Londra. A meno che tu non utilizzi uno strumento di qualità dei dati per correggere questa ambiguità, dovrai affrontare difficoltà nell’utilizzare il tuo set di dati per raggiungere Mr. Smith.

Come altro esempio di un problema complesso, si consideri il problema di indirizzi apparentemente ridondanti all’interno del set di dati. Diciamo che abbiamo più voci nel nostro database per persone di nome Mr. Smith che risiedono al 123 di Main Street. Questo potrebbe essere il risultato di una semplice doppia entrata: forse i dati per Mr. Smith sono stati inseriti più di una volta per errore.

Un’altra possibilità è che ci siano più Signori Smith – un padre e un figlio, forse – che risiedono allo stesso indirizzo. O forse abbiamo a che fare con le voci per gli uomini totalmente estranei che entrambi capita di avere lo stesso cognome e risiedono a 123 Main Street, ma in città diverse. Senza correzione, c’è troppa ambiguità in un set di dati come questo per poter fare affidamento sui dati per scopi di marketing o relazioni con i clienti.

Leggi il nostro eBook

4 Modi per misurare la qualità dei dati

Guarda come appare la valutazione della qualità nella pratica. Esamina quattro metriche chiave che le organizzazioni possono utilizzare per misurare la qualità dei loro dati

Leggi

Risolvere problemi

Un modo per correggere problemi di qualità come questi è ricercare ogni incoerenza o ambiguità e risolverlo manualmente. Ciò richiederebbe una quantità enorme di tempo, tuttavia. Non è pratico su larga scala.

Un approccio molto più efficiente in termini di tempo e costi consiste nell’utilizzare strumenti automatizzati in grado di identificare, interpretare e correggere i problemi dei dati senza una guida umana. Nel caso di un set di dati composto da nomi e indirizzi, potrebbero farlo correlando i dati con altri set di dati per rilevare errori o utilizzando l’analisi predittiva per riempire gli spazi vuoti.

La battaglia senza fine

Poiché la qualità dei dati è definita in termini di capacità di un set di dati di servire un determinato compito, la sua natura precisa e le caratteristiche variano da caso a caso. Ciò che un’organizzazione percepisce come dati di alta qualità potrebbe essere spazzatura agli occhi di un’altra organizzazione.

Capire come la qualità dei dati cambia in base al contesto è importante perché significa che non è qualcosa che puoi semplicemente ottenere e mantenere. Potresti averlo oggi ma perderlo domani se i tuoi obiettivi cambiano e i tuoi dati nel loro stato attuale non possono più soddisfarli.

Quindi, pensa alla qualità dei dati come a una battaglia senza fine. È qualcosa su cui devi lavorare costantemente e migliorare per assicurarti che i tuoi dati siano pronti a soddisfare qualsiasi attività tu ti lanci.

Usare precisamente per fidarsi dei tuoi dati

Mentre le organizzazioni liberano i dati dai silos tradizionali in tutta l’azienda e li centralizzano in data lake per analisi ad alta potenza, la governance dei dati sta diventando una priorità assoluta, specialmente in settori altamente regolamentati, come bancario, assicurativo, servizi finanziari e assistenza sanitaria. Precisamente ha combinato la potenza del software di integrazione dei dati ad alte prestazioni per accedere in modo rapido ed efficiente ai dati da qualsiasi fonte e caricarli nel data lake, utilizzando strumenti di qualità dei dati per profilare tali dati.

Quanto è buona la qualità dei tuoi dati? Scoprilo leggendo il nostro eBook: 4 modi per misurare la qualità dei dati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

Previous post Ottieni supporto
Next post Premiato Petto di manzo affumicato-Grillocracy