Si trabaja con datos, probablemente haya escuchado el término más de unas cuantas veces, pero ¿qué es calidad de datos? ¿Sabes lo que realmente significa y qué hacen los analistas de calidad de datos? Si no, este artículo es para ti.
Puede que no sea una palabra de moda tan popular como big data, pero es un término muy utilizado en el mundo de los datos. A los analistas de datos les gusta recordar a todos que tener calidad es esencial para obtener valor de los datos.
Pero no siempre se toman el tiempo para definirlo o proporcionar ejemplos del mundo real de los tipos de problemas que las herramientas de calidad de datos corrigen. Así que, echemos un vistazo.
¿Qué es la calidad de los datos? Una definición
Una definición básica es la siguiente: Calidad de datos es la capacidad de un conjunto de datos dado para servir a un propósito previsto.
Para decirlo de otra manera, si tiene datos de alta calidad, sus datos son capaces de proporcionar la información que espera obtener de ellos. Por el contrario, si sus datos son de mala calidad, hay un problema en sus datos que le impedirá usarlos para hacer lo que espera lograr con ellos.
Ejemplos
Para ilustrar más la definición, examinemos algunos ejemplos de desafíos del mundo real.
Imagine que tenemos un conjunto de datos que consta de nombres y direcciones. Es probable que datos como este contengan algunos errores por varias razones, tanto simples como complicadas.
Las causas simples de errores de datos son nombres y direcciones que se ingresaron incorrectamente, o información de direcciones que ha cambiado desde que se recopiló.
Pueden existir otros problemas más complicados en el conjunto de datos. Una son las entradas que son ambiguas debido a la información incompleta. Por ejemplo, una entrada podría ser la dirección de un Sr. Smith que vive en la ciudad «Londres», sin especificar un país. Esto es un problema porque no sabemos si el Londres en el que el Sr. Smith reside en Londres, Inglaterra, Londres, Ontario o una de las otras docenas de ciudades de todo el mundo llamadas Londres. A menos que utilice una herramienta de calidad de datos para corregir esta ambigüedad, tendrá dificultades para usar su conjunto de datos para comunicarse con el Sr. Smith.
Como otro ejemplo de un problema complejo, considere la cuestión de las direcciones aparentemente redundantes dentro del conjunto de datos. Digamos que tenemos múltiples entradas en nuestra base de datos de personas llamadas Sr. Smith que residen en el 123 de la calle Principal. Esto podría ser el resultado de una simple doble entrada: Tal vez los datos del Sr. Smith se ingresaron más de una vez por error.
Otra posibilidad es que haya varios Señores Smith – un padre y un hijo, tal vez-que residan en la misma dirección. O tal vez estamos tratando con entradas para hombres totalmente no relacionados que tienen el mismo apellido y residen en 123 Main Street, pero en diferentes ciudades. Sin corrección, hay demasiada ambigüedad en un conjunto de datos como este para poder confiar en los datos para fines de marketing o relaciones con el cliente.
Lea nuestro libro electrónico
4 Formas de Medir la Calidad de los datos
Vea cómo se ve la evaluación de la calidad en la práctica. Revise cuatro métricas clave que las organizaciones pueden usar para medir la calidad de sus datos
Solución de problemas
Una forma de corregir problemas de calidad como estos es investigar cada inconsistencia o ambigüedad y corregirla manualmente. Sin embargo, eso llevaría mucho tiempo. No es práctico a gran escala.
Un enfoque mucho más rentable y rentable es utilizar herramientas automatizadas que puedan identificar, interpretar y corregir problemas de datos sin orientación humana. En el caso de un conjunto de datos compuesto de nombres y direcciones, pueden hacerlo correlacionando los datos con otros conjuntos de datos para detectar errores o utilizando análisis predictivos para rellenar los espacios en blanco.
La batalla interminable
Debido a que la calidad de los datos se define en términos de la capacidad de un conjunto de datos para cumplir una tarea determinada, su naturaleza y características precisas variarán de un caso a otro. Lo que una organización percibe como datos de alta calidad podría ser basura a los ojos de otra organización.
Comprender cómo cambia la calidad de los datos en función del contexto es importante porque significa que no es algo que pueda obtener y conservar simplemente. Es posible que lo tenga hoy, pero lo pierda mañana si sus objetivos cambian y sus datos en su estado actual ya no pueden cumplirlos.
Por lo tanto, piense en la calidad de los datos como una batalla interminable. Es algo en lo que debe trabajar y mejorar constantemente para garantizar que sus datos estén listos para cumplir con cualquier tarea que le lance.
Utilizar precisamente para confiar en sus datos
A medida que las organizaciones liberan los datos de los silos tradicionales en toda la empresa y los centralizan en lagos de datos para análisis de alta potencia, el gobierno de los datos se está convirtiendo en una prioridad, especialmente en sectores altamente regulados, como la banca, los seguros, los servicios financieros y la atención médica. Precisamente ha combinado la potencia del software de integración de datos de alto rendimiento para acceder de forma rápida y eficiente a los datos de cualquier fuente y cargarlos en el lago de datos, al tiempo que utiliza herramientas de calidad de datos para perfilar esos datos.
¿Qué tan buena es la calidad de sus datos? Descúbrelo leyendo nuestro libro electrónico: 4 Maneras de Medir la Calidad de los Datos