se você trabalha com dados, você provavelmente ouviu o termo mais do que algumas vezes, mas o que é qualidade dos dados? Você sabe o que realmente significa, e o que os analistas de qualidade de dados fazem? Se não, este artigo é para ti.
pode não ser uma palavra-chave tão popular quanto dados grandes, mas é um termo frequentemente usado no mundo dos dados. Os analistas de dados gostam de lembrar a todos que ter qualidade é essencial para derivar valor dos dados.
mas eles nem sempre levam tempo para defini-lo ou fornecer exemplos no mundo real dos tipos de problemas que Ferramentas de qualidade de dados corrigem. Então, vamos dar uma olhada.
o que é a qualidade dos dados? Uma definição
uma definição básica é esta: a qualidade dos dados é a capacidade de um dado conjunto de dados para servir um propósito pretendido.Para colocar de outra forma, se você tem dados de alta qualidade, seus dados são capazes de fornecer o insight que você espera obter dele. Inversamente, se seus dados são de má qualidade, há um problema em seus dados que o impedirá de usar os dados para fazer o que você espera alcançar com ele.
exemplos
para ilustrar mais a definição, vamos examinar alguns exemplos de desafios do mundo real.
Imagine que temos um conjunto de dados que consiste em nomes e endereços. Dados como este são susceptíveis de conter alguns erros por várias razões – tanto simples como complicadas.
causas simples de erros de dados são nomes e endereços que foram introduzidos incorretamente, ou informações de endereço que mudou desde que foi coletado.
existem outros problemas mais complicados que podem existir no conjunto de dados. Uma delas são entradas que são ambíguas por causa de informações incompletas. Por exemplo, uma entrada pode ser um endereço para um Sr. Smith que vive na cidade “Londres”, sem nenhum país especificado. Isto é um problema porque não sabemos se a Londres em que Mr. Smith reside em Londres, Inglaterra, Londres, Ontário ou uma das outras dezenas de cidades ao redor do mundo chamadas Londres. A menos que você use uma ferramenta de qualidade de dados para corrigir essa ambiguidade, você vai enfrentar dificuldade usando o seu conjunto de dados para chegar ao Sr. Smith.
como outro exemplo de um problema complexo, considere a questão de endereços aparentemente redundantes dentro do conjunto de dados. Digamos que temos várias entradas na nossa base de dados para pessoas chamadas Sr. Smith que residem na rua principal 123. Este poderia ser o resultado de uma simples dupla entrada: talvez os dados para o Sr. Smith foram inseridos mais de uma vez por engano.
outra possibilidade é que existem vários Misters Smith-um pai e filho, talvez – residindo no mesmo endereço. Ou talvez estejamos lidando com entradas para homens totalmente não relacionados que ambos têm o mesmo sobrenome e residem na rua principal 123, mas em cidades diferentes. Sem correção, há muita ambiguidade em um conjunto de dados como este para poder confiar nos dados para fins de marketing ou de relações com o cliente.
leia o nosso eBook
4 maneiras de medir a qualidade dos dados
veja como a avaliação da qualidade se parece na prática. Revisão quatro principais métricas as organizações podem usar para medir a qualidade de seus dados
a resolução de problemas
Uma maneira de corrigir os problemas de qualidade como estas é a investigação de cada um inconsistência ou ambiguidade e corrigi-lo manualmente. No entanto, isso levaria muito tempo. Não é prático em grande escala.Uma abordagem muito mais eficiente em termos de tempo e de custos é a utilização de ferramentas automatizadas que possam identificar, interpretar e corrigir problemas de dados sem orientação humana. No caso de um conjunto de dados composto de nomes e endereços, eles podem fazer isso correlacionando os dados com outros conjuntos de dados para capturar erros, ou usando análises preditivas para preencher os espaços em branco.
a batalha interminável
porque a qualidade dos dados é definida em termos da capacidade de um conjunto de dados para servir uma dada tarefa, a sua natureza precisa e características variam de caso para caso. O que uma organização considera como dados de alta qualidade pode ser lixo aos olhos de outra organização.
compreender como a qualidade dos dados muda com base no contexto é importante porque significa que não é algo que você pode simplesmente obter e manter. Você pode tê-lo hoje, mas perdê-lo amanhã se seus objetivos mudam e seus dados em seu estado atual não pode mais cumpri-los.Então, pense na qualidade dos dados como uma batalha interminável. É algo que você precisa estar constantemente trabalhando e melhorando para garantir que seus dados estão prontos para atender as tarefas que você jogar nele.Usando com precisão para confiar em seus dados
à medida que as organizações liberam dados de silos tradicionais em toda a empresa e centralizam-no em Lagos de dados para análises de alta potência, a governança de dados está se tornando uma prioridade máxima, especialmente em indústrias altamente regulamentadas, tais como bancos, seguros, Serviços Financeiros e cuidados de saúde. Precisamente combinou o poder do software de integração de dados de alto desempenho para acessar de forma rápida e eficiente os dados de qualquer fonte e carregá-los no Lago de dados, ao mesmo tempo em que usa ferramentas de qualidade de dados para traçar o perfil desses dados.
quão boa é a qualidade dos seus dados? Descubra ao ler o nosso eBook: 4 maneiras de medir a qualidade dos dados