Atribui¸c˜ ao de Notas ` a Qualidade de Atributos e Dados

O modelo CRISP-DM (CHAPMAN et al., 2000) discrimina algumas tarefas durante a fase de Entendimento de Dados, conforme se vê na figura 21, chamando aten¸cão para o Relatório de Qualidade de Dados. Nenhum dos modelos de governan¸ca citados sugere tarefas espec´ıficas de medi¸cão. O ferramental da Estat´ıstica Descritiva pode auxiliar nessa tarefa, mas é necessário estabelecer uma metodologia de trabalho, estendendo ou ampliando o alcance dos modelos de Governan¸ca e Qualidade de Dados.

Baseado em levantamento de trabalhos cient´ıficos e revistas acadêmicas em KDD, até o presente momento, verificou-se durante esta pesquisa que os principais trabalhos em qualidade de dados estão relacionados aos aspectos de governan¸ca e processos, tendo como principal objetivo uma tentativa de organiza¸cão da área de KDD. Foram usados como chaves de busca os seguintes termos: data quality, data quality governance, data quality framework, KDD preprocessing, data quality management, data shaping,qualidade de dados, qualidade de datos,business inteligence.

Foram encontrados artigos, abrangendo um per´ıodo que se inicia em 1986 (quando

foram publicados os primeiros artigos relatando a necessidade de um referencial para o modelo de qualidade de dados), até a data de publica¸cão do presente trabalho. Não se encontrou na literatura acadêmica, durante o per´ıodo de abrangência desta pesquisa, ar-tigos - em l´ıngua portuguesa, inglesa ou espanhola -, descrevendo ou propondo algum referencial de trabalho para avalia¸cão a qualidade de dados, com atribui¸cão de algum padrão de mensura¸cão.

Encontrou-se, porém, na indústria, um aplicativo de software em nuvem (clouding), propondo o diagnóstico da qualidade de dados, apontando problemas e sugerindo solu¸cões.

Esse referencial pode ser encontrado no sistemaIBM Watson Analytics©(IBM, 2017).

O referencial proposto pela IBM ´e algo pr´oximo daquilo que se busca nesse trabalho.

Porém, por tratar-se de um padrão de software fechado, não se fornece detalhes naquela ferramenta de como os pesos são atribu´ıdos nem quais critérios usados para a avalia¸cão de dados. Não é poss´ıvel saber, por exemplo, consultando a documenta¸cão dispon´ıvel, se ao algoritmo sendo empregado na solu¸cão do problema tem algum impacto nos pesos dos problemas encontrados na base de dados. Esse aspecto é relevante porque alguns algoritmos são mais sens´ıveis à determinados problemas na qualidade da base de dados do que outros (IRONSIDE, 2015).

Basicamente, o referencial implementado no IBM Watson Analytics© analisa cada um dos problemas com a base de dados, discutidos anteriormente e avalia atributo por atributo. A partir de uma heur´ıstica, cada problema é detectado, avaliado e indicado em um gráfico, pontuando com notas de qualidade não só os atributos como o conjunto todo de dados.(IRONSIDE, 2015)

Conforme foi dito, os algoritmos são afetados diferentemente pelos problemas de qua-lidade de dados. Para limitar o escopo desse trabalho, concentrar-se-á nas tarefas de classifica¸cões, especificamente nos algoritmos de Análise de Regressão Linear Múltipla e Árvores de decisão, deixando para trabalhos futuros a extensão para outros tipos de algoritmos e outras tarefas de minera¸cão.

A tabela 5 lista os principais problemas encontrados na explora¸c˜ao e verifica¸c˜ao de qualidade de dados.

Tabela 5: Resumo dos problemas com Qualidade de Dados

Problema Descri¸c˜ao impacto Medi¸c˜ao Proposta

Incompletude Valores Ausentes Impacto em algoritmos como

ID3,C4.5, CART, usados para

arvores de decis˜ao. Esses algo-ritmos n˜ao rodam com valores ausentes.

Percentagem de dados ausen-tes, por atributo.

Inconsistˆencia Dados

discrepan-tes,incompat´ıveis com o dom´ınio do atributo ou com o contexto do problema

Viés de solu¸cão,erros de predi¸cão

Percentagem de dados inconsis-tentes, por atributo

Ru´ıdo Erro aleat´orio nos dados, cau-sados por flutua¸c˜oes

Ineficiência de processamento e viés de solu¸cão

Percentagem de Dados Ruido-sos sobre o conjunto de dados

Redundância de dados Repeti¸cão da mesma instância de dados

Viés da solu¸cão. Algoritmos como k-Means podem produzir de processamento e a Maldi¸cão da Dimensionalidade

Compara¸cão dos valores ob-tidos pelo cálculo de Incer-teza Simétrica(Simetrical Un-certainty), atribuindo o peso mais alto ao atributo que obti-ver maior valor. Os pesos dos demais atributos são relativos

aquele peso inicial

AnomaliasOutliers Valores extremos, que ocorrem com baixa frequˆencia

Viés da solu¸cão Medi¸cão da quantidade de ou-tliers em rela¸cão ao número to-tal de objetos na base

Dados n˜ao padronizados O mesmo atributo pode apre-sentar dados medidos em dife-rentes unidades de medidas

Causa distor¸c˜ao no processa-mento do algoritmo

Aplicado sobre dados num´ericos. Medi¸c˜ao de quantidade de atribu-tos que ultrapasse o valor

±RangeInterquartil∗1,5

Discretiza¸c˜ao de dados NA Alguns algoritmos necessitam

de dados discretizados para ro-darem

Heterocedasticidade Ocorre em problemas de análise de regressão, quando a variância do erro quadrático médio não é constante

O modelo de análise de re-gressão linear tem de ser cor-rigido. Os estimadores das variâncias dos parâmetros po-dem ser enviesados, invali-dando testes de significância

Como a heterocedasticidade afeta o conjunto de dados, aplicar os testes e diminuir a nota do conjunto em fun¸cão da ausência ou presen¸ca desse pro-blema reve-lar presen¸ca de anomalias. Em métodos de amostragem como BootstrappingeBaggingo pro-blema pode ser suavizado.

Medi¸cão da Assimetria e com-para¸cão com o valor de um conjunto de dados padrão. A curtose pode ser usada para medi¸cão do desvio dos dados em rela¸cão à hipótese do padrão multicolinea-ridade. Os testes usados na li-teratura apenas indicam a pre-sen¸ca do problema

Uso de testes para detec¸c˜ao do problema de colinearidade.

3 METODOLOGIA

3.1 Proposta de Trabalho

Esta se¸cão descreve como funciona a metodologia proposto neste trabalho. A partir de um conjunto de bases de dados selecionadas, provenientes da base de dados pública da UCI (University of California Irvine) (LICHMAN, 2013)), aplica-se notas obtidas da heur´ıstica baseada em estat´ıstica descritiva para avaliar a qualidade dos dados antes da aplica¸cão dos algoritmos de minera¸cão de dados. Para cada atributo, verifica-se os problemas descritos na tabela 5, atribuindo uma nota que vai de [0..100%], onde 100%

corresponde `a nota m´axima, significando que os dados do atributo possuem boa qualidade.

As notas são somadas para compor uma média. Da média dos atributos, aplica-se uma nova média que leva em conta problemas que afetam o conjunto de dados como um todo e não somente os atributos individualmente. Dessa forma, chega-se à nota final.

No documento CRIAC ¸ ˜ AO DE UM INDICADOR DE QUALIDADE DE DADOS PARA PROBLEMAS DE MODELAGEM (páginas 112-115)