O modelo CRISP-DM (CHAPMAN et al., 2000) discrimina algumas tarefas durante a fase de Entendimento de Dados, conforme se vˆe na figura 21, chamando aten¸c˜ao para o Relat´orio de Qualidade de Dados. Nenhum dos modelos de governan¸ca citados sugere tarefas espec´ıficas de medi¸c˜ao. O ferramental da Estat´ıstica Descritiva pode auxiliar nessa tarefa, mas ´e necess´ario estabelecer uma metodologia de trabalho, estendendo ou ampliando o alcance dos modelos de Governan¸ca e Qualidade de Dados.
Baseado em levantamento de trabalhos cient´ıficos e revistas acadˆemicas em KDD, at´e o presente momento, verificou-se durante esta pesquisa que os principais trabalhos em qualidade de dados est˜ao relacionados aos aspectos de governan¸ca e processos, tendo como principal objetivo uma tentativa de organiza¸c˜ao da ´area de KDD. Foram usados como chaves de busca os seguintes termos: data quality, data quality governance, data quality framework, KDD preprocessing, data quality management, data shaping,qualidade de dados, qualidade de datos,business inteligence.
Foram encontrados artigos, abrangendo um per´ıodo que se inicia em 1986 (quando
foram publicados os primeiros artigos relatando a necessidade de um referencial para o modelo de qualidade de dados), at´e a data de publica¸c˜ao do presente trabalho. N˜ao se encontrou na literatura acadˆemica, durante o per´ıodo de abrangˆencia desta pesquisa, ar-tigos - em l´ıngua portuguesa, inglesa ou espanhola -, descrevendo ou propondo algum referencial de trabalho para avalia¸c˜ao a qualidade de dados, com atribui¸c˜ao de algum padr˜ao de mensura¸c˜ao.
Encontrou-se, por´em, na ind´ustria, um aplicativo de software em nuvem (clouding), propondo o diagn´ostico da qualidade de dados, apontando problemas e sugerindo solu¸c˜oes.
Esse referencial pode ser encontrado no sistemaIBM Watson Analytics©(IBM, 2017).
O referencial proposto pela IBM ´e algo pr´oximo daquilo que se busca nesse trabalho.
Por´em, por tratar-se de um padr˜ao de software fechado, n˜ao se fornece detalhes naquela ferramenta de como os pesos s˜ao atribu´ıdos nem quais crit´erios usados para a avalia¸c˜ao de dados. N˜ao ´e poss´ıvel saber, por exemplo, consultando a documenta¸c˜ao dispon´ıvel, se ao algoritmo sendo empregado na solu¸c˜ao do problema tem algum impacto nos pesos dos problemas encontrados na base de dados. Esse aspecto ´e relevante porque alguns algoritmos s˜ao mais sens´ıveis `a determinados problemas na qualidade da base de dados do que outros (IRONSIDE, 2015).
Basicamente, o referencial implementado no IBM Watson Analytics© analisa cada um dos problemas com a base de dados, discutidos anteriormente e avalia atributo por atributo. A partir de uma heur´ıstica, cada problema ´e detectado, avaliado e indicado em um gr´afico, pontuando com notas de qualidade n˜ao s´o os atributos como o conjunto todo de dados.(IRONSIDE, 2015)
Conforme foi dito, os algoritmos s˜ao afetados diferentemente pelos problemas de qua-lidade de dados. Para limitar o escopo desse trabalho, concentrar-se-´a nas tarefas de classifica¸c˜oes, especificamente nos algoritmos de An´alise de Regress˜ao Linear M´ultipla e ´Arvores de decis˜ao, deixando para trabalhos futuros a extens˜ao para outros tipos de algoritmos e outras tarefas de minera¸c˜ao.
A tabela 5 lista os principais problemas encontrados na explora¸c˜ao e verifica¸c˜ao de qualidade de dados.
Tabela 5: Resumo dos problemas com Qualidade de Dados
Problema Descri¸c˜ao impacto Medi¸c˜ao Proposta
Incompletude Valores Ausentes Impacto em algoritmos como
ID3,C4.5, CART, usados para
´
arvores de decis˜ao. Esses algo-ritmos n˜ao rodam com valores ausentes.
Percentagem de dados ausen-tes, por atributo.
Inconsistˆencia Dados
discrepan-tes,incompat´ıveis com o dom´ınio do atributo ou com o contexto do problema
Vi´es de solu¸c˜ao,erros de predi¸c˜ao
Percentagem de dados inconsis-tentes, por atributo
Ru´ıdo Erro aleat´orio nos dados, cau-sados por flutua¸c˜oes
Ineficiˆencia de processamento e vi´es de solu¸c˜ao
Percentagem de Dados Ruido-sos sobre o conjunto de dados
Redundˆancia de dados Repeti¸c˜ao da mesma instˆancia de dados
Vi´es da solu¸c˜ao. Algoritmos como k-Means podem produzir de processamento e a Maldi¸c˜ao da Dimensionalidade
Compara¸c˜ao dos valores ob-tidos pelo c´alculo de Incer-teza Sim´etrica(Simetrical Un-certainty), atribuindo o peso mais alto ao atributo que obti-ver maior valor. Os pesos dos demais atributos s˜ao relativos
`
aquele peso inicial
AnomaliasOutliers Valores extremos, que ocorrem com baixa frequˆencia
Vi´es da solu¸c˜ao Medi¸c˜ao da quantidade de ou-tliers em rela¸c˜ao ao n´umero to-tal de objetos na base
Dados n˜ao padronizados O mesmo atributo pode apre-sentar dados medidos em dife-rentes unidades de medidas
Causa distor¸c˜ao no processa-mento do algoritmo
Aplicado sobre dados num´ericos. Medi¸c˜ao de quantidade de atribu-tos que ultrapasse o valor
±RangeInterquartil∗1,5
Discretiza¸c˜ao de dados NA Alguns algoritmos necessitam
de dados discretizados para ro-darem
NA
Heterocedasticidade Ocorre em problemas de an´alise de regress˜ao, quando a variˆancia do erro quadr´atico m´edio n˜ao ´e constante
O modelo de an´alise de re-gress˜ao linear tem de ser cor-rigido. Os estimadores das variˆancias dos parˆametros po-dem ser enviesados, invali-dando testes de significˆancia
Como a heterocedasticidade afeta o conjunto de dados, aplicar os testes e diminuir a nota do conjunto em fun¸c˜ao da ausˆencia ou presen¸ca desse pro-blema reve-lar presen¸ca de anomalias. Em m´etodos de amostragem como BootstrappingeBaggingo pro-blema pode ser suavizado.
Medi¸c˜ao da Assimetria e com-para¸c˜ao com o valor de um conjunto de dados padr˜ao. A curtose pode ser usada para medi¸c˜ao do desvio dos dados em rela¸c˜ao `a hip´otese do padr˜ao multicolinea-ridade. Os testes usados na li-teratura apenas indicam a pre-sen¸ca do problema
Uso de testes para detec¸c˜ao do problema de colinearidade.
3 METODOLOGIA
3.1 Proposta de Trabalho
Esta se¸c˜ao descreve como funciona a metodologia proposto neste trabalho. A partir de um conjunto de bases de dados selecionadas, provenientes da base de dados p´ublica da UCI (University of California Irvine) (LICHMAN, 2013)), aplica-se notas obtidas da heur´ıstica baseada em estat´ıstica descritiva para avaliar a qualidade dos dados antes da aplica¸c˜ao dos algoritmos de minera¸c˜ao de dados. Para cada atributo, verifica-se os problemas descritos na tabela 5, atribuindo uma nota que vai de [0..100%], onde 100%
corresponde `a nota m´axima, significando que os dados do atributo possuem boa qualidade.
As notas s˜ao somadas para compor uma m´edia. Da m´edia dos atributos, aplica-se uma nova m´edia que leva em conta problemas que afetam o conjunto de dados como um todo e n˜ao somente os atributos individualmente. Dessa forma, chega-se `a nota final.