• Nenhum resultado encontrado

Atribui¸c˜ ao de Notas ` a Qualidade de Atributos e Dados

O modelo CRISP-DM (CHAPMAN et al., 2000) discrimina algumas tarefas durante a fase de Entendimento de Dados, conforme se vˆe na figura 21, chamando aten¸c˜ao para o Relat´orio de Qualidade de Dados. Nenhum dos modelos de governan¸ca citados sugere tarefas espec´ıficas de medi¸c˜ao. O ferramental da Estat´ıstica Descritiva pode auxiliar nessa tarefa, mas ´e necess´ario estabelecer uma metodologia de trabalho, estendendo ou ampliando o alcance dos modelos de Governan¸ca e Qualidade de Dados.

Baseado em levantamento de trabalhos cient´ıficos e revistas acadˆemicas em KDD, at´e o presente momento, verificou-se durante esta pesquisa que os principais trabalhos em qualidade de dados est˜ao relacionados aos aspectos de governan¸ca e processos, tendo como principal objetivo uma tentativa de organiza¸c˜ao da ´area de KDD. Foram usados como chaves de busca os seguintes termos: data quality, data quality governance, data quality framework, KDD preprocessing, data quality management, data shaping,qualidade de dados, qualidade de datos,business inteligence.

Foram encontrados artigos, abrangendo um per´ıodo que se inicia em 1986 (quando

foram publicados os primeiros artigos relatando a necessidade de um referencial para o modelo de qualidade de dados), at´e a data de publica¸c˜ao do presente trabalho. N˜ao se encontrou na literatura acadˆemica, durante o per´ıodo de abrangˆencia desta pesquisa, ar-tigos - em l´ıngua portuguesa, inglesa ou espanhola -, descrevendo ou propondo algum referencial de trabalho para avalia¸c˜ao a qualidade de dados, com atribui¸c˜ao de algum padr˜ao de mensura¸c˜ao.

Encontrou-se, por´em, na ind´ustria, um aplicativo de software em nuvem (clouding), propondo o diagn´ostico da qualidade de dados, apontando problemas e sugerindo solu¸c˜oes.

Esse referencial pode ser encontrado no sistemaIBM Watson Analytics©(IBM, 2017).

O referencial proposto pela IBM ´e algo pr´oximo daquilo que se busca nesse trabalho.

Por´em, por tratar-se de um padr˜ao de software fechado, n˜ao se fornece detalhes naquela ferramenta de como os pesos s˜ao atribu´ıdos nem quais crit´erios usados para a avalia¸c˜ao de dados. N˜ao ´e poss´ıvel saber, por exemplo, consultando a documenta¸c˜ao dispon´ıvel, se ao algoritmo sendo empregado na solu¸c˜ao do problema tem algum impacto nos pesos dos problemas encontrados na base de dados. Esse aspecto ´e relevante porque alguns algoritmos s˜ao mais sens´ıveis `a determinados problemas na qualidade da base de dados do que outros (IRONSIDE, 2015).

Basicamente, o referencial implementado no IBM Watson Analytics© analisa cada um dos problemas com a base de dados, discutidos anteriormente e avalia atributo por atributo. A partir de uma heur´ıstica, cada problema ´e detectado, avaliado e indicado em um gr´afico, pontuando com notas de qualidade n˜ao s´o os atributos como o conjunto todo de dados.(IRONSIDE, 2015)

Conforme foi dito, os algoritmos s˜ao afetados diferentemente pelos problemas de qua-lidade de dados. Para limitar o escopo desse trabalho, concentrar-se-´a nas tarefas de classifica¸c˜oes, especificamente nos algoritmos de An´alise de Regress˜ao Linear M´ultipla e ´Arvores de decis˜ao, deixando para trabalhos futuros a extens˜ao para outros tipos de algoritmos e outras tarefas de minera¸c˜ao.

A tabela 5 lista os principais problemas encontrados na explora¸c˜ao e verifica¸c˜ao de qualidade de dados.

Tabela 5: Resumo dos problemas com Qualidade de Dados

Problema Descri¸ao impacto Medi¸ao Proposta

Incompletude Valores Ausentes Impacto em algoritmos como

ID3,C4.5, CART, usados para

´

arvores de decis˜ao. Esses algo-ritmos n˜ao rodam com valores ausentes.

Percentagem de dados ausen-tes, por atributo.

Inconsistˆencia Dados

discrepan-tes,incompat´ıveis com o dom´ınio do atributo ou com o contexto do problema

Vi´es de solu¸ao,erros de predi¸ao

Percentagem de dados inconsis-tentes, por atributo

Ru´ıdo Erro aleat´orio nos dados, cau-sados por flutua¸oes

Ineficiˆencia de processamento e vi´es de solu¸ao

Percentagem de Dados Ruido-sos sobre o conjunto de dados

Redundˆancia de dados Repeti¸ao da mesma instˆancia de dados

Vi´es da solu¸ao. Algoritmos como k-Means podem produzir de processamento e a Maldi¸ao da Dimensionalidade

Compara¸ao dos valores ob-tidos pelo alculo de Incer-teza Sim´etrica(Simetrical Un-certainty), atribuindo o peso mais alto ao atributo que obti-ver maior valor. Os pesos dos demais atributos s˜ao relativos

`

aquele peso inicial

AnomaliasOutliers Valores extremos, que ocorrem com baixa frequˆencia

Vi´es da solu¸ao Medi¸ao da quantidade de ou-tliers em rela¸ao ao n´umero to-tal de objetos na base

Dados n˜ao padronizados O mesmo atributo pode apre-sentar dados medidos em dife-rentes unidades de medidas

Causa distor¸ao no processa-mento do algoritmo

Aplicado sobre dados num´ericos. Medi¸ao de quantidade de atribu-tos que ultrapasse o valor

±RangeInterquartil1,5

Discretiza¸ao de dados NA Alguns algoritmos necessitam

de dados discretizados para ro-darem

NA

Heterocedasticidade Ocorre em problemas de an´alise de regress˜ao, quando a variˆancia do erro quadr´atico edio n˜ao ´e constante

O modelo de an´alise de re-gress˜ao linear tem de ser cor-rigido. Os estimadores das variˆancias dos parˆametros po-dem ser enviesados, invali-dando testes de significˆancia

Como a heterocedasticidade afeta o conjunto de dados, aplicar os testes e diminuir a nota do conjunto em fun¸ao da ausˆencia ou presen¸ca desse pro-blema reve-lar presen¸ca de anomalias. Em etodos de amostragem como BootstrappingeBaggingo pro-blema pode ser suavizado.

Medi¸ao da Assimetria e com-para¸ao com o valor de um conjunto de dados padr˜ao. A curtose pode ser usada para medi¸ao do desvio dos dados em rela¸ao `a hip´otese do padr˜ao multicolinea-ridade. Os testes usados na li-teratura apenas indicam a pre-sen¸ca do problema

Uso de testes para detec¸ao do problema de colinearidade.

3 METODOLOGIA

3.1 Proposta de Trabalho

Esta se¸c˜ao descreve como funciona a metodologia proposto neste trabalho. A partir de um conjunto de bases de dados selecionadas, provenientes da base de dados p´ublica da UCI (University of California Irvine) (LICHMAN, 2013)), aplica-se notas obtidas da heur´ıstica baseada em estat´ıstica descritiva para avaliar a qualidade dos dados antes da aplica¸c˜ao dos algoritmos de minera¸c˜ao de dados. Para cada atributo, verifica-se os problemas descritos na tabela 5, atribuindo uma nota que vai de [0..100%], onde 100%

corresponde `a nota m´axima, significando que os dados do atributo possuem boa qualidade.

As notas s˜ao somadas para compor uma m´edia. Da m´edia dos atributos, aplica-se uma nova m´edia que leva em conta problemas que afetam o conjunto de dados como um todo e n˜ao somente os atributos individualmente. Dessa forma, chega-se `a nota final.