UNIVERSIDADE PRESBITERIANA MACKENZIE PROGRAMA DE P ´ OS-GRADUAC ¸ ˜ AO EM ENGENHARIA EL´ ETRICA E COMPUTAC ¸ ˜ AO
MARCOS FERREIRA
CRIAC ¸ ˜ AO DE UM INDICADOR DE QUALIDADE DE DADOS PARA PROBLEMAS DE MODELAGEM
PREDITIVA
Orientador: Prof. Dr. Leandro Augusto da Silva S˜ ao Paulo
2018
UNIVERSIDADE PRESBITERIANA MACKENZIE PROGRAMA DE P ´ OS-GRADUAC ¸ ˜ AO EM ENGENHARIA EL´ ETRICA E COMPUTAC ¸ ˜ AO
MARCOS FERREIRA
CRIAC ¸ ˜ AO DE UM INDICADOR DE QUALIDADE DE DADOS PARA PROBLEMAS DE MODELAGEM
PREDITIVA
Disserta¸c˜ ao de Mestrado, apresentada ao Pro- grama de P´ os-Gradua¸c˜ ao em Engenharia El´ etrica e Computa¸c˜ ao da Universidade Presbiteriana Mackenzie como parte dos requisitos parciais para a obten¸c˜ ao do t´ıtulo de Mestre em Engenharia de Computa¸c˜ ao.
Orientador: Prof. Dr. Leandro Augusto da Silva
S˜ ao Paulo
2018
Agradecimentos
Para mim, esta foi a se¸c˜ ao mais dif´ıcil de ser escrita e tamb´ em a mais prazerosa.
A jornada ´ e sempre muito mais agrad´ avel e importante do que a chegada ao destino final e j´ a estou come¸cando a sentir saudades dela. N˜ ao poderia deixar de agradecer a todos que tiveram parte ativa em todo essa ´ ardua caminhada. Tenho de confessar que este trabalho s´ o foi poss´ıvel gra¸cas ` a ajuda, apoio e incentivo de muita gente, a quem tenho d´ıvida eterna de gratid˜ ao. Os erros eventualmente cometidos aqui s˜ ao somente meus.
Em primeiro lugar, agrade¸co muito ` a Deus o privil´ egio de ter escrito e terminado este trabalho. Aos meus pais, por terem sido meus maiores mestres. ` A minha esposa querida, que sempre me incentivou, mesmo nos momentos mais dif´ıceis. Ao meu filho amado, que se privou, com resigna¸c˜ ao, mas com muito brio da presen¸ca do seu pai ocupado du- rante esse longo per´ıodo. Ao Professor Dr. Leandro Augusto da Silva, meu orientador, sempre muito generoso, de quem partiu a ideia original desse trabalho, por seu tempo e dedica¸c˜ ao. Ao apoio recebido pelo MackPesquisa e ` a Universidade Presbiteriana Macken- zie, que me concederam a bolsa para que pudesse terminar esse projeto. Embora tenha ficado pouco tempo nessa maravilhosa institui¸c˜ ao, considero-me um “Mackenzista”por ado¸c˜ ao. ` A CAPES, que tamb´ em concedeu a bolsa, sem a qual, dificilmente conseguiria me manter durante esse tempo. Finalmente, aos professores do curso do Programa de P´ os Gradua¸c˜ ao em Engenharia El´ etrica e Computa¸c˜ ao da Universidade Presbiteriana Macken- zie: ao Professor Dr. Nizam Omar, ao Prof. Dr. Leandro Nunes de Castro Silva, ` a Profa.
Dra. Pollyana Notargiacomo e ao Prof. Dr.Ismar Frango Silveira. Ao sempre sol´ıcito e incans´ avel Yopanan Henrique Roque Rocha. Aos meus colegas do curso de mestrado, pela ajuda sempre despretensiosa e generosa e pela amizade.
Finalmente, aos muitos mestres que tive ao longo da vida, cujos nomes n˜ ao ´ e poss´ıvel citar aqui, somente por falta de espa¸co, mas que moram em um lugar especial dentro do meu cora¸c˜ ao e cujos rostos sempre me vˆ em ` a mente em cada linha que escrevo.
”O homem ´ e uma pris˜ ao em que a alma permanece livre.”
Victor Hugo
RESUMO
Qualidade de dados ´ e um tema relevante em tarefas de Minera¸c˜ ao de Dados. Resultados errados podem ser obtidos quando se usa um conjunto de dados com qualidade pobre.
Os padr˜ oes de governan¸ca adotados pela comunidade da pr´ atica em Minera¸c˜ ao de Dados s˜ ao gen´ ericos e abstratos e, embora enfatizando a importˆ ancia da tarefa de explora¸c˜ ao do conjunto de dados, n˜ ao fornecem um referencial de avalia¸c˜ ao quantitativa de qualidade de um conjunto de dados. Nesse trabalho, prop˜ oe-se um indicador num´ erico para avalia¸c˜ ao da qualidade de dados, usando as t´ ecnicas de estat´ıstica descritiva, avaliando a qualidade dos dados de uma maneira estruturada. Esse indicador avalia problemas no conjunto de dados, atribuindo notas ponderadas e gera uma m´ edia geral, indicando se ajustamentos devem ser efetuado antes de se prosseguir com as tarefas de minera¸c˜ ao.
Palavras-chave: qualidade de dados, complexidade de dados,governan¸ca,
pr´ e-processamento, data profiling.
ABSTRACT
Data Quality is a relevant subject in Data Mining Tasks. Wrong Results can be obtained when a poor data quality is selected for the task. Governance Frameworks used curren- tly by the community of practice in Data Mining are very generic and abstract as they should be: though they emphasize the importance of the exploration of the dataset and the related issues with data quality, they don´t supply a complete framework for evalu- ating the data quality. This work proposes a numeric index for data quality evaluation, using Descriptive Statistics tools to quantitatively evaluate data quality in a methodic and structured way. The proposed index evaluates problems with data sample, giving them a weighted score and finally gives an average in order to indicate if further cleansing and adjustment are needed for the dataset before proceed with the Data Mining Tasks.
Key words: data quality, data complexity,data governance, pre processing,
data profiling.
Sum´ ario
1 INTRODUC ¸ ˜ AO 1
1.1 O Impacto da Qualidade de Dados . . . . 1
1.2 Dado, Informa¸c˜ ao e Conhecimento: uma defini¸c˜ ao sucinta . . . . 3
1.3 O Processo de Minera¸c˜ ao de Dados . . . . 4
1.3.1 Fase de Defini¸c˜ ao do Problema e Sele¸c˜ ao de Dados . . . . 5
1.3.2 Fase de Pr´ e- processamento . . . . 7
1.3.3 Fase de Minera¸c˜ ao e Valida¸c˜ ao de Resultados . . . . 8
1.4 Breve Revis˜ ao da Literatura Sobre Qualidade de Dados . . . . 9
1.4.1 ETL:Ferramentas de Extra¸c˜ ao, Transforma¸c˜ ao e Carga de Dados . . 10
1.4.2 O Problema . . . . 13
1.5 Objetivos . . . . 16
1.6 Justificativa e Contribui¸c˜ oes . . . . 17
1.7 Estrutura . . . . 18
2 REFERENCIAL TE ´ ORICO 20 2.1 Problemas de Qualidade de Dados . . . . 21
2.1.1 Incompletude . . . . 21
2.1.2 Inconsistˆ encia . . . . 24
2.1.3 Anomalia (Outlier ) . . . . 25
2.1.4 Ru´ıdo . . . . 28
Encaixotamento: . . . . 29
T´ ecnicas de Agrupamento de Dados: . . . . 30
T´ ecnicas de Aproxima¸c˜ ao por fun¸c˜ oes: . . . . 31
2.1.5 Redundˆ ancia de Dados . . . . 31
2.1.6 Atributos Correlacionados entre si ou com Valores Constantes . . . 32
2.1.7 Redu¸c˜ ao de Dados . . . . 33
Compress˜ ao de Atributos . . . . 36
Sele¸c˜ ao de Atributos (Feature Selection ): . . . . 40
2.1.8 Problemas Associados ` a Tarefas de Regress˜ ao . . . . 52
O modelo de Regress˜ ao Linear: . . . . 52
Heterocedasticidade: . . . . 55
2.2 Transforma¸c˜ ao de Dados . . . . 69
2.2.1 Padroniza¸c˜ ao de Dados . . . . 70
2.2.2 Normaliza¸c˜ ao da Base de Dados . . . . 70
2.2.3 Discretiza¸c˜ ao de dados . . . . 71
2.3 T´ ecnicas de An´ alise de Qualidade de Dados . . . . 74
2.3.1 Distribui¸c˜ ao de Frequˆ encia . . . . 74
2.3.2 Visualiza¸c˜ ao de Dados . . . . 77
2.3.3 Medidas de Resumo de Dados . . . . 77
Medidas de Tendˆ encia Central: . . . . 77
Medidas de Dispers˜ ao . . . . 79
Medidas de Forma: . . . . 81
Medidas de Posi¸c˜ ao Relativa: . . . . 83
Medidas de Associa¸c˜ ao . . . . 85
2.4 Modelos de Governan¸ca e Processos em KDD . . . . 87
2.4.1 CRSIP-DM . . . . 88
2.4.2 DAMA-DMBOK . . . . 92
2.4.3 Outros Modelos de Governan¸ca e Qualidade de Dados . . . . 96
2.5 Atribui¸c˜ ao de Notas ` a Qualidade de Atributos e Dados . . . . 98
3 METODOLOGIA 101 3.1 Proposta de Trabalho . . . 101
3.2 A Base de Dados da UCI . . . 101
3.2.1 Base de Dados Iris . . . 101
3.2.2 Base de Dados Mushroom . . . 103
3.2.3 Base de Dados Arrhythmia . . . 105
3.3 Linguagem R e Python . . . 106
3.4 Referencial de Trabalho . . . 107
3.4.1 Crit´ erios Aplicados aos Atributos, Individualmente . . . 109
3.4.2 Crit´ erios Espec´ıficos . . . 111
4 AN ´ ALISE DE DADOS E RESULTADOS 115 4.1 Experimento 1: Base de Dados Iris . . . 115
Descri¸c˜ ao Geral: . . . 115
Viola¸c˜ ao de Dom´ınio e Anomalias: . . . 117
Assimetria: . . . 121
Relevˆ ancia dos Atributos: . . . 122
Crit´ erios Espec´ıficos: . . . 123
4.2 Experimento 2: Base de Mushroom . . . 128
Dados Ausentes: . . . 129
Viola¸c˜ ao do Dom´ınio: . . . 131
Relevˆ ancia dos Atributos: . . . 131
Notas de Crit´ erios Espec´ıficos: . . . 134
4.3 Experimento 3: Base de Dados Arrhythmia . . . 136
Valores Ausentes: . . . 136
Viola¸c˜ ao de Dom´ınio: . . . 137
Anomalias: . . . 138
Assimetria (Skewness): . . . 138
Relevˆ ancia dos atributos: . . . 138
Notas de Crit´ erios Espec´ıficos: . . . 139
5 CONSIDERAC ¸ ˜ OES FINAIS 143 5.1 Pr´ oximos Passos . . . 144
REFERˆ ENCIAS BIBLIOGR ´ AFICAS 153 A ANEXOS 154 A.1 Autovetores e Autovalores . . . 154
A.2 Algoritmo AVF . . . 157
A.3 Algoritmo para o C´ alculo de Frequˆ encia Acumulada . . . 157
A.4 Algoritmo para C´ alculo dos Indicadores de Qualidade . . . 161
A.5 Base de Dados Arrhythmia: Atributos . . . 162
A.6 Base de Dados Arrhithmya: Notas . . . 164
A.6.1 Anomalias . . . 164
A.6.2 Assimetria . . . 167
A.6.3 Relevˆ ancia dos Atributos . . . 170
Lista de Figuras
1 Processo de Minera¸c˜ ao de Dados . . . . 5
2 Tarefas da fase de pr´ e-processamento dos dados . . . . 8
3 Telas do Talend e Rapid Miner . . . . 11
4 Tela do Metanome . . . . 12
5 Weka . . . . 13
6 Principais tarefas em Minera¸c˜ ao de Dados . . . . 20
7 Raz˜ ao da ´ area de uma circunferˆ encia e um quadrado . . . . 34
8 Esfera inscrita em um cubo:raz˜ ao entre volumes . . . . 34
9 Raz˜ ao entre ρ(d) =
VV(C)(S). . . . 35
10 Alguns m´ etodos de Redu¸c˜ ao de Dimensionalidade . . . . 36
11 Entropia de uma vari´ avel discreta X, que assume dois valores . . . . 46
12 Diagrama de Venn, ilustrando as rela¸c˜ oes entre ganho de informa¸c˜ ao e entropia entre atibutos X e Y . . . . 49
13 Adaptado de Maddalla . . . . 58
14 N˜ ao existˆ encia de Multicolinearidade entre as vari´ aveis x
1e x
1. . . . 60
15 Multicolinearidade perfeita entre x
1e x
2. . . . 61
16 Forte colinearidade entre as vari´ aveis x
1e x
2. . . . 62
17 Distribui¸c˜ ao de frequˆ encia normal com m´ edia zero e diferentes desvios padr˜ oes 80 18 Exemplo de distribui¸c˜ ao com Assimetrias(Skweness) Negativa e Positiva . . 82
19 Exemplos de gr´ aficos com curtose negativo (a), igual a zero (b) e positivo (c) 83 20 Matriz de Probabilidades . . . . 86
21 CRISP DM . . . . 89
22 crisp dm 3 modelo de referˆ encia e guia do usu´ ario . . . . 90
23 Modelo de Referˆ encia CRISP-DM com as seis fases . . . . 92
24 Modelo de Arquitetura do DAMA-DMBoK . . . . 93
25 DAMA DMBoK: Processos de Gerenciamento de Qualidade . . . . 95
26 Arquitetura de Reerˆ encia para Atribui¸c˜ ao de Qualidade de Dados . . . 107
27 Crit´ erios de Avalia¸c˜ ao de Qualidade de Dados . . . 109
28 Diagrama de Box Plot do conjunto de dados Iris . . . 116
29 Base de dados Iris: Distribui¸c˜ ao de Frequˆ encia das Vari´ aveis . . . 117
30 C´ odigos de Indicadores de Qualidade de Dados . . . 125
31 Base de dados Iris:Notas por Atributo . . . 126
32 Indicador de Qualidade da Base de Dados Iris:nota final . . . 126
33 Tela do IBM Watson, mostrando a avalia¸c˜ ao da qualidade de dados . . . . 127
34 Dados de Sa´ıda do IBM Watson para o conjunto de dados Iris . . . 127
35 Indicadores de Qualidades por atributo: base de dados Mushroom . . . 134
36 Base de Dados Mushroom: Nota Final . . . 136
37 Indicador da Nota de Qualidade da Base de Dados Arrithmya . . . 142
38 Exemplo de Autovetor e Autovalor . . . 155
Lista de Tabelas
1 Exemplo de tabela de contingˆ encia . . . . 44
2 Resumo das principais t´ ecnicas em Redu¸c˜ ao de Dados . . . . 51
3 Dados do gr´ afico da figura 13 . . . . 58
4 Tabela de compara¸c˜ ao entre os modelos de Fayyad e o modelo CRISP-DM 97 5 Resumo dos problemas com Qualidade de Dados . . . 100
6 Base de Dados Iris . . . 102
7 Base de Dados Mushroom . . . 104
8 Base de Dados Arrhythmia . . . 105
9 Base de Dados Arrhythmia: Classes de Arritmia . . . 106
10 Crit´ erios de Qualidade: Por atributo e Crit´ erios Especiais . . . 113
11 Sum´ ario: Estat´ıstica Descritiva base de dados Iris . . . 115
12 Sum´ ario : Distribui¸c˜ ao de Classes . . . 115
13 Entropia para o conjunto de dados Iris . . . 117
14 Iris: Nota para o crit´ erio Dados Ausentes . . . 118
15 Iris: Nota para o crit´ erio Viola¸c˜ ao de Dom´ınio . . . 118
16 Detec¸c˜ ao de Outliers para os Atributos do conjunto de dados Iris . . . 119
17 Iris:Valores dos limites inferiores e inferiores- Intervalo interquartil . . . 119
18 Iris: Teste de Grubbs . . . 120
19 Iris: Notas para o crit´ erio de Anomalias . . . 121
20 Skewness do conjunto de dados IRIS para as vari´ avies V1 a V4 . . . 122
21 Notas para o crit´ erio de Assimetria . . . 122
22 Incerteza Sim´ etrica e Incerteza Sim´ etrica Normalizada . . . 123
23 Notas dos Atributos . . . 123
24 Nota para os Crit´ erios Especiais . . . 124
25 Atribui¸c˜ ao de Nota Qualitativa, usando o intervalo interquartil das notas . 125 26 Vari´ aveis da base de dados Mushroom: Descri¸c˜ ao . . . 128
27 C´ alculo de Entropia para os atributos da base Mushroom . . . 129
28 Dados Ausentes: Conjunto de dados Mushroom . . . 130
29 Tabela de Incerteza Sim´ etrica e Incerteza Sim´ etrica Normalizada . . . 132
30 Notas de qualidade dos atributos: base de dados Mushroom . . . 133
31 Crit´ erio de Corte: M´ etodo AVFScore . . . 135
32 Notas ao conjunto de dados: base de dados Mushroom . . . 135
33 Base de Dados Arrhithmya: Valores Ausentes por Atributo . . . 136
34 Notas das Vari´ aveis: Valores Ausentes . . . 137
35 Base de Dados Arrhythmia-Resultados Parciais . . . 138
36 Sa´ıda do teste de Breusch & Pagan . . . 139
37 Base de Dados Arrhithmya: Multicolinearidade . . . 140
38 N1:Crit´ erios Aplicados aos Atributos, individualmente . . . 141
39 N2:Crit´ erios Espec´ıficosl . . . 141
40 Notas Gerais . . . 142
41 Informa¸c˜ ao de Atributos . . . 163
43 Informa¸c˜ ao de Atributos: Continua¸c˜ ao . . . 164
44 Notas: Base de Dados Arrhithmya-Crit´ erio Anomalia I . . . 165
45 Notas: Base de Dados Arrhithmya-Crit´ erio Anomalia II . . . 166
46 Notas: Base de Dados Arrhithmya-Crit´ erio Assimetria I . . . 168
47 Notas: Base de Dados Arrhithmya-Crit´ erio Assimetria II . . . 169
48 Notas: Base de Dados Arrhithmya-Crit´ erio Relevˆ ancia de Atributos I . . . 171
49 Notas: Base de Dados Arrhithmya-Crit´ erio Relevˆ ancia de Atributos II . . . 172
1 INTRODUC ¸ ˜ AO
A proposta deste trabalho ´ e a de desenvolver um indicador num´ erico para avalia¸c˜ ao da qualidade de dados, usando t´ ecnicas de estat´ıstica descritiva e inferˆ encia, avaliando a qualidade dos dados de uma maneira estruturada, de modo a atribuir uma nota ` a qualidade, sinalizando se ajustamentos devem ser efetuados antes de se prosseguir com tarefa de minera¸c˜ ao. A ind´ ustria de informa¸c˜ ao desenvolveu alguns padr˜ oes de governan¸ca para qualidade de dados, como se ver´ a posteriormente neste trabalho, mas s˜ ao referenciais gen´ ericos e abstratos que, embora enfatizem a importˆ ancia da qualidade dos dados, n˜ ao fornecem uma maneira estruturada e quantific´ avel de avalia¸c˜ ao daquele indicador.
1.1 O Impacto da Qualidade de Dados
Em qualquer ind´ ustria, a qualidade de um produto final depende tanto de seu pro- cesso de fabrica¸c˜ ao quanto da qualidade de sua mat´ eria prima. Isso n˜ ao ´ e diferente na Ind´ ustria de Informa¸c˜ ao, na qual os dados s˜ ao a sua parte essencial e onde os resultados dependem tanto das t´ ecnicas e algor´ıtimos quanto dos dados de entrada processados. Por isso, qualidade de dados ´ e um tema relevante, na Ind´ ustria de Informa¸c˜ ao. Dados com erros ou de baixa qualidade, quando processados, levam a resultados igualmente errados e impactam negativamente nos sistemas de apoio ` a decis˜ ao, produzindo consequˆ encias catastr´ oficas tanto em termos econˆ omicos como materiais. Em uma era na qual o volume de dados ´ e extraordin´ ario e cada vez mais crescente, a qualidade de dados parece ser ainda um grande desafio a ser superado (WAND; WANG, 1996).
De acordo com Redman (1998), um n´ umero de cita¸c˜ oes crescentes sobre o impacto negativo da qualidade pobre de dados na ind´ ustria de informa¸c˜ ao tˆ em aparecido tanto na literatura especializada como nos meios de comunica¸c˜ ao, em geral. Por exemplo, Wand e Wang (1996) citam um relat´ orio divulgado por um instituto de pesquisa ligado
`
a Ind´ ustria da Informa¸c˜ ao, concluindo que 60% de 500 empresas pesquisadas relataram
problemas com qualidade de dados. Citam ainda uma reportagem do ”The Wall Street
Journal”, dizendo que, embora o grande volume de dados acumulados nos armaz´ ens de
dados corporativos tenha um enorme potencial de gera¸c˜ ao de informa¸c˜ ao, o problema ´ e
que esses armaz´ ens possuem dados repletos de erros e inconsistˆ encias, que os impede de
serem usados com proveito.
Strong, Lee e Wang (1997) citam que o sistema de registros criminais dos Estados Unidos apresentou taxas de erro da ordem de 50% a 80%, exibindo problemas como falta de acur´ acia, incompletude ou ambiguidade. Segundo esses autores, o impacto social e econˆ omico da qualidade pobre de dados foi estimado na ordem de bilh˜ oes de d´ olares.
Duvier et al. (2018) citam ainda o caso de uma grande companhia de alimentos que perdeu um contrato de milh˜ oes de d´ olares com uma grande rede americana de fast-food porque os dados sobre contamina¸c˜ ao de bact´ erias n˜ ao foram apropriadamente registra- dos. Ainda citam dados de uma pesquisa, conduzida em 2006 por um Instituto ligado ` a Ind´ ustria de Informa¸c˜ ao, revelando que 75% dos analistas entrevistados achavam que os dados com os quais lidavam cotidianamente n˜ ao eram confi´ aveis e que decis˜ oes errˆ oneas es- tavam sendo tomadas devido ` a falta da qualidade daqueles dados. Dessa forma, coloca-se a pergunta de como o problema da falta de qualidade com os dados pode ser resolvido.
Em seu artigo, Pipino, Lee e Wang (2002) sustentam que a resposta sobre o qu˜ ao boa
´ e a qualidade dos dados em uma organiza¸c˜ ao passa pela defini¸c˜ ao de uma metodologia e elabora¸c˜ ao de uma m´ etrica sobre qualidade de dados utiliz´ avel, mas a maioria das medidas usadas pela Ind´ ustria de Informa¸c˜ ao, na pr´ atica, s˜ ao desenvolvidas de forma ”ad hoc”, apenas para resolver problemas espec´ıficos, n˜ ao parecendo haver uma sistematiza¸c˜ ao e padroniza¸c˜ ao sobre o assunto. Tayi e Ballou (1998) citam algumas dimens˜ oes para medi¸c˜ ao qualidade de dados como, acur´ acia, completividade, consistˆ encia e independˆ encia temporal e apontam algumas solu¸c˜ oes para o desenvolvimento de uma sistematiza¸c˜ ao da resolu¸c˜ ao do problema da qualidade de dados.
Redman (1998) faz uma lista sucinta de alguns problemas encontrados com qualidade de dados:
Problemas relacionados com o modelo de representa¸c˜ ao do mundo real em modelo de dados, tais como relevˆ ancia, granularidade e detalhes do modelo;
Problemas relacionados com valores dos dados, tais como acur´ acia, consistˆ encia e completividade;
Problemas relacionados com formatos dos dados;
Outros problemas relacionados com seguran¸ca, privacidade, etc.
Redman (1998) aponta para a importˆ ancia de um padr˜ ao de medi¸c˜ ao para avalia¸c˜ ao da qualidade de dados salientando que “..aquilo que n˜ ao ´ e medido n˜ ao pode ser gerenciado...”.
A Qualidade de Dados afeta uma disciplina espec´ıfica de processamento de dados dentro da Ind´ ustria de Informa¸c˜ ao, tendo impacto direto sobre a gera¸c˜ ao de conhecimento, a saber, a disciplina de Minera¸c˜ ao de Dados (do inglˆ es Data Mining ). Por limita¸c˜ ao de escopo, esse trabalho ir´ a se focar nas quest˜ oes relativas ` a qualidade de dados em tarefas de Minera¸c˜ ao de Dados, mais especificamente aquelas associadas ` a predi¸c˜ ao- regress˜ ao e classifica¸c˜ ao de dados.
Antes de se prosseguir ´ e necess´ ario definir, sucintamente, o que se entende por Dado, Informa¸c˜ ao e Conhecimento.
1.2 Dado, Informa¸ c˜ ao e Conhecimento: uma defini¸ c˜ ao sucinta
Dado ´ e uma representa¸c˜ ao simb´ olica de algum objeto do mundo real ou abstrato, que pode ser quantificado ou mapeado para algum conjunto de s´ımbolos. Por exemplo, o livro
”Les Miserables”, de Victor Hugo, ´ e um dado, porque possui letras, n´ umeros, pontos, etc.; seu conte´ udo abstrato pode ser mapeado para s´ımbolos alfa-num´ ericos. Uma foto tamb´ em ´ e um dado, pois pode ser digitalizada e reduzida a um conjunto de s´ımbolos bin´ arios, que podem ser manipulados por um computador. O raio de uma circunferˆ encia, que ´ e um conceito abstrato, tamb´ em ´ e um dado, pois ´ e simbolizado em n´ umeros decimais para representar uma propriedade daquela entidade. Por´ em, h´ a de se ressalvar que dado
´ e diferente de informa¸c˜ ao (SETZER; SILVA, 2005).
Um dado transmitido de uma fonte a um receptor s´ o se torna informa¸c˜ ao se aquele
puder compreender o que lhe foi transmitido. Para que dado seja considerado informa¸c˜ ao,
ele deve estar ligado a um conceito intelig´ıvel e previamente apreendido pelo receptor dos
dados. Se, por exemplo, o receptor dos dados s´ o entende chinˆ es, um texto em portuguˆ es
n˜ ao lhe fornece informa¸c˜ ao alguma, pois ele n˜ ao conseguir´ a decodificar os s´ımbolos,- neste
caso, os caracteres latinos e as palavras em portuguˆ es- de modo que lhe fa¸ca algum sentido
ou lhe transmita alguma informa¸c˜ ao (SETZER; SILVA, 2005).
Conhecimento, por sua vez, est´ a ligado ` a pr´ atica. ´ E poss´ıvel a um praticante saber o nome de todos os golpes aplicados no judˆ o(dado e informa¸c˜ ao), saber todas as suas regras, mas somente a pr´ atica daquela arte marcial determina se aquele aluno realmente a conhece (SETZER; SILVA, 2005).
Dadas essas breves defini¸c˜ oes, o pr´ oximo passo consiste em se descrever o processo de Minera¸c˜ ao de Dados, para entender como este ´ e afetado pelo problema da qualidade de dados.
1.3 O Processo de Minera¸ c˜ ao de Dados
Fayyad, Piatetsky-Shapiro e Smyth (1996) usam o termo Knowledge Discovery in Database(KDD)(Descoberta de Conhecimento em Banco de Dados) para se referirem ao processo de descoberta de conhecimento que se obt´ em ao se explorar um reposit´ orio de dados com ferramentas anal´ıticas e outras t´ ecnicas. Esse ´ e um termo frequentemente usado na Ind´ ustria de Informa¸c˜ ao (MCCUE, 2014).
A Minera¸c˜ ao de Dados ´ e uma das disciplinas dentro de KDD e consiste na extra¸c˜ ao e an´ alise de um conjunto de dados estruturados(como aqueles provenientes de tabelas ou esquemas de dados relacionais) ou n˜ ao estruturados(como aqueles provenientes de fluxo de textos da internet,imagens, sons), visando a obten¸c˜ ao de conhecimento pela descoberta de padr˜ oes de agrupamento, associa¸c˜ oes, previs˜ oes ou detec¸c˜ ao de anomalias (KURGAN L.A; MUSILEK, 2006),(FAYYAD et al., 1996),(SILVA; PERES; BOSCARIOLI, 2016).
A figura 1 ilustra o processo, sub-dividido nas fases de defini¸c˜ ao do problema, sele¸c˜ ao
de dados, pr´ e-processamento, tarefas de minera¸c˜ ao, valida¸c˜ ao do modelo e apresenta¸c˜ ao de
resultados. Mais adiante, na se¸c˜ ao 2, falar-se-´ a um pouco mais sobre tarefas de minera¸c˜ ao.
Figura 1: Processo de Minera¸c˜ ao de Dados
Fonte: Adaptado de CASTRO e FERRARI (2016), p-6.
Na sequˆ encia, discute-se um pouco mais sobre cada uma dessas fases.
1.3.1 Fase de Defini¸ c˜ ao do Problema e Sele¸ c˜ ao de Dados
Durante a fase de defini¸c˜ ao do problema, as expectativas e o escopo do projeto s˜ ao alinhados sob a perspectiva do neg´ ocio e as fontes de dados s˜ ao identificadas. Uma primeira an´ alise estat´ıstica descritiva ´ e efetuada com o objetivo de explorar os dados, verificando se existem problemas com sua qualidade. Nesse est´ agio, define-se quais tarefas de Minera¸c˜ ao ser˜ ao empregadas e quais algoritmos ser˜ ao usados para atacar o problema sob investiga¸c˜ ao (SILVA; PERES; BOSCARIOLI, 2016),(HAN; KAMBER; PEI, 2011), (FAYYAD et al., 1996).
Nessa fase, os dados s˜ ao identificados e mapeados e os atributos relevantes ao pro- blema, selecionados e organizados. Os atributos podem ser classificados como categ´ oricos ou num´ ericos o que ´ e importante na defini¸c˜ ao de quais algoritmos poder˜ ao ser usados para resolver o problema, j´ a que muitos algoritmos de Minera¸c˜ ao de Dados s´ o trabalham com dados num´ ericos, ao passo que outros, somente com dados categ´ oricos (SILVA; PERES;
BOSCARIOLI, 2016),(TAN; STEINBACH; KUMAR, 2009).
Aqui, entende-se por atributo o subconjunto de dados que qualifica alguma entidade
modelando um objeto concreto ou abstrato. Por exemplo, ao se estudar um conjunto
de entidade denominada ”Clientes”, composta de v´ arias entidades do tipo ”Cliente”, ´ e
poss´ıvel selecionar alguns atributos qualificadores desta ´ ultima entidade, como por exem-
plo, sexo, idade, o nome, etc. O atributo qualificador ´ e incorporado conforme a modelagem do problema que se pretende estudar assim o exige. Por exemplo, pode n˜ ao ser relevante para a resolu¸c˜ ao do problema saber o valor do atributo ”time do cora¸c˜ ao”, indicando o time de futebol que o cliente torce, mas dependendo do problema, esse atributo pode ser relevante e at´ e mesmo imprescind´ıvel (SETZER; SILVA, 2005),(SILBERSCHATZ;
KORTH; SUDARSHAN, 2011),(RAMAKRISHNAN; GEHRKE, 2008).
Um atributo ´ e sempre restrito a um dom´ınio particular, caracterizando o tipo de informa¸c˜ ao que pode ser armazenada nele. Assim, pode-se ter um dado cujo dom´ınio con- sista apenas de valores do tipo booleano, num´ erico ou uma cadeia de caracteres (strings).
O dom´ınio ent˜ ao fornece informa¸c˜ ao sobre o tipo de dado armazenado e sobre os valores permitidos para aquele dado, limitando tamb´ em seu tipo (RAMAKRISHNAN; GEHRKE, 2008),(SILBERSCHATZ; KORTH; SUDARSHAN, 2011).
Os dados podem estar armazenados de forma organizada, separados em dom´ınios e agrupados em tabelas; nesse caso, tem-se dados estruturados. Um exemplo t´ıpico seria o de uma tabela com informa¸c˜ oes sobre clientes em um banco de dados relacional. Nesse tipo de arranjo ´ e f´ acil recuperar os dados usando comandos SQL (do inglˆ es, Search Query Language) ou linguagens procedurais (SILBERSCHATZ; KORTH; SUDARSHAN, 2011).
Os dados podem ainda estar estruturados de forma menos r´ıgida, mas ainda com algum grau de organiza¸c˜ ao, facilitando a sua busca e recupera¸c˜ ao, como, por exemplo, dados em documentos XML (do inglˆ es, eXtensible Markup Language ) ou formato JSON
1, que podem ser recuperados com alguma rotina de processamento. Por´ em, em geral, os dados encontrados em aplica¸c˜ oes pr´ aticas, em geral, s˜ ao n˜ ao estruturados. Os exemplos t´ıpicos s˜ ao as informa¸c˜ oes em um texto ou postagens em redes sociais como Twitter ou Facebook, dados de ´ audio, v´ıdeo, dados de registros de aplica¸c˜ oes(logs), etc (CASTRO;
FERRARI, 2016),(SILVA; PERES; BOSCARIOLI, 2016).
Na fase de sele¸c˜ ao e obten¸c˜ ao de dados, ´ e poss´ıvel se ter uma ideia das integra¸c˜ oes de dados necess´ arias e dos principais problemas encontrados com estes, os quais dever˜ ao ser resolvidos antes de se prosseguir para as fases seguintes do processo. Tamb´ em nessa
1
Java Script Object Notation ´ e uma estrutura de dados que comporta o par “chave:valor”. Valor pode
receber outros tipos de objetos, como listas, arrays e mesmo outras estruturas JSON aninhadas. Por ser
muito flex´ıvel, tamb´ em pode se tornar uma estrutura muito complexa(JSONORG, 2009).
fase, o tamanho da base ´ e estimado, obtendo-se uma ideia mais clara dos requisitos computacionais e de infraestrutura, necess´ arios para o processamento (SILVA; PERES;
BOSCARIOLI, 2016),(HAN; KAMBER; PEI, 2011).
1.3.2 Fase de Pr´ e- processamento
A fase de pr´ e-processamento ´ e a que demanda a maior parte do esfor¸co do projeto de KDD. Os dados s˜ ao preparados de modo a tornar o processo de an´ alise e minera¸c˜ ao mais eficiente e eficaz. Segundo McCue (2014), esta fase corresponde a cerca de 80 % do esfor¸co empregado no processo de minera¸c˜ ao. Os resultados obtidos aqui afetam diretamente a acur´ acia de predi¸c˜ ao dos modelos empregados nas fases seguintes, da´ı sua particular importˆ ancia.
Analisando modelos de processos em Minera¸c˜ ao de Dados, usados tanto na ind´ ustria de informa¸c˜ ao como em pesquisas acadˆ emicas, e baseados em trabalhos de outros pes- quisadores, Kurgan L.A; Musilek (2006) chegaram ` a mesma conclus˜ ao, isto ´ e, de que o est´ agio de pr´ e-processamento consome a maior parte do esfor¸co em um projeto de KDD, devendo ser cuidadosamente planejado e executado para que a acur´ acia dos resultados n˜ ao seja comprometida ao final do projeto.
Durante o pr´ e-processamento, os dados devem passar por procedimento de limpeza, que consiste na remo¸c˜ ao de ru´ıdos ou outliers; limpeza de inconsistˆ encias, isto ´ e, remo¸c˜ ao de dados cujos valores estejam fora do dom´ınio ou apresentem grande discrepˆ ancia em rela¸c˜ ao aos dados esperados para o atributo. Valores ausentes devem ser suprimidos ou receber algum tipo de atribui¸c˜ ao, como, por exemplo atribui¸c˜ ao de uma constante ou valor da m´ edia dos valores do atributo, moda ou mesmo o valor dos vizinhos mais pr´ oximos.
Esse procedimento pode ser necess´ ario porque alguns algoritmos n˜ ao processam se houver valores ausentes. Atributos redundantes ou pouco expressivos para an´ alise podem ser removidos, reduzindo assim tamanho da base. Tamb´ em, nessa fase, os dados podem passar por uma integra¸c˜ ao, que consiste na combina¸c˜ ao de dados obtidos de m´ ultiplas fontes, identificadas na fase inicial de planejamento. Os dados podem tamb´ em passar por um processo de transforma¸c˜ ao ou normaliza¸c˜ ao, no qual podem ser formatados para uma nova forma mais conveniente para processamento ou serem padronizados para uso.
Os dados podem ser discretizados, possibilitando sua utiliza¸c˜ ao por algoritmos que s´ o
trabalham com dados nominais ou categ´ oricos (CASTRO; FERRARI, 2016),(FAYYAD et al., 1996).
A figura 2 sintetiza a discuss˜ ao do par´ agrafo anterior sobre as principais tarefas da fase de pr´ e-processamento.
Figura 2: Tarefas da fase de pr´ e-processamento dos dados
Fonte:Adaptado de CASTRO e FERRARI (2016)
Conforme dito anteriormente, os dados podem originar-se de m´ ultiplas fontes hete- rogˆ eneas e precisam ser normalizados antes de ser analisados. Al´ em disso, dados pobres e de baixa qualidade - afetados por ru´ıdos, anomalias, inconsistˆ encias, ausˆ encias de valores e duplicidades - podem conduzir a um resultado de baixa qualidade ao final do processo, sem contar o efeito negativo no tempo de processamento ou degrada¸c˜ ao de performance do algoritmo empregado. Na fase de pr´ e-processamento, portanto, os dados s˜ ao homoge- neizados, visando maior acur´ acia nos resultados da an´ alise (HAN; KAMBER; PEI, 2011).
1.3.3 Fase de Minera¸ c˜ ao e Valida¸ c˜ ao de Resultados
Durante a fase de minera¸c˜ ao, os dados j´ a saneados s˜ ao explorados com o uso de um
ou mais algoritmos, e informa¸c˜ ao ´ e extra´ıda para gerar conhecimento. Finalmente, na
fase de valida¸c˜ ao, os resultados s˜ ao avaliados para averiguar se o conhecimento gerado foi ´ util ou n˜ ao, se as descobertas foram ou n˜ ao triviais e se os resultados est˜ ao dentro da precis˜ ao aceit´ avel e definida previamente na fase inicial do projeto (CASTRO; FERRARI, 2016),(SILVA; PERES; BOSCARIOLI, 2016).
1.4 Breve Revis˜ ao da Literatura Sobre Qualidade de Dados
Os livros textos sobre Minera¸c˜ ao de Dados e Descoberta de Conhecimento em Dados, costumam dedicar bastante espa¸co ao tema sobre verifica¸c˜ ao e explora¸c˜ ao dos dados, listando os principais problemas encontrados na pr´ atica envolvendo qualidade. Tamb´ em apresentam t´ ecnicas de estat´ıstica descritiva e param´ etrica e as poss´ıveis solu¸c˜ oes de contorno empregadas para minimizar o problema (CASTRO; FERRARI, 2016; SILVA;
PERES; BOSCARIOLI, 2016; TAN; STEINBACH; KUMAR, 2009; HAN; KAMBER;
PEI, 2011).
Por outro lado, na literatura acadˆ emica e especializada, encontram-se discuss˜ oes so- bre governan¸ca, necessidade de padroniza¸c˜ ao de medidas avaliativas para qualidade de dados e as dificuldades durante a fase de pr´ e-processamento (WANG; STRONG, 1996;
FAYYAD et al., 1996; TAYI; BALLOU, 1998; PIPINO; LEE; WANG, 2002). Todavia, n˜ ao foi poss´ıvel encontrar- durante o levantamento desta pesquisa - algum modelo gen´ erico para mensurar a qualidade do conjunto dos dados de entrada, associando-a uma medida quantitativa e alguns autores, como por exemplo Tee et al. (2007), citam essa dificuldade.
De fato, durante a elabora¸c˜ ao deste trabalho, em pesquisa bibliogr´ afica feita nas prin-
cipais bases de dados de publica¸c˜ oes e artigos sobre Minera¸c˜ ao de Dados e Descoberta de
Conhecimento em Base de Dados (como, por exemplo, IEEE e ACM ), artigos em revistas
e publica¸c˜ oes sobre Banco de Dados, Inteligˆ encia Artificial, usando como termos-chave de
busca as palavras em inglˆ es data quality, data quality framework, data mining governance,
data quality preprocessing,data quality assurance, data shape, data prifiling, cobrindo um
per´ıodo que vai de 1986 at´ e o momento em que este trabalho foi escrito, foram encontradas
v´ arias discuss˜ oes sobre necessidade de padroniza¸c˜ ao dos processos de KDD, defendendo
a unifica¸c˜ ao dos modelos existentes (BRACKETT; EARLEY, 2009),(CHAPMAN et al.,
2000),(FAYYAD et al., 1996),(HAN; KAMBER; PEI, 2011),(KURGAN L.A; MUSILEK,
2006),(WANG; KON, 1993),(WIRTH; HIPP, 2000).
Entretanto, n˜ ao se encontrou referˆ encias sobre padr˜ oes de aferi¸c˜ ao da qualidade dos dados de entrada ou algum m´ etodo para aferir tal qualidade no processo de KDD.
Para auxiliar os analistas de dados na tarefa de extra¸c˜ ao e limpeza de dados, a Ind´ ustria de Informa¸c˜ ao desenvolveu algumas ferramentas ´ uteis, entre elas, as ferramentas de ETL (Extraction, Transformation, Loading ), como se ver´ a a seguir. Essas ferramentas podem ser usadas para melhorar a qualidade dos dados e fazer uma explora¸c˜ ao inicial dos mesmos.
1.4.1 ETL:Ferramentas de Extra¸ c˜ ao, Transforma¸ c˜ ao e Carga de Dados
Existem algumas ferramentas de Extra¸c˜ ao, Transforma¸c˜ ao e Carga de dados (do inlglˆ es, ETL- Extraction, Transformation and Loading ) que permitem a manipula¸c˜ ao e limpeza dos dados de entrada, usando interface gr´ afica. Com elas, ´ e poss´ıvel especificar as fontes dos dados de entrada, as integra¸c˜ oes, o destino e a transforma¸c˜ ao dos dados.
Embora algumas dessas ferramentas sejam bem flex´ıveis, ainda assim ´ e necess´ ario, em al- guns casos, escrever scripts espec´ıficos para realizar todas as transforma¸c˜ oes necess´ arias.
Algumas ferramentas apresentam indicadores de estat´ıstica descritiva, onde se pode obter alguma ideia preliminar sobre qualidade dos dados (HAN; KAMBER; PEI, 2011),(TAN;
STEINBACH; KUMAR, 2009).
Nesse trabalho, foram utilizadas algumas ferramentas de ETL e ajuste de dados (do inglˆ es, Data Profiling) para averiguar funcionalidades de an´ alise e medi¸c˜ ao da qualidade dos dados. Os crit´ erios para sele¸c˜ ao dessas ferramentas foram: disponibilidade de uso em ambientes Linux e ou Windows x86-64, o fato de serem softwares de fonte aberta, pos- suindo funcionalidade de an´ alise de estat´ıstica descritiva. Procurou-se tamb´ em identificar algum referencial quantitativo para medi¸c˜ ao de qualidade de dados. Avaliou-se o Ta- lend Data Preparation (Talend Inc, 2017), RapidMiner Studio (Rapid Miner Co., 2017), Metanome (Metanome Project, 2017), Weka (The University of Waikato,Hamilton, New Zeland, 2008) e IBM Watson Analytics (IBM, 2017).
O Talend e o RapidMiner s˜ ao ferramentas de ETL de Fonte Aberta, possuindo tamb´ em
a vers˜ ao comercial com mais funcionalidades. Ambas permitem a extra¸c˜ ao de dados de
uma ou mais fontes e possuem funcionalidades de limpeza dos mesmos durante o processo
dos atributos atrav´ es do sum´ ario estat´ıstico e de histogramas (Talend Inc, 2017), (Rapid Miner Co., 2017).
As figuras 3a e 3b abaixo mostram as telas do Talend e do Rapid Miner. Foi usado, como exemplo, a base de dados ”Mushroom”da UCI(LICHMAN, 2013),(LINCOFF, 1989).
A tela do Talend mostra um histograma de distribui¸c˜ ao de frequˆ encias para uma das vari´ aveis. A tela do RapidMiner mostra um gr´ afico de dispers˜ ao em 3D para as vari´ aveis cap shape, odor nos eixos x, y respectivamente e type, no eixo z.
Figura 3: Telas do Talend e Rapid Miner
(a) Talend (b) RapidMiner
A ferramenta Metanome ´ e um software de c´ odigo aberto usado para ajuste de dados.
De maneira semelhante ` as ferramentas Talend e RapidMiner, tamb´ em oferece sum´ arios estat´ısticos e acrescenta o c´ alculo de entropia
2para o atributo. N˜ ao exibe histogramas ou gr´ aficos e tamb´ em n˜ ao possui interface para manipula¸c˜ ao de dados. Apenas faz uma descri¸c˜ ao geral dos dados (Metanome Project, 2017). A figura 4 mostra um exemplo da tela de sa´ıda do Metanome.
O Weka ´ e um ambiente de an´ alise para tarefas de minera¸c˜ ao e aprendizagem de m´ aquina, desenvolvido em Java e de c´ odigo aberto. Implementa os principais algoritmos usados em Aprendizagem de M´ aquina e Redes Neurais. Possui interface para carga de dados e para visualiza¸c˜ ao dos mesmos. Tamb´ em exibe sum´ ario estat´ıstico e diagramas gr´ aficos. No Weka, os dados devem ser carregados no formato ’arff’( do inglˆ es, Attribute- Related File Format), embora seja tamb´ em poss´ıvel usar dados separados por v´ırgulas (formato .csv) e usar os recursos da pr´ opria ferramenta para transform´ a-los no formato arff. Os dados s˜ ao armazenados em um arquivo texto ASCII, delimitados por v´ırgulas.
2
Esse conceito ser´ a discutido com detalhes na se¸ c˜ ao 2.1.7
Figura 4: Tela do Metanome
Os metadados est˜ ao descritos nesse arquivo, que ´ e dividido em duas partes: header e data.
A se¸c˜ ao de header cont´ em o nome da rela¸c˜ ao ou tabela de dados, uma lista de atributos, especificando seu nome e tipo; opcionalmente, essa lista pode conter os valores permitidos para o atributo. A se¸c˜ ao Data, cont´ em os dados, separadas por v´ırgulas (The University of Waikato,Hamilton, New Zeland, 2008),(PAYNTER, 2008).
O Weka ´ e mais r´ıgido na carga dos dados do que as ferramentas de ETL mencionadas anteriormente. Se o formato do arquivo de entrada n˜ ao for correto, o Weka n˜ ao permite a carga de dados. ´ E necess´ ario um trabalho pr´ evio de limpeza antes da carga, mas este
´ e compensado pela facilidade nas an´ alises estat´ısticas oferecidas posteriormente ` a carga.
Atributos onde os valores s˜ ao ausentes tˆ em de ser explicitamente indicados antes da carga, normalmente com o uso do s´ımbolo ’ ?’. Se o dado no atributo estiver vazio ou possuir algum outro tipo de s´ımbolo, indicando tratar-se de um dado ausente, deve-se fazer uma transforma¸c˜ ao do dado, substituindo-o por ’ ?’ (The University of Waikato,Hamilton, New Zeland, 2008),(PAYNTER, 2008). A figura 5 mostra a tela de pr´ e processamento do Weka.
A ferramenta da IBM - IBM Analytics
®- apresenta uma inova¸c˜ ao em rela¸c˜ ao ` as de-
mais, mencionadas anteriormente. Al´ em de permitir carga de dados e apresentar sum´ arios
estat´ısticos, tamb´ em atribui uma nota ` a qualidade de cada atributo e uma nota geral ao
conjunto dos dados, que consiste na m´ edia das notas dos atributos. Atributos que possuem
valores em branco s˜ ao considerados como valores ausentes, mas se houver algum outro
s´ımbolo denotando a ausˆ encia de dados - como por exemplo, um sinal de interroga¸c˜ ao,
Figura 5: Weka
ou mesmo ”NA- a ferramenta n˜ ao tem como fazer a distin¸c˜ ao. Cabe ao analista indicar explicitamente os s´ımbolos que correspondem aos valores considerados ausentes. Uma vez indicado quais s˜ ao os dados faltantes, a ferramenta faz uso dessa informa¸c˜ ao, junta- mente com dados sobre assimetria (skewness), entropia, relevˆ ancia do atributo, presen¸ca de anomalias/outliers para atribui¸c˜ ao das notas de qualidade dos atributos
3(STACKER, 2015).
Por tratar-se de uma ferramenta propriet´ aria, os crit´ erios de atribui¸c˜ ao de notas e os c´ alculos n˜ ao s˜ ao divulgados. Por exemplo, Stacker (2015) menciona o grau de influˆ encia dos atributos, mas n˜ ao explica que tipo de an´ alise ´ e feita (por exemplo, como a entropia ´ e usada para medi¸c˜ ao da qualidade ou ainda, qual o m´ etodo para determinar a importˆ ancia do atributo, como por exemplo an´ alise de componentes principais ou outro m´ etodo mul- tivariado?) (STACKER, 2015). Na se¸c˜ ao 3 uma tela de sa´ıda do Watson ´ e exibida como exemplo.
1.4.2 O Problema
Wirth e Hipp (2000) notam que a ausˆ encia de um referencial padr˜ ao para execu¸c˜ ao de projetos de Minera¸c˜ ao de Dados condiciona o sucesso ou fracasso do resultado ao conhecimento ou intui¸c˜ ao individual do analista ou ao talento da equipe. Isto impede que projetos de minera¸c˜ ao sejam reprodut´ıveis e torna dif´ıcil sua absor¸c˜ ao por analistas
3
As defini¸c˜ oes dos termos entropia e assimetria(skewness ) ser˜ ao vistas nas se¸ c˜ oes 2.1.7 e 2.3.3 no
pr´ oximo cap´ıtulo
mais novos. Dessa forma ´ e fundamental a ado¸c˜ ao de uma metodologia padr˜ ao que torne o processo reprodut´ıvel e independente da habilidade especial de algum indiv´ıduo e isso se aplica tamb´ em ` a avalia¸c˜ ao da qualidade de dados.
Por outro lado, Pierce (2004) observa que existe uma mudan¸ca de tendˆ encia na Ind´ ustria de Informa¸c˜ ao, na qual os dados come¸cam a ser tratados como um produto de informa¸c˜ ao, com o mesmo status de um produto concreto, sujeito a controles de qua- lidade menos subjetivos, devido ` a importˆ ancia econˆ omica e social que os dados tˆ em.
Aquela autora prop˜ oe a ado¸c˜ ao de uma Matriz de Gerenciamento de Informa¸c˜ ao de Pro- duto (IPM-Information Product Manager) ou matriz de controle dados, na qual as colunas representam os problemas potencias que impactam o produto de informa¸c˜ ao, isto ´ e, os da- dos; as linhas representam os itens de verifica¸c˜ ao ou processos de corre¸c˜ ao usados durante a fase de pr´ e-processamento. Nas c´ elulas, registra-se informa¸c˜ oes qualitativas, num´ ericas ou derivada de alguma f´ ormula, indicando a efetividade do m´ etodo de controle de ve- rifica¸c˜ ao na corre¸c˜ ao ou redu¸c˜ ao do problema de qualidade de dados. Por exemplo, se houver duplica¸c˜ ao de dados e algum m´ etodo de corre¸c˜ ao empregado for capaz de reduzir o problema em 30%, o indicador de qualidade naquela c´ elula receberia um valor de 70%
(WANG; STRONG, 1996),(MADNICK et al., 2009).
O m´ etodo proposto por Pierce (2004) parece remover parcialmente o problema da subjetividade na avalia¸c˜ ao da qualidade de dados e parece ´ util; no entanto, os crit´ erios de problemas de qualidade selecionados e os m´ etodos de averigua¸c˜ ao e checagem parecem depender muito da natureza do problema sendo investigado e da habilidade do analista em selecion´ a-los, a n˜ ao ser que esses problemas e m´ etodos de checagem fa¸cam parte de uma metodologia j´ a consolidada e previamente estabelecida com base em projetos anteriores (PIERCE, 2004).
Wang e Strong (1996), por sua vez, prop˜ oem, alternativamente, um modelo de medi¸c˜ ao
de qualidade com 20 dimens˜ oes - condensadas, originalmente, de 118 - baseado em um
question´ ario com 20 itens, aos quais se atribui notas entre 1 e 9, sendo as notas mais
altas aquelas que tem mais relevˆ ancia para o consumidor final de dados. As 20 dimens˜ oes
est˜ ao divididas em 4 categorias, a saber, intr´ınsica, contextual, representacional e acessi-
bilidade. O question´ ario deve ser respondido pelo “consumidor”dos dados, que pode ser
o analista ou o usu´ ario final do projeto. Os autores tamb´ em ressaltam o alto impacto
social e econˆ omico ocasionado por dados de baixa qualidade e indicam que seu m´ etodo tem sido usado por agˆ encias governamentais dos Estados Unidos e algumas corpora¸c˜ oes, gerando um melhor entendimento das necessidades dos consumidores de dados em rela¸c˜ ao
`
a qualidade dos mesmos. A proposta baseia-se nos m´ etodos desenvolvidos em pesquisas de marketing para determina¸c˜ ao de qualidade de produtos e seu impacto para o consumidor final. Embora o modelo seja muito pr´ atico ao incorporar a vis˜ ao do consumidor final dos dados, minimizando o impacto da vis˜ ao dos pesquisadores ou a vis˜ ao puramente te´ orica, o grande problema parece ser que a resposta ao question´ ario embute uma natureza sub- jetiva, pois quem decide o crit´ erio das notas ´ e o pr´ oprio consumidor final entrevistado, baseado t˜ ao somente naquilo que lhe ´ e mais importante sob o ponto de vista da qualidade (WANG; STRONG, 1996)
Tanto a metodologia proposta por Pierce (2004) quanto a proposta por Wang e Strong (1996) destacam aspectos ´ uteis para avalia¸c˜ ao da qualidade de dados, atenuando os as- pectos subjetivos e tratando os dados como um produto de informa¸c˜ ao. A proposta de Pierce (2004) parece mesmo apontar caminhos para quantifica¸c˜ ao da qualidade de dados, atribuindo nota de avalia¸c˜ ao, ` a medida em que o m´ etodo de corre¸c˜ ao consiga resolver os problemas de qualidade sendo avaliados. Todavia, ´ e importante enfatizar que a corre¸c˜ ao de dados visando a melhora de sua qualidade tem um custo econˆ omico e computacional associado e h´ a que se ponderar esses custos, contrabalan¸cando-os com seus benef´ıcios.
Madnick et al. (2009) apontam que, embora os algoritmos usados em problemas de Minera¸c˜ ao de Dados sejam robustos, em sua grande maioria, determinadas tarefas ou algoritmos s˜ ao muito sens´ıveis ` a qualidade de dados, exigindo que estes sejam tratados com cuidado antes de qualquer processamento (MADNICK et al., 2009).
Mencionou-se anteriormente, na se¸c˜ ao 1.3.2, a importˆ ancia da fase de pr´ e-processamento em projetos de Minera¸c˜ ao de Dados e seu alto impacto, em termos de esfor¸co. As me- todologias propostas por Pierce (2004) ou Wang e Strong (1996) e outras propostas na literatura (MADNICK et al., 2009) parecem encaixar-se bem em modelos de governan¸ca de dados e podem ser aplicados durante todo o ciclo de vida dos dados para assegurar que estes possam produzir informa¸c˜ ao ´ util aos seus consumidores.
N˜ ao obstante, na pr´ atica, o analista de um projeto de Minera¸c˜ ao de Dados depara-
se com algumas dificuldades durante a fase explora¸c˜ ao de dados, sabendo de antem˜ ao
que algumas destas, relacionadas com qualidade, tˆ em impacto negativo sobre algoritmos e tarefas de Minera¸c˜ ao de Dados. O problema, ent˜ ao, consiste em carregar os dados e saber se estes tem qualidade suficiente para serem usados em determinado algoritmo ou se precisam ser ajustados antes da execu¸c˜ ao do modelo. Uma metodologia com crit´ erios de notas de qualidade ´ e extremamente ´ util durante a fase de pr´ e-processamento, sobretudo na sub-fase de explora¸c˜ ao dos dados, pois se os dados forem avaliados como sendo de m´ a qualidade, de acordo com crit´ erio padronizado de avalia¸c˜ ao, ser´ a necess´ ario fazer algum ajuste antes que se passe para as etapas seguintes, evitando erros ou interpreta¸c˜ oes errˆ oneas ao final do processo. Os custos de verifica¸c˜ ao de qualidade de dados nessa fase de pr´ e-processamento, compensam os custos de ter de recome¸car novamente um projeto de minera¸c˜ ao do in´ıcio, justamente porque a m´ a qualidade dos dados acabou gerando resultados igualmente ruins ou totalmente irrelevantes.
1.5 Objetivos
De um modo geral, o problema pode ent˜ ao ser formulado da seguinte maneira:
Como criar um indicador de qualidade de dados, especificamente para tarefas de Minera¸ c˜ ao de Dados, de modo que se possa ter uma avalia¸ c˜ ao quantitativa usando as propriedades dos pr´ oprios dados?
O objetivo geral desse trabalho ´ e propor uma metodologia, que usa ferramentas de estat´ıstica descritiva e inferˆ encia estat´ıstica para quantificar a qualidade de dados, par- tindo de problemas conhecidos na literatura de Minera¸c˜ ao de Dados, de modo a atribuir notas de qualidade ao conjunto de dados, ` a medida que esses problemas forem sendo avaliados. O assunto ´ e extenso, como se ver´ a mais adiante na pr´ oxima se¸c˜ ao. Por isso, o escopo do trabalho ir´ a se restringir ` a avalia¸c˜ ao da qualidade de dados dentro um con- junto de tarefas muito espec´ıfica em Minera¸c˜ ao de Dados, a saber, as tarefas de predi¸c˜ ao, que se subdividem em classifica¸c˜ ao e regress˜ ao, das quais falar-se-´ a com mais detalhes na se¸c˜ ao 2 (CASTRO; FERRARI, 2016),(HAN; KAMBER; PEI, 2011),(SILVA; PERES;
BOSCARIOLI, 2016).
O objetivo mais espec´ıfico do trabalho ´ e o de contribuir com as metodologias e pro-
prepara¸c˜ ao de dados, conforme a metodologia CRISP-DM (CHAPMAN et al., 2000) ou DAMA-DM (BRACKETT; EARLEY, 2009)
4.
A restri¸c˜ ao do escopo ` as tarefas de classifica¸c˜ ao de maneira alguma limita a genera- lidade do trabalho. Pelo contr´ ario, tenta abrir caminho para a discuss˜ ao e inclus˜ ao de outros crit´ erios de avalia¸c˜ ao de dados e sua aplica¸c˜ ao pr´ atica ` a outras tarefas de Minera¸c˜ ao de Dados.
O referencial proposto, sendo aberto e usando t´ ecnicas e crit´ erios bem conhecidos pode ser implementado em ferramentas de an´ alise para automatizar o processo de avalia¸c˜ ao da qualidade de dados.
Na tabela 5 - que pode ser consultada mais adiante, na pr´ oxima sess˜ ao - encontra-se um resumo dos principais problemas de Qualidade de Dados, cobertos em v´ arios livros textos sobre minera¸c˜ ao de dados ou econoetria, como por exemplo (CASTRO; FERRARI, 2016; HAN; KAMBER; PEI, 2011; JOHNSTON, 1971; MADDALA; LAHIRI, 1992; GU- JARATI, 2009). Esses problemas ser˜ ao discutidos na pr´ oxima sess˜ ao, tendo em vista, principalmente, os m´ etodos de detec¸c˜ ao. Para alguns, a solu¸c˜ ao de contorno ´ e sofisticada - como o casos dos problemas associados ` as tarefas de regress˜ ao- e n˜ ao ser´ a tratada em detalhes, no entanto, indicando literatura dispon´ıvel para consulta e referˆ encia.
1.6 Justificativa e Contribui¸ c˜ oes
Um dos grandes problemas encontrados em qualidade de dados e que afeta negativa- mente alguns algoritmos de classifica¸c˜ ao ´ e o problema de valores ausentes em atributos.
Determinados algoritmos n˜ ao rodam diante de valores ausentes, exigindo que se lhes atri- buam algum valor ou que, simplesmente, se eliminem as instˆ ancias com valores ausentes nos atributos. Naturalmente, a simples atribui¸c˜ ao de valores ou a supress˜ ao dos dados n˜ ao s˜ ao procedimentos totalmente impunes, pois uma vez que eles alteram os dados originais ou diminuem o tamanho da amostra, podem influenciar o resultado de execu¸c˜ ao do algo- ritmo, reduzindo a acur´ acia do modelo; obviamente, o impacto depende da quantidade de dados sendo afetados (QUINLAN, 2014),(TAN; STEINBACH; KUMAR, 2009).
4