CRIAC ¸ ˜ AO DE UM INDICADOR DE QUALIDADE DE DADOS PARA PROBLEMAS DE MODELAGEM

(1)

UNIVERSIDADE PRESBITERIANA MACKENZIE PROGRAMA DE P ´ OS-GRADUAC ¸ ˜ AO EM ENGENHARIA EL´ ETRICA E COMPUTAC ¸ ˜ AO

MARCOS FERREIRA

CRIAC ¸ ˜ AO DE UM INDICADOR DE QUALIDADE DE DADOS PARA PROBLEMAS DE MODELAGEM

PREDITIVA

Orientador: Prof. Dr. Leandro Augusto da Silva S˜ ao Paulo

2018

(2)

UNIVERSIDADE PRESBITERIANA MACKENZIE PROGRAMA DE P ´ OS-GRADUAC ¸ ˜ AO EM ENGENHARIA EL´ ETRICA E COMPUTAC ¸ ˜ AO

MARCOS FERREIRA

CRIAC ¸ ˜ AO DE UM INDICADOR DE QUALIDADE DE DADOS PARA PROBLEMAS DE MODELAGEM

PREDITIVA

Disserta¸c˜ ao de Mestrado, apresentada ao Pro- grama de P´ os-Gradua¸c˜ ao em Engenharia El´ etrica e Computa¸c˜ ao da Universidade Presbiteriana Mackenzie como parte dos requisitos parciais para a obten¸c˜ ao do t´ıtulo de Mestre em Engenharia de Computa¸c˜ ao.

Orientador: Prof. Dr. Leandro Augusto da Silva

S˜ ao Paulo

2018

(3)

(4)

(5)

Agradecimentos

Para mim, esta foi a se¸c˜ ao mais dif´ıcil de ser escrita e tamb´ em a mais prazerosa.

A jornada ´ e sempre muito mais agrad´ avel e importante do que a chegada ao destino final e j´ a estou come¸cando a sentir saudades dela. N˜ ao poderia deixar de agradecer a todos que tiveram parte ativa em todo essa ´ ardua caminhada. Tenho de confessar que este trabalho s´ o foi poss´ıvel gra¸cas ` a ajuda, apoio e incentivo de muita gente, a quem tenho d´ıvida eterna de gratid˜ ao. Os erros eventualmente cometidos aqui s˜ ao somente meus.

Em primeiro lugar, agrade¸co muito ` a Deus o privil´ egio de ter escrito e terminado este trabalho. Aos meus pais, por terem sido meus maiores mestres. ` A minha esposa querida, que sempre me incentivou, mesmo nos momentos mais dif´ıceis. Ao meu filho amado, que se privou, com resigna¸c˜ ao, mas com muito brio da presen¸ca do seu pai ocupado du- rante esse longo per´ıodo. Ao Professor Dr. Leandro Augusto da Silva, meu orientador, sempre muito generoso, de quem partiu a ideia original desse trabalho, por seu tempo e dedica¸c˜ ao. Ao apoio recebido pelo MackPesquisa e ` a Universidade Presbiteriana Macken- zie, que me concederam a bolsa para que pudesse terminar esse projeto. Embora tenha ficado pouco tempo nessa maravilhosa institui¸c˜ ao, considero-me um “Mackenzista”por ado¸c˜ ao. ` A CAPES, que tamb´ em concedeu a bolsa, sem a qual, dificilmente conseguiria me manter durante esse tempo. Finalmente, aos professores do curso do Programa de P´ os Gradua¸c˜ ao em Engenharia El´ etrica e Computa¸c˜ ao da Universidade Presbiteriana Macken- zie: ao Professor Dr. Nizam Omar, ao Prof. Dr. Leandro Nunes de Castro Silva, ` a Profa.

Dra. Pollyana Notargiacomo e ao Prof. Dr.Ismar Frango Silveira. Ao sempre sol´ıcito e incans´ avel Yopanan Henrique Roque Rocha. Aos meus colegas do curso de mestrado, pela ajuda sempre despretensiosa e generosa e pela amizade.

Finalmente, aos muitos mestres que tive ao longo da vida, cujos nomes n˜ ao ´ e poss´ıvel citar aqui, somente por falta de espa¸co, mas que moram em um lugar especial dentro do meu cora¸c˜ ao e cujos rostos sempre me vˆ em ` a mente em cada linha que escrevo.

”O homem ´ e uma pris˜ ao em que a alma permanece livre.”

Victor Hugo

(6)

RESUMO

Qualidade de dados ´ e um tema relevante em tarefas de Minera¸c˜ ao de Dados. Resultados errados podem ser obtidos quando se usa um conjunto de dados com qualidade pobre.

Os padr˜ oes de governan¸ca adotados pela comunidade da pr´ atica em Minera¸c˜ ao de Dados s˜ ao gen´ ericos e abstratos e, embora enfatizando a importˆ ancia da tarefa de explora¸c˜ ao do conjunto de dados, n˜ ao fornecem um referencial de avalia¸c˜ ao quantitativa de qualidade de um conjunto de dados. Nesse trabalho, prop˜ oe-se um indicador num´ erico para avalia¸c˜ ao da qualidade de dados, usando as t´ ecnicas de estat´ıstica descritiva, avaliando a qualidade dos dados de uma maneira estruturada. Esse indicador avalia problemas no conjunto de dados, atribuindo notas ponderadas e gera uma m´ edia geral, indicando se ajustamentos devem ser efetuado antes de se prosseguir com as tarefas de minera¸c˜ ao.

Palavras-chave: qualidade de dados, complexidade de dados,governan¸ca,

pr´ e-processamento, data profiling.

(7)

ABSTRACT

Data Quality is a relevant subject in Data Mining Tasks. Wrong Results can be obtained when a poor data quality is selected for the task. Governance Frameworks used curren- tly by the community of practice in Data Mining are very generic and abstract as they should be: though they emphasize the importance of the exploration of the dataset and the related issues with data quality, they don´t supply a complete framework for evalu- ating the data quality. This work proposes a numeric index for data quality evaluation, using Descriptive Statistics tools to quantitatively evaluate data quality in a methodic and structured way. The proposed index evaluates problems with data sample, giving them a weighted score and finally gives an average in order to indicate if further cleansing and adjustment are needed for the dataset before proceed with the Data Mining Tasks.

Key words: data quality, data complexity,data governance, pre processing,

data profiling.

(8)

Sum´ ario

1 INTRODUC ¸ ˜ AO 1

1.1 O Impacto da Qualidade de Dados . . . . 1

1.2 Dado, Informa¸c˜ ao e Conhecimento: uma defini¸c˜ ao sucinta . . . . 3

1.3 O Processo de Minera¸c˜ ao de Dados . . . . 4

1.3.1 Fase de Defini¸c˜ ao do Problema e Sele¸c˜ ao de Dados . . . . 5

1.3.2 Fase de Pr´ e- processamento . . . . 7

1.3.3 Fase de Minera¸c˜ ao e Valida¸c˜ ao de Resultados . . . . 8

1.4 Breve Revis˜ ao da Literatura Sobre Qualidade de Dados . . . . 9

1.4.1 ETL:Ferramentas de Extra¸c˜ ao, Transforma¸c˜ ao e Carga de Dados . . 10

1.4.2 O Problema . . . . 13

1.5 Objetivos . . . . 16

1.6 Justificativa e Contribui¸c˜ oes . . . . 17

1.7 Estrutura . . . . 18

2 REFERENCIAL TE ´ ORICO 20 2.1 Problemas de Qualidade de Dados . . . . 21

2.1.1 Incompletude . . . . 21

2.1.2 Inconsistˆ encia . . . . 24

2.1.3 Anomalia (Outlier ) . . . . 25

2.1.4 Ru´ıdo . . . . 28

Encaixotamento: . . . . 29

T´ ecnicas de Agrupamento de Dados: . . . . 30

T´ ecnicas de Aproxima¸c˜ ao por fun¸c˜ oes: . . . . 31

2.1.5 Redundˆ ancia de Dados . . . . 31

2.1.6 Atributos Correlacionados entre si ou com Valores Constantes . . . 32

2.1.7 Redu¸c˜ ao de Dados . . . . 33

Compress˜ ao de Atributos . . . . 36

Sele¸c˜ ao de Atributos (Feature Selection ): . . . . 40

2.1.8 Problemas Associados ` a Tarefas de Regress˜ ao . . . . 52

O modelo de Regress˜ ao Linear: . . . . 52

Heterocedasticidade: . . . . 55

(9)

2.2 Transforma¸c˜ ao de Dados . . . . 69

2.2.1 Padroniza¸c˜ ao de Dados . . . . 70

2.2.2 Normaliza¸c˜ ao da Base de Dados . . . . 70

2.2.3 Discretiza¸c˜ ao de dados . . . . 71

2.3 T´ ecnicas de An´ alise de Qualidade de Dados . . . . 74

2.3.1 Distribui¸c˜ ao de Frequˆ encia . . . . 74

2.3.2 Visualiza¸c˜ ao de Dados . . . . 77

2.3.3 Medidas de Resumo de Dados . . . . 77

Medidas de Tendˆ encia Central: . . . . 77

Medidas de Dispers˜ ao . . . . 79

Medidas de Forma: . . . . 81

Medidas de Posi¸c˜ ao Relativa: . . . . 83

Medidas de Associa¸c˜ ao . . . . 85

2.4 Modelos de Governan¸ca e Processos em KDD . . . . 87

2.4.1 CRSIP-DM . . . . 88

2.4.2 DAMA-DMBOK . . . . 92

2.4.3 Outros Modelos de Governan¸ca e Qualidade de Dados . . . . 96

2.5 Atribui¸c˜ ao de Notas ` a Qualidade de Atributos e Dados . . . . 98

3 METODOLOGIA 101 3.1 Proposta de Trabalho . . . 101

3.2 A Base de Dados da UCI . . . 101

3.2.1 Base de Dados Iris . . . 101

3.2.2 Base de Dados Mushroom . . . 103

3.2.3 Base de Dados Arrhythmia . . . 105

3.3 Linguagem R e Python . . . 106

3.4 Referencial de Trabalho . . . 107

3.4.1 Crit´ erios Aplicados aos Atributos, Individualmente . . . 109

3.4.2 Crit´ erios Espec´ıficos . . . 111

4 AN ´ ALISE DE DADOS E RESULTADOS 115 4.1 Experimento 1: Base de Dados Iris . . . 115

Descri¸c˜ ao Geral: . . . 115

Viola¸c˜ ao de Dom´ınio e Anomalias: . . . 117

(10)

Assimetria: . . . 121

Relevˆ ancia dos Atributos: . . . 122

Crit´ erios Espec´ıficos: . . . 123

4.2 Experimento 2: Base de Mushroom . . . 128

Dados Ausentes: . . . 129

Viola¸c˜ ao do Dom´ınio: . . . 131

Relevˆ ancia dos Atributos: . . . 131

Notas de Crit´ erios Espec´ıficos: . . . 134

4.3 Experimento 3: Base de Dados Arrhythmia . . . 136

Valores Ausentes: . . . 136

Viola¸c˜ ao de Dom´ınio: . . . 137

Anomalias: . . . 138

Assimetria (Skewness): . . . 138

Relevˆ ancia dos atributos: . . . 138

Notas de Crit´ erios Espec´ıficos: . . . 139

5 CONSIDERAC ¸ ˜ OES FINAIS 143 5.1 Pr´ oximos Passos . . . 144

REFERˆ ENCIAS BIBLIOGR ´ AFICAS 153 A ANEXOS 154 A.1 Autovetores e Autovalores . . . 154

A.2 Algoritmo AVF . . . 157

A.3 Algoritmo para o C´ alculo de Frequˆ encia Acumulada . . . 157

A.4 Algoritmo para C´ alculo dos Indicadores de Qualidade . . . 161

A.5 Base de Dados Arrhythmia: Atributos . . . 162

A.6 Base de Dados Arrhithmya: Notas . . . 164

A.6.1 Anomalias . . . 164

A.6.2 Assimetria . . . 167

A.6.3 Relevˆ ancia dos Atributos . . . 170

(11)

Lista de Figuras

1 Processo de Minera¸c˜ ao de Dados . . . . 5

2 Tarefas da fase de pr´ e-processamento dos dados . . . . 8

3 Telas do Talend e Rapid Miner . . . . 11

4 Tela do Metanome . . . . 12

5 Weka . . . . 13

6 Principais tarefas em Minera¸c˜ ao de Dados . . . . 20

7 Raz˜ ao da ´ area de uma circunferˆ encia e um quadrado . . . . 34

8 Esfera inscrita em um cubo:raz˜ ao entre volumes . . . . 34

9 Raz˜ ao entre ρ(d) =

_V^V_(C)^(S)

. . . . 35

10 Alguns m´ etodos de Redu¸c˜ ao de Dimensionalidade . . . . 36

11 Entropia de uma vari´ avel discreta X, que assume dois valores . . . . 46

12 Diagrama de Venn, ilustrando as rela¸c˜ oes entre ganho de informa¸c˜ ao e entropia entre atibutos X e Y . . . . 49

13 Adaptado de Maddalla . . . . 58

14 N˜ ao existˆ encia de Multicolinearidade entre as vari´ aveis x

1

e x

1

. . . . 60

15 Multicolinearidade perfeita entre x

₁

e x

₂

. . . . 61

16 Forte colinearidade entre as vari´ aveis x

₁

e x

₂

. . . . 62

17 Distribui¸c˜ ao de frequˆ encia normal com m´ edia zero e diferentes desvios padr˜ oes 80 18 Exemplo de distribui¸c˜ ao com Assimetrias(Skweness) Negativa e Positiva . . 82

19 Exemplos de gr´ aficos com curtose negativo (a), igual a zero (b) e positivo (c) 83 20 Matriz de Probabilidades . . . . 86

21 CRISP DM . . . . 89

22 crisp dm 3 modelo de referˆ encia e guia do usu´ ario . . . . 90

23 Modelo de Referˆ encia CRISP-DM com as seis fases . . . . 92

24 Modelo de Arquitetura do DAMA-DMBoK . . . . 93

25 DAMA DMBoK: Processos de Gerenciamento de Qualidade . . . . 95

26 Arquitetura de Reerˆ encia para Atribui¸c˜ ao de Qualidade de Dados . . . 107

27 Crit´ erios de Avalia¸c˜ ao de Qualidade de Dados . . . 109

28 Diagrama de Box Plot do conjunto de dados Iris . . . 116

29 Base de dados Iris: Distribui¸c˜ ao de Frequˆ encia das Vari´ aveis . . . 117

30 C´ odigos de Indicadores de Qualidade de Dados . . . 125

(12)

31 Base de dados Iris:Notas por Atributo . . . 126

32 Indicador de Qualidade da Base de Dados Iris:nota final . . . 126

33 Tela do IBM Watson, mostrando a avalia¸c˜ ao da qualidade de dados . . . . 127

34 Dados de Sa´ıda do IBM Watson para o conjunto de dados Iris . . . 127

35 Indicadores de Qualidades por atributo: base de dados Mushroom . . . 134

36 Base de Dados Mushroom: Nota Final . . . 136

37 Indicador da Nota de Qualidade da Base de Dados Arrithmya . . . 142

38 Exemplo de Autovetor e Autovalor . . . 155

(13)

Lista de Tabelas

1 Exemplo de tabela de contingˆ encia . . . . 44

2 Resumo das principais t´ ecnicas em Redu¸c˜ ao de Dados . . . . 51

3 Dados do gr´ afico da figura 13 . . . . 58

4 Tabela de compara¸c˜ ao entre os modelos de Fayyad e o modelo CRISP-DM 97 5 Resumo dos problemas com Qualidade de Dados . . . 100

6 Base de Dados Iris . . . 102

7 Base de Dados Mushroom . . . 104

8 Base de Dados Arrhythmia . . . 105

9 Base de Dados Arrhythmia: Classes de Arritmia . . . 106

10 Crit´ erios de Qualidade: Por atributo e Crit´ erios Especiais . . . 113

11 Sum´ ario: Estat´ıstica Descritiva base de dados Iris . . . 115

12 Sum´ ario : Distribui¸c˜ ao de Classes . . . 115

13 Entropia para o conjunto de dados Iris . . . 117

14 Iris: Nota para o crit´ erio Dados Ausentes . . . 118

15 Iris: Nota para o crit´ erio Viola¸c˜ ao de Dom´ınio . . . 118

16 Detec¸c˜ ao de Outliers para os Atributos do conjunto de dados Iris . . . 119

17 Iris:Valores dos limites inferiores e inferiores- Intervalo interquartil . . . 119

18 Iris: Teste de Grubbs . . . 120

19 Iris: Notas para o crit´ erio de Anomalias . . . 121

20 Skewness do conjunto de dados IRIS para as vari´ avies V1 a V4 . . . 122

21 Notas para o crit´ erio de Assimetria . . . 122

22 Incerteza Sim´ etrica e Incerteza Sim´ etrica Normalizada . . . 123

23 Notas dos Atributos . . . 123

24 Nota para os Crit´ erios Especiais . . . 124

25 Atribui¸c˜ ao de Nota Qualitativa, usando o intervalo interquartil das notas . 125 26 Vari´ aveis da base de dados Mushroom: Descri¸c˜ ao . . . 128

27 C´ alculo de Entropia para os atributos da base Mushroom . . . 129

28 Dados Ausentes: Conjunto de dados Mushroom . . . 130

29 Tabela de Incerteza Sim´ etrica e Incerteza Sim´ etrica Normalizada . . . 132

30 Notas de qualidade dos atributos: base de dados Mushroom . . . 133

31 Crit´ erio de Corte: M´ etodo AVFScore . . . 135

(14)

32 Notas ao conjunto de dados: base de dados Mushroom . . . 135

33 Base de Dados Arrhithmya: Valores Ausentes por Atributo . . . 136

34 Notas das Vari´ aveis: Valores Ausentes . . . 137

35 Base de Dados Arrhythmia-Resultados Parciais . . . 138

36 Sa´ıda do teste de Breusch & Pagan . . . 139

37 Base de Dados Arrhithmya: Multicolinearidade . . . 140

38 N1:Crit´ erios Aplicados aos Atributos, individualmente . . . 141

39 N2:Crit´ erios Espec´ıficosl . . . 141

40 Notas Gerais . . . 142

41 Informa¸c˜ ao de Atributos . . . 163

43 Informa¸c˜ ao de Atributos: Continua¸c˜ ao . . . 164

44 Notas: Base de Dados Arrhithmya-Crit´ erio Anomalia I . . . 165

45 Notas: Base de Dados Arrhithmya-Crit´ erio Anomalia II . . . 166

46 Notas: Base de Dados Arrhithmya-Crit´ erio Assimetria I . . . 168

47 Notas: Base de Dados Arrhithmya-Crit´ erio Assimetria II . . . 169

48 Notas: Base de Dados Arrhithmya-Crit´ erio Relevˆ ancia de Atributos I . . . 171

49 Notas: Base de Dados Arrhithmya-Crit´ erio Relevˆ ancia de Atributos II . . . 172

(15)

1 INTRODUC ¸ ˜ AO

A proposta deste trabalho ´ e a de desenvolver um indicador num´ erico para avalia¸c˜ ao da qualidade de dados, usando t´ ecnicas de estat´ıstica descritiva e inferˆ encia, avaliando a qualidade dos dados de uma maneira estruturada, de modo a atribuir uma nota ` a qualidade, sinalizando se ajustamentos devem ser efetuados antes de se prosseguir com tarefa de minera¸c˜ ao. A ind´ ustria de informa¸c˜ ao desenvolveu alguns padr˜ oes de governan¸ca para qualidade de dados, como se ver´ a posteriormente neste trabalho, mas s˜ ao referenciais gen´ ericos e abstratos que, embora enfatizem a importˆ ancia da qualidade dos dados, n˜ ao fornecem uma maneira estruturada e quantific´ avel de avalia¸c˜ ao daquele indicador.

1.1 O Impacto da Qualidade de Dados

Em qualquer ind´ ustria, a qualidade de um produto final depende tanto de seu pro- cesso de fabrica¸c˜ ao quanto da qualidade de sua mat´ eria prima. Isso n˜ ao ´ e diferente na Ind´ ustria de Informa¸c˜ ao, na qual os dados s˜ ao a sua parte essencial e onde os resultados dependem tanto das t´ ecnicas e algor´ıtimos quanto dos dados de entrada processados. Por isso, qualidade de dados ´ e um tema relevante, na Ind´ ustria de Informa¸c˜ ao. Dados com erros ou de baixa qualidade, quando processados, levam a resultados igualmente errados e impactam negativamente nos sistemas de apoio ` a decis˜ ao, produzindo consequˆ encias catastr´ oficas tanto em termos econˆ omicos como materiais. Em uma era na qual o volume de dados ´ e extraordin´ ario e cada vez mais crescente, a qualidade de dados parece ser ainda um grande desafio a ser superado (WAND; WANG, 1996).

De acordo com Redman (1998), um n´ umero de cita¸c˜ oes crescentes sobre o impacto negativo da qualidade pobre de dados na ind´ ustria de informa¸c˜ ao tˆ em aparecido tanto na literatura especializada como nos meios de comunica¸c˜ ao, em geral. Por exemplo, Wand e Wang (1996) citam um relat´ orio divulgado por um instituto de pesquisa ligado

`

a Ind´ ustria da Informa¸c˜ ao, concluindo que 60% de 500 empresas pesquisadas relataram

problemas com qualidade de dados. Citam ainda uma reportagem do ”The Wall Street

Journal”, dizendo que, embora o grande volume de dados acumulados nos armaz´ ens de

dados corporativos tenha um enorme potencial de gera¸c˜ ao de informa¸c˜ ao, o problema ´ e

que esses armaz´ ens possuem dados repletos de erros e inconsistˆ encias, que os impede de

(16)

serem usados com proveito.

Strong, Lee e Wang (1997) citam que o sistema de registros criminais dos Estados Unidos apresentou taxas de erro da ordem de 50% a 80%, exibindo problemas como falta de acur´ acia, incompletude ou ambiguidade. Segundo esses autores, o impacto social e econˆ omico da qualidade pobre de dados foi estimado na ordem de bilh˜ oes de d´ olares.

Duvier et al. (2018) citam ainda o caso de uma grande companhia de alimentos que perdeu um contrato de milh˜ oes de d´ olares com uma grande rede americana de fast-food porque os dados sobre contamina¸c˜ ao de bact´ erias n˜ ao foram apropriadamente registra- dos. Ainda citam dados de uma pesquisa, conduzida em 2006 por um Instituto ligado ` a Ind´ ustria de Informa¸c˜ ao, revelando que 75% dos analistas entrevistados achavam que os dados com os quais lidavam cotidianamente n˜ ao eram confi´ aveis e que decis˜ oes errˆ oneas es- tavam sendo tomadas devido ` a falta da qualidade daqueles dados. Dessa forma, coloca-se a pergunta de como o problema da falta de qualidade com os dados pode ser resolvido.

Em seu artigo, Pipino, Lee e Wang (2002) sustentam que a resposta sobre o qu˜ ao boa

´ e a qualidade dos dados em uma organiza¸c˜ ao passa pela defini¸c˜ ao de uma metodologia e elabora¸c˜ ao de uma m´ etrica sobre qualidade de dados utiliz´ avel, mas a maioria das medidas usadas pela Ind´ ustria de Informa¸c˜ ao, na pr´ atica, s˜ ao desenvolvidas de forma ”ad hoc”, apenas para resolver problemas espec´ıficos, n˜ ao parecendo haver uma sistematiza¸c˜ ao e padroniza¸c˜ ao sobre o assunto. Tayi e Ballou (1998) citam algumas dimens˜ oes para medi¸c˜ ao qualidade de dados como, acur´ acia, completividade, consistˆ encia e independˆ encia temporal e apontam algumas solu¸c˜ oes para o desenvolvimento de uma sistematiza¸c˜ ao da resolu¸c˜ ao do problema da qualidade de dados.

Redman (1998) faz uma lista sucinta de alguns problemas encontrados com qualidade de dados:

Problemas relacionados com o modelo de representa¸c˜ ao do mundo real em modelo de dados, tais como relevˆ ancia, granularidade e detalhes do modelo;

Problemas relacionados com valores dos dados, tais como acur´ acia, consistˆ encia e completividade;

Problemas relacionados com formatos dos dados;

(17)

Outros problemas relacionados com seguran¸ca, privacidade, etc.

Redman (1998) aponta para a importˆ ancia de um padr˜ ao de medi¸c˜ ao para avalia¸c˜ ao da qualidade de dados salientando que “..aquilo que n˜ ao ´ e medido n˜ ao pode ser gerenciado...”.

A Qualidade de Dados afeta uma disciplina espec´ıfica de processamento de dados dentro da Ind´ ustria de Informa¸c˜ ao, tendo impacto direto sobre a gera¸c˜ ao de conhecimento, a saber, a disciplina de Minera¸c˜ ao de Dados (do inglˆ es Data Mining ). Por limita¸c˜ ao de escopo, esse trabalho ir´ a se focar nas quest˜ oes relativas ` a qualidade de dados em tarefas de Minera¸c˜ ao de Dados, mais especificamente aquelas associadas ` a predi¸c˜ ao- regress˜ ao e classifica¸c˜ ao de dados.

Antes de se prosseguir ´ e necess´ ario definir, sucintamente, o que se entende por Dado, Informa¸c˜ ao e Conhecimento.

1.2 Dado, Informa¸ c˜ ao e Conhecimento: uma defini¸ c˜ ao sucinta

Dado ´ e uma representa¸c˜ ao simb´ olica de algum objeto do mundo real ou abstrato, que pode ser quantificado ou mapeado para algum conjunto de s´ımbolos. Por exemplo, o livro

”Les Miserables”, de Victor Hugo, ´ e um dado, porque possui letras, n´ umeros, pontos, etc.; seu conte´ udo abstrato pode ser mapeado para s´ımbolos alfa-num´ ericos. Uma foto tamb´ em ´ e um dado, pois pode ser digitalizada e reduzida a um conjunto de s´ımbolos bin´ arios, que podem ser manipulados por um computador. O raio de uma circunferˆ encia, que ´ e um conceito abstrato, tamb´ em ´ e um dado, pois ´ e simbolizado em n´ umeros decimais para representar uma propriedade daquela entidade. Por´ em, h´ a de se ressalvar que dado

´ e diferente de informa¸c˜ ao (SETZER; SILVA, 2005).

Um dado transmitido de uma fonte a um receptor s´ o se torna informa¸c˜ ao se aquele

puder compreender o que lhe foi transmitido. Para que dado seja considerado informa¸c˜ ao,

ele deve estar ligado a um conceito intelig´ıvel e previamente apreendido pelo receptor dos

dados. Se, por exemplo, o receptor dos dados s´ o entende chinˆ es, um texto em portuguˆ es

n˜ ao lhe fornece informa¸c˜ ao alguma, pois ele n˜ ao conseguir´ a decodificar os s´ımbolos,- neste

caso, os caracteres latinos e as palavras em portuguˆ es- de modo que lhe fa¸ca algum sentido

ou lhe transmita alguma informa¸c˜ ao (SETZER; SILVA, 2005).

(18)

Conhecimento, por sua vez, est´ a ligado ` a pr´ atica. ´ E poss´ıvel a um praticante saber o nome de todos os golpes aplicados no judˆ o(dado e informa¸c˜ ao), saber todas as suas regras, mas somente a pr´ atica daquela arte marcial determina se aquele aluno realmente a conhece (SETZER; SILVA, 2005).

Dadas essas breves defini¸c˜ oes, o pr´ oximo passo consiste em se descrever o processo de Minera¸c˜ ao de Dados, para entender como este ´ e afetado pelo problema da qualidade de dados.

1.3 O Processo de Minera¸ c˜ ao de Dados

Fayyad, Piatetsky-Shapiro e Smyth (1996) usam o termo Knowledge Discovery in Database(KDD)(Descoberta de Conhecimento em Banco de Dados) para se referirem ao processo de descoberta de conhecimento que se obt´ em ao se explorar um reposit´ orio de dados com ferramentas anal´ıticas e outras t´ ecnicas. Esse ´ e um termo frequentemente usado na Ind´ ustria de Informa¸c˜ ao (MCCUE, 2014).

A Minera¸c˜ ao de Dados ´ e uma das disciplinas dentro de KDD e consiste na extra¸c˜ ao e an´ alise de um conjunto de dados estruturados(como aqueles provenientes de tabelas ou esquemas de dados relacionais) ou n˜ ao estruturados(como aqueles provenientes de fluxo de textos da internet,imagens, sons), visando a obten¸c˜ ao de conhecimento pela descoberta de padr˜ oes de agrupamento, associa¸c˜ oes, previs˜ oes ou detec¸c˜ ao de anomalias (KURGAN L.A; MUSILEK, 2006),(FAYYAD et al., 1996),(SILVA; PERES; BOSCARIOLI, 2016).

A figura 1 ilustra o processo, sub-dividido nas fases de defini¸c˜ ao do problema, sele¸c˜ ao

de dados, pr´ e-processamento, tarefas de minera¸c˜ ao, valida¸c˜ ao do modelo e apresenta¸c˜ ao de

resultados. Mais adiante, na se¸c˜ ao 2, falar-se-´ a um pouco mais sobre tarefas de minera¸c˜ ao.

(19)

Figura 1: Processo de Minera¸c˜ ao de Dados

Fonte: Adaptado de CASTRO e FERRARI (2016), p-6.

Na sequˆ encia, discute-se um pouco mais sobre cada uma dessas fases.

1.3.1 Fase de Defini¸ c˜ ao do Problema e Sele¸ c˜ ao de Dados

Durante a fase de defini¸c˜ ao do problema, as expectativas e o escopo do projeto s˜ ao alinhados sob a perspectiva do neg´ ocio e as fontes de dados s˜ ao identificadas. Uma primeira an´ alise estat´ıstica descritiva ´ e efetuada com o objetivo de explorar os dados, verificando se existem problemas com sua qualidade. Nesse est´ agio, define-se quais tarefas de Minera¸c˜ ao ser˜ ao empregadas e quais algoritmos ser˜ ao usados para atacar o problema sob investiga¸c˜ ao (SILVA; PERES; BOSCARIOLI, 2016),(HAN; KAMBER; PEI, 2011), (FAYYAD et al., 1996).

Nessa fase, os dados s˜ ao identificados e mapeados e os atributos relevantes ao pro- blema, selecionados e organizados. Os atributos podem ser classificados como categ´ oricos ou num´ ericos o que ´ e importante na defini¸c˜ ao de quais algoritmos poder˜ ao ser usados para resolver o problema, j´ a que muitos algoritmos de Minera¸c˜ ao de Dados s´ o trabalham com dados num´ ericos, ao passo que outros, somente com dados categ´ oricos (SILVA; PERES;

BOSCARIOLI, 2016),(TAN; STEINBACH; KUMAR, 2009).

Aqui, entende-se por atributo o subconjunto de dados que qualifica alguma entidade

modelando um objeto concreto ou abstrato. Por exemplo, ao se estudar um conjunto

de entidade denominada ”Clientes”, composta de v´ arias entidades do tipo ”Cliente”, ´ e

poss´ıvel selecionar alguns atributos qualificadores desta ´ ultima entidade, como por exem-

(20)

plo, sexo, idade, o nome, etc. O atributo qualificador ´ e incorporado conforme a modelagem do problema que se pretende estudar assim o exige. Por exemplo, pode n˜ ao ser relevante para a resolu¸c˜ ao do problema saber o valor do atributo ”time do cora¸c˜ ao”, indicando o time de futebol que o cliente torce, mas dependendo do problema, esse atributo pode ser relevante e at´ e mesmo imprescind´ıvel (SETZER; SILVA, 2005),(SILBERSCHATZ;

KORTH; SUDARSHAN, 2011),(RAMAKRISHNAN; GEHRKE, 2008).

Um atributo ´ e sempre restrito a um dom´ınio particular, caracterizando o tipo de informa¸c˜ ao que pode ser armazenada nele. Assim, pode-se ter um dado cujo dom´ınio con- sista apenas de valores do tipo booleano, num´ erico ou uma cadeia de caracteres (strings).

O dom´ınio ent˜ ao fornece informa¸c˜ ao sobre o tipo de dado armazenado e sobre os valores permitidos para aquele dado, limitando tamb´ em seu tipo (RAMAKRISHNAN; GEHRKE, 2008),(SILBERSCHATZ; KORTH; SUDARSHAN, 2011).

Os dados podem estar armazenados de forma organizada, separados em dom´ınios e agrupados em tabelas; nesse caso, tem-se dados estruturados. Um exemplo t´ıpico seria o de uma tabela com informa¸c˜ oes sobre clientes em um banco de dados relacional. Nesse tipo de arranjo ´ e f´ acil recuperar os dados usando comandos SQL (do inglˆ es, Search Query Language) ou linguagens procedurais (SILBERSCHATZ; KORTH; SUDARSHAN, 2011).

Os dados podem ainda estar estruturados de forma menos r´ıgida, mas ainda com algum grau de organiza¸c˜ ao, facilitando a sua busca e recupera¸c˜ ao, como, por exemplo, dados em documentos XML (do inglˆ es, eXtensible Markup Language ) ou formato JSON

¹

, que podem ser recuperados com alguma rotina de processamento. Por´ em, em geral, os dados encontrados em aplica¸c˜ oes pr´ aticas, em geral, s˜ ao n˜ ao estruturados. Os exemplos t´ıpicos s˜ ao as informa¸c˜ oes em um texto ou postagens em redes sociais como Twitter ou Facebook, dados de ´ audio, v´ıdeo, dados de registros de aplica¸c˜ oes(logs), etc (CASTRO;

FERRARI, 2016),(SILVA; PERES; BOSCARIOLI, 2016).

Na fase de sele¸c˜ ao e obten¸c˜ ao de dados, ´ e poss´ıvel se ter uma ideia das integra¸c˜ oes de dados necess´ arias e dos principais problemas encontrados com estes, os quais dever˜ ao ser resolvidos antes de se prosseguir para as fases seguintes do processo. Tamb´ em nessa

1

Java Script Object Notation ´ e uma estrutura de dados que comporta o par “chave:valor”. Valor pode

receber outros tipos de objetos, como listas, arrays e mesmo outras estruturas JSON aninhadas. Por ser

muito flex´ıvel, tamb´ em pode se tornar uma estrutura muito complexa(JSONORG, 2009).

(21)

fase, o tamanho da base ´ e estimado, obtendo-se uma ideia mais clara dos requisitos computacionais e de infraestrutura, necess´ arios para o processamento (SILVA; PERES;

BOSCARIOLI, 2016),(HAN; KAMBER; PEI, 2011).

1.3.2 Fase de Pr´ e- processamento

A fase de pr´ e-processamento ´ e a que demanda a maior parte do esfor¸co do projeto de KDD. Os dados s˜ ao preparados de modo a tornar o processo de an´ alise e minera¸c˜ ao mais eficiente e eficaz. Segundo McCue (2014), esta fase corresponde a cerca de 80 % do esfor¸co empregado no processo de minera¸c˜ ao. Os resultados obtidos aqui afetam diretamente a acur´ acia de predi¸c˜ ao dos modelos empregados nas fases seguintes, da´ı sua particular importˆ ancia.

Analisando modelos de processos em Minera¸c˜ ao de Dados, usados tanto na ind´ ustria de informa¸c˜ ao como em pesquisas acadˆ emicas, e baseados em trabalhos de outros pes- quisadores, Kurgan L.A; Musilek (2006) chegaram ` a mesma conclus˜ ao, isto ´ e, de que o est´ agio de pr´ e-processamento consome a maior parte do esfor¸co em um projeto de KDD, devendo ser cuidadosamente planejado e executado para que a acur´ acia dos resultados n˜ ao seja comprometida ao final do projeto.

Durante o pr´ e-processamento, os dados devem passar por procedimento de limpeza, que consiste na remo¸c˜ ao de ru´ıdos ou outliers; limpeza de inconsistˆ encias, isto ´ e, remo¸c˜ ao de dados cujos valores estejam fora do dom´ınio ou apresentem grande discrepˆ ancia em rela¸c˜ ao aos dados esperados para o atributo. Valores ausentes devem ser suprimidos ou receber algum tipo de atribui¸c˜ ao, como, por exemplo atribui¸c˜ ao de uma constante ou valor da m´ edia dos valores do atributo, moda ou mesmo o valor dos vizinhos mais pr´ oximos.

Esse procedimento pode ser necess´ ario porque alguns algoritmos n˜ ao processam se houver valores ausentes. Atributos redundantes ou pouco expressivos para an´ alise podem ser removidos, reduzindo assim tamanho da base. Tamb´ em, nessa fase, os dados podem passar por uma integra¸c˜ ao, que consiste na combina¸c˜ ao de dados obtidos de m´ ultiplas fontes, identificadas na fase inicial de planejamento. Os dados podem tamb´ em passar por um processo de transforma¸c˜ ao ou normaliza¸c˜ ao, no qual podem ser formatados para uma nova forma mais conveniente para processamento ou serem padronizados para uso.

Os dados podem ser discretizados, possibilitando sua utiliza¸c˜ ao por algoritmos que s´ o

(22)

trabalham com dados nominais ou categ´ oricos (CASTRO; FERRARI, 2016),(FAYYAD et al., 1996).

A figura 2 sintetiza a discuss˜ ao do par´ agrafo anterior sobre as principais tarefas da fase de pr´ e-processamento.

Figura 2: Tarefas da fase de pr´ e-processamento dos dados

Fonte:Adaptado de CASTRO e FERRARI (2016)

Conforme dito anteriormente, os dados podem originar-se de m´ ultiplas fontes hete- rogˆ eneas e precisam ser normalizados antes de ser analisados. Al´ em disso, dados pobres e de baixa qualidade - afetados por ru´ıdos, anomalias, inconsistˆ encias, ausˆ encias de valores e duplicidades - podem conduzir a um resultado de baixa qualidade ao final do processo, sem contar o efeito negativo no tempo de processamento ou degrada¸c˜ ao de performance do algoritmo empregado. Na fase de pr´ e-processamento, portanto, os dados s˜ ao homoge- neizados, visando maior acur´ acia nos resultados da an´ alise (HAN; KAMBER; PEI, 2011).

1.3.3 Fase de Minera¸ c˜ ao e Valida¸ c˜ ao de Resultados

Durante a fase de minera¸c˜ ao, os dados j´ a saneados s˜ ao explorados com o uso de um

ou mais algoritmos, e informa¸c˜ ao ´ e extra´ıda para gerar conhecimento. Finalmente, na

(23)

fase de valida¸c˜ ao, os resultados s˜ ao avaliados para averiguar se o conhecimento gerado foi ´ util ou n˜ ao, se as descobertas foram ou n˜ ao triviais e se os resultados est˜ ao dentro da precis˜ ao aceit´ avel e definida previamente na fase inicial do projeto (CASTRO; FERRARI, 2016),(SILVA; PERES; BOSCARIOLI, 2016).

1.4 Breve Revis˜ ao da Literatura Sobre Qualidade de Dados

Os livros textos sobre Minera¸c˜ ao de Dados e Descoberta de Conhecimento em Dados, costumam dedicar bastante espa¸co ao tema sobre verifica¸c˜ ao e explora¸c˜ ao dos dados, listando os principais problemas encontrados na pr´ atica envolvendo qualidade. Tamb´ em apresentam t´ ecnicas de estat´ıstica descritiva e param´ etrica e as poss´ıveis solu¸c˜ oes de contorno empregadas para minimizar o problema (CASTRO; FERRARI, 2016; SILVA;

PERES; BOSCARIOLI, 2016; TAN; STEINBACH; KUMAR, 2009; HAN; KAMBER;

PEI, 2011).

Por outro lado, na literatura acadˆ emica e especializada, encontram-se discuss˜ oes so- bre governan¸ca, necessidade de padroniza¸c˜ ao de medidas avaliativas para qualidade de dados e as dificuldades durante a fase de pr´ e-processamento (WANG; STRONG, 1996;

FAYYAD et al., 1996; TAYI; BALLOU, 1998; PIPINO; LEE; WANG, 2002). Todavia, n˜ ao foi poss´ıvel encontrar- durante o levantamento desta pesquisa - algum modelo gen´ erico para mensurar a qualidade do conjunto dos dados de entrada, associando-a uma medida quantitativa e alguns autores, como por exemplo Tee et al. (2007), citam essa dificuldade.

De fato, durante a elabora¸c˜ ao deste trabalho, em pesquisa bibliogr´ afica feita nas prin-

cipais bases de dados de publica¸c˜ oes e artigos sobre Minera¸c˜ ao de Dados e Descoberta de

Conhecimento em Base de Dados (como, por exemplo, IEEE e ACM ), artigos em revistas

e publica¸c˜ oes sobre Banco de Dados, Inteligˆ encia Artificial, usando como termos-chave de

busca as palavras em inglˆ es data quality, data quality framework, data mining governance,

data quality preprocessing,data quality assurance, data shape, data prifiling, cobrindo um

per´ıodo que vai de 1986 at´ e o momento em que este trabalho foi escrito, foram encontradas

v´ arias discuss˜ oes sobre necessidade de padroniza¸c˜ ao dos processos de KDD, defendendo

a unifica¸c˜ ao dos modelos existentes (BRACKETT; EARLEY, 2009),(CHAPMAN et al.,

2000),(FAYYAD et al., 1996),(HAN; KAMBER; PEI, 2011),(KURGAN L.A; MUSILEK,

2006),(WANG; KON, 1993),(WIRTH; HIPP, 2000).

(24)

Entretanto, n˜ ao se encontrou referˆ encias sobre padr˜ oes de aferi¸c˜ ao da qualidade dos dados de entrada ou algum m´ etodo para aferir tal qualidade no processo de KDD.

Para auxiliar os analistas de dados na tarefa de extra¸c˜ ao e limpeza de dados, a Ind´ ustria de Informa¸c˜ ao desenvolveu algumas ferramentas ´ uteis, entre elas, as ferramentas de ETL (Extraction, Transformation, Loading ), como se ver´ a a seguir. Essas ferramentas podem ser usadas para melhorar a qualidade dos dados e fazer uma explora¸c˜ ao inicial dos mesmos.

1.4.1 ETL:Ferramentas de Extra¸ c˜ ao, Transforma¸ c˜ ao e Carga de Dados

Existem algumas ferramentas de Extra¸c˜ ao, Transforma¸c˜ ao e Carga de dados (do inlglˆ es, ETL- Extraction, Transformation and Loading ) que permitem a manipula¸c˜ ao e limpeza dos dados de entrada, usando interface gr´ afica. Com elas, ´ e poss´ıvel especificar as fontes dos dados de entrada, as integra¸c˜ oes, o destino e a transforma¸c˜ ao dos dados.

Embora algumas dessas ferramentas sejam bem flex´ıveis, ainda assim ´ e necess´ ario, em al- guns casos, escrever scripts espec´ıficos para realizar todas as transforma¸c˜ oes necess´ arias.

Algumas ferramentas apresentam indicadores de estat´ıstica descritiva, onde se pode obter alguma ideia preliminar sobre qualidade dos dados (HAN; KAMBER; PEI, 2011),(TAN;

STEINBACH; KUMAR, 2009).

Nesse trabalho, foram utilizadas algumas ferramentas de ETL e ajuste de dados (do inglˆ es, Data Profiling) para averiguar funcionalidades de an´ alise e medi¸c˜ ao da qualidade dos dados. Os crit´ erios para sele¸c˜ ao dessas ferramentas foram: disponibilidade de uso em ambientes Linux e ou Windows x86-64, o fato de serem softwares de fonte aberta, pos- suindo funcionalidade de an´ alise de estat´ıstica descritiva. Procurou-se tamb´ em identificar algum referencial quantitativo para medi¸c˜ ao de qualidade de dados. Avaliou-se o Ta- lend Data Preparation (Talend Inc, 2017), RapidMiner Studio (Rapid Miner Co., 2017), Metanome (Metanome Project, 2017), Weka (The University of Waikato,Hamilton, New Zeland, 2008) e IBM Watson Analytics (IBM, 2017).

O Talend e o RapidMiner s˜ ao ferramentas de ETL de Fonte Aberta, possuindo tamb´ em

a vers˜ ao comercial com mais funcionalidades. Ambas permitem a extra¸c˜ ao de dados de

uma ou mais fontes e possuem funcionalidades de limpeza dos mesmos durante o processo

(25)

dos atributos atrav´ es do sum´ ario estat´ıstico e de histogramas (Talend Inc, 2017), (Rapid Miner Co., 2017).

As figuras 3a e 3b abaixo mostram as telas do Talend e do Rapid Miner. Foi usado, como exemplo, a base de dados ”Mushroom”da UCI(LICHMAN, 2013),(LINCOFF, 1989).

A tela do Talend mostra um histograma de distribui¸c˜ ao de frequˆ encias para uma das vari´ aveis. A tela do RapidMiner mostra um gr´ afico de dispers˜ ao em 3D para as vari´ aveis cap shape, odor nos eixos x, y respectivamente e type, no eixo z.

Figura 3: Telas do Talend e Rapid Miner

(a) Talend (b) RapidMiner

A ferramenta Metanome ´ e um software de c´ odigo aberto usado para ajuste de dados.

De maneira semelhante ` as ferramentas Talend e RapidMiner, tamb´ em oferece sum´ arios estat´ısticos e acrescenta o c´ alculo de entropia

²

para o atributo. N˜ ao exibe histogramas ou gr´ aficos e tamb´ em n˜ ao possui interface para manipula¸c˜ ao de dados. Apenas faz uma descri¸c˜ ao geral dos dados (Metanome Project, 2017). A figura 4 mostra um exemplo da tela de sa´ıda do Metanome.

O Weka ´ e um ambiente de an´ alise para tarefas de minera¸c˜ ao e aprendizagem de m´ aquina, desenvolvido em Java e de c´ odigo aberto. Implementa os principais algoritmos usados em Aprendizagem de M´ aquina e Redes Neurais. Possui interface para carga de dados e para visualiza¸c˜ ao dos mesmos. Tamb´ em exibe sum´ ario estat´ıstico e diagramas gr´ aficos. No Weka, os dados devem ser carregados no formato ’arff’( do inglˆ es, Attribute- Related File Format), embora seja tamb´ em poss´ıvel usar dados separados por v´ırgulas (formato .csv) e usar os recursos da pr´ opria ferramenta para transform´ a-los no formato arff. Os dados s˜ ao armazenados em um arquivo texto ASCII, delimitados por v´ırgulas.

2

Esse conceito ser´ a discutido com detalhes na se¸ c˜ ao 2.1.7

(26)

Figura 4: Tela do Metanome

Os metadados est˜ ao descritos nesse arquivo, que ´ e dividido em duas partes: header e data.

A se¸c˜ ao de header cont´ em o nome da rela¸c˜ ao ou tabela de dados, uma lista de atributos, especificando seu nome e tipo; opcionalmente, essa lista pode conter os valores permitidos para o atributo. A se¸c˜ ao Data, cont´ em os dados, separadas por v´ırgulas (The University of Waikato,Hamilton, New Zeland, 2008),(PAYNTER, 2008).

O Weka ´ e mais r´ıgido na carga dos dados do que as ferramentas de ETL mencionadas anteriormente. Se o formato do arquivo de entrada n˜ ao for correto, o Weka n˜ ao permite a carga de dados. ´ E necess´ ario um trabalho pr´ evio de limpeza antes da carga, mas este

´ e compensado pela facilidade nas an´ alises estat´ısticas oferecidas posteriormente ` a carga.

Atributos onde os valores s˜ ao ausentes tˆ em de ser explicitamente indicados antes da carga, normalmente com o uso do s´ımbolo ’ ?’. Se o dado no atributo estiver vazio ou possuir algum outro tipo de s´ımbolo, indicando tratar-se de um dado ausente, deve-se fazer uma transforma¸c˜ ao do dado, substituindo-o por ’ ?’ (The University of Waikato,Hamilton, New Zeland, 2008),(PAYNTER, 2008). A figura 5 mostra a tela de pr´ e processamento do Weka.

A ferramenta da IBM - IBM Analytics

^®

- apresenta uma inova¸c˜ ao em rela¸c˜ ao ` as de-

mais, mencionadas anteriormente. Al´ em de permitir carga de dados e apresentar sum´ arios

estat´ısticos, tamb´ em atribui uma nota ` a qualidade de cada atributo e uma nota geral ao

conjunto dos dados, que consiste na m´ edia das notas dos atributos. Atributos que possuem

valores em branco s˜ ao considerados como valores ausentes, mas se houver algum outro

s´ımbolo denotando a ausˆ encia de dados - como por exemplo, um sinal de interroga¸c˜ ao,

(27)

Figura 5: Weka

ou mesmo ”NA- a ferramenta n˜ ao tem como fazer a distin¸c˜ ao. Cabe ao analista indicar explicitamente os s´ımbolos que correspondem aos valores considerados ausentes. Uma vez indicado quais s˜ ao os dados faltantes, a ferramenta faz uso dessa informa¸c˜ ao, junta- mente com dados sobre assimetria (skewness), entropia, relevˆ ancia do atributo, presen¸ca de anomalias/outliers para atribui¸c˜ ao das notas de qualidade dos atributos

³

(STACKER, 2015).

Por tratar-se de uma ferramenta propriet´ aria, os crit´ erios de atribui¸c˜ ao de notas e os c´ alculos n˜ ao s˜ ao divulgados. Por exemplo, Stacker (2015) menciona o grau de influˆ encia dos atributos, mas n˜ ao explica que tipo de an´ alise ´ e feita (por exemplo, como a entropia ´ e usada para medi¸c˜ ao da qualidade ou ainda, qual o m´ etodo para determinar a importˆ ancia do atributo, como por exemplo an´ alise de componentes principais ou outro m´ etodo mul- tivariado?) (STACKER, 2015). Na se¸c˜ ao 3 uma tela de sa´ıda do Watson ´ e exibida como exemplo.

1.4.2 O Problema

Wirth e Hipp (2000) notam que a ausˆ encia de um referencial padr˜ ao para execu¸c˜ ao de projetos de Minera¸c˜ ao de Dados condiciona o sucesso ou fracasso do resultado ao conhecimento ou intui¸c˜ ao individual do analista ou ao talento da equipe. Isto impede que projetos de minera¸c˜ ao sejam reprodut´ıveis e torna dif´ıcil sua absor¸c˜ ao por analistas

3

As defini¸c˜ oes dos termos entropia e assimetria(skewness ) ser˜ ao vistas nas se¸ c˜ oes 2.1.7 e 2.3.3 no

pr´ oximo cap´ıtulo

(28)

mais novos. Dessa forma ´ e fundamental a ado¸c˜ ao de uma metodologia padr˜ ao que torne o processo reprodut´ıvel e independente da habilidade especial de algum indiv´ıduo e isso se aplica tamb´ em ` a avalia¸c˜ ao da qualidade de dados.

Por outro lado, Pierce (2004) observa que existe uma mudan¸ca de tendˆ encia na Ind´ ustria de Informa¸c˜ ao, na qual os dados come¸cam a ser tratados como um produto de informa¸c˜ ao, com o mesmo status de um produto concreto, sujeito a controles de qua- lidade menos subjetivos, devido ` a importˆ ancia econˆ omica e social que os dados tˆ em.

Aquela autora prop˜ oe a ado¸c˜ ao de uma Matriz de Gerenciamento de Informa¸c˜ ao de Pro- duto (IPM-Information Product Manager) ou matriz de controle dados, na qual as colunas representam os problemas potencias que impactam o produto de informa¸c˜ ao, isto ´ e, os da- dos; as linhas representam os itens de verifica¸c˜ ao ou processos de corre¸c˜ ao usados durante a fase de pr´ e-processamento. Nas c´ elulas, registra-se informa¸c˜ oes qualitativas, num´ ericas ou derivada de alguma f´ ormula, indicando a efetividade do m´ etodo de controle de ve- rifica¸c˜ ao na corre¸c˜ ao ou redu¸c˜ ao do problema de qualidade de dados. Por exemplo, se houver duplica¸c˜ ao de dados e algum m´ etodo de corre¸c˜ ao empregado for capaz de reduzir o problema em 30%, o indicador de qualidade naquela c´ elula receberia um valor de 70%

(WANG; STRONG, 1996),(MADNICK et al., 2009).

O m´ etodo proposto por Pierce (2004) parece remover parcialmente o problema da subjetividade na avalia¸c˜ ao da qualidade de dados e parece ´ util; no entanto, os crit´ erios de problemas de qualidade selecionados e os m´ etodos de averigua¸c˜ ao e checagem parecem depender muito da natureza do problema sendo investigado e da habilidade do analista em selecion´ a-los, a n˜ ao ser que esses problemas e m´ etodos de checagem fa¸cam parte de uma metodologia j´ a consolidada e previamente estabelecida com base em projetos anteriores (PIERCE, 2004).

Wang e Strong (1996), por sua vez, prop˜ oem, alternativamente, um modelo de medi¸c˜ ao

de qualidade com 20 dimens˜ oes - condensadas, originalmente, de 118 - baseado em um

question´ ario com 20 itens, aos quais se atribui notas entre 1 e 9, sendo as notas mais

altas aquelas que tem mais relevˆ ancia para o consumidor final de dados. As 20 dimens˜ oes

est˜ ao divididas em 4 categorias, a saber, intr´ınsica, contextual, representacional e acessi-

bilidade. O question´ ario deve ser respondido pelo “consumidor”dos dados, que pode ser

o analista ou o usu´ ario final do projeto. Os autores tamb´ em ressaltam o alto impacto

(29)

social e econˆ omico ocasionado por dados de baixa qualidade e indicam que seu m´ etodo tem sido usado por agˆ encias governamentais dos Estados Unidos e algumas corpora¸c˜ oes, gerando um melhor entendimento das necessidades dos consumidores de dados em rela¸c˜ ao

`

a qualidade dos mesmos. A proposta baseia-se nos m´ etodos desenvolvidos em pesquisas de marketing para determina¸c˜ ao de qualidade de produtos e seu impacto para o consumidor final. Embora o modelo seja muito pr´ atico ao incorporar a vis˜ ao do consumidor final dos dados, minimizando o impacto da vis˜ ao dos pesquisadores ou a vis˜ ao puramente te´ orica, o grande problema parece ser que a resposta ao question´ ario embute uma natureza sub- jetiva, pois quem decide o crit´ erio das notas ´ e o pr´ oprio consumidor final entrevistado, baseado t˜ ao somente naquilo que lhe ´ e mais importante sob o ponto de vista da qualidade (WANG; STRONG, 1996)

Tanto a metodologia proposta por Pierce (2004) quanto a proposta por Wang e Strong (1996) destacam aspectos ´ uteis para avalia¸c˜ ao da qualidade de dados, atenuando os as- pectos subjetivos e tratando os dados como um produto de informa¸c˜ ao. A proposta de Pierce (2004) parece mesmo apontar caminhos para quantifica¸c˜ ao da qualidade de dados, atribuindo nota de avalia¸c˜ ao, ` a medida em que o m´ etodo de corre¸c˜ ao consiga resolver os problemas de qualidade sendo avaliados. Todavia, ´ e importante enfatizar que a corre¸c˜ ao de dados visando a melhora de sua qualidade tem um custo econˆ omico e computacional associado e h´ a que se ponderar esses custos, contrabalan¸cando-os com seus benef´ıcios.

Madnick et al. (2009) apontam que, embora os algoritmos usados em problemas de Minera¸c˜ ao de Dados sejam robustos, em sua grande maioria, determinadas tarefas ou algoritmos s˜ ao muito sens´ıveis ` a qualidade de dados, exigindo que estes sejam tratados com cuidado antes de qualquer processamento (MADNICK et al., 2009).

Mencionou-se anteriormente, na se¸c˜ ao 1.3.2, a importˆ ancia da fase de pr´ e-processamento em projetos de Minera¸c˜ ao de Dados e seu alto impacto, em termos de esfor¸co. As me- todologias propostas por Pierce (2004) ou Wang e Strong (1996) e outras propostas na literatura (MADNICK et al., 2009) parecem encaixar-se bem em modelos de governan¸ca de dados e podem ser aplicados durante todo o ciclo de vida dos dados para assegurar que estes possam produzir informa¸c˜ ao ´ util aos seus consumidores.

N˜ ao obstante, na pr´ atica, o analista de um projeto de Minera¸c˜ ao de Dados depara-

se com algumas dificuldades durante a fase explora¸c˜ ao de dados, sabendo de antem˜ ao

(30)

que algumas destas, relacionadas com qualidade, tˆ em impacto negativo sobre algoritmos e tarefas de Minera¸c˜ ao de Dados. O problema, ent˜ ao, consiste em carregar os dados e saber se estes tem qualidade suficiente para serem usados em determinado algoritmo ou se precisam ser ajustados antes da execu¸c˜ ao do modelo. Uma metodologia com crit´ erios de notas de qualidade ´ e extremamente ´ util durante a fase de pr´ e-processamento, sobretudo na sub-fase de explora¸c˜ ao dos dados, pois se os dados forem avaliados como sendo de m´ a qualidade, de acordo com crit´ erio padronizado de avalia¸c˜ ao, ser´ a necess´ ario fazer algum ajuste antes que se passe para as etapas seguintes, evitando erros ou interpreta¸c˜ oes errˆ oneas ao final do processo. Os custos de verifica¸c˜ ao de qualidade de dados nessa fase de pr´ e-processamento, compensam os custos de ter de recome¸car novamente um projeto de minera¸c˜ ao do in´ıcio, justamente porque a m´ a qualidade dos dados acabou gerando resultados igualmente ruins ou totalmente irrelevantes.

1.5 Objetivos

De um modo geral, o problema pode ent˜ ao ser formulado da seguinte maneira:

Como criar um indicador de qualidade de dados, especificamente para tarefas de Minera¸ c˜ ao de Dados, de modo que se possa ter uma avalia¸ c˜ ao quantitativa usando as propriedades dos pr´ oprios dados?

O objetivo geral desse trabalho ´ e propor uma metodologia, que usa ferramentas de estat´ıstica descritiva e inferˆ encia estat´ıstica para quantificar a qualidade de dados, par- tindo de problemas conhecidos na literatura de Minera¸c˜ ao de Dados, de modo a atribuir notas de qualidade ao conjunto de dados, ` a medida que esses problemas forem sendo avaliados. O assunto ´ e extenso, como se ver´ a mais adiante na pr´ oxima se¸c˜ ao. Por isso, o escopo do trabalho ir´ a se restringir ` a avalia¸c˜ ao da qualidade de dados dentro um con- junto de tarefas muito espec´ıfica em Minera¸c˜ ao de Dados, a saber, as tarefas de predi¸c˜ ao, que se subdividem em classifica¸c˜ ao e regress˜ ao, das quais falar-se-´ a com mais detalhes na se¸c˜ ao 2 (CASTRO; FERRARI, 2016),(HAN; KAMBER; PEI, 2011),(SILVA; PERES;

BOSCARIOLI, 2016).

O objetivo mais espec´ıfico do trabalho ´ e o de contribuir com as metodologias e pro-

(31)

prepara¸c˜ ao de dados, conforme a metodologia CRISP-DM (CHAPMAN et al., 2000) ou DAMA-DM (BRACKETT; EARLEY, 2009)

⁴

.

A restri¸c˜ ao do escopo ` as tarefas de classifica¸c˜ ao de maneira alguma limita a genera- lidade do trabalho. Pelo contr´ ario, tenta abrir caminho para a discuss˜ ao e inclus˜ ao de outros crit´ erios de avalia¸c˜ ao de dados e sua aplica¸c˜ ao pr´ atica ` a outras tarefas de Minera¸c˜ ao de Dados.

O referencial proposto, sendo aberto e usando t´ ecnicas e crit´ erios bem conhecidos pode ser implementado em ferramentas de an´ alise para automatizar o processo de avalia¸c˜ ao da qualidade de dados.

Na tabela 5 - que pode ser consultada mais adiante, na pr´ oxima sess˜ ao - encontra-se um resumo dos principais problemas de Qualidade de Dados, cobertos em v´ arios livros textos sobre minera¸c˜ ao de dados ou econoetria, como por exemplo (CASTRO; FERRARI, 2016; HAN; KAMBER; PEI, 2011; JOHNSTON, 1971; MADDALA; LAHIRI, 1992; GU- JARATI, 2009). Esses problemas ser˜ ao discutidos na pr´ oxima sess˜ ao, tendo em vista, principalmente, os m´ etodos de detec¸c˜ ao. Para alguns, a solu¸c˜ ao de contorno ´ e sofisticada - como o casos dos problemas associados ` as tarefas de regress˜ ao- e n˜ ao ser´ a tratada em detalhes, no entanto, indicando literatura dispon´ıvel para consulta e referˆ encia.

1.6 Justificativa e Contribui¸ c˜ oes

Um dos grandes problemas encontrados em qualidade de dados e que afeta negativa- mente alguns algoritmos de classifica¸c˜ ao ´ e o problema de valores ausentes em atributos.

Determinados algoritmos n˜ ao rodam diante de valores ausentes, exigindo que se lhes atri- buam algum valor ou que, simplesmente, se eliminem as instˆ ancias com valores ausentes nos atributos. Naturalmente, a simples atribui¸c˜ ao de valores ou a supress˜ ao dos dados n˜ ao s˜ ao procedimentos totalmente impunes, pois uma vez que eles alteram os dados originais ou diminuem o tamanho da amostra, podem influenciar o resultado de execu¸c˜ ao do algo- ritmo, reduzindo a acur´ acia do modelo; obviamente, o impacto depende da quantidade de dados sendo afetados (QUINLAN, 2014),(TAN; STEINBACH; KUMAR, 2009).

4

Essas duas metodologias de governan¸ ca ser˜ ao vistas nas se¸ c˜ oes 2.4.1, que trata do CRISP e 2.4.2,

que trata do DAMA. Outras metodologias tamb´ em ser˜ ao vistas na sequˆ encia daquelas

(32)

Outro problema s˜ ao os dados desbalanceados que afetam, em especial, algoritmos de agrupamento, devendo ser tratados previamente. Se, por exemplo, for utilizada alguma t´ ecnica de amostragem para treinamento e a assimetria n˜ ao for tratada, pode ocorrer sobre ajuste (do inglˆ es, overfitting ) no modelo de predi¸c˜ ao (TAN; STEINBACH; KUMAR, 2009).

Portanto, o que se pretende nesse trabalho ´ e a elabora¸c˜ ao de uma metodologia e um referencial de trabalho, associando aos dados uma medida quantitativa de qualidade, correlacionando-a com a acur´ acia dos algoritmos de minera¸c˜ ao comumente empregados na resolu¸c˜ ao de problemas de KDD.

A relevˆ ancia do tema deve-se ao fato de que uma tarefa de pr´ e-processamento, quando conduzida de maneira incorreta, compromete a precis˜ ao dos resultados finais e o modelo de predi¸c˜ ao; compromete, portanto, toda a utilidade do esfor¸co empregado. Quanto antes forem identificados problemas com qualidade de dados - e se esses obst´ aculos forem resolvidos antes do processamento final -, melhor para o resultado do processo. Al´ em disso, o estabelecimento de crit´ erios quantitativos para medi¸c˜ ao da qualidade contribui para projetos futuros de minera¸c˜ ao. Adotando uma vis˜ ao mais modesta, a contribui¸c˜ ao esperada deste trabalho ´ e a de chamar aten¸c˜ ao sobre o problema da mensura¸c˜ ao da qualidade de dados, apontando a necessidade de estudos futuros sobre o tema e ado¸c˜ ao de um padr˜ ao de medi¸c˜ ao.

1.7 Estrutura

Al´ em desta introdu¸c˜ ao, o trabalho est´ a organizado da seguinte forma:

Na se¸c˜ ao ‘Referencial Te´ orico’ descreve-se os principais problemas encontrados du- rante a fase de entendimento e explora¸c˜ ao de dados. Tamb´ em se descreve algumas t´ ecnicas para contorno desses problemas. O modelo CRISP-DM de governan¸ca de dados ´ e discutido com um pouco mais de profundidade e qual a rela¸c˜ ao desse modelo com a qualidade dos dados;

Na ‘Metodologia’ descreve-se a implementa¸c˜ ao do referencial proposto para medi¸c˜ ao

da qualidade dos dados. Nesse trabalho, utiliza-se como ferramenta o pacote R (R

(33)

Na metodologia justifica-se a ado¸c˜ ao deste pacote de software de C´ odigo Aberto.

Tamb´ em descreve-se os modelos de dados provenientes do projeto da University of California Irvine(UCI) (LICHMAN, 2013);

Na se¸c˜ ao ‘An´ alise de Dados’, investiga-se os resultados da aplica¸c˜ ao do modelo ` as bases de dados estudadas nesse trabalho. Prop˜ oe-se uma compara¸c˜ ao dos resultados com aqueles obtidos com a ferramenta IBM Watson.

Finalmente, na se¸c˜ ao de Conclus˜ ao, indica-se quais os trabalhos futuros e melhorias

a serem implementadas na sequˆ encia deste trabalho.

(34)

2 REFERENCIAL TE ´ ORICO

Pode-se agrupar as tarefas de Minera¸c˜ ao de dados em quatro categorias, a saber: tare- fas preditivas- que se subdividem em tarefas de regress˜ ao e tarefas de classifica¸c˜ ao-, tarefas de agrupamento, an´ alise de associa¸c˜ ao e detec¸c˜ ao de anomalias. Pode-se tamb´ em incluir outras duas tarefas: pr´ e-processamento e visualiza¸c˜ ao de dados (CASTRO; FERRARI, 2016),(SILVA; PERES; BOSCARIOLI, 2016),(TAN; STEINBACH; KUMAR, 2009), (HAN;

KAMBER; PEI, 2011).

A figura 6 sumariza as principais tarefas executadas em Descoberta de Conhecimento em Dados (KDD Knowledge Discovery in Data ), dando ˆ enfase especial ` as tarefas de pr´ e-processamento, que ser´ a discutido ` a seguir.

Figura 6: Principais tarefas em Minera¸c˜ ao de Dados

Adaptado de CASTRO e FERRARI (2016)

O principal objetivo das tarefas de pr´ e-processamento ´ e extrair e transformar os dados

em formatos apropriados para o uso dos algoritmos usados nas tarefas de Minera¸c˜ ao de

Dados. Existem alguns passos nas rotinas de pr´ e-processamento como fus˜ ao de dados

provenientes de fontes m´ ultiplas, limpeza de dados e remo¸c˜ ao de ru´ıdos, elimina¸c˜ ao de

redundˆ ancia de dados e filtragem de atributos irrelevantes para a an´ alise. As tarefas

de p´ os-processamento incluem a interpreta¸c˜ ao dos modelos, assegurando que somente

resultados ´ uteis e significativos ser˜ ao incorporados ao sistema de decis˜ ao. Nessa fase,

(35)

e comunicando uma vis˜ ao mais intuitiva do modelo aos usu´ arios n˜ ao especialistas em estat´ıstica (TAN; STEINBACH; KUMAR, 2009),(CASTRO; FERRARI, 2016),(SILVA;

PERES; BOSCARIOLI, 2016).

A fase de pr´ e-processamento, na figura 6 foi expandida, destacando a sub-tarefa “Ve- rifica¸c˜ ao de Qualidade de Dados”. Durante essa fase, detecta-se os principais problemas encontrados ao longo da explora¸c˜ ao dos dados. Um bom trabalho de pr´ e-processamento pode influir positivamente na eficiˆ encia dos algoritmos e no tempo de processamento, quando se eliminam dados redundantes ou atributos irrelevantes para a resolu¸c˜ ao do pro- blema. Al´ em disso, determinados problemas em qualidade de dados, como por exemplo, dados desbalanceados ou ausentes e outros que ser˜ ao vistos adiante, impactam na acur´ acia dos modelos, podendo gerar predi¸c˜ oes imprecisas ou mesmo errˆ oneas, invalidando todo o esfor¸co do projeto (HAN; KAMBER; PEI, 2011).

A seguir ser˜ ao analisados alguns dos principais problemas apresentados pelos dados e como estes impactam as tarefas de Minera¸c˜ ao de Dados. Adicionalmente, algumas das principais t´ ecnicas utilizadas para contornar esses problemas tamb´ em ser˜ ao vistas (CASTRO; FERRARI, 2016), (SILVA; PERES; BOSCARIOLI, 2016),(PYLE, 1999).

2.1 Problemas de Qualidade de Dados

2.1.1 Incompletude

Ocorre quando s˜ ao detectados valores ausentes em um ou mais atributos dos objetos de dados. Dependendo de como os dados foram extra´ıdos, a c´ elula particular do atributo com dado ausente pode apresentar algum s´ımbolo indicativo da ausˆ encia como NA, ou

’ ?’ e n˜ ao apenas um espa¸co em branco (CASTRO; FERRARI, 2016),(SILVA; PERES;

BOSCARIOLI, 2016).

Fayyad, Piatetsky-Shapiro e Smyth (1996) sugerem que o problema de dados ausentes

´ e especialmente grave em banco de dados comerciais. Eles apontam que, por exemplo, o servi¸co de recenseamento de dados americano relatou taxas de erro da ordem de mais de 20%, em alguns campos de sua base de dados, comprometendo seu uso.

Existem algoritmos usados nas tarefas de minera¸c˜ ao que n˜ ao executam se houver

(36)

atributos ausentes, de modo que estes devem ser previamente identificados e receber atribui¸c˜ ao de algum valor antes da tarefa de processamento. Para esse tipo de problema existem algumas solu¸c˜ oes de contorno, mas ´ e a natureza do problema que vai determinar qual t´ ecnica ´ e a mais adequada (HAN; KAMBER; PEI, 2011).

Citar-se-´ a, na sequˆ encia, algumas solu¸c˜ oes relacionadas na literatura para tratar o problema de valores ausentes nos atributos (CASTRO; FERRARI, 2016):

Remo¸c˜ ao da instˆ ancia de dados onde ocorre o valor ausente no atributo;

Preenchimento dos valores ausentes com algum valor padr˜ ao. Nesse caso, o especia- lista de neg´ ocios ou do dom´ınio do problema pode indicar qual o melhor valor para substitui¸c˜ ao ou mesmo inferir, a partir do contexto, quais seriam aqueles valores ausentes;

Preenchimento autom´ atico de valores a partir de um valor constante global, que pode ser o valor m´ edio do atributo, o valor da mediana ou o valor da moda;

– Pode-se ainda utilizar alguma t´ ecnica de predi¸c˜ ao como regress˜ ao linear, para estimar qual o valor adequado;

Outra t´ ecnica ´ e a de substitui¸c˜ ao dos valores ausentes pelo valor do atributo dos vizinhos mais pr´ oximos ` a instˆ ancia do dado.

Baiwal S; Raghuvanshi (2016) citam alguns procedimentos, como a atribui¸c˜ ao simples de valores ausentes pela m´ edia ou moda do valor do atributo. Tamb´ em citam atribui¸c˜ ao por meio de t´ ecnicas de regress˜ ao linear para atributos num´ ericos e a regress˜ ao log´ıstica para atributos categ´ oricos. Outra t´ ecnica citada, a regress˜ ao randˆ omica usa a distribui¸c˜ ao condicional da vari´ avel dependente Y

_i

, conhecido o valor da vari´ avel independente X

_i

: o valor ausente de X

i

ser´ a aquele que apresenta o maior valor de probabilidade, uma vez que se conhece Y

_i

.

A atribui¸c˜ ao por Hot Deck ´ e usada quando os componentes do conjunto de dados

n˜ ao s˜ ao balanceados. Os dados s˜ ao divididos agrupados, em um primeiro momento; em

seguida, dados com atributos faltantes s˜ ao associados a um dos agrupamentos. O valor

faltante ´ e associado com a m´ edia ou a moda do agrupamento (PURWAR; SINGH, 2014).

(37)

Na atribui¸c˜ ao pelos K-Vizinhos mais pr´ oximos ( k-NN k-Nearest Neighbour ), arbitra- se um n´ umero k de vizinhos pr´ oximos que devem ser considerados durante o c´ alculo;

atribui-se ao valor ausente o valor do mesmo atributo do vizinho mais pr´ oximo. No caso de k > 1, substitui-se o valor ausente com o valor da m´ edia dos k vizinhos mais pr´ oximos.

Esse m´ etodo de atribui¸c˜ ao ´ e classificado como m´ etodo n˜ ao param´ etrico (BAIWAL S; RAGHU- VANSHI, 2016).

Baiwal S; Raghuvanshi (2016) citam tamb´ em a t´ ecnica de atribui¸c˜ ao usando redes neurais a partir de um conjunto de treinamento completo, isto ´ e, onde os dados n˜ ao possuem atributos com valores ausentes e usando um outro conjunto incompleto, no qual pelo menos um dos atributos apresenta valor ausente. Em seu trabalho, descrevem os passos para a atribui¸c˜ ao dos valores ausentes usando redes neurais.

A lista acima n˜ ao ´ e exaustiva. Existem outras t´ ecnicas de atribui¸c˜ ao de valores como o preenchimento com o valor possuindo maior probabilidade, inferˆ encia bayesiana ou indu¸c˜ ao por ´ arvores de decis˜ ao, que podem ser usadas para atribui¸c˜ ao de valores. Baiwal S; Raghuvanshi (2016) citam ainda outras t´ ecnicas, como Previs˜ ao de Atribui¸c˜ ao por Cor- respondˆ encia M´ edia (do inglˆ es Prediction mean matching Imputation ) e M´ etodo Aleat´ orio de Repeti¸c˜ ao (CASTRO; FERRARI, 2016),(HAN; KAMBER; PEI, 2011),(FAYYAD;

PIATETSKY-SHAPIRO; SMYTH, 1996).

A incompletude ´ e um problema de dif´ıcil detec¸c˜ ao sem a ajuda de um especialista no dom´ınio do neg´ ocio. Dados incompletos podem surgir quando diferentes fontes de dados s˜ ao integradas e correlacionadas ou mesmo causados por omiss˜ ao durante processo o pre- enchimento de dados (CASTRO; FERRARI, 2016), (FAYYAD; PIATETSKY-SHAPIRO;

SMYTH, 1996).

No entanto, a aplica¸c˜ ao das t´ ecnicas de atribui¸c˜ ao para valores ausentes pode ter

efeitos colaterais indesejados na acur´ acia dos algoritmos, impactando o resultado da

an´ alise, uma vez que pode introduzir vi´ es na amostra de dados, comprometendo o poder

de predi¸c˜ ao do modelo. Se houver, por exemplo, muitos atributos faltantes em v´ arios

exemplares de dados, a simples elimina¸c˜ ao destes pode comprometer a significˆ ancia da

amostra. O preenchimento de valores ausentes com constantes padr˜ ao ou usando os con-

ceitos de m´ edia, mediana e moda pode enviesar tamb´ em os dados (CASTRO; FERRARI,

2016),(TAN; STEINBACH; KUMAR, 2009).

(38)

2.1.2 Inconsistˆ encia

Esse tipo de problema ocorre quando diferentes vers˜ oes conflitantes do mesmo dado aparecem na base. A palavra-chave aqui ´ e discrepˆ ancia. Por exemplo, supondo que os dados de um determinado cliente foram extra´ıdos de fontes distintas e as datas de ani- vers´ ario do mesmo cliente, identificado, por exemplo, pelo CPF, s˜ ao diferentes. Existe um dado conflitante, nesse caso. Outro exemplo, poderia ser o valor do atributo deno- minado ’sexo’, o qual pode possuir valores conflitantes para a mesma entidade de dados (CASTRO; FERRARI, 2016),(SILVA; PERES; BOSCARIOLI, 2016).

Outra fonte de inconsistˆ encia ocorre quando existe viola¸c˜ ao do dom´ınio de algum atributo. Supondo que a data de nascimento do cliente seja, por exemplo 01/01/1700.

Algu´ em com conhecimento do dom´ınio do problema poderia criticar essa data, que ´ e muito discrepante e altamente improv´ avel. Ou ainda, supondo que a data de anivers´ ario do cliente indique que ele tenha apenas 13 anos, mas seu grau de instru¸c˜ ao seja ’Doutorado’, seu estado civil seja ’vi´ uvo’ e ele possui 10 filhos. Parece haver alguma inconsistˆ encia com esses dados, embora, n˜ ao sejam improv´ aveis. Talvez uma investiga¸c˜ ao mais acurada seja necess´ aria para apurar a sua validade (CASTRO; FERRARI, 2016).

Pode ainda ocorrer que, quando os dados foram integrados e correlacionados, foram adotadas unidades de medidas diferentes, gerando valores discrepantes, como, por exem- plo,temperaturas mediadas em graus Celsius e temperaturas medidas em graus Fahrenheit (SILVA; PERES; BOSCARIOLI, 2016).

O problema com as inconsistˆ encias na base de dados ´ e que, se n˜ ao forem removidas, podem causar vi´ es ou gerar resultados errados, de modo a comprometer a acur´ acia do modelo. Por exemplo, m´ edia e a variˆ ancia s˜ ao medidas de dispers˜ ao muito sens´ıveis a valores discrepantes e algoritmos que utilizam esses conceitos como o k-Means, por exemplo, podem gerar sa´ıdas com baixa acur´ acia, caso os dados apresentem inconsistˆ encias expressivas. Se o dom´ınio for violado, o algoritmo tamb´ em pode apresentar problemas de desempenho ou nem mesmo ser executado, devido ` a erro (SILVA; PERES; BOSCARIOLI, 2016).

A resolu¸c˜ ao desse tipo de problema consiste em utilizar rotinas de pr´ e-processamento

para verificar se os valores dos atributos pertencem ou n˜ ao ao dom´ınio e est˜ ao dentro

(39)

da faixa esperada de valores para aquele atributo. Outra t´ ecnica consiste em empregar gr´ aficos para analisar os dados, de modo a obter alguma ideia - mesmo que superficial - sobre o formato da distribui¸c˜ ao. Tamb´ em utilizam-se t´ ecnicas de estat´ıstica descritiva tais como m´ aximo, m´ınimo, m´ edia, moda, mediana, medidas de dispers˜ ao ou percentis.

Com esta ´ ultima medida, ´ e poss´ıvel criar diagramas de caixas (box-plot) e verificar a presen¸ca de outliers nos dados. Uma vez identificada a discrepˆ ancia, deve-se proceder a uma an´ alise para investigar qual ´ e a sua causa raiz, para elimin´ a-la, se poss´ıvel e evitar futuros erros em novos projetos. Cabe notar, no entanto, que a presen¸ca de valores muito discrepantes (outliers) nem sempre ocorre devido a introdu¸c˜ ao de erros na amostra e podem, na verdade, indicar alguma informa¸c˜ ao preciosa ou algum conhecimento escondido (CASTRO; FERRARI, 2016),(AGGARWAL; YU, 2001).

2.1.3 Anomalia (Outlier )

A anomalia ´ e um tipo de inconsistˆ encia, onde um determinado valor de atributo apresenta um valor muito discrepante em rela¸c˜ ao aos demais, embora possa ser um valor v´ alido dentro do dom´ınio do atributo. Para dados univariados num´ ericos discretos, uma poss´ıvel medi¸c˜ ao para o grau de anomalia da amostra ´ e a contagem de valores que est˜ ao acima ou abaixo de um determinado limiar cr´ıtico. Como exemplo, pode-se usar como crit´ erio de detec¸c˜ ao o valor do atributo em rela¸c˜ ao ao primeiro e terceiro quartil, conforme as equa¸c˜ oes 1 (CASTRO; FERRARI, 2016),(AGGARWAL; YU, 2001):







ϕ = Q

₁

− k ∗ (Q

₃

− Q

₁

), Φ = Q

₃

+ k ∗ (Q

₃

− Q

₁

).

(1)

onde ϕ representa o limiar inferior e Φ, o limiar superior; Q

₁

e Q

₃

os valores do primeiro

e do terceiro quartis, respectivamente. O valor k > 0 ´ e arbitr´ ario. Pode-se utilizar, por

exemplo, o valor de k = 1.5, em aplica¸c˜ oes pr´ aticas. A justificativa para esse valor ´ e que,

aproximando a distribui¸c˜ ao do problema que se deseja estudar ` a uma distribui¸c˜ ao normal

de m´ edia zero, ´ e poss´ıvel mostrar que a ´ area entre ϕ e Φ ´ e de, aproximadamente, 0.993, ou

seja, 99.3% dos valores, est˜ ao entre esses dois limites quando se considera k = 1.5. Valores

abaixo do limiar inferior ϕ ou acima do limiar superior Φ s˜ ao considerados anomalias ou

outliers e tˆ em apenas cerca de 0.7% de probabilidade de ocorrˆ encia. Obviamente, quanto