1.3 Organiza¸c˜ ao desta Disserta¸c˜ ao
2.1.2 Pr´ e-Processamento
Geralmente os dados selecionados para o processo de Minera¸c˜ao de Dados n˜ao est˜ao em um formato adequado para a extra¸c˜ao de conhecimento. Durante o processo de coleta de dados podem ocorrer diversos problemas que devem ser tratados como erros de digita¸c˜ao, gera¸c˜ao de dados incorretos ou inconsistentes por sensores, entre outros. Al´em disso, limita¸c˜oes de mem´oria, tempo de processamento etc, podem impossibilitar a aplica¸c˜ao direta de alguns algoritmos de extra¸c˜ao de padr˜oes a todo o conjunto de dados. Todos esses problemas tornam necess´aria a utiliza¸c˜ao de m´etodos para tratamento, limpeza, redu¸c˜ao do volume de dados, dentre outros, antes de realizar a etapa de Extra¸c˜ao de Padr˜oes.
´
E importante ressaltar que os objetivos do processo de extra¸c˜ao, definidos na fase de Identifica¸c˜ao do Problema, devem sempre guiar a execu¸c˜ao das atividades de pr´e- processamento, de maneira que o conjunto de dados utilizado tenha as caracter´ısticas necess´arias para se atingir tais objetivos.
A seguir, s˜ao apresentadas diversas atividades que podem ser aplicadas a um conjunto de dados durante a etapa de Pr´e-Processamento.
Obten¸c˜ao e unifica¸c˜ao
As fontes de dados dispon´ıveis para Minera¸c˜ao de Dados podem ser encontradas em diversos formatos – arquivos texto, arquivos no formato de planilhas, Base de Dados, Data Warehouse, entre outros. Assim, torna-se necess´aria a obten¸c˜ao e unifica¸c˜ao dos dados a partir dessas fontes para produzir uma ´unica fonte de dados no formato atributo-valor (Monard & Baranauskas 2003a), como ilustrado na Tabela 2.1.
Na tabela ´e representado um conjunto de dados com n exemplos de m atributos. Uma linha i representa a i-´esima transa¸c˜ao3 (i = 1, 2, ..., n) e uma coluna j representa o j- ´esimo item4 (j = 1, 2, ..., m). Um valor vi,j corresponde ao valor do item j na transa¸c˜ao
i. A coluna Y representa um atributo especial, denominado classe ou atributo meta. Em Minera¸c˜ao de Dados Preditiva, o valor desse atributo ´e o valor a ser predito pelo modelo encontrado para novos exemplos. J´a em Minera¸c˜ao de Dados Descritiva, como no caso de Regras de Associa¸c˜ao, o atributo meta n˜ao ´e definido.
3Neste trabalho ser´a utilizado o termo transa¸c˜ao ao inv´es de exemplo porque no caso das Regras de
Associa¸c˜ao, geralmente, o conjunto de exemplos ´e composto por um conjunto de transa¸c˜oes.
Tabela 2.1: Conjunto de exemplos no formato atributo-valor. Fonte:(Monard & Bara- nauskas 2003a)
a
1a
2· · ·
a
mY
t
1v
11v
12· · ·
v
1my
1t
2v
21v
22· · ·
v
2my
2..
.
...
...
. ..
...
...
t
nv
n1v
n2. . .
v
nmy
nLimpeza dos dados
Uma vez que o conhecimento extra´ıdo de Bases de Dados ´e geralmente utilizado em Sistemas Inteligentes ou como apoio em processos de tomada de decis˜ao, a qualidade dos dados utilizados durante a extra¸c˜ao de conhecimento ´e de grande relevˆancia. Entretanto, ´e poss´ıvel que a qualidade dos dados esteja comprometida em fun¸c˜ao de erros (por exemplo, erros de digita¸c˜ao ou de leitura dos dados por sensores) gerados no processo de coleta. Nesse caso, pode ser necess´aria a aplica¸c˜ao de t´ecnicas de limpeza no conjunto de dados a fim de garantir a qualidade dos mesmos.
A limpeza dos dados pode ser realizada utilizando o conhecimento do dom´ınio. Por exemplo, pode-se encontrar registros com valor inv´alido em algum atributo, granularidade incorreta ou exemplos errˆoneos. Pode-se tamb´em efetuar alguma limpeza independente do dom´ınio, como decis˜ao da estrat´egia de tratamento de atributos incompletos, remo¸c˜ao de ru´ıdo e tratamento de conjunto de exemplos n˜ao balanceados (Batista, Carvalho, & Monard 2000; Batista 2003).
Redu¸c˜ao do volume de dados
Algumas situa¸c˜oes que envolvem limita¸c˜oes de espa¸co em mem´oria, tempo de proces- samento, entre outras, podem inviabilizar a utiliza¸c˜ao de alguns algoritmos de extra¸c˜ao de padr˜oes. Como solu¸c˜ao para esse problema, pode ser necess´aria a aplica¸c˜ao de m´etodos para redu¸c˜ao do volume de dados.
Segundo Weiss & Indurkhya (1998), a redu¸c˜ao do volume dos dados pode ser realizada de trˆes maneiras:
1. redu¸c˜ao do n´umero de exemplos: deve ser realizada mantendo as caracter´ısticas do conjunto de dados original, ou seja, deve-se gerar amostras representativas do conjunto de dados (Glymour, Madigan, Pregibon, & Smyth 1997). A principal
abordagem para redu¸c˜ao do n´umero de exemplos ´e a amostragem aleat´oria – um m´etodo que tende a produzir amostras representativas.
´
E importante ressaltar que se a amostra n˜ao for representativa, ou se a quantidade de exemplos for insuficiente para caracterizar os padr˜oes contidos nos dados, os modelos encontrados podem n˜ao apresentar o comportamento dos dados originais; 2. redu¸c˜ao do n´umero de atributos: pode ser um modo de redu¸c˜ao do espa¸co de
busca pela solu¸c˜ao. Ocorre por meio da sele¸c˜ao de um subconjunto dos atributos existentes, de maneira que isto n˜ao tenha grande impacto na qualidade da solu¸c˜ao final. A aplica¸c˜ao desse m´etodo pode ser realizada com o apoio do especialista do dom´ınio, uma vez que a remo¸c˜ao de um atributo potencialmente ´util para o modelo pode diminuir consideravelmente a qualidade do conhecimento extra´ıdo;
3. redu¸c˜ao do n´umero de valores de um atributo: para essa tarefa s˜ao aplicados geralmente m´etodos de discretiza¸c˜ao ou de suaviza¸c˜ao de valores de um atributo. Discretiza¸c˜ao de um atributo consiste na substitui¸c˜ao de um atributo cont´ınuo (in- teiro ou real) por um atributo discreto, por meio do agrupamento de seus valores. Em essˆencia, um algoritmo de discretiza¸c˜ao tem como entrada os valores de um atri- buto cont´ınuo e gera como sa´ıda uma pequena lista de intervalos ordenados. Cada intervalo ´e representado na forma [Vinf erior : Vsuperior], de tal modo que Vinf erior e
Vsuperior s˜ao os limites inferior e superior do intervalo.
Na suaviza¸c˜ao de valores, o n´umero de valores distintos de um atributo ´e reduzido sem discretiz´a-lo. Durante o processo, eles s˜ao agrupados de modo que cada grupo de valores ´e substitu´ıdo por um valor num´erico que o represente. Esse novo valor pode ser a m´edia, a mediana ou mesmo os valores das extremidades de cada grupo (Weiss & Indurkhya 1998).
As transforma¸c˜oes descritas na etapa de Pr´e-Processamento devem ser realizadas cri- teriosamente e com o devido cuidado, uma vez que ´e fundamental garantir que as infor- ma¸c˜oes presentes nos dados originais continuem presentes nas amostras geradas, de modo que os modelos finais representem o comportamento dos dados originais.
Al´em disso, como o processo de Minera¸c˜ao de Dados ´e iterativo, algumas atividades de pr´e-processamento podem ser realizadas novamente, ap´os a an´alise dos padr˜oes en- contrados na etapa de Extra¸c˜ao de Padr˜oes, buscando, assim, melhorar a qualidade do conhecimento extra´ıdo.