Pr´ e-Processamento - Organiza¸c˜ ao desta Disserta¸c˜ ao

1.3 Organiza¸c˜ ao desta Disserta¸c˜ ao

2.1.2 Pr´ e-Processamento

Geralmente os dados selecionados para o processo de Minera¸cão de Dados não estão em um formato adequado para a extra¸cão de conhecimento. Durante o processo de coleta de dados podem ocorrer diversos problemas que devem ser tratados como erros de digita¸cão, gera¸cão de dados incorretos ou inconsistentes por sensores, entre outros. Além disso, limita¸cões de memória, tempo de processamento etc, podem impossibilitar a aplica¸cão direta de alguns algoritmos de extra¸cão de padrões a todo o conjunto de dados. Todos esses problemas tornam necessária a utiliza¸cão de métodos para tratamento, limpeza, redu¸cão do volume de dados, dentre outros, antes de realizar a etapa de Extra¸cão de Padrões.

E importante ressaltar que os objetivos do processo de extra¸cão, definidos na fase de Identifica¸cão do Problema, devem sempre guiar a execu¸cão das atividades de pré- processamento, de maneira que o conjunto de dados utilizado tenha as caracter´ısticas necessárias para se atingir tais objetivos.

A seguir, s˜ao apresentadas diversas atividades que podem ser aplicadas a um conjunto de dados durante a etapa de Pr´e-Processamento.

Obten¸c˜ao e unifica¸c˜ao

As fontes de dados dispon´ıveis para Minera¸cão de Dados podem ser encontradas em diversos formatos – arquivos texto, arquivos no formato de planilhas, Base de Dados, Data Warehouse, entre outros. Assim, torna-se necessária a obten¸cão e unifica¸cão dos dados a partir dessas fontes para produzir uma única fonte de dados no formato atributo-valor (Monard & Baranauskas 2003a), como ilustrado na Tabela 2.1.

Na tabela é representado um conjunto de dados com n exemplos de m atributos. Uma linha i representa a i-ésima transa¸cão3 (i = 1, 2, ..., n) e uma coluna j representa o j- ésimo item4 (j = 1, 2, ..., m). Um valor vi,j corresponde ao valor do item j na transa¸cão

i. A coluna Y representa um atributo especial, denominado classe ou atributo meta. Em Minera¸cão de Dados Preditiva, o valor desse atributo é o valor a ser predito pelo modelo encontrado para novos exemplos. Já em Minera¸cão de Dados Descritiva, como no caso de Regras de Associa¸cão, o atributo meta não é definido.

3_{Neste trabalho ser´}_{a utilizado o termo transa¸}_c˜_{ao ao inv´}_{es de exemplo porque no caso das Regras de}

Associa¸cão, geralmente, o conjunto de exemplos é composto por um conjunto de transa¸cões.

Tabela 2.1: Conjunto de exemplos no formato atributo-valor. Fonte:(Monard & Bara- nauskas 2003a)

a

· · ·

a

Y

t

v

· · ·

v

y

t

v

· · ·

v

y

..

.

...

. ..

...

t

v

. . .

v

y

Limpeza dos dados

Uma vez que o conhecimento extra´ıdo de Bases de Dados é geralmente utilizado em Sistemas Inteligentes ou como apoio em processos de tomada de decisão, a qualidade dos dados utilizados durante a extra¸cão de conhecimento é de grande relevância. Entretanto, é poss´ıvel que a qualidade dos dados esteja comprometida em fun¸cão de erros (por exemplo, erros de digita¸cão ou de leitura dos dados por sensores) gerados no processo de coleta. Nesse caso, pode ser necessária a aplica¸cão de técnicas de limpeza no conjunto de dados a fim de garantir a qualidade dos mesmos.

A limpeza dos dados pode ser realizada utilizando o conhecimento do dom´ınio. Por exemplo, pode-se encontrar registros com valor inválido em algum atributo, granularidade incorreta ou exemplos errôneos. Pode-se também efetuar alguma limpeza independente do dom´ınio, como decisão da estratégia de tratamento de atributos incompletos, remo¸cão de ru´ıdo e tratamento de conjunto de exemplos não balanceados (Batista, Carvalho, & Monard 2000; Batista 2003).

Redu¸c˜ao do volume de dados

Algumas situa¸cões que envolvem limita¸cões de espa¸co em memória, tempo de processamento, entre outras, podem inviabilizar a utiliza¸cão de alguns algoritmos de extra¸cão de padrões. Como solu¸cão para esse problema, pode ser necessária a aplica¸cão de métodos para redu¸cão do volume de dados.

Segundo Weiss & Indurkhya (1998), a redu¸c˜ao do volume dos dados pode ser realizada de trˆes maneiras:

1. redu¸c˜ao do n´umero de exemplos: deve ser realizada mantendo as caracter´ısticas do conjunto de dados original, ou seja, deve-se gerar amostras representativas do conjunto de dados (Glymour, Madigan, Pregibon, & Smyth 1997). A principal

abordagem para redu¸cão do número de exemplos é a amostragem aleatória – um método que tende a produzir amostras representativas.

E importante ressaltar que se a amostra não for representativa, ou se a quantidade de exemplos for insuficiente para caracterizar os padrões contidos nos dados, os modelos encontrados podem não apresentar o comportamento dos dados originais; 2. redu¸cão do número de atributos: pode ser um modo de redu¸cão do espa¸co de

busca pela solu¸cão. Ocorre por meio da sele¸cão de um subconjunto dos atributos existentes, de maneira que isto não tenha grande impacto na qualidade da solu¸cão final. A aplica¸cão desse método pode ser realizada com o apoio do especialista do dom´ınio, uma vez que a remo¸cão de um atributo potencialmente útil para o modelo pode diminuir consideravelmente a qualidade do conhecimento extra´ıdo;

3. redu¸cão do número de valores de um atributo: para essa tarefa são aplicados geralmente métodos de discretiza¸cão ou de suaviza¸cão de valores de um atributo. Discretiza¸cão de um atributo consiste na substitui¸cão de um atributo cont´ınuo (in- teiro ou real) por um atributo discreto, por meio do agrupamento de seus valores. Em essência, um algoritmo de discretiza¸cão tem como entrada os valores de um atributo cont´ınuo e gera como sa´ıda uma pequena lista de intervalos ordenados. Cada intervalo é representado na forma [Vinf erior : Vsuperior], de tal modo que Vinf erior e

Vsuperior s˜ao os limites inferior e superior do intervalo.

Na suaviza¸cão de valores, o número de valores distintos de um atributo é reduzido sem discretizá-lo. Durante o processo, eles são agrupados de modo que cada grupo de valores é substitu´ıdo por um valor numérico que o represente. Esse novo valor pode ser a média, a mediana ou mesmo os valores das extremidades de cada grupo (Weiss & Indurkhya 1998).

As transforma¸cões descritas na etapa de Pré-Processamento devem ser realizadas cri- teriosamente e com o devido cuidado, uma vez que é fundamental garantir que as infor- ma¸cões presentes nos dados originais continuem presentes nas amostras geradas, de modo que os modelos finais representem o comportamento dos dados originais.

Além disso, como o processo de Minera¸cão de Dados é iterativo, algumas atividades de pré-processamento podem ser realizadas novamente, após a análise dos padrões encontrados na etapa de Extra¸cão de Padrões, buscando, assim, melhorar a qualidade do conhecimento extra´ıdo.

No documento Generalização de regras de associação (páginas 37-40)