• Nenhum resultado encontrado

Principais Contribui¸c˜oes desta Tese

Uma das principais contribui¸c˜oes deste trabalho ´e o projeto e implementa¸c˜ao de um am- biente para pr´e-processamento de dados. A esse ambiente foi dado o nome de Discover Learning Environment — DLE. O ambiente DLE ´e composto por um ambiente computacional para gerenciamento de avalia¸c˜oes experimentais chamado Sniffer, e por uma biblioteca para implementa¸c˜ao de m´etodos de pr´e-processamento de dados, a qual recebeu o nome de Discover Object Library — DOL. Al´em disso, foi proposta uma sintaxe para conjuntos de dados que oferece suporte a diversos tipos de dado e `a indu¸c˜ao construtiva apoiada pelo usu´ario, entre outras caracter´ısticas. A sintaxe recebeu o nome de Discover Dataset Sintax – DSX.

A biblioteca DOL foi implementada para ser uma base s´olida para a constru¸c˜ao de novos m´etodos de pr´e-processamento de dados, enquanto que o ambiente Sniffer ´e utilizado para avaliar esses novos m´etodos experimentalmente.

Uma vez que AM e KDD s˜ao ´areas de pesquisa altamente dinˆamicas, nas quais novos m´etodos e aplica¸c˜oes s˜ao propostos a cada dia, as implementa¸c˜oes realizadas neste trabalho utilizaram os conceitos de padr˜oes de projeto5 (Shalloway & Trott,2002;Gamma,

Helm, Johnson & Vlissides, 1995) para estarem preparadas para futuras modifica¸c˜oes. Tais modifica¸c˜oes podem ser de diferentes formas, como a adi¸c˜ao de novos sistemas de aprendizado ao ambiente Sniffer, novos tipos de dado `a sintaxe DSX, ou novos m´etodos de pr´e-processamento de dados `a biblioteca DOL, entre outras possibilidades.

A partir das implementa¸c˜oes deste trabalho foram projetados e implementados m´eto- dos de pr´e-processamento de dados para os dois problemas eleitos para serem pesquisados neste trabalho: o tratamento de valores desconhecidos e o tratamento de conjuntos de dados com classes desbalanceadas.

Para o tratamento de valores desconhecidos foi pesquisado e avaliado o algoritmo k-vizinhos mais pr´oximoscomo m´etodo de imputa¸c˜ao6. Esse algoritmo foi comparado

5

Design patterns.

6

Seção 1.5: Principais Contribuições desta Tese 7

com outros m´etodos amplamente utilizados na comunidade, como a imputa¸c˜ao pela m´edia ou modae as estrat´egias internas utilizadas pelos indutores C4.5 (Quinlan,1988) e CN2 (Clark & Boswell,1991) para aprender na presen¸ca de valores desconhecidos.

Algumas perguntas podem ser respondidas como resultado da pesquisa realizada sobre tratamento de valores desconhecidos:

1. Como os valores desconhecidos de um conjunto de dados devem ser tratados? Provavelmente n˜ao existe um m´etodo que seja ´otimo para todos os conjuntos de dados. Dessa forma, cada conjunto de dados deve ser analisado para que se encontre o m´etodo mais adequado. De uma forma geral, deve-se evitar utilizar alguns m´etodos mais simples, como a imputa¸c˜ao pela m´edia ou moda, por serem m´etodos que podem distorcer os dados.

2. O m´etodo de imputa¸c˜ao com base no algoritmo k-vizinhos mais pr´oximos s˜ao efetivos para o tratamento de valores desconhecidos?

Nos experimentos realizados, o m´etodo de imputa¸c˜ao com base no algoritmo k- vizinhos mais pr´oximos obteve resultados que foram, na maioria das vezes, su- periores aos demais m´etodos analisados.

3. Os m´etodos de tratamento s˜ao efetivos mesmo com grandes quantidades de valores desconhecidos?

Nos experimentos realizados, os m´etodos de tratamento de valores desconhecidos obtiveram bons resultados mesmo com 50% ou 60% de valores desconhecidos. Na realidade, com freq¨uˆencia, as taxas de erro obtidas com grandes propor¸c˜oes de valo- res desconhecidos foram levemente superiores e, em alguns casos, inferiores `as taxas de erro obtidas com os dados completos. Entretanto, esse fato pode decorrer dos valores desconhecidos terem sido inseridos de forma aleat´oria.

4. Quais s˜ao as limita¸c˜oes dos m´etodos de imputa¸c˜ao?

Os m´etodos de imputa¸c˜ao normalmente predizem valores mais bem comportados do que os valores reais (n˜ao conhecidos) seriam. Dessa forma, os classificadores induzidos tendem a se tornar mais simples quanto maior for a quantidade de valores desconhecidos tratados. Esse fato pode levar ao risco de simplificar excessivamente o problema que est´a sendo estudado.

Sendo os valores imputados aproxima¸c˜oes dos valores reais deve-se, antes de utilizar um m´etodo de imputa¸c˜ao, procurar verificar se n˜ao ´e poss´ıvel coletar os dados

ausentes ou, at´e mesmo, verificar se n˜ao existe um outro atributo com informa¸c˜oes similares, isto ´e, alta correla¸c˜ao, no conjunto de dados. Nos experimentos realizados, a presen¸ca de um ou mais atributos com alta correla¸c˜ao com os atributos com valores desconhecidos fez com que o indutor C4.5 obtivesse, sem tratamento dos valores desconhecidos, bons resultados, freq¨uentemente superiores aos obtidos pelos m´etodos de imputa¸c˜ao.

Para o tratamento de conjuntos de dados com classes desbalanceadas, foi pesquisado e utilizado o m´etodo de sele¸c˜ao unilateral. A sele¸c˜ao unilateral ´e um m´etodo de under- sampling, ou seja, um m´etodo que reduz o n´umero de exemplos da classe majorit´aria com o objetivo de melhorar o balanceamento das classes e, conseq¨uentemente, melhorar a classifica¸c˜ao da classe minorit´aria.

Algumas perguntas podem ser respondidas como resultado da pesquisa realizada sobre tratamento de conjuntos de dados com classes desbalanceadas:

1. Como os conjuntos de dados com classes desbalanceadas devem ser tratados? Diversos m´etodos tˆem sido propostos para solucionar o problema de aprender com conjuntos de dados com classes desbalanceadas. Uma forma bastante direta de tratar esse problema com m´etodos de pr´e-processamento de dados ´e balancear arti- ficialmente as classes.

2. O m´etodo de sele¸c˜ao unilateral ´e efetivo para melhorar o desempenho de classifica¸c˜ao da classe minorit´aria?

Nos experimentos realizados, o m´etodo de sele¸c˜ao unilateral obteve bons resultados. O m´etodo de sele¸c˜ao unilateral reduziu a taxa de falso negativo, ou seja, o n´umero de exemplo da classe minorit´aria classificados incorretamente, para menos da metade da taxa de falso negativo obtida com o treinamento realizado com todos os exemplos. 3. Quais s˜ao as limita¸c˜oes dos m´etodos de tratamento de conjuntos com classes desba-

lanceadas?

Para a maioria dos problemas reais existe uma rela¸c˜ao de perda e ganho entre as taxas de falso positivo e falso negativo. Dessa forma, uma redu¸c˜ao na taxa de falso negativo pode ser acompanhada de um aumento da taxa de falso positivo. Nesse caso, ´e necess´ario verificar se houve uma redu¸c˜ao no custo total de classifica¸c˜ao incorreta.

Seção 1.6: Organização deste Trabalho 9