Trabalhos Futuros - Pré-processamento de dados em aprendizado de máquina supervisionado

aos resultados obtidos com o conjunto de dados Breast.

Assim, sendo os valores imputados aproxima¸cões dos valores reais, recomenda-se, antes de utilizar um método de imputa¸cão, procurar verificar se não é poss´ıvel coletar os dados ausentes ou, até mesmo, verificar se não existe um outro atributo com informa¸cões similares, isto é, alta correla¸cão, no conjunto de dados.

7.3.2 Tratamento de Conjuntos com Classes Desbalanceadas

Para muitos problemas reais, criar um classificador que classifique bem as duas classes, isto é, que apresente baixas taxas de falso positivo e de falso negativo, é uma tarefa muito dif´ıcil. Freqüentemente, existe uma rela¸cão de perda e ganho entre as taxas de falso positivo e falso negativo.

Em conjuntos de dados com classes desbalanceadas, o objetivo principal é melhorar a classifica¸cão da classe minoritária. Entretanto, atingir esse objetivo muitas vezes resulta em aumentar o erro de classifica¸cão da classe majoritária. Nos experimentos realizados com o método de sele¸cão unilateral proposto houve a maior redu¸cão na taxa de falso negativo entre todos os métodos, mas essa redu¸cão foi acompanhada pelo maior aumento na taxa de falso positivo.

Uma das principais limita¸cões do método de sele¸cão unilateral é, dados os custos de classifica¸cão de cada classe, identificar quantos exemplos da classe majoritária precisam ser removidos para que o método forne¸ca bons resultados. Essa limita¸cão é, provavelmente, a principal limita¸cão de outros métodos de under- e over-sampling que utilizam heur´ısticas para remover ou adicionar exemplos. Possivelmente, os trabalhos de Breiman, Friedman, Olshen & Stone (1984);Elkan(2001) podem ser utilizados como diretrizes para procurar por alguma solu¸cão para esse problema, entretanto, uma análise mais detalhada ainda é necessária.

7.4 Trabalhos Futuros

Algumas sugestões de poss´ıveis refinamentos e extensões dos métodos apresentados neste trabalho, além de algumas novas idéias que surgiram durante o desenvolvimento desta tese, são apresentadas a seguir.

Tratamento de valores desconhecidos

Em trabalhos futuros, pretende-se inserir valores desconhecidos com distribui¸cões MAR e NMAR. Sob essas distribui¸cões é esperado que o método de imputa¸cão base- ado no algoritmo k-vizinhos mais próximos obtenha resultados ainda melhores que a imputa¸cão pela média ou moda, entretanto, ainda resta verificar se essa superioridade é confirmada experimentalmente. Alguns padrões NMAR de valores desconhecidos podem ser altamente perigosos como, por exemplo, quando todos os valores de um atributo acima ou abaixo de um limiar são desconhecidos. Esse padrão pode ocorrer, por exemplo, com um sensor que não funciona corretamente abaixo ou acima de uma determinada temperatura. É necessário pesquisar se os métodos de imputa¸cão são robustos nesse tipo de cenário.

Um Algoritmo Genético — AG —poderia ser utilizado como método de imputa- ¸cão. Nesse caso, o AG realizaria a busca para encontrar um conjunto de valores que substituiriam os valores desconhecidos. Uma vantagem do AG sobre os demais métodos de imputa¸cão é que a fun¸cão objetivo do AG poderia levar em considera¸cão diversas medidas estat´ısticas dos dados completos que deveriam ser mantidas nos dados imputados como, por exemplo, as covariâncias entre os atributos, a média e a variância de cada atributo, entre outras.

Tratamento de conjuntos desbalanceados

Vários trabalhos podem ser sugeridos para estender algumas das conclusões apresentadas nesta tese. Inicialmente, pretende-se avaliar o método de sele¸cão unilateral em outros conjuntos de dados, com o objetivo de obter conclusões mais abrangentes. Pretende-se investigar novos métodos de identifica¸cão de ru´ıdo nos dados, e poss´ıveis extensões para o método de liga¸cões Tomek. Essas extensões têm como principal objetivo discriminar os casos que são ru´ıdo dos casos próximos à borda de decisão. Uma heur´ıstica bastante simples que procura realizar essa distin¸cão é verificar as classes dos exemplos mais próximos dos exemplos que formam uma liga¸cão Tomek. Se uma grande quantidade dos exemplos mais próximos a uma liga¸cão Tomek for de uma única classe, então, provavelmente, um dos exemplos que formam a liga¸cão Tomek é ru´ıdo.

Pretende-se aliar um método de under-sampling, como as liga¸cões Tomek, com um método de over-sampling, de forma a não reduzir excessivamente o número de exemplos do conjunto de dados. Um método de over-sampling, que consideramos bastante promissor, consiste em encontrar exemplos com o algoritmo 1-vizinhos mais pró- ximoque sejam próximos e da mesma classe. Um novo exemplo pode ser criado por

Seção 7.4: Trabalhos Futuros 167

meio da interpola¸cão dos valores dos dois exemplos. Dessa forma, não são criados exemplos repetidos, o que poderia causar overfitting.

Por fim, pretende-se avaliar os resultados obtidos por meio de avalia¸cões experi- mentais com a ajuda de gráficos ROC, e pretende-se substituir as medidas de falso positivo e falso negativo pela área sob a curva ROC — AUC.

Discover Learning Environment — DLE

Quanto ao ambiente DLE, pretende-se adicionar ao ambiente Sniffer uma interface que permita criar gráficos ROC para avaliar os sistemas de aprendizado. Além disso, pretende-se utilizar a medida AUC como um ´ındice numérico que fornece uma informa¸cão mais segura sobre o desempenho do sistema de aprendizado.

Apˆendice A

A Sintaxe Discover Dataset

Sintax — DSX

A.1 Considera¸c˜oes Iniciais

Na etapa de Minera¸cão de Dados do processo de KDD, muito freqüentemente são utilizados sistemas de aprendizado, tanto acadêmicos quanto comerciais para a extra¸cão de padrões. Infelizmente, não houve uma padroniza¸cão no formato do arquivo de dados utilizado como entrada para esses sistemas. Como resultado, diferentes sistemas de aprendizado utilizam diferentes sintaxes de arquivos de dados. Os sistemas de aprendizado acadêmicos normalmente aceitam como entrada somente arquivos texto em um formato proprietário. Os sistemas de aprendizado comerciais geralmente aceitam, além de arquivos texto, outras formas de entrada de dados, como por exemplo, conexões nativas a bancos de dados SQL e interface ODBCTM

Realizar uma investiga¸cão que envolve extrair conhecimento de vários conjuntos de dados utilizando diversos sistemas de aprendizado é normalmente muito trabalhoso pois necessita, entre outros, converter os arquivos de dados para a sintaxe utilizada por cada sistema de aprendizado. Para simplificar esse trabalho dentro do projeto Discover, foi decidido adotar uma sintaxe padrão para conjuntos de dados. A partir dessa sintaxe padrão, é poss´ıvel utilizar a biblioteca de classes DOL para converter um arquivo de dados para a sintaxe utilizada em diversos sistemas de aprendizado, tais como as sintaxes dos sistemas listados na Tabela 4.1 na página54.

Dessa forma, decidiu-se criar uma nova sintaxe para o ambiente Discover, a qual 169

foi dado o nome de DSX (Discover Dataset Sintax), ao inv´es de utilizar alguma sintaxe j´a definida por outros pesquisadores, como por exemplo as sintaxes utilizadas nos projetos MLC++ (Kohavi, Sommerfield & Dougherty, 1997) e Weka (Witten & Frank, 2000).

Essa decisão é justificada uma vez que as seguintes caracter´ısticas são desejáveis na nova sintaxe:

Suporte a diversos tipos da dados

Apesar de que os sistemas de aprendizado mais tradicionais são limitados a utilizar dados de tipo numérico (inteiros e reais) e nominal, os sistemas de aprendizado mais recentes, sobretudo os sistemas de aprendizado comerciais, são capazes de utilizar outros tipos de dado tais como data e hora. Dessa forma, a nova sintaxe deve dar suporte aos tipos de dado mais atuais. Para a defini¸cão desses tipos, foram levantados os tipos de dado mais utilizados em sistemas gerenciadores de banco de dados, sendo que os tipos de dado mais utilizados nesses sistemas foram incorporados à sintaxe DSX;

Suporte a indu¸c˜ao construtiva apoiada pelo usu´ario ´

E bastante comum que o usuário deseje construir novos atributos a partir de atributos já presentes nos dados (Lee, 2000). Isso ocorre, pois um atributo que compõe informa¸cões sobre dois ou mais atributos pode ser muito mais relevante para a re- solu¸cão do problema do que os atributos separados. Por exemplo, em concessão de crédito pessoal, dois atributos altamente relevantes são a renda do cliente e o valor da presta¸cão a ser paga. Entretanto, o percentual da renda do cliente comprometido com o pagamento da presta¸cão pode fornecer uma medida mais direta se o cliente pode ou não ser capaz de honrar esse compromisso. A sintaxe DSX provê uma forma muito simples de realizar indu¸cão construtiva apoiada pelo usuário, por meio da defini¸cão de atributos virtuais, os quais podem ser definidos utilizando expressões aritméticas ou lógicas envolvendo um ou mais atributos existentes nos dados; Suporte a diversas tarefas de aprendizado

Conjuntos de dados declarados com a sintaxe DSX podem ser utilizados tanto em aprendizado supervisionado quanto não supervisionado. Ainda, em aprendizado supervisionado, os dados podem ser utilizados em problemas de classifica¸cão ou regressão. Portanto, a sintaxe padrão deve dar suporte a conjuntos de dados que tenham classe nominal ou numérica, ou ainda não possuem uma classe definida explicitamente.

Seção A.2: Uma Visão Geral da Sintaxe DSX 171

sintaxe do sistema C4.5. O projeto Weka propõe uma sintaxe chamada ARFF — Attribute Relation Format File. Ambas sintaxes possuem limita¸cões quanto aos objetivos propostos anteriormente. Tanto a sintaxe ARFF quanto a sintaxe utilizada pelo sistema C4.5 dão suporte somente aos tipos de dado numérico e nominal. Também, essas sintaxes não oferecem suporte para realizar indu¸cão construtiva apoiada pelo usuário.

Nas próximas se¸cões é feita uma apresenta¸cão detalhada da sintaxe DSX e das suas principais caracter´ısticas.

No documento Pré-processamento de dados em aprendizado de máquina supervisionado (páginas 193-199)