• Nenhum resultado encontrado

aos resultados obtidos com o conjunto de dados Breast.

Assim, sendo os valores imputados aproxima¸c˜oes dos valores reais, recomenda-se, antes de utilizar um m´etodo de imputa¸c˜ao, procurar verificar se n˜ao ´e poss´ıvel coletar os dados ausentes ou, at´e mesmo, verificar se n˜ao existe um outro atributo com informa¸c˜oes similares, isto ´e, alta correla¸c˜ao, no conjunto de dados.

7.3.2

Tratamento de Conjuntos com Classes Desbalanceadas

Para muitos problemas reais, criar um classificador que classifique bem as duas classes, isto ´e, que apresente baixas taxas de falso positivo e de falso negativo, ´e uma tarefa muito dif´ıcil. Freq¨uentemente, existe uma rela¸c˜ao de perda e ganho entre as taxas de falso positivo e falso negativo.

Em conjuntos de dados com classes desbalanceadas, o objetivo principal ´e melhorar a classifica¸c˜ao da classe minorit´aria. Entretanto, atingir esse objetivo muitas vezes resulta em aumentar o erro de classifica¸c˜ao da classe majorit´aria. Nos experimentos realizados com o m´etodo de sele¸c˜ao unilateral proposto houve a maior redu¸c˜ao na taxa de falso negativo entre todos os m´etodos, mas essa redu¸c˜ao foi acompanhada pelo maior aumento na taxa de falso positivo.

Uma das principais limita¸c˜oes do m´etodo de sele¸c˜ao unilateral ´e, dados os custos de classifica¸c˜ao de cada classe, identificar quantos exemplos da classe majorit´aria precisam ser removidos para que o m´etodo forne¸ca bons resultados. Essa limita¸c˜ao ´e, provavelmente, a principal limita¸c˜ao de outros m´etodos de under- e over-sampling que utilizam heur´ısticas para remover ou adicionar exemplos. Possivelmente, os trabalhos de Breiman, Friedman, Olshen & Stone (1984);Elkan(2001) podem ser utilizados como diretrizes para procurar por alguma solu¸c˜ao para esse problema, entretanto, uma an´alise mais detalhada ainda ´e necess´aria.

7.4

Trabalhos Futuros

Algumas sugest˜oes de poss´ıveis refinamentos e extens˜oes dos m´etodos apresentados neste trabalho, al´em de algumas novas id´eias que surgiram durante o desenvolvimento desta tese, s˜ao apresentadas a seguir.

Tratamento de valores desconhecidos

Em trabalhos futuros, pretende-se inserir valores desconhecidos com distribui¸c˜oes MAR e NMAR. Sob essas distribui¸c˜oes ´e esperado que o m´etodo de imputa¸c˜ao base- ado no algoritmo k-vizinhos mais pr´oximos obtenha resultados ainda melhores que a imputa¸c˜ao pela m´edia ou moda, entretanto, ainda resta verificar se essa superioridade ´e confirmada experimentalmente. Alguns padr˜oes NMAR de valores desconhecidos podem ser altamente perigosos como, por exemplo, quando todos os valores de um atributo acima ou abaixo de um limiar s˜ao desconhecidos. Esse padr˜ao pode ocorrer, por exemplo, com um sensor que n˜ao funciona corretamente abaixo ou acima de uma determinada temperatura. ´E necess´ario pesquisar se os m´etodos de imputa¸c˜ao s˜ao robustos nesse tipo de cen´ario.

Um Algoritmo Gen´etico — AG —poderia ser utilizado como m´etodo de imputa- ¸c˜ao. Nesse caso, o AG realizaria a busca para encontrar um conjunto de valores que substituiriam os valores desconhecidos. Uma vantagem do AG sobre os demais m´etodos de imputa¸c˜ao ´e que a fun¸c˜ao objetivo do AG poderia levar em considera¸c˜ao diversas medidas estat´ısticas dos dados completos que deveriam ser mantidas nos dados imputados como, por exemplo, as covariˆancias entre os atributos, a m´edia e a variˆancia de cada atributo, entre outras.

Tratamento de conjuntos desbalanceados

V´arios trabalhos podem ser sugeridos para estender algumas das conclus˜oes apre- sentadas nesta tese. Inicialmente, pretende-se avaliar o m´etodo de sele¸c˜ao unilateral em outros conjuntos de dados, com o objetivo de obter conclus˜oes mais abrangentes. Pretende-se investigar novos m´etodos de identifica¸c˜ao de ru´ıdo nos dados, e poss´ıveis extens˜oes para o m´etodo de liga¸c˜oes Tomek. Essas extens˜oes tˆem como principal objetivo discriminar os casos que s˜ao ru´ıdo dos casos pr´oximos `a borda de decis˜ao. Uma heur´ıstica bastante simples que procura realizar essa distin¸c˜ao ´e verificar as classes dos exemplos mais pr´oximos dos exemplos que formam uma liga¸c˜ao Tomek. Se uma grande quantidade dos exemplos mais pr´oximos a uma liga¸c˜ao Tomek for de uma ´unica classe, ent˜ao, provavelmente, um dos exemplos que formam a liga¸c˜ao Tomek ´e ru´ıdo.

Pretende-se aliar um m´etodo de under-sampling, como as liga¸c˜oes Tomek, com um m´etodo de over-sampling, de forma a n˜ao reduzir excessivamente o n´umero de exem- plos do conjunto de dados. Um m´etodo de over-sampling, que consideramos bastante promissor, consiste em encontrar exemplos com o algoritmo 1-vizinhos mais pr´o- ximoque sejam pr´oximos e da mesma classe. Um novo exemplo pode ser criado por

Seção 7.4: Trabalhos Futuros 167

meio da interpola¸c˜ao dos valores dos dois exemplos. Dessa forma, n˜ao s˜ao criados exemplos repetidos, o que poderia causar overfitting.

Por fim, pretende-se avaliar os resultados obtidos por meio de avalia¸c˜oes experi- mentais com a ajuda de gr´aficos ROC, e pretende-se substituir as medidas de falso positivo e falso negativo pela ´area sob a curva ROC — AUC.

Discover Learning Environment — DLE

Quanto ao ambiente DLE, pretende-se adicionar ao ambiente Sniffer uma inter- face que permita criar gr´aficos ROC para avaliar os sistemas de aprendizado. Al´em disso, pretende-se utilizar a medida AUC como um ´ındice num´erico que fornece uma informa¸c˜ao mais segura sobre o desempenho do sistema de aprendizado.

Apˆendice A

A Sintaxe Discover Dataset

Sintax — DSX

A.1

Considera¸c˜oes Iniciais

Na etapa de Minera¸c˜ao de Dados do processo de KDD, muito freq¨uentemente s˜ao utilizados sistemas de aprendizado, tanto acadˆemicos quanto comerciais para a extra¸c˜ao de padr˜oes. Infelizmente, n˜ao houve uma padroniza¸c˜ao no formato do arquivo de dados utilizado como entrada para esses sistemas. Como resultado, diferentes sistemas de aprendizado utilizam diferentes sintaxes de arquivos de dados. Os sistemas de aprendizado acadˆemicos normalmente aceitam como entrada somente arquivos texto em um formato propriet´ario. Os sistemas de aprendizado comerciais geralmente aceitam, al´em de arquivos texto, outras formas de entrada de dados, como por exemplo, conex˜oes nativas a bancos de dados SQL e interface ODBCTM

.

Realizar uma investiga¸c˜ao que envolve extrair conhecimento de v´arios conjuntos de dados utilizando diversos sistemas de aprendizado ´e normalmente muito trabalhoso pois necessita, entre outros, converter os arquivos de dados para a sintaxe utilizada por cada sistema de aprendizado. Para simplificar esse trabalho dentro do projeto Discover, foi decidido adotar uma sintaxe padr˜ao para conjuntos de dados. A partir dessa sintaxe padr˜ao, ´e poss´ıvel utilizar a biblioteca de classes DOL para converter um arquivo de dados para a sintaxe utilizada em diversos sistemas de aprendizado, tais como as sintaxes dos sistemas listados na Tabela 4.1 na p´agina54.

Dessa forma, decidiu-se criar uma nova sintaxe para o ambiente Discover, a qual 169

foi dado o nome de DSX (Discover Dataset Sintax), ao inv´es de utilizar alguma sintaxe j´a definida por outros pesquisadores, como por exemplo as sintaxes utilizadas nos projetos MLC++ (Kohavi, Sommerfield & Dougherty, 1997) e Weka (Witten & Frank, 2000).

Essa decis˜ao ´e justificada uma vez que as seguintes caracter´ısticas s˜ao desej´aveis na nova sintaxe:

Suporte a diversos tipos da dados

Apesar de que os sistemas de aprendizado mais tradicionais s˜ao limitados a utilizar dados de tipo num´erico (inteiros e reais) e nominal, os sistemas de aprendizado mais recentes, sobretudo os sistemas de aprendizado comerciais, s˜ao capazes de utilizar outros tipos de dado tais como data e hora. Dessa forma, a nova sintaxe deve dar suporte aos tipos de dado mais atuais. Para a defini¸c˜ao desses tipos, foram levantados os tipos de dado mais utilizados em sistemas gerenciadores de banco de dados, sendo que os tipos de dado mais utilizados nesses sistemas foram incorporados `a sintaxe DSX;

Suporte a indu¸c˜ao construtiva apoiada pelo usu´ario ´

E bastante comum que o usu´ario deseje construir novos atributos a partir de atri- butos j´a presentes nos dados (Lee, 2000). Isso ocorre, pois um atributo que comp˜oe informa¸c˜oes sobre dois ou mais atributos pode ser muito mais relevante para a re- solu¸c˜ao do problema do que os atributos separados. Por exemplo, em concess˜ao de cr´edito pessoal, dois atributos altamente relevantes s˜ao a renda do cliente e o valor da presta¸c˜ao a ser paga. Entretanto, o percentual da renda do cliente comprometido com o pagamento da presta¸c˜ao pode fornecer uma medida mais direta se o cliente pode ou n˜ao ser capaz de honrar esse compromisso. A sintaxe DSX provˆe uma forma muito simples de realizar indu¸c˜ao construtiva apoiada pelo usu´ario, por meio da defini¸c˜ao de atributos virtuais, os quais podem ser definidos utilizando express˜oes aritm´eticas ou l´ogicas envolvendo um ou mais atributos existentes nos dados; Suporte a diversas tarefas de aprendizado

Conjuntos de dados declarados com a sintaxe DSX podem ser utilizados tanto em aprendizado supervisionado quanto n˜ao supervisionado. Ainda, em aprendizado supervisionado, os dados podem ser utilizados em problemas de classifica¸c˜ao ou regress˜ao. Portanto, a sintaxe padr˜ao deve dar suporte a conjuntos de dados que tenham classe nominal ou num´erica, ou ainda n˜ao possuem uma classe definida explicitamente.

Seção A.2: Uma Visão Geral da Sintaxe DSX 171

sintaxe do sistema C4.5. O projeto Weka prop˜oe uma sintaxe chamada ARFF — Attribute Relation Format File. Ambas sintaxes possuem limita¸c˜oes quanto aos objetivos propostos anteriormente. Tanto a sintaxe ARFF quanto a sintaxe utilizada pelo sistema C4.5 d˜ao suporte somente aos tipos de dado num´erico e nominal. Tamb´em, essas sintaxes n˜ao oferecem suporte para realizar indu¸c˜ao construtiva apoiada pelo usu´ario.

Nas pr´oximas se¸c˜oes ´e feita uma apresenta¸c˜ao detalhada da sintaxe DSX e das suas principais caracter´ısticas.