Explorer Fuzzy Tree: uma ferramenta para experimentação de técnicas de classificação baseadas em árvores de decisão fuzzy

(1)

Explorer Fuzzy Tree: uma ferramenta para experimentac¸˜ao

de técnicas de classificação baseadas em árvores de decisão

fuzzy

Erick Nilsen Pereira de Souza1, Daniela Barreiro Claro1 ∗

1 _{Laborat´orio de Sistemas Distribu´ıdos - LaSiD}

Departamento de Ciência da Computação – Universidade Federal da Bahia (UFBA) Salvador – BA – Brasil

{erick,dclaro}@ufba.br

Abstract. Techniques based on the fuzzy logic applied to classification tree algo-rithms have been presenting good results in data mining domain. In this context, this work proposes an analysis of fuzzy logic in classification trees through the implementation of two techniques for tree fuzzyfications. A tool, called Explorer Fuzzy Tree, was developed in order to evaluate classification techniques based on fuzzy decision trees, varying some parameters to obtain better results in data classification. Furthermore, a comparative study using four different datasets was made using the implemented algorithms.

Resumo. A aplicação de técnicas baseadas na lógica fuzzy à algoritmos de classificação com árvores vem apresentando bons resultados na mineração de dados. Nesse contexto, este trabalho propõe uma análise da aplicação da lógica fuzzy às árvores de classificação através da implementação de duas técnicas de fuzzyficação de árvores. Os algoritmos implementados foram reunidos em uma ferramenta para experimentação destas técnicas, chamada Explorer Fuzzy Tree, que permite variar parâmetros espec´ıficos para obtenção de melhores resulta-dos na classificação de daresulta-dos. Adicionalmente, foi feito um estudo comparativo dos algoritmos implementados na ferramenta com base nos resultados obtidos dos experimentos realizados.

1. Introduc¸˜ao

Um dos maiores desafios em aplicações que armazenam grandes quantidades de dados é extrair padrões úteis que permitam novas percepções aos usuários. Atualmente, a im-portância da informação é incontestável. De fato, estima-se que cinco exabytes (5 x 1018 _{bytes) de novas informações foram produzidos em 2002, dos quais 92% estavam}

armazenados em meios magnéticos. Isso representa mais do que o dobro da informação produzida em 1999 (2 exabytes) [Eggermont 2005]. Assim, a tecnologia vem facilitando o acúmulo de informação. Entretanto, como observado por Albert Einstein: “Informação não é Conhecimento”. Estudos comprovam que o cérebro humano consegue fazer apenas oito comparações por vez [Lyman 2003], o que impossibilita a descoberta de padrões em grandes bases de dados, até mesmo para as mentes mais “brilhantes”.

Para contornar as limitações da percepção humana, surge o processo de descoberta do conhecimento automático em bancos de dados, denominado KDD (Knowledge

(2)

very in Databases). De acordo com [Fayyad and Smyth 1996a], o KDD pode ser definido como o processo não trivial de identificar padrões válidos, novos, potencialmente úteis e compreens´ıveis em dados. A principal fase desse processo é a Mineração de Dados. Se-gundo Fayyad [Fayyad and Smyth 1996b], a Mineração de Dados consiste em fazer a análise dos dados e aplicar algoritmos de aprendizado de máquina, sob limitações com-putacionais aceitáveis, para produzir um conjunto de padrões sobre os dados. Os algorit-mos de aprendizado de máquina geralmente utilizam conceitos da estat´ıstica e da teoria da informação para produzir resultados.

Este trabalho avalia o comportamento e a aplicabilidade da lógica nebulosa às técnicas de classificação em Mineração de Dados. Algoritmos de classificação baseados em árvores de decisão fuzzy foram implementados utilizando a linguagem Java e testados com quatro bases de dados (Iris [R.A. Fisher 1988], Segment-challenge [Group 1990a], Segment-test [Group 1990b] e SPAMBASE [Hopkins et al. 2001]). Foi desenvolvida uma ferramenta gráfica para facilitar a experimentação destes algoritmos, o Explorer Fuzzy Tree (EFT). Adicionalmente, são apresentados e discutidos os resultados gerados por cada algoritmo.

O restante deste artigo está dividido da seguinte forma: a seção 2 apresenta os principais algoritmos de classificação com árvores clássicas. A seção 3 descreve duas técnicas de fuzzyficação de árvores. A seção 4 apresenta os algoritmos de classificação com árvore fuzzy desenvolvidos e a ferramenta gráfica de Mineração de Dados implemen-tada. A seção 5 discute os resultados obtidos nos experimentos realizados. A seção 6 apresenta conclusões e considerações finais.

2. Algoritmos de Classificac¸˜ao com ´

Arvores

Os principais algoritmos de classificação com árvores de decisão são gulosos e utilizam o método top-down. Dentre estes, os mais populares são: ID3 [Quinlan 1993] e C4.5 [Quinlan 1996]. A seguir são descritas as principais caracter´ısticas destes algoritmos. 2.1. ID3

O ID3 (Iterative Dichotomiser 3) constrói a árvore de decisão a partir da raiz, selecio-nando o melhor atributo classificador dentre todos os atributos do conjunto de dados. O melhor atributo classificador é selecionado com base numa avaliação estat´ıstica de todos os atributos. Após a escolha, os dados são separados de acordo com as classes do atribu-to escolhido, gerando uma subdivisão dos dados para cada descendente na árvore. O al-goritmo é aplicado recursivamente a cada descendente. Isto gera uma árvore de decisão aceitável, na qual o algoritmo nunca retrocede para reconsiderar escolhas feitas anterior-mente.

´

E crucial selecionar o atributo que é mais significativo para classificar os exem-plos. No ID3, a seleção do melhor atributo classificador é feita com base no conceito de ganho de informação. O ganho de informação mede como um determinado atributo separa os exemplos de treinamento de acordo com suas classificações. Formalmente, o ganho de informação (de um atributo A relativo a uma coleção de instâncias S) é definido como [Quinlan 1996]:

(3)

Ganho(S, A) = Entropia(S) − k X j=1 −|Sj| |S|Entropia(Sj) (1)

A entropia é uma medida que caracteriza a impureza de uma coleção arbitrária de instâncias. Mais precisamente, dada uma coleção S, a entropia de S é obtida da seguinte equação [Guarda 2000]: Entropia(S) = c X i=1 −pilog2pi (2)

onde c ´e a quantidade de classes presentes em S, e pi ´e a probabilidade de uma

instˆancia em S pertencer `a classe i.

Dessa maneira, o ID3 usa o ganho de informação para selecionar, entre os can-didatos, os atributos que serão utilizados a cada etapa de construção da árvore. As-sim, o algoritmo ID3 privilegia os atributos que possuem maior ganho de informação, selecionando-os como atributos de decisão pertencentes aos nós internos da árvore de classificação constru´ıda.

O ID3 foi criado para receber como entrada apenas conjuntos de dados com atributos discretos (nominais), ou seja, atributos cujos valores são predefinidos. Esta limitação foi contornada quando Quinlan [Quinlan 1993] publicou o desenvolvimento de uma fam´ılia de algoritmos de classificação com árvores para conjuntos cont´ınuos na lin-guagem C, denominada C4.5.

2.2. C4.5

Os algoritmos da fam´ılia C4.5 definem limiares de partição para cada atributo nos nós internos da árvore por trabalharem com bases de dados de atributos cont´ınuos. O melhor limiar de um atributo cont´ınuo é escolhido em meio a um conjunto de limiares candidatos. Em [Quinlan 1996], Quinlan sugere que os limiares candidatos de um atributo A sejam selecionados da seguinte forma:

1. Ordena-se os valores distintos de A para obter a seq¨uˆencia v1, v2, v3, ..., vn.

2. Os limiares candidatos s˜ao todos os valores pertencentes ao seguinte conjunto: { t ∈ < / t = (vi+vi+1)

2 , ∀ i ∈ (1,2,3,...,n)}.

Após a seleção dos limiares candidatos, utiliza-se a mesma estratégia do ID3 para a seleção do melhor limiar: o ganho de informação. Assim, todos os limiares são testados e é escolhido aquele que apresenta maior ganho. Esse procedimento é feito para todos os limiares de todos os atributos e repetido para a construção de cada subárvore.

A seguir s˜ao descritos os algoritmos mais recentes da fam´ılia C4.5.

2.2.1. C4.5 Release 7

A principal caracter´ıstica do C4.5 Release 7 foi a inclusão de um importante critério para seleção desse limiar: a relação de ganho. Este critério adota o cálculo da informação de corte para auxiliar a escolha do melhor limiar [Quinlan 1996]:

(4)

Corte(S, A) = − p X i=1 |Si| |S|log2 |Si| |S| (3)

onde p denota a quantidade de subconjuntos do atributo A e Sirepresenta a

quan-tidade de exemplos de cada subconjunto i de S. Para atributos cont´ınuos o valor de p é sempre 2, pois Quinlan [Quinlan 1996] propõe uma divisão binária para os intervalos dos valores cont´ınuos.

A relação de ganho é obtida pela seguinte equação [Quinlan 1996]:

RelacaoGanho(S, A) = Ganho(S, A)

Corte(S, A) (4)

Esse balanceamento no ganho de informação é crucial para a obtenção de árvores mais consistentes com a amostra (S).

2.2.2. C4.5 Release 8

O Release 8 difere do Release 7 pela aplicação do princ´ıpio MDL (Minimum Description Length) [Rissanen 1983] para corrigir um mal comportamento nos critérios de seleção dos melhores limiares.

O ganho de informação - na forma como é calculado no Release 7 - permite que atributos que possuem muitos limiares distintos sejam inadequadamente beneficiados em relação aos que possuem poucos limiares distintos. Assim, duas modificações são sugeri-das: primeiro, o ganho de informação de um teste sobre um atributo cont´ınuo é penalizado na medida do acréscimo de custo determinado pela transmissão do limiar. Sendo h o número de valores distintos do atributo considerado, a equação 1 é modificada para:

Ganho(S, A) = Entropia(S) − k X j=1 |Sj| |S|Entropia(Sj) − log2 h − 1 |S| (5)

Limiares com ganho negativo, ou seja, cujo ganho original não consegue superar a penalização são automaticamente descartados.

A segunda modificação é selecionar o limiar de cada atributo cont´ınuo após a determinação do máximo ganho de informação e, então, aplicar o critério da relação de ganho para escolher o melhor limiar geral.

Experimentalmente, percebe-se que as árvores geradas pelo Release 8 tendem a ser mais robustas que as geradas pelo Release 7. Embora a acurácia de uma árvore de decisão seja satisfatória em muitos casos, outras técnicas podem ser utilizadas para me-lhorá-la. Nesse contexto, a aplicação da lógica fuzzy tem apresentado bons resultados. Na próxima sessão são discutidas duas técnicas de fuzzyficação de árvores.

(5)

3. ´

Arvores de Classificac¸˜ao Fuzzy

Autores em [[Liang 1997], [Eggermont 2005] e [Araujo 2006]] reportam melhoras sig-nificativas nas acurácias obtidas em diversas bases de dados para algoritmos fuzzy em relação aos algoritmos clássicos (crisp).

De modo geral, uma árvore de classificação fuzzy é gerada a partir de uma árvore de classificação clássica (constru´ıda por métodos como ID3 e C4.5). Na prática, a árvore clássica é adaptada para trabalhar com operações de conjuntos nebulosos. Os principais operadores de conjuntos nebulosos são mostrados nas tabelas 3.1 e 3.2

Tabela 3.1 - Funções de interseção de conjuntos nebulosos [Cruz 1998]

Tipo µa∩b(x) Produto µa(x)µb(x) Zadeh (1965) min(µa(x), µb(x)) Yager (1980) 1 − min{1, [(1 − µa(x))w + (1 − µb(x))w] 1 w} Dubois/Prade (1980) (µa(x)∗µb(x)) max(µa(x),µb(x),w)

Tabela 3.2 - Funções de união de conjuntos nebulosos [Cruz 1998]

Tipo µa∪b(x)

Soma Limitada min(1, µa(x) + µb(x))

Zadeh (1965) max(µa(x), µb(x)) Yager (1980) 1 − min{1, [(µa(x))w + (µb(x))w] 1 w} Dubois/Prade (1980) (µa(x)+µb(x))−(µa(x)µb(x))−min(µa(x),µb(x),1−w) max(1−µa(x),1−µb(x),w)

A seguir são apresentadas duas técnicas de fuzzyficação de árvores: FTREE (Fuzzy Tree Representation) [Eggermont 2005] e FILM (Fuzzy Inductive Learning Method) [Liang 1997].

3.1. Técnicas de Fuzzyficação de Árvores

Partindo de uma árvore clássica, a fuzzyficação é aplicada nos limiares de cada nó da árvore através de uma função membership. A figura 1 mostra um exemplo de árvore fuzzy e sua partição no espaço de atributos.

Figure 1. Uma árvore de decis ão fuzzy e sua partiç ão do espaço de atributos (adaptado de [Liang 1997])

3.1.1. FTREE

A técnica de fuzzyficação de árvores discutida nesta seção é uma proposta de representação de árvores de decisão fuzzy descrita em [Eggermont 2005].

(6)

Toda árvore de decisão pode ser mapeada em um conjunto de regras de inferência, sendo a cardinalidade desse conjunto o número de valores do atributo-objetivo. Considere o exemplo de árvore de decisão exibido na figura 2. Como existem dois valores para o atributo-objetivo (Sailing e Swimming), é poss´ıvel construir duas regras de inferência partindo dessa árvore. São elas:

Regra 1: IF (Temperature = Warm) ∧ (WindForce = Light) THEN class = Swim-ming

Regra 2: IF (Temperature != Warm) ∨ (Temperature = Warm ∧ WindForce != Light) THEN class = Sailing

Figure 2. Exemplo de árvore de decis ão cl ássica [Eggermont 2005]

O processo de fuzzyficação começa com o cálculo dos fatores de inclusão das classes. Para realizar este cálculo é necessário aplicar um dos operadores de união e interseção da lógica fuzzy (tabelas 3.1 e 3.2) sobre os átomos das regras 1 e 2 [Eggermont 2005]. Nesta técnica são utilizados os operadores de produto e soma limi-tada para interseção e união, respectivamente. Assim, os fatores de inclusão das classes no exemplo da figura 2 são calculados da seguinte forma:

µSwimming = µ(T emperature=W arm)∗ µ(W indF orce=Ligth)

µSailing = µ(T emperature!=W arm)+ (µ(T emperature=W arm)∗ µ(W indF orce!=Ligth))

Suponha que uma nova instância I com os atributos Temperature e WindForce deva ser classificada e que os valores das funções membership sejam µ(T emperature=W arm) =

0, 9 e µ(W indF orce=Ligth)= 0, 3 para os valores dessa instˆancia. Sendo assim, os fatores de

inclus˜ao das classes Swimming e Sailing s˜ao: µSwimming = 0, 9 ∗ 0, 3 = 0, 27

µSailing = (1 − 0, 9) + (0, 9 ∗ (1 − 0, 3)) = 0, 73

O último passo é a defuzzyficação, ou seja, a escolha da classe da instância I. Como 0,73 > 0,27, I deve ser classificado como Sailing. Adicionalmente, o resultado sugere uma confiança de 73% na classificação.

A técnica FTREE realiza a fuzzyficação apenas nos limiares da árvore clássica. A seguir é descrita uma técnica que fuzzyfica tanto os limiares quanto as folhas da árvore.

(7)

3.1.2. FILM

O método FILM (Fuzzy Inductive Learning Method) [Liang 1997] aplica a operação de fuzzyficaçãosobre a árvore clássica em quatro etapas:

1. Fuzzyficação dos limiares clássicos:

A fuzzyficação é feita pela aplicação das funções membership sobre os limiares clássicos. Cada função membership cria uma largura de borda fuzzy associada a seu limiar correspondente. Segundo Peng [Liang 1997], a largura da borda fuzzy definida para cada limiar deve ser uma função do desvio padrão dos exemplos de treino do respectivo atributo.

2. Reclassificac¸˜ao dos exemplos de treino:

O segundo passo é associar cada instância de treino às folhas correspondentes da árvore. Uma instância pode ser associada a mais de uma folha (com diferentes fatores de inclusão) da árvore de decisão fuzzy. O cálculo do fator de inclusão de uma instância a uma folha é feito através da aplicação do operador de interseção da lógica fuzzy (Tabela 3.1) sobre os átomos da expressão gerada pelo percurso feito da raiz até a folha da árvore.

´

E poss´ıvel aplicar qualquer operador sobre as expressões geradas. Entretanto, os operadores de interseção e união sugeridos nessa técnica são as funções de Yager definidas nas tabelas 3.1 e 3.2.

3. Fuzzyficac¸˜ao das folhas:

Após a obtenção de todas as associações dos exemplos de treino às folhas da árvore, é necessário calcular os fatores de inclusão de cada valor do atributo-objetivo nessas folhas. Para efetuar esse cálculo, é preciso aplicar o operador de união da lógica fuzzy sobre todas as instâncias de uma mesma classe da folha. Por exemplo, considere uma folha Si que possui instâncias associadas, cujas classes

poss´ıveis s˜ao A e B. Sejam Ca e Cb os conjuntos das instˆancias que podem ser

classificadas como A e B em Si, respectivamente. Os fatores de inclus˜ao das

classes da folha Si s˜ao determinados da seguinte forma [Liang 1997]:

µA(Si) = µSi(x1, y1) ∪ µSi(x2, y2) ∪ µSi(x3, y3) ∪ ... ∪ µSi(xn, yn)

∀(xk, yk) ∈ Cae k ∈ {1, 2, 3, ..., n}

µB(Si) = µSi(x1, y1) ∪ µSi(x2, y2) ∪ µSi(x3, y3) ∪ ... ∪ µSi(xn, yn)

∀(xk, yk) ∈ Cb e k ∈ {1, 2, 3, ..., n}

A figura 3 mostra um exemplo de árvore de classificação obtida nesse processo.

Figure 3. Uma ´arvore de decis ˜ao fuzzy gerada pelo FILM [Liang 1997]

(8)

4. Predição de novas instâncias:

O processo de predição é feito em duas fases: mapeamento da instância nas folhas fuzzye defuzzyficação. O mapeamento da nova instância nas folhas fuzzy requer o mapeamento da instância no espaço de atributos fuzzy da árvore. Ou seja, os va-lores dos atributos da instância são utilizados para determinar, através das funções membership de cada nó, o grau de associação (fator de inclusão) da instância a uma determinada folha da árvore. Após a obtenção das associações das folhas à instância, é poss´ıvel calcular a associação da instância a uma classe em cada folha. Isto é feito multiplicando-se o fator de inclusão do mapeamento da instância na folha pelos fatores de inclusão da classe na folha. Por exemplo, suponha que as associações de um caso (x, y) com as folhas da figura 3 sejam 0,521 para a folha ”a”, 0.479 para a folha ”b” e 0 para a folha ”c”. Assim, as associações da instância (x, y) às classes A e B em cada folha são:

Leaf a: µA(x, y) = 0, 521 ∗ 1, 0 = 0, 521; µB(x, y) = 0, 521 ∗ 0, 2 = 0, 104

Leaf b: µA(x, y) = 0, 479 ∗ 0, 4 = 0, 192; µB(x, y) = 0, 479 ∗ 0, 9 = 0, 431

Paradoxalmente, os valores obtidos para as folhas ”a” e ”b” sugerem classificações distintas. Para resolver esse impasse é preciso aplicar algum mecanismo de defuzzyficação. O procedimento utilizado no método FILM é o k-sum. Neste procedimento são escolhidos os maiores k valores de associação calculados para as classes; os valores escolhidos são somados para cada classe. A classe com a maior soma é então selecionada para classificar a nova instância.

No exemplo anterior, diferentes valores para k apresentam a mesma conclus˜ao. Ou seja, a instˆancia (x, y) deve ser classificada como A:

K = 1 : A; (µA = 0, 521)

K = 2 : A; (µA = 0, 521 > µB = 0, 431)

K = 3 : A; (µA = 0, 521 + 0, 192 = 0, 713 > µB = 0, 431)

K = 4 : A; (µA = 0, 521 + 0, 192 = 0, 713 > µB = 0, 431 + 0, 104 = 0, 535)

Diversos estudos vêm sendo realizados através da aplicação de técnicas de fuzzyficação nas árvores de classificação em Mineração de Dados, porém, a maioria das ferramen-tas disponibilizadas não implementam esferramen-tas técnicas. Neste contexto, a seção seguinte descreve uma ferramenta que incorpora caracter´ısticas fuzzy nas árvores de classificação.

4. Implementac¸˜ao

Esta seção apresenta o Explorer Fuzzy Tree (EFT)1, uma ferramenta de Mineração de Dados. O EFT fornece ao usuário a possibilidade de fazer experimentos com algoritmos de classificação baseados em árvores de decisão fuzzy sobre qualquer base de dados com atributos cont´ınuos. O objetivo é possibilitar experimentação de parâmetros que permi-tam aumentar o poder preditivo da árvore clássica através da sua fuzzyficação. A seguir, são descritas as principais caracter´ısticas da ferramenta: arquitetura, algoritmos de apren-dizado implementados e interface gráfica.

4.1. Arquitetura do Explorer Fuzzy Tree

O Explorer Fuzzy Tree ´e uma ferramenta desenvolvida na linguagem Java e modelada sobre a arquitetura em 3 camadas:

(9)

• Camada de dados (Data Layer): é responsável pela manipulação de arquivos texto que contém as instâncias e as descrições dos atributos das bases de dados a serem processadas.

• Camada de Negócio (Business Layer): Manipula as informações fornecidas pela camada de dados, efetua e dispara ações e fornece as informações a serem exibidas na camada de interface. É nesta camada que são implementados os algoritmos de aprendizado indutivo e as técnicas de experimentação do EFT.

• Camada de Interface (Interface Layer): permite a realização de experimentos e a visualização dos resultados de forma prática e intuitiva.

4.2. Algoritmos Desenvolvidos

Neste trabalho, foram aplicadas duas técnicas de fuzzyficação a dois algoritmos de classificação com árvores, resultando na implementação de 6 algoritmos de aprendizado indutivo baseados em árvores de decisão (sendo 2 algoritmos clássicos e 4 algorit-mos fuzzy), todos sendo desenvolvidos utilizando a linguagem Java. Os algoritalgorit-mos de classificação com árvores clássicas implementados foram baseados no C4.5 Release 7 e no C4.5 Release 8 (ver seção 2) no qual originou os algoritmos J47 e J48 respectivamente. As técnicas de fuzzyficação aplicadas (FILM e FTREE) deram origem respectivamente aos dois algoritmos FILMJ47 e FILMJ48 e aos dois algoritmos FJ47 e FJ48.

4.3. Interface Gr´afica do Explorer Fuzzy Tree

O Explorer Fuzzy Tree oferece uma interface gráfica para facilitar a realização de ex-perimentos sobre os algoritmos desenvolvidos. A figura 4 mostra a tela principal da fer-ramenta.

(10)

5. Experimentos Realizados

Com o intuito de avaliar o comportamento dos algoritmos de árvores de classificação fuzzy implementados, estes foram aplicados a quatro conjuntos de dados sob validação cruzada (procedimento estat´ıstico para análise de experimentos em conjuntos).

5.1. Conjuntos de Dados

Os conjuntos de dados avaliados foram obtidos de fontes distintas. Suas caracter´ısticas estão brevemente descritas abaixo. Outras informações são agrupadas na Tabela 5.1.

1. Iris [R.A. Fisher 1988]: utilizada para ilustrar análise discriminante. O conjunto contém 3 tipos de flores, cada um com 50 instâncias. As três classes do atributo objetivo são: Iris-setosa, Iris-versicolor e Iris-virginica.

2. Segment-challenge [Group 1990a]: obtida randomicamente de uma base de dados com 7 imagens de outdoors. Classes do atributo objetivo: brickface, sky, foliage, cement, window, pathe grass.

3. Segment-test [Group 1990b]: ´e um subconjunto da base Segment-challenge. 4. SPAMBASE [Hopkins et al. 2001]: ´e uma base codificada de e-mails, constru´ıda

por pesquisadores da HP. É formada por 4601 e-mails pessoais de um dos pesquisadores (George Forman). Os e-mails são codificados em 57 atributos de entrada cont´ınuos e um atributo objetivo binário (1 para indicar e-mail spam e 0 para indicar e-mail não-spam).

Tabela 5.1 - Informac¸˜oes sobre os conjuntos de dados

Conjuntos de Dados Dom´ınio Classes Atributos de entrada Qtde. de instˆancias

SPAMBASE Comercial 2 57 4601

Segment-challenge Comercial 7 19 1500

Segment-test Comercial 7 19 810

Iris Biol´ogico 3 4 150

5.2. Procedimentos Experimentais

Os experimentos foram realizados com os diferentes algoritmos de classificação imple-mentados neste trabalho: J47, J48, FILMJ47, FILMJ48, FJ47 e FJ48. Cada algoritmo de árvore fuzzy foi comparado ao algoritmo de árvore clássica sobre o qual foi baseado. Assim, as seguintes comparações foram feitas: J47 x FILMJ47, J48 x FILMJ48, J47 x FJ47 e J48 x FJ48.

O objetivo dos experimentos é determinar para quais parâmetros a acurácia da árvore clássica é superada pela acurácia da árvore fuzzy correspondente. Mais precisa-mente, deseja-se determinar os valores mais adequados para o expoente de Yager (w) e largura da borda fuzzy (d), de modo a maximizar o poder de predição da árvore.

Para a determinação dos parâmetros, foi utilizada uma validação cruzada com 10 folds. Cada fold recebeu aleatoriamente 10% da totalidade dos dados. Para cada configuração da árvore, são separados 1 fold para o conjunto de treinamento e os outros 9 para o conjunto de validação, até todos os 10 folds serem selecionados para o conjunto de treinamento. A acurácia é então computada pela média aritmética das acurácias dos folds.

(11)

Dois parâmetros foram testados para os algoritmos implementados com o método FILM: o expoente de Yager (w) e a largura da borda fuzzy (d). Para os algoritmos imple-mentados com o método FTREE, foi testada apenas a largura da borda fuzzy. A largura da borda fuzzy foi determinada pelo desvio padrão dos exemplos de treino. Foram utilizadas larguras entre 10% e 90% do desvio padrão.

5.3. Resultados e Discuss˜oes

As tabelas 5.2, 5.3, 5.4 e 5.5 mostram a acurácia preditiva de cada método aplicado aos conjuntos de dados descritos na seção 5.1. Os valores do expoente de Yager (w) e das frações dos desvios (d) exibidos maximizam o poder de predição da árvore fuzzy em relação à árvore clássica correspondente.

Tabela 5.2 - J47 x FILMJ47

Conjuntos de Dados acur´acia J47 acur´acia FILMJ47 w d

SPAMBASE 0,848 0,853 /3/4/5/ 0,1/0,3/0,5

Segment-challenge 0,860 0,874 /5/6/7/ 0,1/0,3

Segment-test 0,818 0,847 /4/5/6/ 0,1/0,3

Iris 0,825 0,869 /3/4/ 0,3/0,5/0,7

Tabela 5.3 - J48 x FILMJ48

Conjuntos de Dados acur´acia J48 acur´acia FILMJ48 w d

SPAMBASE 0,874 0,857 /3/4/7/ 0,1/0,3

Segment-challenge 0,866 0,874 /5/6/7/ 0,1/0,3

Segment-test 0,812 0,835 /4/5/ 0,1/0,3

Iris 0,846 0,907 /2/3/7/ 0,5/0,7/0,9

Tabela 5.4 - J47 x FJ47

Conjuntos de Dados acur´acia J47 acur´acia FJ47 d

SPAMBASE 0,849 0,614 0,1/0,5

Segment-challenge 0,865 0,838 0,1/0,3

Segment-test 0,819 0,790 0,1/0,3

Iris 0,801 0,803 0,1/0,3

Tabela 5.5 - J48 x FJ48

Conjuntos de Dados acur´acia J48 acur´acia FJ48 d

SPAMBASE 0,873 0,645 0,1/0,3

Segment-challenge 0,866 0,841 0,1/0,3

Segment-test 0,828 0,798 0,1/0,3

Iris 0,846 0,837 0,1/0,7

Os dados das tabelas 5.2 e 5.3 mostram o aumento da acurácia preditiva das árvores configuradas pelos algoritmos implementados com o método FILM, sobretudo em relação às bases menores. O algoritmo FILMJ47 superou o algoritmo J47 para todas as bases. Já o FILMJ48 não conseguiu superar o J48 ao processar o SPAMBASE. Embora baseado em um algoritmo inferior, as acurácias obtidas no FILMJ47 foram semelhantes às obtidas no FILMJ48; para a base segment-test, a acurácia do FILMJ47 chegou a superar à do FILMJ48.

(12)

Os resultados gerados para a técnica FTREE são mostrados nas tabelas 5.4 e 5.5. Como pode ser observado, os algoritmos FJ47 e FJ48 tiveram desempenho inferior aos algoritmos J47 e J48, respectivamente e para quase todas as bases testadas. Isso ocorre devido à pouca flexibilidade oferecida pelas funções utilizadas para os cálculos de união e interseção de conjuntos nebulosos sugeridas nessa técnica (seção 3).

Além disso, é poss´ıvel observar que em ambas as técnicas de fuzzyficação, as diferenças entre as acurácias fuzzy e clássica tendem a aumentar para bases menores e diminuir para bases maiores. A redução do poder de predição em árvores geradas com muitos dados tem relação direta com as equações utilizadas para os cálculos de união e interseção de conjuntos nebulosos nos métodos apresentados. Como os valores obtidos das funções membership são afetados pela flexibilidade dessas equações, a classificação correta de novas instâncias pode ser comprometida pela escolha de uma equação pouco flex´ıvel. Foi observado que, sob treinamento excessivo, os fatores de inclusão calculados nos algoritmos tendem a valores semelhantes para todas as classes; este comportamento afeta drasticamente o poder de predição da árvore fuzzy, uma vez que reduz a capacidade do algoritmo em diferenciar as classes pelos fatores de inclusão.

As equações de Yager adotadas no método FILM oferecem um parâmetro de con-trole (w) que flexibiliza o cálculo dos fatores de inclusão das classes em cada folha fuzzy. Entretanto, para bases grandes, as melhorias evidenciadas para o método são quase imper-cept´ıveis. Foi observado que este método não se comportou bem ao ser testado em bases de dados maiores, embora este comportamento não tenha sido reportado [Liang 1997]. No método FTREE, as conseqüências da escolha de equações pouco flex´ıveis para os cálculos de união e interseção em conjuntos nebulosos são ainda mais degradantes; é poss´ıvel observar que o tamanho das expressões booleanas geradas no processo de fuzzyficação da árvore clássica é proporcional à sua altura. Assim, quanto maior o conjunto de treino, maiores serão as expressões booleanas geradas. Consequentemente, maior será a tendência dos fatores de inclusão de todas as classes serem semelhantes e próximos de

1

n (sendo n o n´umero de valores do atributo-objetivo).

Sendo assim, conclui-se que o método de fuzzyficação para árvores de classificação FILM, embora mais custoso do ponto de vista computacional, é significati-vamente melhor (em termos de acurácia) que o método FTREE. Entretanto, o FILM não é livre de problemas. A principal desvantagem deste método é a dificuldade de encontrar os valores ótimos para o expoente de Yager e os valores adequados para a largura da borda fuzzya serem mapeados nas funções membership de cada limiar da árvore clássica.

6. Conclus˜ao

A extração de informações novas e potencialmente úteis em bases de dados vem sendo aplicada a um número cada vez maior de problemas. A Mineração de Dados fornece diversas técnicas que permitem a obtenção dessas informações.

Um problema recorrente em Mineração de Dados é o de classificação. Prever se um novo email recebido é spam ou se um chamado feito a um órgão que presta serviços de atendimento móvel de emergência é falso pode ser de grande utilidade para a sociedade. Assim, muitos pesquisadores vêm criando estratégias e desenvolvendo algoritmos para maximizar o poder preditivo dos classificadores. Um classificador pode ser constru´ıdo por meio de uma árvore de decisão e ter seu poder preditivo elevado pela lógica fuzzy.

(13)

Embora a aplicação da lógica nebulosa às árvores de classificação, em muitos casos, tenha apresentado bons resultados em termos de acurácia, as ferramentas de Mineração de Dados mais utilizadas não implementam técnicas de fuzzyficação de árvores.

Este trabalho investigou os principais algoritmos para construção de árvores de de-cisão e duas técnicas para fuzzyficação de árvores: FTREE e FILM. A partir desse estudo, foi desenvolvida a ferramenta Explorer Fuzzy Tree, que permite a experimentação das técnicas implementadas sobre bases de dados com atributos cont´ınuos. Adicionalmente, foram testadas quatro bases de dados de dom´ınio público sobre os algoritmos implemen-tados nesta ferramenta. Os resulimplemen-tados obtidos sugerem aumento da acurácia preditiva para o método FILM e redução da acurácia preditiva para o método FTREE em se tratando de bases de dados pequenas.

References

Araujo, A. V. (2006). Arvores de decisão fuzzy na mineração de imagens do sistema´ footscanage. Master’s thesis, UFPA, Paraná.

Cruz, A. (1998). L´ogica nebulosa. nce dcc-im ufrj.

http://equipe.nce.ufrj.br/adriano/fuzzy/bibliogr/transp.ps.gz. Ultimo acesso em´ 27 de outubro de 2007.

Eggermont, J. (2005). Data Mining Using Genetic Programming - Classification and Symbolic Regression. PhD thesis, University of Leiden, Netherlands.

Fayyad, U. and Smyth, P. (1996a). Advances in knowledge discovery and data mining. AAAI Press, pages 1–30.

Fayyad, U. and Smyth, P. (1996b). From data mining to knowledge discovery: An overview. Communications of the ACM, pages 24–26.

Group, V. (1990a). Segment-challenge. http://www.cs.waikato.ac.nz/ml/weka/. ´Ultimo acesso em 14 de novembro de 2007.

Group, V. (1990b). Segment-test. http://www.cs.waikato.ac.nz/ml/weka/. ´Ultimo acesso em 14 de novembro de 2007.

Guarda, A. (2000). Inteligência Artificial em Controle de Automação. Editora Edgard Blücher.

Hopkins, M., Reeber, E., Forman, G., and Suermondt, J. (2001). Spambase. http://www.ics.uci.edu/ mlearn/databases/spambase/. ´Ultimo acesso em 27 de outubro de 2007.

Liang, T.-P. (1997). Film: a fuzzy inductive learning method for automated knowledge acquisition. Communications of the ACM, pages 61–73.

Lyman, P. (2003). How much information? http://www.sims.berkeley.edu/how-much-info-2003. ´Ultimo acesso em 14 de novembro de 2007.

Quinlan, J. R. (1993). C4.5: Programs For Machine Learning. Morgan Kalfmann. Quinlan, J. R. (1996). Improved use of continuous in c4.5. Journal of Artificial Inteligence

(14)

R.A. Fisher, M. M. (1988). Iris. http://www.cs.waikato.ac.nz/ml/weka/. ´Ultimo acesso em 14 de novembro de 2007.

Rissanen, J. (1983). A universal prior for integers and estimation by minimum description length. Annals of statistic, 11(2):416–431.