• Nenhum resultado encontrado

2.4 Poda da ´ Arvore

2.4.2 P´os-poda

A p´os-poda busca encontrar o tamanho adequado de uma ´arvore, sendo que ap´os a ´arvore ser induzida completamente, ´e avaliada a confiabilidade de cada uma de suas sub-´arvores, podando os ramos considerados n˜ao confi´aveis. Dada uma ´arvore T , um n´o interno t ∈ T e as regras de poda da ´arvore, a p´os-poda (ou simplesmente poda) do ramo Tt de T consiste em remover todos os descendentes pr´oprios de t se o ramo Tt atender as

condi¸c˜oes da regra de poda, com isso, o n´o t ´e declarado como n´o terminal e ´e atribu´ıda a classe k, conforme a regra de rotula¸c˜ao de n´os terminais.

2.4 Poda da ´Arvore 19 Normalmente os m´etodos de poda seguem a orienta¸c˜ao bottom-up (de baixo para cima) ou a orienta¸c˜ao top-down (de cima para baixo). Na orienta¸c˜ao bottom-up o processo de poda ´e iniciado nas folhas ´arvore e sobe pelos ramos internos at´e chegar na raiz da ´arvore. Enquanto na orienta¸c˜ao top-down o processo de poda ´e iniciado no n´o raiz e evolui descendo na ´arvore at´e atingir os n´os terminais. Para calcular a estimativa de erros e realizar as an´alises do processo de poda da ´arvore, alguns m´etodos utilizam um conjunto de testes LA, que consiste de um conjunto de instˆancias cujas classes sejam conhecidas e

que n˜ao tenham sido empregadas durante a constru¸c˜ao da ´arvore T0.

Os principais m´etodos de p´os-poda citados na literatura e descritos por Frank [19] e Esposito [20] s˜ao: Redu¸c˜ao de Erros - Reduced-error pruning; Custo-Complexidade -

Cost-complexity pruning; Erro Pessimista - Pessimistic error pruning; Valor Cr´ıtico - Critical value pruning; Erro M´ınimo - Minimum-error pruning; e Poda por Estimativa

de Erro - Error-based pruning.

2.4.2.1 Redu¸c˜ao de Erros - Reduced-error pruning

Segundo Quinlan [21], a poda por Redu¸c˜ao de Erros ´e um m´etodo simples e r´apido. Esse m´etodo segue a orienta¸c˜ao bottom-up e necessita de um conjunto de teste LA es-

pec´ıfico para processo de poda.

Como regra para a poda esse m´etodo substituir´a o ramo Tt por um n´o terminal, caso

essa substitui¸c˜ao n˜ao incremente a taxa de erro estimada sobre o conjunto de teste.

2.4.2.2 Custo-Complexidade - Cost-complexity pruning

Este m´etodo, proposto por Breiman [6] e implementado no algoritmo CART, ´e cons- titu´ıdo de dois est´agios. No primeiro est´agio, uma sequˆencia de ´arvores T0, T1, . . . , TZ ´e

gerada, onde: T0 ´e a ´arvore original; TZ ´e uma ´arvore constitu´ıda apenas por uma folha

(a raiz da ´arvore original); e Tz+1 ´e obtida pela substitui¸c˜ao de uma ou mais sub-´arvores

de Tz por folhas. No segundo est´agio, ´e selecionada a melhor ´arvore dessa sequˆencia,

levando-se em considera¸c˜ao o custo estimado dos erros de classifica¸c˜ao e a complexidade (medida em n´umero de folhas) de cada uma dessas ´arvores.

Para apresentar o primeiro est´agio do m´etodo de poda por Custo-Complexidade, vamos considerar as seguintes defini¸c˜oes:

1. Dada a sub-´arvore T1 defina sua complexidade como |T1|, o n´umero de folhas em

2.4 Poda da ´Arvore 20 2. A rela¸c˜ao de compara¸c˜ao de complexidade entre duas sub-´arvores ´e representada ≺, , ≻ e , sendo que, por exemplo: T1 ≻ T2 denota que T1 ´e uma sub-´arvore mais

complexa que T2.

3. Para simplificar a formaliza¸c˜ao vamos considerar T0 como a ´arvore de tamanho

m´aximo.

A ideia principal desse primeiro est´agio ´e a que segue - Seja α > 0 um n´umero real denominado o parˆametro de complexidade e defina a medida de custo-complexidade Rα(T )

como:

Rα(T ) = R(T ) + α|T |.

Rα(T ) ´e uma combina¸c˜ao linear entre o custo de erro da ´arvore e sua complexidade.

O problema central do m´etodo ´e encontrar, para cada valor de α, a sub-´arvore T (α)  T0

que minimiza Rα(T ), isto ´e,

T (α) = arg min

T T0Rα(T ).

O parˆametro α pode ser visto como um custo por folha; assim, se α for pequeno, a penaliza¸c˜ao por haver muitas folhas ser´a pequena e T (α) ser´a grande. `A medida que a penalidade α por folha aumenta, a sub-´arvore T (α) passa a ter um n´umero menor de n´os terminais at´e que, para um valor suficientemente grande de α, T (α) consistir´a apenas do n´o raiz e a ´arvore T0 ter´a sido completamente podada.

O segundo est´agio do m´etodo de poda por Custo-Complexidade ´e a escolha da melhor sub-´arvore. Uma vez obtida a sequˆencia decrescente de complexidade de sub-´arvores T1 ≻ T2 ≻ . . . ≻ TZ ≡ {t1}, onde t1 denota o n´o raiz, o crit´erio para essa decis˜ao (escolha

da melhor sub-´arvore) ´e baseado na precis˜ao de classifica¸c˜ao e na complexidade de cada sub-´arvore.

Inicialmente, deve-se encontrar uma boa estimativa de erro para cada uma das ´arvores. Para encontrar essa estimativa, n˜ao podemos simplesmente utilizar os mesmos exemplos que haviam sido empregados para a constru¸c˜ao da ´arvore, sob pena de tal estimativa de erro ser demasiadamente otimista. Portanto, assim como o m´etodo de Redu¸c˜ao de Erros, este m´etodo tamb´em necessita de um conjunto de teste LA espec´ıfico para processo de

poda.

Seja Tz uma sub-´arvore da sequˆencia, e Q(l|k) a probabilidade estimada de um objeto

2.4 Poda da ´Arvore 21 de classifica¸c˜ao dos objetos de classe k. R(k) ser´a dado por:

R(k) =

K

X

l=1

C(l, k)Q(k|l) onde C(l, k) ´e o custo de erro.

Finalmente, seja ˆπk a probabilidade a priori de um objeto qualquer de LA ser de

classe k. A estimativa do custo da ´arvore Tz ´e dada por:

RC(Tz) = K

X

k=1

R(k)ˆπk.

Depois de calculada a estimativa de custo RC(T

z) para cada sub-´arvore Tzda sequˆencia,

pode-se simplesmente escolher a sub-´arvore Tz1= arg min

1≤z≤ZR

C(T

z).

2.4.2.3 Erro Pessimista - Pessimistic error pruning

Este m´etodo de poda analisa a ´arvore de cima para baixo (top-bottom), sendo que uma sub-´arvore pode ser podada sem que seus n´os descendentes sejam analisados. As estimativas de erro s˜ao obtidas a partir do conjunto de treinamento (assumindo-se uma distribui¸c˜ao binomial para os erros), portanto, n˜ao ´e necess´ario um conjunto de dados espec´ıfico para o processo de poda [19].

Sejam: Ti uma sub-´arvore de T que contem | ¯Ti| folhas; n•Ti a quantidade de exemplos

do conjunto de treinamento incidentes na sub-´arvore Ti; e neTi o n´umero de exemplos

classificados erroneamente por todas as folhas da sub-´arvore Ti. A estimativa pessimista

de erro de classifica¸c˜ao para a sub-´arvore Ti ´e dada por: [21]

E′ = neTi+

FTi

2 .

Supondo que a sub-´arvore Ti fosse transformada em uma folha, a quantidade de

exemplos do conjunto de treinamento classificados erroneamente por essa folha seria dado por D. O m´etodo de poda por Erro Pessimista ir´a substituir Ti por uma folha se:

2.4 Poda da ´Arvore 22 sendo SE′ o erro padr˜ao, estimado por:

SE′ =

s

E′ × (n

•Ti− E′)

n•Ti

2.4.2.4 Valor Cr´ıtico - Critical value pruning

Valor Cr´ıtico ´e uma t´ecnica que segue a orienta¸c˜ao “bottom-up” para o processo de poda de forma semelhante `a t´ecnica de Redu¸c˜ao de Erros. Entretanto, existe uma diferen¸ca fundamental na forma da poda da ´arvore: enquanto a t´ecnica de Redu¸c˜ao de Erros usa a estimativa de erro para avaliar a qualidade da sub-´arvore para a sua poda, a t´ecnica de Valor Cr´ıtico utiliza as informa¸c˜oes coletadas durante a constru¸c˜ao da ´arvore. Os algoritmos da fam´ılia TDIDT empregam algum crit´erio para fazer divis˜ao do conjunto de treinamento, com o objetivo de incrementar a pureza nos conjuntos de dados menores. Portanto, a cada n´o, o conjunto de treinamento ´e dividido de acordo com esse crit´erio para maximizar esse valor, por exemplo, o Ganho de Informa¸c˜ao.

Quando uma sub-´arvore ´e analisada para a poda, o valor do crit´erio de divis˜ao ´e comparado com um “threshold” (valor fixo durante todo o processo de poda). Se para o n´o correspondente a sub-´arvore o valor do crit´erio de divis˜ao for menor que o valor do “threshold”, essa sub-´arvore ´e transformada em folha. Entretanto, uma valida¸c˜ao adicional ´e realizada: se a sub-´arvore cont´em ao menos um n´o cujo valor do crit´erio de divis˜ao ´e maior que o valor do “threshold”, essa sub-´arvore n˜ao ser´a podada. Isto significa que uma sub-´arvore somente ´e podada se o valor do crit´erio de divis˜ao de todos os seus n´os sucessores forem menores que o valor do “threshold”.

A t´ecnica do Valor Cr´ıtico depende do valor do “threshold”: quanto maior esse valor, mais agressivo ser´a o processo de poda. O melhor valor para o “threshold” pode ser obtido executando processo de valida¸c˜ao cruzada do tipo hold-out ou v-fold.

2.4.2.5 Erro M´ınimo - Minimum-error pruning

O Erro M´ınimo ´e uma t´ecnica que segue a orienta¸c˜ao “bottom-up” para o processo de poda, onde uma sub-´arvore ´e substitu´ıda por um n´o terminal (folha), se a estimativa de erro apurada da sub-´arvore candidata for menor que a soma das estimativas de erro das folhas contidas nessa sub-´arvore. Analogamente ao Erro Pessimista, a estimativa de erro apurada da sub-´arvore ´e obtida a partir do conjunto de treinamento, portanto, para esta t´ecnica, n˜ao ´e necess´ario um conjunto dados espec´ıfico para o processo de poda.

2.5 Problemas com Dados Desbalanceados 23

Documentos relacionados