P´os-poda - Poda da ´ Arvore - Algoritmo para indução de árvores de classificação para dados de

2.4 Poda da ´ Arvore

2.4.2 P´os-poda

A pós-poda busca encontrar o tamanho adequado de uma árvore, sendo que após a árvore ser induzida completamente, é avaliada a confiabilidade de cada uma de suas sub-árvores, podando os ramos considerados não confiáveis. Dada uma árvore T , um nó interno t ∈ T e as regras de poda da árvore, a pós-poda (ou simplesmente poda) do ramo Tt de T consiste em remover todos os descendentes próprios de t se o ramo Tt atender as

condi¸cões da regra de poda, com isso, o nó t é declarado como nó terminal e é atribu´ıda a classe k, conforme a regra de rotula¸cão de nós terminais.

2.4 Poda da Árvore 19 Normalmente os métodos de poda seguem a orienta¸cão bottom-up (de baixo para cima) ou a orienta¸cão top-down (de cima para baixo). Na orienta¸cão bottom-up o processo de poda é iniciado nas folhas árvore e sobe pelos ramos internos até chegar na raiz da árvore. Enquanto na orienta¸cão top-down o processo de poda é iniciado no nó raiz e evolui descendo na árvore até atingir os nós terminais. Para calcular a estimativa de erros e realizar as análises do processo de poda da árvore, alguns métodos utilizam um conjunto de testes LA_{, que consiste de um conjunto de instâncias cujas classes sejam conhecidas e}

que não tenham sido empregadas durante a constru¸cão da árvore T0.

Os principais métodos de pós-poda citados na literatura e descritos por Frank [19] e Esposito [20] são: Redu¸cão de Erros - Reduced-error pruning; Custo-Complexidade -

Cost-complexity pruning; Erro Pessimista - Pessimistic error pruning; Valor Cr´ıtico - Critical value pruning; Erro M´ınimo - Minimum-error pruning; e Poda por Estimativa

de Erro - Error-based pruning.

2.4.2.1 Redu¸c˜ao de Erros - Reduced-error pruning

Segundo Quinlan [21], a poda por Redu¸cão de Erros é um método simples e rápido. Esse método segue a orienta¸cão bottom-up e necessita de um conjunto de teste LA _es-

pec´ıfico para processo de poda.

Como regra para a poda esse método substituirá o ramo Tt por um nó terminal, caso

essa substitui¸c˜ao n˜ao incremente a taxa de erro estimada sobre o conjunto de teste.

2.4.2.2 Custo-Complexidade - Cost-complexity pruning

Este método, proposto por Breiman [6] e implementado no algoritmo CART, é constitu´ıdo de dois estágios. No primeiro estágio, uma sequência de árvores T0, T1, . . . , TZ é

gerada, onde: T0 é a árvore original; TZ é uma árvore constitu´ıda apenas por uma folha

(a raiz da árvore original); e Tz+1 é obtida pela substitui¸cão de uma ou mais sub-árvores

de Tz por folhas. No segundo estágio, é selecionada a melhor árvore dessa sequência,

levando-se em considera¸cão o custo estimado dos erros de classifica¸cão e a complexidade (medida em número de folhas) de cada uma dessas árvores.

Para apresentar o primeiro estágio do método de poda por Custo-Complexidade, vamos considerar as seguintes defini¸cões:

1. Dada a sub-´arvore T1 defina sua complexidade como |T1|, o n´umero de folhas em

2.4 Poda da Árvore 20 2. A rela¸cão de compara¸cão de complexidade entre duas sub-árvores é representada ≺, , ≻ e , sendo que, por exemplo: T1 ≻ T2 denota que T1 é uma sub-árvore mais

complexa que T2.

3. Para simplificar a formaliza¸c˜ao vamos considerar T0 como a ´arvore de tamanho

m´aximo.

A ideia principal desse primeiro estágio é a que segue - Seja α > 0 um número real denominado o parâmetro de complexidade e defina a medida de custo-complexidade Rα(T )

como:

Rα(T ) = R(T ) + α|T |.

Rα(T ) é uma combina¸cão linear entre o custo de erro da árvore e sua complexidade.

O problema central do método é encontrar, para cada valor de α, a sub-árvore T (α) T0

que minimiza Rα(T ), isto ´e,

T (α) = arg min

T T0Rα(T ).

O parâmetro α pode ser visto como um custo por folha; assim, se α for pequeno, a penaliza¸cão por haver muitas folhas será pequena e T (α) será grande. À medida que a penalidade α por folha aumenta, a sub-árvore T (α) passa a ter um número menor de nós terminais até que, para um valor suficientemente grande de α, T (α) consistirá apenas do nó raiz e a árvore T0 terá sido completamente podada.

O segundo estágio do método de poda por Custo-Complexidade é a escolha da melhor sub-árvore. Uma vez obtida a sequência decrescente de complexidade de sub-árvores T1 ≻ T2 ≻ . . . ≻ TZ ≡ {t1}, onde t1 denota o nó raiz, o critério para essa decisão (escolha

da melhor sub-árvore) é baseado na precisão de classifica¸cão e na complexidade de cada sub-árvore.

Inicialmente, deve-se encontrar uma boa estimativa de erro para cada uma das árvores. Para encontrar essa estimativa, não podemos simplesmente utilizar os mesmos exemplos que haviam sido empregados para a constru¸cão da árvore, sob pena de tal estimativa de erro ser demasiadamente otimista. Portanto, assim como o método de Redu¸cão de Erros, este método também necessita de um conjunto de teste LA _{espec´ıfico para processo de}

poda.

Seja Tz uma sub-´arvore da sequˆencia, e Q(l|k) a probabilidade estimada de um objeto

2.4 Poda da Árvore 21 de classifica¸cão dos objetos de classe k. R(k) será dado por:

R(k) =

l=1

C(l, k)Q(k|l) onde C(l, k) ´e o custo de erro.

Finalmente, seja ˆπk a probabilidade a priori de um objeto qualquer de LA ser de

classe k. A estimativa do custo da ´arvore Tz ´e dada por:

RC(Tz) = K

k=1

R(k)ˆπk.

Depois de calculada a estimativa de custo RC_(T

z) para cada sub-´arvore Tzda sequˆencia,

pode-se simplesmente escolher a sub-´arvore Tz1= arg min

1≤z≤ZR

C_(T

z).

2.4.2.3 Erro Pessimista - Pessimistic error pruning

Este método de poda analisa a árvore de cima para baixo (top-bottom), sendo que uma sub-árvore pode ser podada sem que seus nós descendentes sejam analisados. As estimativas de erro são obtidas a partir do conjunto de treinamento (assumindo-se uma distribui¸cão binomial para os erros), portanto, não é necessário um conjunto de dados espec´ıfico para o processo de poda [19].

Sejam: Ti uma sub-´arvore de T que contem | ¯Ti| folhas; n•Ti a quantidade de exemplos

do conjunto de treinamento incidentes na sub-´arvore Ti; e neTi o n´umero de exemplos

classificados erroneamente por todas as folhas da sub-´arvore Ti. A estimativa pessimista

de erro de classifica¸cão para a sub-árvore Ti é dada por: [21]

E′ = neTi+

FTi

2 .

Supondo que a sub-´arvore Ti fosse transformada em uma folha, a quantidade de

exemplos do conjunto de treinamento classificados erroneamente por essa folha seria dado por D. O m´etodo de poda por Erro Pessimista ir´a substituir Ti por uma folha se:

2.4 Poda da ´Arvore 22 sendo SE′ o erro padr˜ao, estimado por:

SE′ =

E′ _{× (n}

•Ti− E′)

n•Ti

2.4.2.4 Valor Cr´ıtico - Critical value pruning

Valor Cr´ıtico é uma técnica que segue a orienta¸cão “bottom-up” para o processo de poda de forma semelhante à técnica de Redu¸cão de Erros. Entretanto, existe uma diferen¸ca fundamental na forma da poda da árvore: enquanto a técnica de Redu¸cão de Erros usa a estimativa de erro para avaliar a qualidade da sub-árvore para a sua poda, a técnica de Valor Cr´ıtico utiliza as informa¸cões coletadas durante a constru¸cão da árvore. Os algoritmos da fam´ılia TDIDT empregam algum critério para fazer divisão do conjunto de treinamento, com o objetivo de incrementar a pureza nos conjuntos de dados menores. Portanto, a cada nó, o conjunto de treinamento é dividido de acordo com esse critério para maximizar esse valor, por exemplo, o Ganho de Informa¸cão.

Quando uma sub-árvore é analisada para a poda, o valor do critério de divisão é comparado com um “threshold” (valor fixo durante todo o processo de poda). Se para o nó correspondente a sub-árvore o valor do critério de divisão for menor que o valor do “threshold”, essa sub-árvore é transformada em folha. Entretanto, uma valida¸cão adicional é realizada: se a sub-árvore contém ao menos um nó cujo valor do critério de divisão é maior que o valor do “threshold”, essa sub-árvore não será podada. Isto significa que uma sub-árvore somente é podada se o valor do critério de divisão de todos os seus nós sucessores forem menores que o valor do “threshold”.

A técnica do Valor Cr´ıtico depende do valor do “threshold”: quanto maior esse valor, mais agressivo será o processo de poda. O melhor valor para o “threshold” pode ser obtido executando processo de valida¸cão cruzada do tipo hold-out ou v-fold.

2.4.2.5 Erro M´ınimo - Minimum-error pruning

O Erro M´ınimo é uma técnica que segue a orienta¸cão “bottom-up” para o processo de poda, onde uma sub-árvore é substitu´ıda por um nó terminal (folha), se a estimativa de erro apurada da sub-árvore candidata for menor que a soma das estimativas de erro das folhas contidas nessa sub-árvore. Analogamente ao Erro Pessimista, a estimativa de erro apurada da sub-árvore é obtida a partir do conjunto de treinamento, portanto, para esta técnica, não é necessário um conjunto dados espec´ıfico para o processo de poda.

2.5 Problemas com Dados Desbalanceados 23

No documento Algoritmo para indução de árvores de classificação para dados desbalanceados (páginas 36-41)