Problemas com Dados Desbalanceados - Algoritmo para indução de árvores de classificação para da

instâncias do conjunto de treinamento incidentes no nó com um coeficiente de severidade da poda. Para determinar o valor desse coeficiente, um processo de valida¸cão cruzada do tipo v-fold ou leave-one-out pode ser utilizado.

2.4.2.6 Poda por Estimativa de Erro - Error-based pruning

A Poda por Estimativa de Erro é uma técnica implementada pelo algoritmo C4.5 do Quinlan. Esta técnica segue a orienta¸cão “bottom-up”, onde uma sub-árvore é substitu´ıda por um nó terminal (folha) se a estimativa de erro da sub-árvore candidata for menor que a soma das estimativas de erro das folhas contidas nessa sub-árvore.

Assim como a poda por Erro Pessimista, esta também deriva da estimativa de erro obtida a partir do conjunto de treinamento, assumindo que as estimativas de erros tendem a uma distribui¸cão binomial. Entretanto, esta técnica calcula um intervalo de confian¸ca das contagens de erro baseado na aproxima¸cão da distribui¸cão binomial pela distribui¸cão normal, para conjuntos com muitos exemplos. Assim, o limite superior do intervalo de confian¸ca é usualmente estimado com a taxa de erro das folhas. No algoritmo C4.5 o intervalo de confian¸ca padrão é de 25%.

Além da Poda por Estimativa de Erro, o algoritmo C4.5 utiliza também outra técnica de poda chamada “Subtree Raising”, onde um nó interno é substitu´ıdo pelo nó interno descendente (filho) mais populoso, desde que a substitui¸cão não provoque incremento na estimativa da taxa de erro. Tomemos como exemplo a árvore da Figura 4(a) - árvore antes do processo de poda, e a Figura 4(b) - árvore após o processo de poda: a sub-árvore C descendente de B substituiu a sub-árvore B. Note que os filhos de B e C são folhas, mas poderiam ser sub-árvores. Observar que realizando essa poda é necessário reclassificar os exemplos dos nós 4 e 5 para a nova sub-árvore C, este é o motivo pelo qual as folhas são marcadas como 1’, 2’ e 3’ [3].

2.5 Problemas com Dados Desbalanceados

Alguns conjuntos de dados apresentam naturalmente alta prevalência de uma ou mais classes, e muitas vezes, a classe minoritária representa o objeto de interesse no tratamento do conjunto de dados, como por exemplo: deteçcão de opera¸cões fraudulentas em cartões de crédito; diagnóstico de doen¸cas raras; etc.

2.5 Problemas com Dados Desbalanceados 24 A 2 C 3 4 B 5 1

(a) ´Arvore antes da Poda

’ C

’ ’

(b) ´Arvore ap´os a poda

Figura 4 – Exemplo de Poda “Subtree Raising” [3]

Tomemos como exemplo um conjunto de teste hipot´etico com duas classes, contendo 90 exemplos de classe 1 e 10 elementos de classe 2. Suponha que esse conjunto de teste seja classificado por dois classificadores ψ1 e ψ2, cujas taxas de acerto nas classes sejam

aquelas apresentadas na Tabela 4: ψ1 classifica corretamente 89 exemplos de classe 1 e

6 exemplos de classe 2, enquanto ψ2 classifica corretamente 85 exemplos de classe 1 e

9 exemplos de classe 2. Note que o classificador ψ1 apresenta uma acur´acia global um

pouco melhor que a do classificador ψ2, 95% e 94% respectivamente, por´em o classificador

ψ1 apresenta uma taxa de acerto na classe 2 (60%) consideravelmente menor do que a

taxa de acerto do classificador ψ2 naquela classe (c´elulas em destaque). Se a classe 2

representasse um evento severo (por exemplo, uma doen¸ca grave), o classificador ψ2 seria

prefer´ıvel em rela¸c˜ao a ψ1, mesmo obtendo resultados inferiores tanto na taxa de acerto

da classe 1 como na acur´acia global.

Tabela 4 – Exemplo hipot´etico das taxas de acerto de dois classificadores ψ1 e ψ2 sobre um conjunto de dados com desbalanceamento entre as classes

Para minimizar a taxa de erro de classifica¸cão de classes minoritárias, uma das alter- nativas encontradas em alguns algoritmos é a atribui¸cão de custos diferente para os erros por classe, onde para as classes minoritárias são atribu´ıdos os maiores custos e para as classes majoritárias os menores custo[22]. O problema dessa alternativa é que essa atribui¸cão normalmente não é automática, o que introduz maior complexidade na utiliza¸cão

2.5 Problemas com Dados Desbalanceados 25 do algoritmo para usu´arios menos experientes.

Ainda na busca por minimizar a taxa de erro de classifica¸cão de classes minoritárias, diversos trabalhos têm apresentado técnicas para o balanceamento das classes do conjunto de dados, sendo que o objetivo principal delas é equilibrar artificialmente as classes do conjunto de dados de treinamento. Frequentemente, duas abordagens têm sido utilizadas: a primeira abordagem é a elimina¸cão exemplos da classe majoritária, sendo que o procedi- mento é identificar e eliminar os exemplos da classe majoritária que são menos relevantes para a indu¸cão do classificador; e a segunda abordagem é replica¸cão de exemplos da classe minoritária [23]. Na procura por melhores resultados, alguns trabalhos combinam as duas abordagens [7].

Cap´ıtulo 3

Desempenho de Classificadores

Neste cap´ıtulo apresentaremos alguns métodos e métricas para avalia¸cão de desempenho de classificadores. Em particular, apresentaremos a valida¸cão cruzada, as matrizes de confusão e as medidas mais usuais de desempenho.

3.1 Valida¸c˜ao Cruzada

A valida¸cão cruzada é um método muito utilizado para estimar a precisão de um classificador induzido por um algoritmo de aprendizagem supervisionada.

As várias técnicas de valida¸cão cruzada têm em comum o conceito de particionar o conjunto de dados em subconjuntos mutuamente exclusivos, e posteriormente, utilizar alguns destes subconjuntos para a indu¸cão do classificador (conjunto de treinamento) e o restante dos subconjuntos (conjunto de teste) para a valida¸cão do classificador. As técnicas de valida¸cão cruzada mais utilizadas são: v-fold, holdout, e leave-one-out [24]. V-Fold - Esta técnica divide o conjunto de treinamento em V subconjuntos, sendo que

o processo de valida¸cão do algoritmo é repetido V vezes, como é exemplificado na Figura 5. Em cada ciclo de valida¸cão, V − 1 subconjuntos são utilizados para a indu¸cão do classificador, que será testado com o subconjunto não utilizado na indu¸cão do classificador. Ao final de todos os ciclos o erro médio é calculado. Dessa forma, cada exemplo do conjunto de treinamento é utilizado apenas uma vez para teste e chega a ser utilizado V − 1 vezes para a indu¸cão de classificador, sendo que a variância da estimativa de erro é diminu´ıda à medida que o V é aumentado. Quanto maior o valor para V , maior é o tempo computacional para processamento, muitos testes utilizam V = 10. Entretanto, para realiza¸cão do teste t-pareado (que será detalhado mais adiante), Mitchell [25] recomenda calibrar V de forma que cada subconjunto contenha 30 ou mais exemplos, a fim de se obter estimativas mais confiáveis de erros. A técnica V-Fold com amostragem estratificada objetiva manter em todos os V subconjuntos a mesma propor¸cão entre as classes do conjunto original.

3.2 Matriz de Confus˜ao 27

No documento Algoritmo para indução de árvores de classificação para dados desbalanceados (páginas 41-45)