• Nenhum resultado encontrado

instˆancias do conjunto de treinamento incidentes no n´o com um coeficiente de severidade da poda. Para determinar o valor desse coeficiente, um processo de valida¸c˜ao cruzada do tipo v-fold ou leave-one-out pode ser utilizado.

2.4.2.6 Poda por Estimativa de Erro - Error-based pruning

A Poda por Estimativa de Erro ´e uma t´ecnica implementada pelo algoritmo C4.5 do Quinlan. Esta t´ecnica segue a orienta¸c˜ao “bottom-up”, onde uma sub-´arvore ´e substitu´ıda por um n´o terminal (folha) se a estimativa de erro da sub-´arvore candidata for menor que a soma das estimativas de erro das folhas contidas nessa sub-´arvore.

Assim como a poda por Erro Pessimista, esta tamb´em deriva da estimativa de erro obtida a partir do conjunto de treinamento, assumindo que as estimativas de erros tendem a uma distribui¸c˜ao binomial. Entretanto, esta t´ecnica calcula um intervalo de confian¸ca das contagens de erro baseado na aproxima¸c˜ao da distribui¸c˜ao binomial pela distribui¸c˜ao normal, para conjuntos com muitos exemplos. Assim, o limite superior do intervalo de confian¸ca ´e usualmente estimado com a taxa de erro das folhas. No algoritmo C4.5 o intervalo de confian¸ca padr˜ao ´e de 25%.

Al´em da Poda por Estimativa de Erro, o algoritmo C4.5 utiliza tamb´em outra t´ecnica de poda chamada “Subtree Raising”, onde um n´o interno ´e substitu´ıdo pelo n´o interno descendente (filho) mais populoso, desde que a substitui¸c˜ao n˜ao provoque incremento na estimativa da taxa de erro. Tomemos como exemplo a ´arvore da Figura 4(a) - ´arvore antes do processo de poda, e a Figura 4(b) - ´arvore ap´os o processo de poda: a sub-´arvore C descendente de B substituiu a sub-´arvore B. Note que os filhos de B e C s˜ao folhas, mas poderiam ser sub-´arvores. Observar que realizando essa poda ´e necess´ario reclassificar os exemplos dos n´os 4 e 5 para a nova sub-´arvore C, este ´e o motivo pelo qual as folhas s˜ao marcadas como 1’, 2’ e 3’ [3].

2.5

Problemas com Dados Desbalanceados

Alguns conjuntos de dados apresentam naturalmente alta prevalˆencia de uma ou mais classes, e muitas vezes, a classe minorit´aria representa o objeto de interesse no tratamento do conjunto de dados, como por exemplo: detec¸c˜ao de opera¸c˜oes fraudulentas em cart˜oes de cr´edito; diagn´ostico de doen¸cas raras; etc.

2.5 Problemas com Dados Desbalanceados 24 A 2 C 3 4 B 5 1

(a) ´Arvore antes da Poda

A

C

(b) ´Arvore ap´os a poda

Figura 4 – Exemplo de Poda “Subtree Raising” [3]

Tomemos como exemplo um conjunto de teste hipot´etico com duas classes, contendo 90 exemplos de classe 1 e 10 elementos de classe 2. Suponha que esse conjunto de teste seja classificado por dois classificadores ψ1 e ψ2, cujas taxas de acerto nas classes sejam

aquelas apresentadas na Tabela 4: ψ1 classifica corretamente 89 exemplos de classe 1 e

6 exemplos de classe 2, enquanto ψ2 classifica corretamente 85 exemplos de classe 1 e

9 exemplos de classe 2. Note que o classificador ψ1 apresenta uma acur´acia global um

pouco melhor que a do classificador ψ2, 95% e 94% respectivamente, por´em o classificador

ψ1 apresenta uma taxa de acerto na classe 2 (60%) consideravelmente menor do que a

taxa de acerto do classificador ψ2 naquela classe (c´elulas em destaque). Se a classe 2

representasse um evento severo (por exemplo, uma doen¸ca grave), o classificador ψ2 seria

prefer´ıvel em rela¸c˜ao a ψ1, mesmo obtendo resultados inferiores tanto na taxa de acerto

da classe 1 como na acur´acia global.

Tabela 4 – Exemplo hipot´etico das taxas de acerto de dois classificadores ψ1 e ψ2 sobre um conjunto de dados com desbalanceamento entre as classes

Para minimizar a taxa de erro de classifica¸c˜ao de classes minorit´arias, uma das alter- nativas encontradas em alguns algoritmos ´e a atribui¸c˜ao de custos diferente para os erros por classe, onde para as classes minorit´arias s˜ao atribu´ıdos os maiores custos e para as classes majorit´arias os menores custo[22]. O problema dessa alternativa ´e que essa atri- bui¸c˜ao normalmente n˜ao ´e autom´atica, o que introduz maior complexidade na utiliza¸c˜ao

2.5 Problemas com Dados Desbalanceados 25 do algoritmo para usu´arios menos experientes.

Ainda na busca por minimizar a taxa de erro de classifica¸c˜ao de classes minorit´arias, diversos trabalhos tˆem apresentado t´ecnicas para o balanceamento das classes do conjunto de dados, sendo que o objetivo principal delas ´e equilibrar artificialmente as classes do conjunto de dados de treinamento. Frequentemente, duas abordagens tˆem sido utilizadas: a primeira abordagem ´e a elimina¸c˜ao exemplos da classe majorit´aria, sendo que o procedi- mento ´e identificar e eliminar os exemplos da classe majorit´aria que s˜ao menos relevantes para a indu¸c˜ao do classificador; e a segunda abordagem ´e replica¸c˜ao de exemplos da classe minorit´aria [23]. Na procura por melhores resultados, alguns trabalhos combinam as duas abordagens [7].

26

Cap´ıtulo 3

Desempenho de Classificadores

Neste cap´ıtulo apresentaremos alguns m´etodos e m´etricas para avalia¸c˜ao de desem- penho de classificadores. Em particular, apresentaremos a valida¸c˜ao cruzada, as matrizes de confus˜ao e as medidas mais usuais de desempenho.

3.1

Valida¸c˜ao Cruzada

A valida¸c˜ao cruzada ´e um m´etodo muito utilizado para estimar a precis˜ao de um classificador induzido por um algoritmo de aprendizagem supervisionada.

As v´arias t´ecnicas de valida¸c˜ao cruzada tˆem em comum o conceito de particionar o conjunto de dados em subconjuntos mutuamente exclusivos, e posteriormente, utilizar alguns destes subconjuntos para a indu¸c˜ao do classificador (conjunto de treinamento) e o restante dos subconjuntos (conjunto de teste) para a valida¸c˜ao do classificador. As t´ecnicas de valida¸c˜ao cruzada mais utilizadas s˜ao: v-fold, holdout, e leave-one-out [24]. V-Fold - Esta t´ecnica divide o conjunto de treinamento em V subconjuntos, sendo que

o processo de valida¸c˜ao do algoritmo ´e repetido V vezes, como ´e exemplificado na Figura 5. Em cada ciclo de valida¸c˜ao, V − 1 subconjuntos s˜ao utilizados para a indu¸c˜ao do classificador, que ser´a testado com o subconjunto n˜ao utilizado na indu¸c˜ao do classificador. Ao final de todos os ciclos o erro m´edio ´e calculado. Dessa forma, cada exemplo do conjunto de treinamento ´e utilizado apenas uma vez para teste e chega a ser utilizado V − 1 vezes para a indu¸c˜ao de classificador, sendo que a variˆancia da estimativa de erro ´e diminu´ıda `a medida que o V ´e aumentado. Quanto maior o valor para V , maior ´e o tempo computacional para processamento, muitos testes utilizam V = 10. Entretanto, para realiza¸c˜ao do teste t-pareado (que ser´a detalhado mais adiante), Mitchell [25] recomenda calibrar V de forma que cada subconjunto contenha 30 ou mais exemplos, a fim de se obter estimativas mais confi´aveis de erros. A t´ecnica V-Fold com amostragem estratificada objetiva manter em todos os V subconjuntos a mesma propor¸c˜ao entre as classes do conjunto original.

3.2 Matriz de Confus˜ao 27

Documentos relacionados