• Nenhum resultado encontrado

Precis˜ao, Taxa de Erro e Classes Desbalanceadas

Os diferentes tipos de erros e acertos realizados por um classificador podem ser sintetizados em uma matriz de confus˜ao. Na Tabela 6.1 ´e mostrada uma matriz de confus˜ao para um problema que possui duas classes rotuladas como classe positiva e classe negativa.

Predi¸c˜ao Positiva Predi¸c˜ao Negativa Classe Positiva Verdadeiro Positivo (a) Falso Negativo (b) Classe Negativa Falso Positivo (c) Verdadeiro Negativo (d)

Tabela 6.1: Diferentes tipos de erros e acertos para um problema com duas classes. A partir dessa matriz de confus˜ao ´e poss´ıvel extrair diversas medidas de desempenho para sistemas de aprendizado, tal como a taxa de erro, Err — Equa¸c˜ao6.1— e a precis˜ao, Acc — Equa¸c˜ao 6.2.

Err = c + b

a + b + c + d (6.1)

Acc = a + d

a + b + c + d (6.2)

A taxa de erro e a precis˜ao s˜ao duas medidas amplamente utilizadas para medir o desempenho de sistemas de aprendizado. Entretanto, quando a probabilidade a priori de cada classe ´e muito diferente, isto ´e, quando existe um grande desbalan¸co entre as classes, tais medidas podem ser enganosas. Por exemplo, ´e bastante simples criar um classificador com 99% de precis˜ao, ou de forma similar, com 1% de taxa de erro, se o conjunto de dados possui uma classe majorit´aria com 99% do n´umero total de exemplos. Esse classi- ficador pode ser criado simplesmente rotulando todo novo caso como pertencente a classe majorit´aria.

Um outro argumento contra o uso da precis˜ao, ou taxa de erro, ´e que essas medidas consideram erros de classifica¸c˜ao diferentes como igualmente importantes. Por exemplo, um paciente doente diagnosticado como sadio pode ser um erro fatal, enquanto que um paciente sadio diagnosticado como doente pode ser considerado um erro menos s´erio, uma vez que esse erro pode ser corrigido em exames futuros. Em dom´ınios nos quais o custo de classifica¸c˜ao incorreta ´e relevante, uma matriz de custo pode ser utilizada. Uma matriz de custo define os custos de classifica¸c˜ao incorreta, isto ´e, uma penalidade para cada tipo de erro que o classificador pode cometer. Nesse caso, o objetivo do classificador deve ser minimizar o custo total de classifica¸c˜ao incorreta, ao inv´es da taxa de erro. Na

Seção 6.3: Precisão, Taxa de Erro e Classes Desbalanceadas 145

Se¸c˜ao 6.4 na p´agina 148 ´e realizada uma discuss˜ao mais ampla sobre a rela¸c˜ao entre aprendizado sens´ıvel ao custo e conjuntos de dados com classes desbalanceadas.

Para conjuntos de dados com classes desbalanceadas, uma medida de desempenho mais apropriada deve desassociar os erros, ou acertos, ocorridos para cada classe. A partir da Tabela 6.1 na p´agina anterior ´e poss´ıvel derivar quatro medidas de desempenho que medem o desempenho de classifica¸c˜ao nas classes negativa e positiva independentemente, elas s˜ao:

Taxa de falso negativo F N = b

a+b ´e a porcentagem de casos positivos classificados incorretamente como

pertencentes `a classe negativa; Taxa de falso positivo

F P = c+dc ´e a porcentagem de casos negativos classificados incorretamente como pertencentes `a classe positiva;

Taxa de verdadeiro negativo V N = d

c+d = 1 − F P ´e a porcentagem de casos negativos classificados corretamente

como pertencentes `a classe negativa; Taxa de verdadeiro positivo

V P = a

a+b = 1 − F N ´e a porcentagem de casos positivos classificados corretamente

como pertencentes `a classe positiva.

Essas quatro medidas de desempenho possuem a vantagem de serem independentes do custo e das probabilidades a priori das classes. O principal objetivo de qualquer classificador ´e minimizar as taxas de falso positivo e de falso negativo, ou, de forma similar, maximizar as taxas de verdadeiro positivo e verdadeiro negativo. Entretanto, para a maioria das aplica¸c˜oes do “mundo real”, existe uma rela¸c˜ao de perda e ganho entre F N e F P , ou, de forma similar, entre V N e V P .

Na Figura 6.1 na p´agina seguinte ´e mostrada uma rela¸c˜ao comum entre as taxas de falso positivo e falso negativo. Esse gr´afico foi criado para uma aplica¸c˜ao que visa identificar transa¸c˜oes fraudulentas em cart˜oes de cr´edito. Chan & Stolfo(1998a) treinaram o sistema de aprendizado C4.5 com diferentes distribui¸c˜oes do atributo classe no conjunto de treinamento. Os conjuntos de teste foram mantidos intactos, isto ´e, com a distribui¸c˜ao das classes que ocorre naturalmente nos dados. O gr´afico na Figura 6.1 inicia com um conjunto de treinamento consistindo de 90% de casos pertencentes `a classe majorit´aria. A propor¸c˜ao de casos da classe minorit´aria ´e aumentado em 10% a cada itera¸c˜ao. Esse

aumento no n´umero de casos da classe minorit´aria no conjunto de treinamento leva a uma melhora no desempenho de classifica¸c˜ao dos casos dessa classe. Entretanto, a precis˜ao na classifica¸c˜ao da classe majorit´aria diminui. A taxa de erro no conjunto de teste aumenta influenciada pelo desempenho ruim obtido pela classe majorit´aria, uma vez que a maior parte dos casos de teste pertencem a essa classe.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 10 20 30 40 50 60 70 80 90

Erro no Conjunto de Teste

Porcentagem de Exemplos da Classe Minoritaria no Conjunto de Treinamento

Taxa de Falso Negativo Taxa de Falso Positivo

Taxa de Erro

Figura 6.1: Erro no conjunto de teste para diversas distribui¸c˜oes de classes no conjunto de treinamento.

Um gr´afico ROC2 (Provost & Fawcett, 1997) pode ser utilizado para analisar a

rela¸c˜ao entre F N e F P , ou V N e V P , para um determinado classificador.

Considere que a classe minorit´aria, cujo desempenho ´e o principal foco da an´alise, ´e a classe positiva. Em um gr´afico ROC, V P = 1 − F N ´e associado ao eixo Y e F P ´e associado ao eixo X. Alguns classificadores possuem parˆametros para os quais diferentes ajustes podem produzir pontos em um gr´afico ROC. Por exemplo, para um classificador que responde com a probabilidade de um exemplo pertencer a uma determinada classe, tal como o classificador Naive Bayes, pode ser utilizado um parˆametro que define um limiar. Um exemplo somente pode ser classificado como pertencente a uma determinada classe se a probabilidade fornecida pelo classificador for superior ao limiar. De forma similar, outros sistemas de aprendizado podem ser adaptados para produzir probabilidades a posteriori similares ao Naive Bayes. Em ´arvores de decis˜ao, a distribui¸c˜ao das classes nos n´os folhas pode ser utilizada como uma estimativa de probabilidade. Sistemas que induzem regras podem fazer estimativas similares. Redes neurais produzem sa´ıdas cont´ınuas que podem tamb´em ser mapeadas para estimativas de probabilidade.

2

ROC ´e uma sigla para Receiver Operating Characteristic, um termo utilizado em detec¸c˜ao de sinais para caracterizar a rela¸c˜ao de perda e ganho entre a taxa de acerto e a taxa de falso alarme em um canal com ru´ıdo.

Seção 6.3: Precisão, Taxa de Erro e Classes Desbalanceadas 147

O desenho de todos os pontos que podem ser produzidos por meio da varia¸c˜ao dos parˆametros do classificador produz uma curva ROC para o classificador. Na pr´atica, essa curva ´e um conjunto discreto de pontos, incluindo os pontos (0,0) e (1,1), os quais s˜ao conectados por segmentos de reta. Na Figura 6.2 ´e ilustrado um gr´afico ROC com trˆes classificadores representados pelas letras A, B e C. Alguns dos pontos em um gr´afico ROC devem ser notados. O ponto no canto inferior esquerdo (0,0) representa a estrat´egia de classificar todos os exemplos como pertencentes `a classe negativa. O ponto no canto superior direito representa a estrat´egia de classificar todos os exemplos como pertencentes `a classe positiva. O ponto (0,1) representa o classificador perfeito, e a linha x = y representa a estrat´egia de tentar adivinhar a classe aleatoriamente.

Figura 6.2: Um exemplo de gr´afico ROC para trˆes classificadores.

A partir de um gr´afico ROC ´e poss´ıvel calcular uma medida geral de qualidade, a ´area sob a curva (AUC3). A AUC ´e a fra¸c˜ao da ´area total que se situa sob a curva ROC.

Essa medida ´e equivalente a diversas outras medidas estat´ısticas para a avalia¸c˜ao de modelos de classifica¸c˜ao (Hand,1997). A medida AUC efetivamente fatora o desempenho do classificador sobre todos os custos e distribui¸c˜oes.

3

6.4

Conjuntos Desbalanceados e Aprendizado Sens´ı-