• Nenhum resultado encontrado

Área sob a curva ROC e Coeficiente de Gini

5. Análise de Frequência e Reconhecimento de Padrões

5.7. Avaliação da adequação do ajuste e generalização dos modelos

5.7.3. Área sob a curva ROC e Coeficiente de Gini

Um classificador bayesiano binário classifica as observações com base no cálculo da probabilidade posterior do caso positivo, rotulando a amostra como positiva se esse valor se encontrar acima de uma determinada fronteira de decisão, e negativo caso se encontre abaixo. Todos os algoritmos explorados nesta dissertação podem ser implementados com esta perspetiva. Um aspeto interessante de tal implementação é que se torna possível proceder a uma regulação do desempenho, para um mesmo treino de um mesmo classificador, com base na modificação da fronteira de decisão. Note-se que um classificador que consiga uma separação perfeita das classes, nunca atribui uma mesma probabilidade posterior a observações de treino de classes diferentes. É possível definir uma fronteira de decisão até à qual todas as operações de treino se verificam pertencer ao caso negativo e a partir da qual todas as observações de treino verificam pertencer ao caso positivo. Contudo, isto não se costuma verificar em problemas reais.

A curva característica de operação do recetor (Receiver Operating Characteristic – ROC) é uma ferramenta útil para a escolha otimizada de uma fronteira de decisão de um sistema de classificação binária, assim como para avaliar a sua capacidade de discriminação. A curva ROC representa a relação entre a sensibilidade e a taxa de falsos positivos (fpr), ou seja, dos casos negativos qual a fração incorretamente classificada, com a variação da fronteira de decisão de probabilidade posterior entre 0 e 1.

1 Especificidade

fpr  

(48)

Para qualquer sistema de classificação, com uma fronteira de probabilidade posterior localizada em 0, todas as observações são classificadas como positivas, o que resulta numa sensibilidade, assim como fpr de 1, correspondendo ao canto superior direito do plano da curva ROC. Já para uma fronteira de classificação de probabilidade posterior localizada em 1, para qualquer classificador, todas as observações são classificadas como negativas o que resulta numa sensibilidade e taxa de falsos positivos nulas, localizando-se esse caso no canto inferior esquerdo do plano da curva ROC. O conjunto de pontos intermédios entre estes extremos fornece uma indicação da capacidade de discriminação de um dado classificador. Para o caso de separação perfeita descrito anteriormente, a curva ROC descreve um ângulo reto, com um vértice no canto superior esquerdo. Isto deve-se ao facto de que no caso de haver uma separação completa das classes, à medida que se desloca a fronteira de decisão partindo de 0, e se ultrapassa o valor mínimo de probabilidade posterior atribuído a observações negativas, algumas observações destes casos passam a ser corretamente classificadas. Esta condição faz com que a taxa de falsos positivos decresça, sem no entanto afetar a sensibilidade, correspondendo a um deslocamento paralelo ao eixo horizontal.

Quando a fronteira de decisão atinge o valor de probabilidade posterior máximo atribuído a observações do caso negativo, então obtém-se uma taxa de falsos positivos nulos e uma sensibilidade de 1. Continuando a aumentar o valor limite a partir do ponto a que corresponde a probabilidade posterior mínima atribuída aos casos positivos, implica que alguns casos positivos sejam incorretamente classificados. Esta condição leva por sua vez à diminuição da sensibilidade, mas não da taxa de falsos positivos, correspondendo assim ao deslizamento ao longo do eixo vertical [148]. Mas, tal como referido anteriormente, este caso raramente se verifica. Então, geralmente um classificador apresenta uma curva entre os cantos inferior esquerdo e superior direito, com uma inflexão em direção ao canto superior esquerdo. Já para um classificador aleatório, a ROC descreve uma reta entre os cantos opostos do plano. Assim, além de estas curvas permitirem selecionar o equilíbrio desejado entre sensibilidade e fpr, ou analogamente a especificidade, torna possível avaliar a capacidade de discriminação de um dado classificador, através da observação do quanto este se aproxima do caso ideal de separabilidade, i.e., do quanto o ponto de inflexão se aproxima do canto superior esquerdo. Nos casos ilustrados na Figura 5.55, pode-se concluir que o classificador a que corresponde a curva traçada com traço contínuo apresenta uma maior capacidade de discriminação do que aquele corresponde à linha de traço interrompido. Adicionalmente, observe-se que com a aproximação à curva ideal, a área abaixo desta aumenta, aproximando-se da unidade. Assim, é possível extrair uma métrica simples, que quantifica a capacidade de discriminação de um classificador, a área abaixo da curva ROC (Area under the ROC curve – AUROCC ou AUC). Um classificador aleatório, com baixa capacidade de descriminação apresenta um AUROCC de 0,5. Um classificador com capacidade de separação perfeita apresenta um AUROCC de 1. Uma forma mais intuitiva de interpretar este valor, é como sendo a probabilidade do classificador atribuir uma probabilidade posterior ou pontuação, mais elevada a um caso positivo do que a um caso negativo, sendo também chamado de probabilidade de concordância ou índice-c. Contudo, o facto de o pior caso assumir um valor 0,5 não é muito prático para comparação com outras métricas. Então, é comum recorrer-se ao coeficiente de Gini, uma transformação linear da

AUROCC, para o qual um classificador aleatório resulta num valor nulo, e um classificador

que consegue uma separação perfeita das classes obtém um coeficiente unitário. Contudo, esta métrica perde a fácil interpretação anteriormente descrita.

2

1

Figura 5.5 - Exemplos de curvas ROC[149].

Uma outra métrica, frequentemente chamada de pontuação F1, representa a mesma ideia que a AUROCC, mas adota como eixo horizontal uma métrica chamada precisão, a que corresponde a fração das observações classificadas como positivas que são realmente positivas. Contudo, esta métrica depende da prevalência das classes na população das observações de treino. Se o número de observações de treino do caso negativo for reduzido face ao número de observações da classe oposta, a precisão tenderá a ser elevada pois não é tido em conta o número de casos da classe em questão. Assim torna-se útil apenas em casos em que a prevalência das classes no contexto da aplicação é conhecida, e nesses casos tende de facto a evidenciar melhor as diferenças de performance entre classificadores. Como neste trabalho a distribuição de classe real é desconhecida, adotou-se o uso do coeficiente de Gini.