AVALIAÇÃO DE DESEMPENHO DO MODELO - Modelagem preditiva para avaliação de desempenho de pessoas

Nos sistemas de aprendizado supervisionado, além do objetivo principal ser a predição de classes, é preciso avaliar a eficácia do modelo. Na seção 2.2 deste capítulo foram abordadas as métricas que medem o nível de eficácia e taxa de erro de modelos. Este tópico se propõe a aprofundar os conhecimentos sobre medidas de avaliação de desempenho de modelo, se debruçando sobre as métricas utilizadas na elaboração do modelo deste trabalho. As medidas utilizadas foram sobre a perspectiva de avaliação em relação a classificação de exemplos, previsibilidade de acerto das classes e taxa de acurácia geral dos modelos.

2.4.1 MATRIZ DE CONFUSÃO

Antes de definir a matriz de confusão propriamente dita é preciso definir a noção de confusão em classificadores. Confusão nada mais é do que uma identificação errada de uma classe, ou seja, quando a classe prevista pelo modelo é diferente do exemplo testado.

Partindo deste ponto, Provost e Fawcett (2016) irão definir matriz de confusão como uma matriz n × n de um problema com n classes, onde as colunas são as classes reais e as linhas são as classes previstas. Cada exemplo do modelo possui uma classe real e uma classe prevista, onde cada exemplo irá ocupar uma célula da matriz. Por exemplo considera-se uma matriz 2 × 2, onde os rótulos de classes são Positivos ou Negativos, e a classificação se dá na forma “Sim, é positivo” ou “Não, é positivo”. A diagonal da matriz é composta pela decisões corretas tomadas pelo classificador, enquanto os pólos são os exemplos falso negativos (positivos classificados como negativos) ou falso

positivos (negativos classificados como positivos). Um classificador ideal possui esses valores iguais a 0, visto que este classificador não comete erros.

Na modelagem do SVM cabe ao cientista de dados realizar a avaliação de tolerância ao erro e se necessário a diferenciação entre os tipos de erro, atribuindo custos a eles, considerando um modelo com margens suaves.

Positivo Negativo

Predição Positivo Verdadeiro Positivo Falto Positivo Predição Negativo Falso Negativo Verdadeiro Negativo

Tabela 2 - Representação de uma matriz de confusão 2 × 2. Fonte: Provost e Fawcett (2016, p.190).

2.4.2 PRECISÃO, RECALL E F1-SCORE

Partindo das inferências das classificações realizadas pelo modelo podem ser realizadas outras medidas de análise das classes. Três indicadores eficientes para avaliar o desempenho do modelo em relação a cada classe são: Precisão, Recall e F1-Score (WEISS & KULIKOWSKI, 1991)

Já foi discutido neste capítulo, a taxa de erro geral do modelo (número de predições incorretas) e pode ser denominada como Precisão. Esta seção aborda a métrica Precisão sobre a perspectiva da classe, ou seja, avaliando a taxa de acerto de uma classe especificamente. Retomando a representação da matriz de confusão da Tabela 2.2, por efeitos de simplicidade para compreensão das medidas, define-se as variáveis FN: Número de decisões falsos negativos e FP: Número decisões falsos positivos tomadas pelo modelo; TP e TF como o Número de decisões Positivo e Negativo tomadas corretamente pelo classificador, e por fim N = FP + FN + TP + TF como o total de decisões tomadas pelo classificador.

Encontra-se a Precisão de uma classe dado o número de classificações corretas feitas sobre ela, sobre o total de classificações tomadas em relação a classes, corretas e incorretas:

Precisão Positivos: 𝑇𝑃

𝐹𝑝+𝑇𝑃 (37)

Precisão Negativos: 𝑇𝑁

Enquanto que o Recall ou sensibilidade de uma classe, é a medida para determinar o quanto as medidas em relação a uma classe estão corretas. O Recall é determinado considerando o total de decisões corretas tomadas sobre uma classe em relação a todas as decisões corretas tomadas em relação à ela mais as atribuídas erradamente a outra classe.

Recall Positivos: 𝑇𝑃

𝐹𝑁+𝑇𝑃 (39)

Precisão Negativos: 𝑇𝑁

𝐹𝑃+𝑇𝑁 (40)

Ainda assim pode parecer um pouco qualitativa a avaliação de tais medidas, pois surgem questionamentos ao avaliar o modelo. É mais importante ter uma alta Precisão ? ou um bom Recall ? É evidente que um bom desempenho em uma só destas duas medidas não evidencia um bom desempenho geral do modelo. Desta forma se faz necessário a utilização de uma terceira métrica, denominada F1-Score, ou ainda F-Mesure, que representa a média harmônica entre a Precisão e o Recall. O F1-Score é uma medida interessante pois realiza justamente a ponderação entre a Precisão e o Recall.

F1 – Score: 2 × 𝑃𝑟𝑒𝑐𝑖𝑠ã𝑜 . 𝑅𝑒𝑐𝑎𝑙𝑙

𝑃𝑟𝑒𝑐𝑖𝑠ã𝑜+𝑅𝑒𝑐𝑎𝑙𝑙 (41)

2.4.3 CURVA ROC

Tendo conhecimento sobre os possíveis resultados de decisão de um classificador faz sentido realizar a avaliação do classificador sobre a relação entre a taxa de falsos positivos e verdadeiros positivos.

Antes é preciso introduzir os conceitos de Valor Esperado e Curvas de Lucro. Em estatística, o valor esperado ou lucro de um modelo, é uma média dos valores que podem ser assumidos por um classificador ponderados pela probabilidade de ocorrência da decisão. Provost & Fawcett (2016) propõem uma abordagem de avaliação de classificador sobre a perspectiva do valor esperado dado um determinado tamanho do conjunto de exemplos. Um mesmo classificador resulta em diferentes matrizes de confusão se varia o tamanho do conjunto de exemplos, desta forma é possível traçar uma curva da relação entre o tamanho do conjunto de exemplos e o lucro esperado para a classificador de acordo com a matriz de confusão gerado por aquele conjunto de exemplos. Esta relação denomina-se Curva de Lucro. Tais curvas são abordagens interessantes para realizar uma análise comparativa entre diferentes modelos de

classificação para um mesmo conjunto de dados, e encontrar o ponto ótimo de um classificador em relação as suas taxas de decisões tomadas corretamente.

Entretanto um cenário com diversos classificadores, onde os dados podem ser voláteis de um momento de uso para o outro, faz sentido utilizar uma abordagem de

avaliação capaz de acomodar as incertezas e variações do modelo. Esta visão pode ser fornecida com a utilização de um gráfico denominado Características do Receptor da Operação (do inglês, ROC – Receiver Operating Characteristics) (Sweet, 1988). A Curva

ROC é estabelecida pela representação de um desempenho de um classificador em relação

às taxas de falso positivo (eixo x) e verdadeiro positivo (eixo y). Por convenção determina-se os eixos sobre a perspectivas das classes positivas, mas não impedimento ou perda de generalidade ao utilizar as ocorrências de falso negativo como eixo x e verdadeiro negativo como eixo y.

No espaço da curva ROC é importante determinar alguns pontos:

i. A diagonal principal, do ponto (0,0) a (1,1), representa a aleatoriedade. Ou seja, adivinhar uma classe. Se um classificador se posiciona nesta diagonal significa que ele tem a mesma probabilidade de retornar falso positivo ou verdadeiro

Figura 6- Gráfico de exemplo de uma Curva ROC. Fonte: Elaboração própria

positivo, sendo um classificador aleatório que se move pela diagonal, mas sem produzir classificações confiáveis

ii. O ponto (0,0) representa o caso em que o classificador nunca toma uma decisão, nem verdadeiro positivo, nem falso positivo. Em contrapartida o ponto (1,1) representa a estratégia de só tomar decisões corretas com a mesma probabilidade de só tomar decisões incorretas.

iii. O ponto (0,1) representa a classificação perfeita, onde todas as decisões são tomadas corretamente, sem nenhum falso positivo. Na direção oposta o ponto (1,0) representa um classificar ineficiente onde nenhum das decisões é tomada corretamente.

Elucidado esses pontos fica evidente perceber que um bom classificador é aquele que está acima da reta diagonal de aleatoriedade, e aquele que se encontra abaixo da diagonal classificar pior que um modelo que classifica ao acaso. Ao comparar diferentes classificadores aquele que representa o melhor desempenho é o que se encontra o mais próximo do ponto (1,0).

Ainda sobre as Curvas ROC é interessante fazer um observação sobre elas. A área sob a curva AUC (area under the curve) representa um resumo estatístico sobre o classificador. Esta medida é útil para resumir em um único número o desempenho do classificador, variando de zero a um. Representa de maneira geral a probabilidade da decisão de um verdadeiro positivo ser tomada em relação ao falso positivo.

No documento Modelagem preditiva para avaliação de desempenho de pessoas utilizando o método Support Vector Machine (páginas 35-40)