MÉTRICAS DE AVALIAÇÃO DE DESEMPENHO - Geração dinâmica de protótipos para classificação em base

A avaliação do desempenho de algum algoritmo é realizada com a utilização de uma função de análise ou métrica de avaliação. Através dos valores obtidos por meio de uma métrica de avaliação, é possível compreender a eficiência de um algoritmo em uma determinada tarefa. Com esses valores é possível também comparar algoritmos diferentes, e então determinar se o desempenho de algum é superior ao do outro. Da mesma forma, é possível observar a evolução das técnicas ao longo do tempo, à medida em que as métricas atestam sua melhora ou piora no desempenho. Ao mesmo tempo, uma métrica indevida pode levar a análises incorretas sobre o desempenho de um algoritmo. Portanto, a escolha de uma métrica apropriada é importante no processo de avaliação de algoritmos.

Em Aprendizado de Máquina, duas das métricas mais utilizadas são a acurácia e a

taxa de erro. A acurácia é calculada ao se dividir o número de classificações corretas pelo

número total de instâncias. Desta forma, a acurácia pode também ser referida como taxa

de acerto [geral]. Os valores possíveis para a acurácia variam entre 0 e 1, ou entre 0% e

100%, de forma que 0 significa que o algoritmo errou a classificação de todas as instâncias. O valor 1 significa que o algoritmo acertou a classificação de todas as instâncias. A taxa

de erro é calculada como: 1 − 𝑎𝑐𝑢𝑟á𝑐𝑖𝑎.

Entretanto, ao tratar de bases de dados com classes desbalanceadas, a acurácia — e por consequência a taxa de erro — podem se tornar uma métrica enganosa (PRATI; BATISTA; MONARD, 2004;BRODERSEN et al., 2010;GARCÍA; SÁNCHEZ; MOLLINEDA, 2012; LÓPEZ et al., 2013;HU; DONG, 2014;WANG, 2014). Por exemplo, suponha uma base de dados binária

altamente desbalanceada, na qual uma das classes possui 990 instâncias, enquanto a outra possui apenas 10 instâncias. Se um algoritmo classificar qualquer instância recebida como pertencente à primeira classe, o mesmo conseguiria, neste caso, uma acurácia de 0,99 ou 99% de acerto. Isto faz com que se tenha uma falsa impressão de que o algoritmo foi eficiente na inferência dos dados como um todo. Logo, percebe-se que este valor, apesar de ter sido calculado de forma correta, não expressa corretamente o fato de que uma das classes foi erroneamente classificada por completo.

Portanto, uma vez que a acurácia é facilmente influenciada pelas classes maiores de uma base de dados, é necessária a utilização de outra métrica que lide de forma adequada com classes desbalanceadas. Uma métrica apropriada, neste caso, deve ser capaz de lidar de forma proporcional com as classes (SILVA; ZANCHETTIN, 2015).

As métricas normalmente são calculadas a partir das informações extraídas de uma Matriz de Confusão (Tabela 1). Em uma base de dados binária e desbalanceada, a maior classe é referida como majoritária. Ao mesmo tempo, a menor classe é referida como mi-

classe positiva, enquanto a classe majoritária é referida como a classe negativa (NAPIE- RALA; STEFANOWSKI, 2012). A razão disso é que normalmente a classe minoritária é a

de maior importância no contexto do problema tratado. Uma vez que a base é binária, a classificação pode seguir o estilo booleano. Portanto as instâncias são classificadas como pertencente ou não à classe de interesse, que, neste caso, é a minoritária.

Tabela 1 – Matriz de Confusão.

Predição Positiva Predição Negativa Classe Positiva Verdadeiro Positivo (VP) Falso Negativo (FN) Classe Negativa Falso Positivo (FP) Verdadeiro Negativo (VN)

As métricas clássicas que são extraídas diretamente da matriz de confusão são: Acu- rácia (Accuracy), Sensibilidade (Sensitivity também conhecida como Recall), Especifici- dade (Specificity) e Precisão (Precision). A partir dessas é possível derivar as métricas Média Geométrica (G-mean), F-measure, 𝐹1, Acurácia Balanceada (Balanced Accuracy)

(BRODERSEN et al., 2010), Optimized Precision (OP) (RANAWANA; PALADE, 2006) e [Ge- neralized] Index of Balanced Accuracy (IBA) (GARCÍA; MOLLINEDA; SANCHEZ, 2010).

Acurácia = 𝑉 𝑃 + 𝑉 𝑁 𝑉 𝑃 + 𝐹 𝑃 + 𝐹 𝑁 + 𝑉 𝑁 (2.1) Sensibilidade = Recall = 𝑉 𝑃 𝑉 𝑃 + 𝐹 𝑁 (2.2) Especificidade = 𝑉 𝑁 𝐹 𝑃 + 𝑉 𝑁 (2.3) Precisão = 𝑉 𝑃 𝑉 𝑃 + 𝐹 𝑃 (2.4)

A Sensibilidade (2.2), que além de Recall também é conhecida como Taxa de Verdeiro Positivo (TVP), é a porcentagem de instâncias positivas que são corretamente classificadas. Pode ser referida como a acurácia da classe positiva. De forma similar, a Especifici- dade (2.3) — ou Taxa de Verdadeiro Negativo (TVN) — é a porcentagem de instâncias negativas que foram corretamente classificadas. Pode também ser referida como acurácia da classe negativa.

A métrica Precisão (2.4) é focada na pureza da classificação positiva (GARCÍA; SÁN- CHEZ; MOLLINEDA, 2012), e expressa o desempenho do classificador em relação a apenas

uma classe. Esta métrica é a porcentagem de acerto de instâncias positivas sobre todas as instâncias que foram classificadas como positivas.

F-measure = (1 + 𝛽

2) × (Precisão × 𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒)

𝛽2_{× Precisão}+ 𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 (2.6)

𝐹1 = 2 × (Precisão × 𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒)

Precisão+ 𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 (2.7)

A média geométrica (KUBAT; MATWIN, 1997), ou G-mean (2.5) é calculada a partir

do produto das acurácias de cada classe, e subsequentemente o valor é elevado ao inverso da quantidade de classes. Esta métrica indica o balanceamento entre os desempenhos obtidos sobre as diferentes classes. Portanto, um baixo desempenho de classificação sobre qualquer classe será refletido sobre esta métrica.

A métrica F-measure (2.6) é a média harmônica ponderada entre Precisão e Sensibili- dade. O parâmetro 𝛽 controla a influência da Precisão e da Sensibilidade separadamente (GARCÍA; SÁNCHEZ; MOLLINEDA, 2012). Quando 𝛽 = 0, a F-measure se torna equivalente

à Precisão. Por outro lado, F-measure se aproxima da Sensibilidade quando 𝛽 → ∞. Na literatura, entretanto, é comum 𝛽 = 1. Desta forma F-measure se transforma na média harmônica entre Precisão e Sensibilidade, passando a ser referida como 𝐹1 (2.7).

Acurácia Balanceada = 𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒+ 𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑𝑒₂ (2.8) A Acurácia Balanceada (2.8) é literalmente a média aritmética entre as taxas de acerto de ambas as classes. Entretanto, caso o pesquisador deseje atribuir um peso diferente às taxas de acerto, basta utilizar a equação (2.9). De fato, a equação (2.8) equivale à equação (2.9) com 𝛼 = 0, 5.

Acurácia Balanceada = 𝛼 × 𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 + (1 − 𝛼) × 𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑𝑒 (2.9)

𝑂𝑃 = Acurácia − |𝐸𝑠𝑝𝑒𝑐𝑖𝑓 𝑖𝑐𝑖𝑑𝑎𝑑𝑒 − 𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒|

𝐸𝑠𝑝𝑒𝑐𝑖𝑓 𝑖𝑐𝑖𝑑𝑎𝑑𝑒+ 𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 (2.10)

A métrica OP (2.10) surgiu como uma tentativa de remediar uma deficiência presente em métricas como G-mean (2.5). No caso desta última métrica, não é possível distinguir a contribuição que cada classe teve para o desempenho geral do modelo, ou ainda qual das classes é a majoritária (ou minoritária). Em outras palavras, é possível obter o mesmo desempenho com combinações diferentes entre Sensibilidade e Especificidade. A obtenção de um alto valor para OP requer um alto valor de acurácia e, ao mesmo tempo, classes pouco desbalanceadas. Entretanto é possível que o valor da acurácia seja alto enquanto as classes são bastante desbalanceadas. Este fator pode influenciar fortemente no valor final da métrica OP (GARCÍA; SÁNCHEZ; MOLLINEDA, 2012). Ainda, caso o interesse na

classe minoritária seja o bastante para destacá-la, basta ao pesquisador seguir o padrão

informal sugerido na literatura, na qual a classe minoritária é normalmente associada à

Sensibilidade e Especificidade (SILVA; ZANCHETTIN, 2015), ou a Precisão (LÓPEZ et al.,

2013).

𝐼𝐵𝐴𝛼(ℳ) = (1 + 𝛼 · 𝐷𝑜𝑚) · ℳ (2.11)

Na equação (2.11), ℳ é uma métrica. 𝐷𝑜𝑚 é a dominância, definida como 𝐷𝑜𝑚 =

𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 − 𝐸𝑠𝑝𝑒𝑐𝑖𝑓 𝑖𝑐𝑖𝑑𝑎𝑑𝑒, no intervalo [−1, +1]. A dominância é ponderada por 𝛼 ≥ 0, para reduzir sua influência sobre a métrica ℳ. A função IBA quantifica um

equilíbrio entre uma medida geral de desempenho (obtida através de ℳ) e um índice do quão balanceada estão as acurácias das classes (obtido através de (1 + 𝛼 · 𝐷𝑜𝑚)), pois a tendência é que quanto mais desbalanceadas são as classes, mais discrepantes serão os valores de Sensibilidade e Especificidade. O objetivo é favorecer moderadamente os algoritmos de classificação com melhor desempenho na classe minoritária, sem subestimar a relevância da classe majoritária (LÓPEZ et al., 2013). Em García, Sánchez e Mollineda

(2012), os autores definem 𝛼 = 0, 01 e ℳ = 𝐺𝑚𝑒𝑎𝑛2_.

Outras duas métricas que recebem bastante atenção na literatura são Receiver Ope-

rating Characteristics (ROC) e Area Under ROC Curve (AUC) (LING; HUANG; ZHANG,

2003). A curva ROC consiste em visualizar a taxa de verdadeiros positivos como uma função da taxa de falsos positivos sobre todos os valores possíveis para o classificador (WANG, 2014). Um exemplo de uma curva ROC em um plano cartesiano bidimensional é

apresentado na Figura 6. No eixo das ordenadas é mapeada a taxa de verdadeiros positivos. No eixo das abscissas é mapeada a taxa de falsos positivos. O ponto (0, 0) equivale a um algoritmo que classifique todas as instâncias como negativas. O ponto (1, 1) equivale a um algoritmo que classifique todas as instâncias como positivas. O ponto (0, 1) equivale a um algoritmo que classifique corretamente todas as instâncias.

A análise e a comparação entre vários algoritmos utilizando da curva ROC pode ser facilitada pela métrica AUC (LING; HUANG; ZHANG, 2003; WANG, 2014), que é o cálculo

da área sob a curva ROC. Quanto maior o valor do AUC, melhor será o desempenho de um classificador, uma vez que a curva se aproxima do ponto (0, 1). Em uma base binária, entretanto, o valor do AUC será idêntico ao valor da Acurácia Balanceada (GARCÍA; SÁN- CHEZ; MOLLINEDA, 2012;HU; DONG, 2014;SILVA; ZANCHETTIN, 2015), como na equação

(2.9), com 𝛼 = 0, 5.

Uma maneira de se calcular o AUC é apresentada na equação (2.12). TVP se refere à Taxa de Verdadeiro Positivo, enquanto TFP se refere à Taxa de Falso Positivo, ou seja, 1 − 𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑𝑒.

AUC = (1 + 𝑇 𝑉 𝑃 − 𝑇 𝐹 𝑃 )/2 (2.12)

Muitos pesquisadores preferem utilizar AUC ou G-mean, o que faz com que ambas sejam facilmente encontradas na literatura. Entretanto, é bastante comum que cada tra- balho utilize uma métrica diferente. Esta falta de consenso faz com que a escolha da

Figura 6 – Exemplo de curva ROC. A linha tracejada representa um classificador aleató- rio, enquanto que a linha sólida representa um classificador cujo desempenho é melhor que a classificação aleatória. True Positive Rate é a taxa de verdadeiros positivos e False Positive Rate é a taxa de falsos positivos (fonte: (LÓPEZ et al., 2013)).

métrica ainda seja um problema ao lidar com bases de dados com classes desbalanceadas, especificamente na questão das comparações entre algoritmos.

Por fim, existe ainda outra métrica bastante utilizada na área, cujo foco está na base de dados em vez do desempenho de algum algoritmo. Esta métrica, conhecida como

Imbalance Ratio (IR) ou Taxa de Desbalanceamento, calcula o quanto uma base binária

é desbalanceada ao dividir o tamanho da maior classe pelo tamanho da menor classe.

No documento Geração dinâmica de protótipos para classificação em bases de dados com múltiplas classes desbalanceadas (páginas 33-37)