• Nenhum resultado encontrado

4 Materiais e Métodos

4.7 Medidas de Desempenho

Durante a etapa anterior, os dados provenientes do banco de dados MIT-BIH-AR s˜ao divididos em dois subconjuntos; um destinado ao treinamento da m´aquina de vetor de suporte e outro utilizado para seu teste, ou seja, para a verifica¸c˜ao de seu desempenho. Para an´alise do desempenho, ´e necess´ario estabelecer alguns ´ındices, que o tornem quan- tific´avel e pass´ıvel de compara¸c˜ao com outros modelos. Para que essa compara¸c˜ao seja justa e significativa, ´e preciso tomar cuidado com a escolha dos ´ındices e seguir o padr˜ao utilizado na maioria dos trabalhos da ´area.

O ´ındice de acur´acia global (global accuracy em inglˆes), dado pela raz˜ao entre a quan- tidade de classifica¸c˜oes bem-sucedidas e a totalidade das classifica¸c˜oes (normalmente dado em um valor de porcentagem), possui restri¸c˜oes quando aplicado a problemas em que es- t˜ao dispon´ıveis quantidades muito diferentes de exemplos de cada classe. Para ilustrar o problema dessa abordagem, consideremos alguns cen´arios que possam gerar conjuntos de dados cuja propor¸c˜ao de exemplos de cada classe seja de 9 para 1:

• Para cada 9 produtos em perfeito estado, 1 com defeito de fabrica¸c˜ao.

• Para cada 9 carros dentro do limite de velocidade, 1 excede o limite.

• Para cada 9 batidas card´ıacas normais, 1 ´e ect´opica.

Em um conjunto com esse desequil´ıbrio, um modelo classificador cuja resposta esteja fixa na classe majorit´aria, ainda assim, acertaria 90% de suas previs˜oes, o que poderia ser erroneamente considerado um resultado aceit´avel ou at´e bom. No entanto, na grande maioria das vezes, a real dificuldade est´a na identifica¸c˜ao da classe minorit´aria.

Aplica¸c˜oes com sinais biom´edicos frequentemente se encaixam nesse perfil, uma vez que normalmente h´a um n´umero maior de pacientes saud´aveis do que pacientes com algum tipo de anomalia. Mesmo um paciente com algum problema pode apresentar comporta- mento normal em, digamos, 90% do tempo. A classifica¸c˜ao de batidas card´ıacas ´e um exemplo dessa situa¸c˜ao: o banco de dados MIT-BIH-AR possui mais de 80% de batidas do tipo normal, com o restante dividido entre todas as demais classes. Nesse cen´ario, a classifica¸c˜ao de batidas ect´opicas como normais poderia levar ao abandono de um trata- mento vital para a recupera¸c˜ao do paciente.

A avalia¸c˜ao do desempenho do modelo classificador, portanto, deve ser realizada a partir dos ´ındices estat´ısticos recomendados pela AAMI (ANSI/AAMI, 1998) de Sensibili-

dade (Se) e Preditividade Positiva (+P), em conjunto com a medida da acur´acia global (Acc, de accuracy), que perde um pouco de sua importˆancia mas ainda ´e desej´avel por sua abrangˆencia. O c´alculo desses ´ındices possibilita a compara¸c˜ao do resultado com diversos trabalhos importantes, como os de Chazal, O’Dwyer e Reilly (2004), Llamedo e Mart´ınez (2011), Ye, Kumar e Coimbra (2012), Zhang et al. (2014) e Chen et al. (2017).

Al´em disso, a fim detalhar os resultados obtidos para cada classe e prover informa¸c˜ao sobre como cada uma delas ´e percebida pelo classificador, uma “matriz de confus˜ao” (TING, 2010) ´e elaborada ap´os cada teste. Seu nome vem do fato de que essa representa¸c˜ao torna mais clara a maneira como um modelo classificador “confunde” as classes, ou seja, tem dificuldades em diferenci´a-las. Neste tipo de tabela, as linhas representam quantidades reais de instˆancias de uma determinada classe, enquanto as colunas representam a quan- tidade de vezes que o classificador obteve uma determinada classe como resposta. Todas as classifica¸c˜oes corretas se encontram na diagonal principal da matriz, que representa as oportunidades em que a previs˜ao coincide com a classe real. A Tabela 4 apresenta um exemplo de matriz de confus˜ao elaborada para o problema de classifica¸c˜ao de batidas.

Tabela 4: Exemplo de matriz de confus˜ao.

n s v f q N 38444 1904 303 3509 98 S 173 1395 252 16 1 V 117 321 2504 176 103 F 33 1 7 347 0 Q 4 0 3 0 0

Os ´ındices de Sensibilidade e Preditividade Positiva s˜ao calculados para cada uma das classes, baseados em quatro quantidades obtidas a partir da matriz de confus˜ao:

• Verdadeiros Positivos (TP de true positive), de batidas corretamente detectadas, quando a classifica¸c˜ao coincide com a classe desejada;

• Falsos Negativos (FN de false negative), de batidas n˜ao detectadas, quando o classificador deveria retornar a classe desejada, mas acaba classificando de maneira diferente;

• Verdadeiros Negativos (TN de true negative), de batidas corretamente n˜ao de- tectadas, quando o classificador corretamente n˜ao classifica uma entrada como a classe desejada;

• Falsos Positivos (FP de false positive), de batidas incorretamente detectadas, quando o classificador retorna uma determinada classe erroneamente.

As equa¸c˜oes 4.21 e 4.22 s˜ao usadas para o c´alculo dos ´ındices.

Se = T P

(T P + F N )∗ 100 (4.21)

+P = T P

(T P + F P ) ∗ 100 (4.22)

A Figura 28, adaptada de Chazal, O’Dwyer e Reilly (2004), mostra como s˜ao obtidos os parˆametros TP, FP, TN e FN para cada uma das classes, assim como a acur´acia global, de acordo com as recomenda¸c˜oes da AAMI. ´E interessante notar que os c´alculos listados em (a) n˜ao penalizam o classificador pela classifica¸c˜ao errada de batidas ect´opicas ventri- culares (VEB) nas classes de fus˜ao (F) e inclassific´aveis (Q), que n˜ao s˜ao contabilizadas como falsos positivos. Similarmente, os c´alculos em (b) n˜ao penalizam a classifica¸c˜ao errada de batidas inclassific´aveis (Q) em batidas ect´opicas supraventriculares (SVEB).

Figura 28: C´alculo de parˆametros TP, FP, TN e FN segunda a AAMI.

Sensibilidade e Preditividade Positiva s˜ao tamb´em conhecidos na ´area de reconheci- mento de padr˜oes por revoca¸c˜ao (recall ) e precis˜ao (precision), respectivamente, e s˜ao importantes para a determina¸c˜ao da relevˆancia do desempenho de um sistema de classifi- ca¸c˜ao. Suponhamos, por exemplo, que exista um classificador que realize o reconhecimento de imagens de animais. Durante uma tarefa, o classificador identifica sete c˜aes em uma cena contendo nove c˜aes e alguns gatos. Se quatro das identifica¸c˜oes forem realmente cachorros, mas trˆes forem gatos, a precis˜ao (+P) do modelo ´e 4/7, enquanto a revoca¸c˜ao (Se) ´e de 4/9. Portanto, podemos dizer que a precis˜ao pode ser traduzida como uma

medida da qualidade dos resultado obtidos, enquanto a revoca¸c˜ao ´e uma medida de sua completude. Em termos mais simples, um sistema com alto valor preditivo positivo re- torna mais valores relevantes que irrelevantes, enquanto um sistema com alta sensibilidade retorna a maioria dos resultados relevantes.

Neste trabalho, valores altos para a sensibilidade indicam que a maioria das instˆancias de uma determinada classe presentes no banco de dados foi identificada e classificada corretamente, enquanto altos valores de preditividade positiva nos mostram que, das vezes que um classificador identificou um padr˜ao como sendo de uma determinada classe, ele acertou na maioria das vezes.