• Nenhum resultado encontrado

5. Análise de Frequência e Reconhecimento de Padrões

5.7. Avaliação da adequação do ajuste e generalização dos modelos

5.7.1. Matriz de confusão

A razão pela qual se procuram tantas alternativas diferentes para a formulação de modelos preditivos deve-se a um princípio conhecido como “no free lunch theorem”, que reflete o facto de nenhum método ou modelo em particular, dominar sobre todos os outros para todos os possíveis conjuntos de dados de input. De forma a se avaliar o desempenho, ou qualidade de adequação de um modelo de aprendizagem estatística para um dado conjunto de dados, e proceder à escolha do melhor classificador entre um conjunto pré-determinado, é necessário definir alguma forma de medir o quanto a sua capacidade de previsão se ajusta de facto às observações. A métrica mais expedita e mais frequentemente utilizada para esse efeito, em problemas de classificação é a taxa de acertos, ou seja, a fração ou percentagem de observações corretamente classificadas. Contudo, a taxa de acertos não fornece normalmente informação suficiente para se decidir qual o modelo a adotar. Por exemplo, para uma amostragem de observações cuja metade pertence ao caso positivo e metade ao caso negativo, e tendo um classificador que classifica sempre como negativo e um outro que classifica sempre como positivo, ambos obtêm uma taxa de acerto de 50%, quando o comportamento é claramente diferente. Como um exemplo que carateriza mais proximamente o tipo de problemas reais que surgem em aplicações de classificação binária, considere-se um conjunto de amostragens decorrentes do varrimento do dispositivo de monda em diversos ramos, a uma frequência de amostragem dos sensores e deslocação do dispositivo tais, que resulta em que as regiões onde existiam frutos correspondam a 5% das observações. Se se proceder à classificação de tais amostragens com um classificador que atribua sempre a classificação negativa, “Não existe fruto”, então a taxa de acerto observada seria de 95%, o que representa aparentemente um ótimo desempenho, contudo todos os frutos seriam ignorados. Uma variante da taxa de acerto que representaria claramente uma melhor opção no caso de se valorizar igualmente as classificações positivas e negativas, seria a média entre as taxas de acerto de cada classe. Esta métrica é conhecida como taxa de acerto equilibrada (balanced accuracy). Ou seja, sendo P o número total de

observações positivas, TP (true positive) os casos positivos corretamente classificados, N o número total de observações da classe negativa e TN (true negative) o número de casos negativos corretamente classificados:

2

TP

TN

P

N

Bacc

(43)

Para o último exemplo apresentado, esta métrica resultaria num valor de 50%, face aos 95% da taxa de acerto simples, o que evidencia mais fielmente a fraca qualidade do classificador. Contudo, apesar de esta métrica atribuir importância a ambas as classes não permite a sua diferenciação.

Uma forma clara e inequívoca de atender a este problema de representação de dados consiste em se proceder à construção da matriz de confusão de cada classificador, ilustrada na Tabela 5, com as consequências que representam no contexto do dispositivo de monda. Esta matriz apresenta o número de observações positivas corretamente classificadas (TP), as observações incorretamente classificadas como positivas (false positive – FP), o número de observações negativas corretamente classificadas (TN) e as observações incorretamente classificadas como negativas (false negative – FN).

Partindo desta matriz, podem-se definir métricas mais interessantes, que ao contrário das anteriores são independentes da prevalência da população em questão. A sensibilidade ou

true positive rate (tpr) mede a capacidade de um classificador rotular corretamente as

observações do caso positivo de uma população, ou seja, evitar ocorrências de FN, independentemente da distribuição de classes. A especificidade é o homólogo para o caso negativo, penalizando as ocorrências de FP.

Sensibilidade

tpr

TP

TP

FN

(44)

Especificidade

TN

TN

FP

(45)

Dependendo da aplicação, o fator mais crítico pode residir nos casos positivos ou negativos. Por exemplo, para um sistema de classificação aplicado a rastreios médicos de doenças graves, o objetivo último seria, à partida, garantir que os utentes doentes são tratados. Então, optar-se-ia por um classificador que maximizasse a sensibilidade, minimizando o número de casos de pessoas classificadas como saudáveis que na verdade apresentam indícios de alguma patologia, com o objetivo de não se deixar pessoas doentes por tratar.

Contudo, muito provavelmente com este critério, o classificador apresentaria à partida, em geral, uma maior tendência a atribuir o rótulo positivo e a especificidade tenderia a diminuir, ou seja, o número de falsos alarmes, pessoas saudáveis que recebem a indicação de poderem estar doentes não estando, tenderia a aumentar. Esta estratégia poderia acarretar custos desnecessários com a alocação de recursos para prosseguir com procedimentos de diagnóstico ou tratamento desnecessários, mas o objetivo último seria salvaguardado. O ideal seria obviamente um classificador com, simultaneamente, uma elevada alta especificidade e sensibilidade, mas geralmente nos problemas reais que se procuram resolver com este tipo de algoritmos é sempre necessário ceder a algum tipo de compromisso. Neste caso, realizar-se-iam testes com um elevado número de classificadores e caso se obtivessem vários comportamentos razoáveis, com base nestas métricas, estabelecer-se-ia o critério de optar por aquele com maior sensibilidade.

Tabela 5 - Matriz de Confusão.

No caso do dispositivo de monda, o critério a definir não é tão claro como no exemplo anterior. A taxa de acerto não é um fator significativo, já que a distribuição de classes das observações no campo poder variar significativamente, com a distribuição dos frutos, com as propriedades dos sistemas de sensorização e de atuação. Dependendo da duração do ciclo de operação do dispositivo, sensorização, processamento e atuação, uma vez que se pretende que o operador execute um movimento continuo de varrimento ao longo de cada ramo com a maior rapidez possível, caso o ciclo de operação seja relativamente longo, no caso da ocorrência de um FP, os atuadores podem não se encontrar prontos para disparo quando seria realmente necessário dispararem para remover frutos. Adicionalmente, neste caso, pode ocorrer a remoção ou dano de frutos que devem permanecer na árvore. Na ocorrência de um FN, os frutos simplesmente não são detetados e portanto, caso devam ser

Classe verdadeira: Positivo Classe verdadeira: Negativo Classe atribuída: Positivo TP - Existe fruto e é detetado.

FP - Não existe fruto, mas pode ocorrer o

disparo de um atuador.

Classe atribuída:

Negativo

FN - Existe fruto, mas não

é detetado.

TN – Não existe fruto e nenhum atuador é

removidos, não o são. Ou seja, ambos os tipos de confusão debilitam significativamente a operação com sucesso do dispositivo. Assim, caso surgissem classificadores com desempenhos semelhantes mas diferentes equilíbrios entre sensibilidade e especificidade, não seria claro qual beneficiar. Apesar disto, fez-se questão de se calcular para consulta os valores de especificidade e sensibilidade. Contudo, existem várias métricas que procuram representar esse equilíbrio através de um único valor, tornando o processo de seleção em algo mais trivial.