• Nenhum resultado encontrado

Confusion Matrix (Matriz de Confusão)

No documento Lucas de Souza Silva (páginas 58-61)

2 FUNDAMENTAÇÃO TEÓRICA

2.6 CLASSIFICAÇÃO E REGRESSÃO EM MODELOS SUPERVISIONADOS DE APRENDIZADO DE MÁQUINA

2.7.1 Confusion Matrix (Matriz de Confusão)

A Confusion Matrix é uma matriz 𝑚𝑥𝑚, onde 𝑚 é o número de classes a serem preditas. Para problemas de classificação binária, o número de classes é dois, portanto, a Confusion Matrix terá duas linhas e duas colunas. As linhas da Confusion Matrix representam as classes de destino, enquanto as colunas representam as classes de saída. As células diagonais em cada tabela mostram o número de casos que foram classificados corretamente e as células fora da diagonal mostram os casos erroneamente classificados. Ainda, faz-se necessário escolher um limite de decisão 𝜏 para rotular as instâncias como positivas ou negativas. Se a probabilidade atribuída à instância pelo classificador for maior que 𝜏, ela é rotulada como positiva e se a probabilidade for menor que o limite de decisão, ela é rotulada como negativa. A Figura 6 ilustra uma Confusion Matrix genérica, adaptada de Botelho e Tostes (2010).

Figura 6 - Confusion Matrix genérica

Fonte: Adaptada de Botelho e Tostes (2010).

Depois que todas as instâncias são classificadas, os resultados previstos são comparados com os valores reais das variáveis de destino, resultando em quatro possibilidades:

• Verdadeiro Positivo (VP): casos onde a previsão do modelo é compatível com a situação real, classificados com 1, em outras palavras os dados eram verdadeiros e de fato foram preditos como verdadeiros.

• Verdadeiro Negativo (VN): situação onde a previsão do modelo também é compatível com a situação real, classificados com 0, sendo os dados originalmente falsos e de fato preditos como falsos.

• Falso Positivo (FP): casos em que o modelo indicou que a instância possuía o valor 1, mas o valor na situação real era 0.

• Falso Negativo (FN): casos em que o modelo indicou que a instância é 0, mas a situação real mostra o valor 1. 2.7.2 Testes de Classificação Binária

Existem alguns parâmetros importantes, derivados da Confusion Matrix, que podem ser úteis para entender as informações que ela fornece em termos de Classificação. Dentre tais parâmetros, destacam-se a precisão da classificação, a taxa de erro, a sensibilidade ou taxa positiva verdadeira e a especificidade ou taxa negativa verdadeira, apresentadas no Quadro 2. Todos os parâmetros são calculados utilizando os valores VP, VN, FP e FN escritos na Confusion Matrix.

Quadro 2 – Métricas de avaliação para classificação binária Precisão da classificação 𝑉𝑃 + 𝑉𝑁 𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑖𝑛𝑠𝑡â𝑛𝑐𝑖𝑎𝑠 (4) Taxa de erro 𝐹𝑃 + 𝐹𝑁 𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑖𝑛𝑠𝑡â𝑛𝑐𝑖𝑎𝑠 (5) Sensibilidade 𝑉𝑃 𝑉𝑃+𝐹𝑁 (6) Especificidade 𝑉𝑁 𝑉𝑁+𝐹𝑃 (7) Fonte: Elaborado pelo autor (2019).

A Precisão da classificação é uma medida indicada para quando as classes da variável alvo são razoavelmente distribuídas e não tendem a uma única classe. Já a Taxa de erro é calculada para terminar a taxa em que diferentes instâncias foram preditas erroneamente, como o nome sugere. A importância desta métrica está diretamente ligada ao desempenho do modelo preditivo, uma vez que valores elevados indicam um modelo longe da realidade, e assim, inviável para utilização. A Sensibilidade pode ser utilizada em uma situação em que os Falsos Negativos são considerados mais prejudiciais que os Falsos Positivos, uma vez que a métrica compara os Verdadeiro Positivos aos valores que de fato são positivos, independente se o modelo acertou ou não. A

Especificidade é uma métrica que indica a proporção entre os pacientes que não tiveram uma internação de longa duração e que o modelo de fato previu que não tiveram (VN), e os pacientes que não tiveram uma internação de longa duração, mesmo que o modelo tenha predito o contrário (VN e FP).

A curva Receiver Operating Characteristic (ROC) é um dos métodos de teste mais úteis para problemas de classificação binária, uma vez que fornece uma maneira abrangente e visualmente atraente para resumir a precisão das previsões. Variando o valor do limiar de decisão entre 0 e 1, obtém-se um conjunto de diferentes classificadores para os quais se pode calcular a especificidade e sensibilidade. Os pontos de uma curva ROC são a representação dos valores desses parâmetros para cada um dos valores do limiar de decisão. Essa curva mostra quão boa é a capacidade de previsão do modelo em distinguir as classes devido à alta sensibilidade e especificidade, já que o desempenho do modelo é mensurado pela área entre a curva ROC e a diagonal principal (GÖNEN, 2007). A Figura 7 abaixo ilustra um gráfico de curva ROC genérica. Os valores de especificidade são plotados no eixo x enquanto no eixo y tem- se o valor correspondente da sensibilidade.

Figura 7 - Gráfico de curva ROC genérica

Fonte: Elaborado pelo autor (2019).

No caso de um modelo perfeito, a curva ROC passaria pelo canto superior esquerdo, que é o ponto em que a sensibilidade e a especificidade

tomam o valor 1. Como consequência, quanto mais próximo do ponto (0,1) a curva ROC, melhor o classificador.

Prati, Batista e Monard (2008) salientam que alguns pontos no espaço ROC merecem destaque. O ponto (0,0) representa a estratégia de nunca classificar um exemplo como positivo. Modelos que correspondem a esse ponto não apresentam nenhum falso positivo, mas também não conseguem classificar nenhum verdadeiro positivo. A estratégia oposta, de sempre classificar um novo exemplo como positivo, é representada pelo ponto (1,1). Por sua vez, o ponto (0,1) representa o modelo perfeito, i.e., todos os exemplos positivos e negativos são corretamente classificados, como supracitado. O ponto (1,0) representa o modelo que sempre faz predições erradas. Os mesmos autores ainda mencionam que modelos próximos ao canto inferior esquerdo podem ser considerados "conservativos": eles fazem uma classificação positiva somente se têm grande segurança na classificação. Como consequência, eles cometem poucos erros falsos positivos, mas frequentemente têm baixas taxas de verdadeiros positivos. Modelos próximos ao canto superior direito podem ser considerados “liberais”: eles predizem a classe positiva com maior frequência, de tal maneira que classificam a maioria dos exemplos positivos corretamente, mas, geralmente, com altas taxas de falsos positivos (PRATI; BATISTA; MONARD, 2008).

O parâmetro mais importante que pode ser obtido de uma curva ROC é a Area Under The Curve, ou área sob a curva (AUC), utilizada como uma medida da qualidade do classificador. Para um modelo perfeito, a área sob a curva seria 1. Para o exemplo ilustrado na Figura 7, a AUC é 0,90, o que demonstra um bom desempenho do classificador.

Além disso, pode-se encontrar o limite ideal, que é o limiar que melhor discrimina entre as duas classes diferentes, uma vez que maximiza a especificidade e a sensibilidade. Seu valor será o valor do limiar correspondente ao ponto da curva ROC mais próximo do canto superior esquerdo.

No documento Lucas de Souza Silva (páginas 58-61)