Aprendizagem supervisionada: avalia¸ c˜ ao

Como medir o desempenho de um algoritmo de classifica¸cão? Uma das medidas mais naturais é a propor¸cão de objetos corretamente classificados, designada por acurácia. No entanto, esta medida depende da dimensão dos diferentes grupos [16]. Portanto, poderá ser conveniente usar diferentes medidas em fun¸cão do problema.

2.5.1 Medidas de desempenho

Apresentamos em seguida algumas das medidas considerando o caso de classifica¸cão binária. Por uma questão de simplicidade consideramos a classe positiva + e a classe negativa −. A partir da matriz confusão, como a que é apresentada na Tabela 2.1 é poss´ıvel obter diversas medidas.

Na matriz confusão são apresentados o número T P de objetos corretamente identificados como positivos, o número F P de objetos incorretamente identificados como positivos, o número T N de objetos corretamente identificados como negativos e F N o número de objetos incorretamente classificados como negativos. Verificamos a existência de dois tipos de erro: os falsos positivos (erro do tipo 1) e os falsos negativos (erro do tipo 2). Enumeramos em seguida algumas das medidas do desempenho de um algoritmo de classifica¸cão.

Classe prevista Total

+ − objetos

Classe + TP FN P

real − FP TN N

Tabela 2.1: Matriz confus˜ao.

• recall ou sensibilidade ´e a propor¸c˜ao de objetos positivos corretamente classificados r = T P

T P + F N = T P

P (2.23)

• razão de falsos positivos ou false alarm rate é a propor¸cão de objetos negativos classificados incorretamente

F P F P + T N =

F P

N (2.24)

• razão de falsos negativos é a propor¸cão de objetos positivos classificados incorretamente F N

T P + F N = F N

P (2.25)

• especificidade ´e a propor¸c˜ao de objetos negativos classificados corretamente s = T N

T N + F P = T N

N (2.26)

• precisão é a propor¸cão de objetos classificados como positivos e que de facto o são p = T P

T P + F P (2.27)

• acurácia é a propor¸cão dos objetos corretamente classificados a = T P + T N

T P + T N + F P + F N =

T P + T N

P + N (2.28)

• F-score ou F-measure é a média harmónica que combina precisão e recall 2 × r × p

p + r (2.29)

• taxa de erro ´e a propor¸c˜ao dos objetos classificados incorretamente F P + F N

T P + T N + F P + F N =

F P + F N

P + N (2.30)

• m´edia geom´etrica da especificidade e recall

g =√r × s (2.31)

Esta é uma medida que tem sido usada em situa¸cões em que os dados não são equilibra- dos [23, 25]. Uma vez que a especificidade pode ser lida como a acurácia nas observa¸cões da classe negativa e a sensibilidade como a acurácia nas de classe positiva, um valor elevado de g indica que o modelo em avalia¸cão não está enviesado no sentido da classe maioritária.

Curva ROC e ´area abaixo da curva

A curva ROC (do inglês Receiver Operating Characteristic) é uma representa¸cão gráfica que ilustra o desempenho de um classificador binário em fun¸cão da varia¸cão do limiar de discrimina¸cão. A Figura 2.7 ilustra duas curvas ROC correspondentes a classificadores com diferentes desempenhos.

Razão de falsos positivos

Recall C1 C2 0 1 1

Figura 2.7: Exemplo de curvas ROC. A curva C1 representa um classificador com melhor desempenho do que aquele representado pela curva C2.

Quanto mais a curva seguir junto ao limite esquerdo e depois junto ao limite superior da área de desenho da curva, melhor o desempenho do classificador. A diagonal a tra¸co interrompido corresponde à curva de um classificador com desempenho aleatório.

A área abaixo da curva (AUC) é um resumo da informa¸cão contida na curva. É uma medida da capacidade de discrimina¸cão do classificador, isto é, da capacidade de classificar corretamente instâncias de ambas as classes. Assim, quanto maior o seu valor, melhor o desempenho do classificador. As curvas ROC e a medida AUC são muitas vezes as medidas escolhidas para avaliar o desempenho de classificadores [1, 22, 26, 27] .

2.5.2 Valida¸c˜ao cruzada

E uma forma sistemática de avaliar o desempenho de um classificador. Esta abordagem é muitas vezes adotada quando o conjunto de dados é pequeno. Consiste na divisão do conjunto de dados em k subconjuntos de aproximadamente igual tamanho. Em seguida são realizadas k sessões de treino e teste. Em cada sessão é usado um dos k conjuntos para teste e os restantes k − 1 para treino, sendo que no final cada objeto é usado o mesmo número de vezes para treino e exatamente uma vez para teste.

Existem diferentes estratégias para a concretiza¸cão dos subconjuntos de valida¸cão cruzada. Na mais comum os k subconjuntos são criados de modo a preservar a percentagem de objetos de cada classe, semelhante à existente no conjunto de dados. Esta estratégia é designada por stratified k-fold.

2.5.3 Compara¸c˜ao de classificadores

E natural considerar que o melhor classificador é aquele que apresenta o valor mais elevado de acurácia. No entanto, a diferen¸ca na acurácia de dois classificadores pode não traduzir uma diferen¸ca estatisticamente significativa. Para determinar se essa diferen¸ca é significativa aplicamos um teste estat´ıstico como o t-teste [28]. A hipótese que colocamos, hipótese nula, é que ambos os classificadores são iguais. Se pudermos rejeitar esta hipótese podemos concluir que a diferen¸ca entre os dois classificadores é relevante. Nesse caso escolhemos o classificador com melhor acurácia.

Sejam MAe MB dois classificadores. Queremos comparar o seu desempenho usando a es- tratégia de valida¸cão cruzada. Consideremos cada um dos k subconjuntos em que foi dividido o conjunto de dados para a valida¸cão cruzada. Sejam pA_j e pB_j a acurácia dos classificadores MA e MB no subconjunto j, respetivamente. Seja pj = pAj − pBj a diferen¸ca da acurácia para o subconjunto j. A hipótese nula afirma que pj tem média zero.

A média das diferen¸cas da acurácia p e a variância são dadas pelas expressões seguintes. p = P jpj k σ 2₌ P j(pj− p)2 k − 1 j = 1, . . . , k (2.32) O valor de t-score usado no teste de hipóteses é calculado por√k_σp.

Se t-score ∈ (−tα/2,(k−1), tα/2,(k−1)) a hipótese de ambos os modelos serem iguais é aceite. O valor de t é lido de uma tabela de probabilidades em fun¸cão dos graus de liberdade e do n´ıvel de confian¸ca pretendido.

Cap´ıtulo 3

An´alise dos dados

Na primeira seçcão deste cap´ıtulo apresentamos os dados sobre os quais trabalhamos. Nas seçcões seguintes apresentamos a análise de dados realizada da perspetiva de dia, utilizador e perguntas. Terminamos com uma compara¸cão entre os vários resultados obtidos e respetivas conclusões.

3.1 Caracteriza¸c˜ao dos dados

Os dados foram analisados por disciplina. Para cada uma das disciplinas o primeiro passo consistiu em recolher os registos de atividade na aplica¸cão SIACUA durante o per´ıodo de leciona¸cão dessa disciplina. Estes registos foram depois processados de modo a obter, para cada utilizador do tipo aluno, uma listagem de todas as respostas dadas aos diferentes problemas. Este processo está descrito na Seçcão 1.4.

3.1.1 Descri¸c˜ao

Recordamos que cada resposta contém a seguinte informa¸cão: • número identificador da questão do MEGUA que foi respondida; • momento (timestamp) em que foi visualizada a questão;

• login identificador do utilizador que submeteu a resposta;

• o tempo despendido, em segundos, para submeter a resposta; isto é, o tempo passado entre a apresenta¸cão da questão ao utilizador e a submissão da resposta;

• o tempo despendido, em segundos, para analisar o resultado; corresponde ao tempo passado entre a apresenta¸c˜ao do resultado e pedido do utilizador para continuar e voltar `

a página principal da área de estudo autónomo;

• o resultado: 0 - errou, 1 - acertou, 2 - viu resolu¸c˜ao sem responder.

Notamos que ao analisar os dados tendo como ponto de partida as respostas, estamos automaticamente a considerar apenas os alunos que responderam a pelo menos uma quest˜ao durante o per´ıodo indicado.

Processando cada uma destas respostas, obtivemos um conjunto de caracter´ısticas por dia, aluno e questão, sendo que todas as caracter´ısticas de contagem de tempo foram convertidas para minutos. Por exemplo, por dia podemos determinar o número de utilizadores distintos que acedeu à aplica¸cão e respondeu a alguma questão, o número de respostas submetidas ou o tempo despendido na aplica¸cão na área de estudo autónomo. Por questão recolhemos o número de respostas submetidas em fun¸cão do resultado ou o tempo utilizado para responder `

a quest˜ao. Por aluno calculamos o n´umero de respostas submetidas ou tempo despendido na ´

area de estudo aut´onomo na aplica¸c˜ao.

Deste modo, é poss´ıvel obter 8 caracter´ısticas por dia, 12 por questão do MEGUA e 14 por utilizador. Apoiados na análise dos dados relativos à utiliza¸cão da aplica¸cão ao longo do semestre, aumentamos para 42 o número de caracter´ısticas associadas ao utilizador ao distinguir as intera¸cões ocorridas em dias fora dos per´ıodos de avalia¸cão e dias de avalia¸cão. A lista exaustiva das caracter´ısticas pode ser consultada no Apêndice A.

No documento Análise de perfis de utilização em sistemas de auto-aprendizagem (páginas 49-54)