• Nenhum resultado encontrado

Aprendizagem supervisionada: avalia¸ c˜ ao

Como medir o desempenho de um algoritmo de classifica¸c˜ao? Uma das medidas mais naturais ´e a propor¸c˜ao de objetos corretamente classificados, designada por acur´acia. No entanto, esta medida depende da dimens˜ao dos diferentes grupos [16]. Portanto, poder´a ser conveniente usar diferentes medidas em fun¸c˜ao do problema.

2.5.1 Medidas de desempenho

Apresentamos em seguida algumas das medidas considerando o caso de classifica¸c˜ao bin´aria. Por uma quest˜ao de simplicidade consideramos a classe positiva + e a classe ne- gativa −. A partir da matriz confus˜ao, como a que ´e apresentada na Tabela 2.1 ´e poss´ıvel obter diversas medidas.

Na matriz confus˜ao s˜ao apresentados o n´umero T P de objetos corretamente identifica- dos como positivos, o n´umero F P de objetos incorretamente identificados como positivos, o n´umero T N de objetos corretamente identificados como negativos e F N o n´umero de objetos incorretamente classificados como negativos. Verificamos a existˆencia de dois tipos de erro: os falsos positivos (erro do tipo 1) e os falsos negativos (erro do tipo 2). Enumeramos em seguida algumas das medidas do desempenho de um algoritmo de classifica¸c˜ao.

Classe prevista Total

+ − objetos

Classe + TP FN P

real − FP TN N

Tabela 2.1: Matriz confus˜ao.

• recall ou sensibilidade ´e a propor¸c˜ao de objetos positivos corretamente classificados r = T P

T P + F N = T P

P (2.23)

• raz˜ao de falsos positivos ou false alarm rate ´e a propor¸c˜ao de objetos negativos classi- ficados incorretamente

F P F P + T N =

F P

N (2.24)

• raz˜ao de falsos negativos ´e a propor¸c˜ao de objetos positivos classificados incorretamente F N

T P + F N = F N

P (2.25)

• especificidade ´e a propor¸c˜ao de objetos negativos classificados corretamente s = T N

T N + F P = T N

N (2.26)

• precis˜ao ´e a propor¸c˜ao de objetos classificados como positivos e que de facto o s˜ao p = T P

T P + F P (2.27)

• acur´acia ´e a propor¸c˜ao dos objetos corretamente classificados a = T P + T N

T P + T N + F P + F N =

T P + T N

P + N (2.28)

• F-score ou F-measure ´e a m´edia harm´onica que combina precis˜ao e recall 2 × r × p

p + r (2.29)

• taxa de erro ´e a propor¸c˜ao dos objetos classificados incorretamente F P + F N

T P + T N + F P + F N =

F P + F N

P + N (2.30)

• m´edia geom´etrica da especificidade e recall

g =√r × s (2.31)

Esta ´e uma medida que tem sido usada em situa¸c˜oes em que os dados n˜ao s˜ao equilibra- dos [23, 25]. Uma vez que a especificidade pode ser lida como a acur´acia nas observa¸c˜oes da classe negativa e a sensibilidade como a acur´acia nas de classe positiva, um valor elevado de g indica que o modelo em avalia¸c˜ao n˜ao est´a enviesado no sentido da classe maiorit´aria.

Curva ROC e ´area abaixo da curva

A curva ROC (do inglˆes Receiver Operating Characteristic) ´e uma representa¸c˜ao gr´afica que ilustra o desempenho de um classificador bin´ario em fun¸c˜ao da varia¸c˜ao do limiar de discrimina¸c˜ao. A Figura 2.7 ilustra duas curvas ROC correspondentes a classificadores com diferentes desempenhos.

Razão de falsos positivos

Recall C1 C2 0 1 1

Figura 2.7: Exemplo de curvas ROC. A curva C1 representa um classificador com melhor desempenho do que aquele representado pela curva C2.

Quanto mais a curva seguir junto ao limite esquerdo e depois junto ao limite superior da ´area de desenho da curva, melhor o desempenho do classificador. A diagonal a tra¸co interrompido corresponde `a curva de um classificador com desempenho aleat´orio.

A ´area abaixo da curva (AUC) ´e um resumo da informa¸c˜ao contida na curva. ´E uma medida da capacidade de discrimina¸c˜ao do classificador, isto ´e, da capacidade de classificar corretamente instˆancias de ambas as classes. Assim, quanto maior o seu valor, melhor o desempenho do classificador. As curvas ROC e a medida AUC s˜ao muitas vezes as medidas escolhidas para avaliar o desempenho de classificadores [1, 22, 26, 27] .

2.5.2 Valida¸c˜ao cruzada

´

E uma forma sistem´atica de avaliar o desempenho de um classificador. Esta abordagem ´e muitas vezes adotada quando o conjunto de dados ´e pequeno. Consiste na divis˜ao do conjunto de dados em k subconjuntos de aproximadamente igual tamanho. Em seguida s˜ao realizadas k sess˜oes de treino e teste. Em cada sess˜ao ´e usado um dos k conjuntos para teste e os restantes k − 1 para treino, sendo que no final cada objeto ´e usado o mesmo n´umero de vezes para treino e exatamente uma vez para teste.

Existem diferentes estrat´egias para a concretiza¸c˜ao dos subconjuntos de valida¸c˜ao cruzada. Na mais comum os k subconjuntos s˜ao criados de modo a preservar a percentagem de objetos de cada classe, semelhante `a existente no conjunto de dados. Esta estrat´egia ´e designada por stratified k-fold.

2.5.3 Compara¸c˜ao de classificadores

´

E natural considerar que o melhor classificador ´e aquele que apresenta o valor mais elevado de acur´acia. No entanto, a diferen¸ca na acur´acia de dois classificadores pode n˜ao traduzir uma diferen¸ca estatisticamente significativa. Para determinar se essa diferen¸ca ´e significativa aplicamos um teste estat´ıstico como o t-teste [28]. A hip´otese que colocamos, hip´otese nula, ´e que ambos os classificadores s˜ao iguais. Se pudermos rejeitar esta hip´otese podemos concluir que a diferen¸ca entre os dois classificadores ´e relevante. Nesse caso escolhemos o classificador com melhor acur´acia.

Sejam MAe MB dois classificadores. Queremos comparar o seu desempenho usando a es- trat´egia de valida¸c˜ao cruzada. Consideremos cada um dos k subconjuntos em que foi dividido o conjunto de dados para a valida¸c˜ao cruzada. Sejam pAj e pBj a acur´acia dos classificadores MA e MB no subconjunto j, respetivamente. Seja pj = pAj − pBj a diferen¸ca da acur´acia para o subconjunto j. A hip´otese nula afirma que pj tem m´edia zero.

A m´edia das diferen¸cas da acur´acia p e a variˆancia s˜ao dadas pelas express˜oes seguintes. p = P jpj k σ 2= P j(pj− p)2 k − 1 j = 1, . . . , k (2.32) O valor de t-score usado no teste de hip´oteses ´e calculado por√kσp.

Se t-score ∈ (−tα/2,(k−1), tα/2,(k−1)) a hip´otese de ambos os modelos serem iguais ´e aceite. O valor de t ´e lido de uma tabela de probabilidades em fun¸c˜ao dos graus de liberdade e do n´ıvel de confian¸ca pretendido.

Cap´ıtulo 3

An´alise dos dados

Na primeira sec¸c˜ao deste cap´ıtulo apresentamos os dados sobre os quais trabalhamos. Nas sec¸c˜oes seguintes apresentamos a an´alise de dados realizada da perspetiva de dia, utilizador e perguntas. Terminamos com uma compara¸c˜ao entre os v´arios resultados obtidos e respetivas conclus˜oes.

3.1

Caracteriza¸c˜ao dos dados

Os dados foram analisados por disciplina. Para cada uma das disciplinas o primeiro passo consistiu em recolher os registos de atividade na aplica¸c˜ao SIACUA durante o per´ıodo de leciona¸c˜ao dessa disciplina. Estes registos foram depois processados de modo a obter, para cada utilizador do tipo aluno, uma listagem de todas as respostas dadas aos diferentes problemas. Este processo est´a descrito na Sec¸c˜ao 1.4.

3.1.1 Descri¸c˜ao

Recordamos que cada resposta cont´em a seguinte informa¸c˜ao: • n´umero identificador da quest˜ao do MEGUA que foi respondida; • momento (timestamp) em que foi visualizada a quest˜ao;

• login identificador do utilizador que submeteu a resposta;

• o tempo despendido, em segundos, para submeter a resposta; isto ´e, o tempo passado entre a apresenta¸c˜ao da quest˜ao ao utilizador e a submiss˜ao da resposta;

• o tempo despendido, em segundos, para analisar o resultado; corresponde ao tempo passado entre a apresenta¸c˜ao do resultado e pedido do utilizador para continuar e voltar `

a p´agina principal da ´area de estudo aut´onomo;

• o resultado: 0 - errou, 1 - acertou, 2 - viu resolu¸c˜ao sem responder.

Notamos que ao analisar os dados tendo como ponto de partida as respostas, estamos automaticamente a considerar apenas os alunos que responderam a pelo menos uma quest˜ao durante o per´ıodo indicado.

Processando cada uma destas respostas, obtivemos um conjunto de caracter´ısticas por dia, aluno e quest˜ao, sendo que todas as caracter´ısticas de contagem de tempo foram convertidas para minutos. Por exemplo, por dia podemos determinar o n´umero de utilizadores distintos que acedeu `a aplica¸c˜ao e respondeu a alguma quest˜ao, o n´umero de respostas submetidas ou o tempo despendido na aplica¸c˜ao na ´area de estudo aut´onomo. Por quest˜ao recolhemos o n´umero de respostas submetidas em fun¸c˜ao do resultado ou o tempo utilizado para responder `

a quest˜ao. Por aluno calculamos o n´umero de respostas submetidas ou tempo despendido na ´

area de estudo aut´onomo na aplica¸c˜ao.

Deste modo, ´e poss´ıvel obter 8 caracter´ısticas por dia, 12 por quest˜ao do MEGUA e 14 por utilizador. Apoiados na an´alise dos dados relativos `a utiliza¸c˜ao da aplica¸c˜ao ao longo do semestre, aumentamos para 42 o n´umero de caracter´ısticas associadas ao utilizador ao distinguir as intera¸c˜oes ocorridas em dias fora dos per´ıodos de avalia¸c˜ao e dias de avalia¸c˜ao. A lista exaustiva das caracter´ısticas pode ser consultada no Apˆendice A.

Documentos relacionados