Medidas de Avaliação - Metodologia dos Experimentos

5.3 Metodologia dos Experimentos

5.3.2 Medidas de Avaliação

Com a finalidade de avaliar as técnicas em cada parte dos experimentos, são utilizadas as medidas de acurácia, tamanho da estrutura da técnica e o tempo necessário para realizar a classificação. Enquanto a primeira medida quantifica a eficácia dos algoritmos na tarefa de classificação, as duas últimas medidas são aproximações da complexidade dos algoritmos (Platt, 1991). Essas métricas são apresentadas a seguir:

1. Acurácia: calcula a porcentagem de amostras de teste que um classificador rotulou corretamente. Esse valor é a razão entre o número de amostras rotuladas corretamente pelo número total de amostras, multiplicada por 100%. Ele é limitado por uma faixa entre 0% a 100%. Quanto maior o valor, melhor a eficácia da técnica para realizar a classificação. A soma da acurácia com a taxa de erro de um algoritmo é igual a 1 (ou 100%). Essa métrica é amplamente utilizada em tarefas de classificação (Demšar, 2006) e, por isso, foi escolhida.

2. Tamanho da estrutura: essa métrica é baseada na usada em (Platt, 1991) para medir a complexidade de redes neurais. Em (Platt, 1991), esse valor é calculado contando o número de pesos ou parâmetros que uma técnica necessita para fazer uma tarefa. A medida utilizada nos experimentos desse trabalho também considera a precisão da representação dos valores dos pesos e dos parâmetros. Essa alteração é para tornar mais justa a comparação do número de parâmetros das outras técnicas com o número da VG-RAM WNN, cujo cada parâmetro é representado por somente um bit. Sendo assim, o tamanho da estrutura é medido em termos do número de bits necessários para representar a estrutura de cada técnica. Em outras palavras, essa métrica mede a quantidade de memória que a técnica necessita para realizar uma tarefa de classificação. Todas as outras técnicas utilizadas nos experimentos apresentam boa precisão defi- nindo os parâmetros como float, que, na linguagem C, possui 32 bits. Quanto menor o tamanho da estrutura de uma técnica, maior a chance dela possuir uma complexidade menor.

3. Tempo: outra medida utilizada para estimar a complexidade de uma técnica é o tempo necessário para realizar a classificação dos dados. Maiores tempos para classificação sugerem uma maior complexidade da técnica. A unidade usada para essa medida foi milissegundos. Todos os algoritmos testados estão implementados em C, e os tempos foram obtidos em um computador que foi isolado e possui um processador Intel Dual Core 2,30 GHz e 4 GB de memória RAM.

Além dessas, outras três métricas foram usadas especialmente para verificar a estabilidade e plasticidade de algumas técnicas incrementais. Elas são descritas a seguir.

Métricas de estabilidade e plasticidade

Três métricas são propostas neste trabalho para avaliar os graus de estabilidade e plasticidade de uma técnica incremental. No entanto, antes de apresentá-las, é explicado o procedimento necessário para aplicá-las.

Para calcular essas métricas, é necessário calcular, antes, a quantidade de informação inicial de uma classe que um classificador retém após ser treinado com todas as outras clas- ses. Essa grandeza será indicada a seguir por A. Outra medida realizada é a quantidade de informação de uma classe aprendida por um classificador, após terem sido usadas todas as outras classes para treinamento. Essa grandeza é representada a seguir por B.

Inicialmente, cada base de dados é dividida em_{|C| subconjuntos, onde |C| é o número de} classes da base de dados, e ni, i= 1, . . . , |C|, é o número de amostras em cada subconjunto,

com cada subconjunto contendo somente amostras de uma única classe. Essa divisão das ba- ses de dados evita o aparecimento de padrões similares em diferentes subconjuntos, podendo tornar difícil saber se o classificador aprendeu informação nova ou se simplesmente já era conhecimento obtido em um momento anterior.

Depois de dividir a base de dados como descrito acima, o classificador é treinado com o primeiro subconjunto S1 e testado com o mesmo subconjunto. O número de amostras

corretamente classificadas do subconjunto S1é então contado, e o valor é indicado por A1,1,

no qual o primeiro índice indica o número de subconjuntos usados para treinamento até então, e o segundo índice é o subconjunto usado para teste. A seguir, os subconjuntos Si, i_{= 2, . . . , |C| − 1, são também usados para treinamento e o classificador é testado com o}

subconjunto S_|C|. O número de amostras corretamente classificadas é referido por B_|C|−1,|C|, e o significado dos índices é o mesmo mencionado antes. Depois, o subconjunto S_|C| é também usado para treinamento, e os subconjuntos S1e S_|C| são usados para teste. O valor

de A_|C|,1 é o número de amostras corretamente classificadas do subconjunto S1, e B_|C|,|C|é o

número de amostras corretamente classificadas de S_|C|.

Esse procedimento é repetido_{|C| vezes, até todos os subconjuntos serem usados uma vez} como o primeiro e uma vez como o último subconjunto de treinamento. Em outras palavras, esse procedimento de treinamento e teste é repetido até que os valores de A1,i, A_|C|,i, B_|C|−1,i

e B_|C|,i, i_{= 1, . . . , |C|, sejam calculados.}

A Figura 5.8 ilustra os cálculos das grandezas A e B para uma base de dados com duas classes (_{|C| = 2). No início, a base de dados é dividida em 2 partes, onde a parte S}1 é a

primeira parte usada para treinamento. Após o treinamento com S1, essa mesma parte é

usada para teste e é contado o número de amostras corretamente classificadas, esse valor é referido por A1,1. Depois, a parte S2é utilizada como teste e é contado o número de amostras

BASE DE DADOS

S1 S2

Figura 5.8: Ilustração da divisão de uma base de dados de duas classes em dois subconjuntos (S1 e S2) para o cálculo das grandezas A e B. Os dois subconjuntos são usados para trei-

namento, sendo S1 o primeiro a ser usado. Os valores de A são as amostras corretamente

classificadas de S1 antes e depois de usar S2 para treino. Os valores de B são as amostras

corretamente classificadas de S2antes e depois de usar S2para treino.

corretamente classificadas dessa parte. Esse valor é referido por B1,2. Em seguida, a parte

S2também é usada para treinamento (ou seja, o classificador é treinado com S1e S2, nessa

ordem) e as partes S1e S2são usadas para teste. O número de amostras classificadas corre-

tamente de S1é identificado pelo valor de A2,1, enquanto o número de amostras classificadas

corretamente de S2 é indicado por B2,2. Após esses cálculos, a ordem das partes de treina-

mento é invertida. Agora S2 é a primeira parte de treinamento e S1é a segunda parte. Com

isso, os valores de A1,2 e B1,1 são obtidos quando o classificador é treinado somente com S2,

e A2,2 e B2,1 são calculados quando são usadas as duas partes para treinamento. Os valores

de A são obtidos para o primeiro subconjunto de treinamento, e os valores de B para o último subconjunto.

O valor de A1,i é o número de amostras que o classificador aprende do subconjunto Si,

e A_|C|,i é o número de amostras reconhecidas do subconjunto Si depois dos dados das |C|

classes terem sido usados para treinamento. Por outro lado, B_|C|−1,ié o número de amostras do subconjunto Sireconhecidas pelo classificador antes dele ser treinado com o subconjunto Si. E B_|C|,ié o número de amostras aprendidas depois dele ter sido treinado com Si. Em outras

palavras, a grandeza A é usada para medir a quantidade de informação que o classificador reteve da primeira classe usada para treinamento após terem sido usadas todas as classes do problema para treinamento. Enquanto a grandeza B é utilizada para avaliar a quantidade de informação que o classificador aprendeu da última classe usada para treinamento.

As métricas apresentadas abaixo medem as seguintes informações: primeiro, a quantidade de informação média retida para cada classe depois de aprender as demais classes e, segundo, a quantidade de informação média aprendida para cada classe depois que as outras classes foram aprendidas.

um classificador reter conhecimento antigo quando uma quantidade nova de informa- ção é apresentada.

O valor da Retenção R de um classificador com relação a uma base de dados é obtido usando a Equação 5.12: R= 1 |C| |C|

∑

i=1 Ri× 100%, (5.12) onde Ri=    A_|C|,i A1,i , se A1,i > 0, 0, caso contrário.

A métrica Retenção calcula a média das razões entre o número de amostras reconhecidas de cada classe antes e depois de apresentar todas as classes para o classificador. O valor de R pode variar de 0 a 100%. Quanto maior for o valor de R, melhor a habilidade do classificador para reter conhecimento antigo.

• Inovação (I): mede o grau de plasticidade de um classificador, isto é, a habilidade de

um classificador aprender novo conhecimento.

O cálculo do valor da Inovação I é realizado usando a Equação 5.13:

I= 1 |C| |C|

∑

i=1 Ii× 100%, (5.13) onde Ii=    B_|C|,i−B|C|−1,i ni−B_|C|−1,i , se ni− B|C|−1,i> 0, 1, caso contrário.

A métrica Inovação calcula a média das razões entre o número de amostras reconhecidas de cada classe antes e depois das amostras serem usadas para treinamento. O valor de I pode variar de 0 a 100%. Quanto maior for o valor de I, maior a capacidade do classificador para aprender novas informações.

• Média harmônica entre Retenção e Inovação (H): avalia o compromisso entre es-

tabilidade e plasticidade de um classificador para uma base de dados. Esse valor é medido pela Equação 5.14:

H= 2RI

R+ I × 100%. (5.14)

Quanto maior o valor de H, melhor a habilidade do classificador para obter o compro- misso entre estabilidade e plasticidade. O valor de H pode variar de 0 a 100%.

Um resultado sem diferença entre os valores de Retenção e Inovação para uma base de dados, isto é, R= I, sugere o método incremental ser insensível à ordem da apresentação das

classes de uma determinada base de dados (embora isso não implicar ser insensível à ordem das amostras).

No documento Modelo de aprendizado incremental baseado em uma rede neural com arquitetura adaptativa (páginas 108-112)