Metodologia de Validação - Utilizando Pesos estáticos e dinâmicos em sistemas multi-classificad

Para realizar a execução e comparação dos algoritmos de AM que foram implementados, e assegurar que uma medida verdadeira esteja sendo estimada pelos classificadores, foi utilizada uma metodologia de validação, chamada de validação cruzada (Seção 4.2.1). Também foi aplicado o teste de hipótese (Seção 4.2.2) aos valores obtidos (média da taxa de acurácia de classificação e o seu desvio padrão) para os SMC’s utilizando pesos. Esses valores obtidos pelos SMC’s são comparados dois a dois com esse teste de hipótese, a fim de avaliar se há diferença estatisticamente significativa entre os resultados.

4.2.1 Validação Cruzada

A comparação entre dois métodos de aprendizado supervisionado é realizada analisando a significância estatística da diferença entre a média da taxa do erro da classificação em conjuntos independentes de teste, dos métodos avaliados (Bittencourt, 2005). Para realizar essa avaliação, diversos conjuntos diferentes (distintos) de dados são necessários. Porém, em alguns casos, a quantidade de dados disponíveis é normalmente limitada. Uma forma de superar esse problema, e vem sendo uma boa escolha na avaliação do desempenho dos classificadores, é dividir a base de dados em conjuntos de treinamento e de validação pelo uso do procedimento de K-fold cross validation (Mitchell, 1997; Dietterich, 2000b).

Esse procedimento pode ser descrito da seguinte maneira: o conjunto de dados que se deseja obter o conhecimento é formado por n padrões e é dividido aleatoriamente em K partições (folds) mutuamente exclusivas, onde cada uma destas partições irá conter apro- ximadamente n/K padrões. Dessa forma, o treinamento é realizado em K etapas, cada vez usando-se uma partição diferente como conjunto de validação e todas as outras K-1 partições restantes como conjunto de treinamento (Monard and Baranauskas, 2003). O erro cometido é calculado pela média dos erros obtidos em cada uma das K partições usadas como conjuntos de validação. Aplicando diferentes algoritmos de AM às mesmas partições, a significância estatística das diferenças entre os métodos pode, então, ser medida.

4. Metodologia dos Experimentos 58 A metodologia K-fold cross validation apresenta como característica a preferência de que essas partições criadas devem possuir a mesma quantidade de padrões para cada classe. Outra metodologia que utiliza a validação cruzada que apresenta como caracterís- tica a geração de partições mutuamente exclusivas é chamada de validação cruzada com estratificação (do inglês, stratified cross validation). Essa metodologia tenta construir

folds com as mesmas distribuições de classes, ao invés de se fazer uma divisão completa-

mente aleatória. Por exemplo, se o conjunto de dados analisado possuir duas classes com distribuição de 10% e 90%, cada partição criada também terá essa mesma proporção de classes (Monard and Baranauskas, 2003).

Neste trabalho, foi utilizada a metodologia da validação cruzada sem estratificação. Além disso, o valor para a quantidade de partições (K) foi igual a dez, ou seja, a cada execução do treinamento e validação serão utilizados nove partes para treinamento e uma parte para validação. Essa escolha se deve ao fato da ferramenta utilizada para a execução dos algoritmos de AM (Weka) utilizar a metodologia de amostragem cross validation sem estratificação.

4.2.2 Teste de Hipótese

Em problemas de classificação, os resultados obtidos pelos algoritmos (média de acerto e desvio padrão), em alguns casos, são utilizados para realizar uma comparação entre um algoritmo e outro para saber qual obteve o melhor resultado. Em determinadas situações, não é fácil realizar essa comparação apenas utilizando esses valores para descobrir qual algoritmo apresentou o melhor desempenho. Por exemplo, se a média da taxa de acerto e o desvio padrão de dois classificadores diferentes apresentarem valores próximos, é difícil afirmar se há diferença entre estes classificadores ou decidir qual dos dois é o melhor. Dessa forma, uma metodologia é comumente utilizada na área de AM, chamada de teste de hipótese (Monard and Baranauskas, 2003).

O teste de hipótese é uma regra de decisão para aceitar ou rejeitar uma hipótese es- tatística2 _{com base nos elementos de duas amostras, com a finalidade de verificar se as}

variações encontradas nas amostras são casuais ou são verdadeiras. Na comparação entre classificadores, duas amostras consistem, por exemplo, nas médias da taxa de classifica- ção correta obtida com o K-fold cross validation dos dois classificadores comparados. O teste de hipótese é interpretado como sendo a chance de detectar uma real diferença entre essas médias, ou seja, detectar se ela realmente existe (Mitchell, 1997).

2_{Uma hipótese estatística é uma afirmativa a respeito de um parâmetro de uma distribuição de}

4. Metodologia dos Experimentos 59 Designa-se por H0, ou hipótese nula, a hipótese estatística a ser testada, e por H1 a

hipótese alternativa. A hipótese nula expressa uma igualdade, enquanto que a hipótese alternativa é dada por uma desigualdade (6= , =, <, >). De acordo com o sinal de desigualdade usado na hipótese alternativa, o teste é dito bicaudal (6=), unicaudal superior (>) ou inferior (<). Considerando dois classificadores com médias da taxa de acerto µ1e µ2,

tem-se, por exemplo, as seguintes hipóteses estatísticas: H0 : µ1 = µ2

H1 : µ1 6= µ2

De acordo com o valor do parâmetro α, a hipótese nula é aceita ou rejeitada, a partir de procedimentos estatísticos. O valor de α, que também é conhecido como índice de significância, é a probabilidade de errar ao se rejeitar a hipótese nula quando na realidade ela é verdadeira. Quando dois classificadores diferentes são comparados, deseja-se que tal probabilidade seja mínima. Os índices de significância clássicos são 0,05 e 0,01. Ou seja, trabalha-se com uma margem de erro de 5% ou de 1%. Neste trabalho será usada a margem de erro igual a 5%.

Para realizar um teste de hipótese, é preciso conhecer a distribuição de probabilidade dos dados em que ele será aplicado. Se a distribuição das diferenças entre as médias for considerada como sendo uma distribuição normal, pode-se recorrer à estatística z (Le- vin, 1987). Porém, quando isso não puder ser constatado, como ocorre quando peque- nas amostras são utilizadas, recorre-se à razão t (ou estatística t) (Efron and Tibshirani, 1993). Esta é a mais utilizada, pois é comum os pesquisadores trabalharem com amostras que contêm um pequeno número de dados (Levin, 1987). Neste trabalho, como mencio- nado anteriormente, foi realizado o teste de hipótese entre os resultados obtidos por dois classificadores.

Serão realizados dois testes estatísticos para os resultados obtidos pelos SMC’s com pesos. O primeiro teste é realizado para verificar se o melhor resultado obtido com a uti- lização de pesos foi estatisticamente melhor que o resultado dos experimentos sem o uso de pesos. O segundo teste foi realizado para verificar se o resultado do experimento sem a utilização de pesos foi estatisticamente melhor que o pior resultado dos experimentos com a utilização de pesos.

No documento Utilizando Pesos estáticos e dinâmicos em sistemas multi-classificadores com diferentes níveis de diversidade (páginas 80-82)