• Nenhum resultado encontrado

Para realizar a execução e comparação dos algoritmos de AM que foram implementados, e assegurar que uma medida verdadeira esteja sendo estimada pelos classificadores, foi utilizada uma metodologia de validação, chamada de validação cruzada (Seção 4.2.1). Também foi aplicado o teste de hipótese (Seção 4.2.2) aos valores obtidos (média da taxa de acurácia de classificação e o seu desvio padrão) para os SMC’s utilizando pesos. Esses valores obtidos pelos SMC’s são comparados dois a dois com esse teste de hipótese, a fim de avaliar se há diferença estatisticamente significativa entre os resultados.

4.2.1 Validação Cruzada

A comparação entre dois métodos de aprendizado supervisionado é realizada analisando a significância estatística da diferença entre a média da taxa do erro da classificação em con- juntos independentes de teste, dos métodos avaliados (Bittencourt, 2005). Para realizar essa avaliação, diversos conjuntos diferentes (distintos) de dados são necessários. Porém, em alguns casos, a quantidade de dados disponíveis é normalmente limitada. Uma forma de superar esse problema, e vem sendo uma boa escolha na avaliação do desempenho dos classificadores, é dividir a base de dados em conjuntos de treinamento e de validação pelo uso do procedimento de K-fold cross validation (Mitchell, 1997; Dietterich, 2000b).

Esse procedimento pode ser descrito da seguinte maneira: o conjunto de dados que se deseja obter o conhecimento é formado por n padrões e é dividido aleatoriamente em K partições (folds) mutuamente exclusivas, onde cada uma destas partições irá conter apro- ximadamente n/K padrões. Dessa forma, o treinamento é realizado em K etapas, cada vez usando-se uma partição diferente como conjunto de validação e todas as outras K-1 partições restantes como conjunto de treinamento (Monard and Baranauskas, 2003). O erro cometido é calculado pela média dos erros obtidos em cada uma das K partições usadas como conjuntos de validação. Aplicando diferentes algoritmos de AM às mes- mas partições, a significância estatística das diferenças entre os métodos pode, então, ser medida.

4. Metodologia dos Experimentos 58 A metodologia K-fold cross validation apresenta como característica a preferência de que essas partições criadas devem possuir a mesma quantidade de padrões para cada classe. Outra metodologia que utiliza a validação cruzada que apresenta como caracterís- tica a geração de partições mutuamente exclusivas é chamada de validação cruzada com estratificação (do inglês, stratified cross validation). Essa metodologia tenta construir

folds com as mesmas distribuições de classes, ao invés de se fazer uma divisão completa-

mente aleatória. Por exemplo, se o conjunto de dados analisado possuir duas classes com distribuição de 10% e 90%, cada partição criada também terá essa mesma proporção de classes (Monard and Baranauskas, 2003).

Neste trabalho, foi utilizada a metodologia da validação cruzada sem estratificação. Além disso, o valor para a quantidade de partições (K) foi igual a dez, ou seja, a cada execução do treinamento e validação serão utilizados nove partes para treinamento e uma parte para validação. Essa escolha se deve ao fato da ferramenta utilizada para a execução dos algoritmos de AM (Weka) utilizar a metodologia de amostragem cross validation sem estratificação.

4.2.2 Teste de Hipótese

Em problemas de classificação, os resultados obtidos pelos algoritmos (média de acerto e desvio padrão), em alguns casos, são utilizados para realizar uma comparação entre um algoritmo e outro para saber qual obteve o melhor resultado. Em determinadas situações, não é fácil realizar essa comparação apenas utilizando esses valores para descobrir qual algoritmo apresentou o melhor desempenho. Por exemplo, se a média da taxa de acerto e o desvio padrão de dois classificadores diferentes apresentarem valores próximos, é difícil afirmar se há diferença entre estes classificadores ou decidir qual dos dois é o melhor. Dessa forma, uma metodologia é comumente utilizada na área de AM, chamada de teste de hipótese (Monard and Baranauskas, 2003).

O teste de hipótese é uma regra de decisão para aceitar ou rejeitar uma hipótese es- tatística2 com base nos elementos de duas amostras, com a finalidade de verificar se as

variações encontradas nas amostras são casuais ou são verdadeiras. Na comparação entre classificadores, duas amostras consistem, por exemplo, nas médias da taxa de classifica- ção correta obtida com o K-fold cross validation dos dois classificadores comparados. O teste de hipótese é interpretado como sendo a chance de detectar uma real diferença entre essas médias, ou seja, detectar se ela realmente existe (Mitchell, 1997).

2Uma hipótese estatística é uma afirmativa a respeito de um parâmetro de uma distribuição de

4. Metodologia dos Experimentos 59 Designa-se por H0, ou hipótese nula, a hipótese estatística a ser testada, e por H1 a

hipótese alternativa. A hipótese nula expressa uma igualdade, enquanto que a hipótese alternativa é dada por uma desigualdade (6= , =, <, >). De acordo com o sinal de desi- gualdade usado na hipótese alternativa, o teste é dito bicaudal (6=), unicaudal superior (>) ou inferior (<). Considerando dois classificadores com médias da taxa de acerto µ1e µ2,

tem-se, por exemplo, as seguintes hipóteses estatísticas: H0 : µ1 = µ2

H1 : µ1 6= µ2

De acordo com o valor do parâmetro α, a hipótese nula é aceita ou rejeitada, a partir de procedimentos estatísticos. O valor de α, que também é conhecido como índice de significância, é a probabilidade de errar ao se rejeitar a hipótese nula quando na realidade ela é verdadeira. Quando dois classificadores diferentes são comparados, deseja-se que tal probabilidade seja mínima. Os índices de significância clássicos são 0,05 e 0,01. Ou seja, trabalha-se com uma margem de erro de 5% ou de 1%. Neste trabalho será usada a margem de erro igual a 5%.

Para realizar um teste de hipótese, é preciso conhecer a distribuição de probabilidade dos dados em que ele será aplicado. Se a distribuição das diferenças entre as médias for considerada como sendo uma distribuição normal, pode-se recorrer à estatística z (Le- vin, 1987). Porém, quando isso não puder ser constatado, como ocorre quando peque- nas amostras são utilizadas, recorre-se à razão t (ou estatística t) (Efron and Tibshirani, 1993). Esta é a mais utilizada, pois é comum os pesquisadores trabalharem com amostras que contêm um pequeno número de dados (Levin, 1987). Neste trabalho, como mencio- nado anteriormente, foi realizado o teste de hipótese entre os resultados obtidos por dois classificadores.

Serão realizados dois testes estatísticos para os resultados obtidos pelos SMC’s com pesos. O primeiro teste é realizado para verificar se o melhor resultado obtido com a uti- lização de pesos foi estatisticamente melhor que o resultado dos experimentos sem o uso de pesos. O segundo teste foi realizado para verificar se o resultado do experimento sem a utilização de pesos foi estatisticamente melhor que o pior resultado dos experimentos com a utilização de pesos.