TESTES E EXPERIMENTOS
4.2 CENA DE ESTUDO
4.2.3 Amostras de Treinamento
Do conjunto das amostras disponíveis para cada classe foram extraídos dois subconjuntos: um com amostras de treinamento e um segundo com amostras de teste. Com a finalidade de capturar as variações naturais que ocorrem ao longo da área coberta pela imagem, as amostras em ambos os subconjuntos foram extraídas alternadamente do conjunto das amostras disponíveis nos dados de verdade terrestre. Para tornar os resultados obtidos para as várias classes comparáveis entre si, foram utilizados subconjuntos de treinamento e de teste de mesmo tamanho para todas as classes em estudo: inicialmente foram tomadas 50 amostras por classe para treinamento e 300 amostras por classe para teste; em um segundo momento, 99 amostras para treinamento e 300 amostras para teste; em seguida coletou-se 200 amostras para treinamento e outras 300 para fins de teste; e finalmente um quarto conjunto, com 300 amostras de treinamento e 300 amostras de teste.
As amostras de treinamento e teste foram tomadas a intervalos regulares do conjunto total de amostras para cada classe, ou seja, não necessariamente as 50 primeiras amostras estão contidas no conjunto de 99 amostras, e estas não necessariamente estão contidas nas 200 amostras seguintes e assim sucessivamente; as 300 amostras de teste são coletadas da mesma forma e são diferentes para cada
caso. O motivo porque se esta utilizando 99 amostras de treinamento ao invés de 100 na realização dos experimentos será explicado na sub-seção 4.3.2.1.
4.3FERRAMENTA CAB–CLASSIFICADOR EM ÁRVORE BINÁRIA
Para fins de implementação da metodologia proposta neste estudo, foi desenvolvida uma ferramenta denominada de Classificador em Árvore Binária (CAB), cujo código fonte encontra-se no Apêndice A. O CAB, implementado em forma de árvore binária, possui duas versões, uma para o classificador MVG e outra para o classificador SVM. Desenvolvidos em ambiente MATLAB 6.1, o MVG e o CAB-SVM apresentam como resultado a Matriz de Confusão.
Os valores de acurácia em cada experimento foram estimados a partir de matrizes de contingência, ou matrizes de confusão. Neste processo, a terminologia empregada é definida a seguir (CONGALTON, 1991):
a) Acurácia do Produtor: é estimada pela fração do número total das amostras de teste fornecidas ao classificador que foram rotuladas corretamente pelo classificador. Esta acurácia estima, portanto, a capacidade de o classificador reconhecer corretamente uma amostra.
b) Acurácia do Usuário: é estimada pela fração das amostras de teste rotuladas pelo classificador em cada uma das classes e que efetivamente pertencem a esta classe. Esta acurácia estima, portanto, o grau de confiança que se pode ter na imagem temática produzida pelo classificador.
c) Acurácia Média: é estimada pela razão do total de amostras classificadas corretamente em cada classe, ou seja, a soma dos valores na diagonal principal na matriz de contingência, pelo número total das amostras de teste.
4.3.1 Experimentos
Os experimentos foram desenvolvidos com o objetivo de quantificar numericamente os resultados de desempenho da metodologia proposta, especialmente no que diz respeito ao comportamento da acurácia no processo de classificação de imagens digitais de sensoriamento remoto, para os diferentes kernels e parâmetros implementados na ferramenta CAB-SVM.
Foi realizada uma série de experimentos, tomando-se a dimensionalidade dos dados como variável independente e a resultante acurácia na classificação, em porcentagem, como variável dependente. O valor da dimensionalidade dos dados, isto
experimento as bandas espectrais foram selecionadas por meio do algoritmo SFS, a um intervalo de 20 bandas. Desta maneira objetiva-se analisar o comportamento da acurácia produzida pelo classificador SVM em função da dimensionalidade dos dados e dos parâmetros escolhidos. Os resultados assim obtidos são comparados com aqueles obtidos nas mesmas condições, empregando-se um classificador mais tradicional (MVG), implementado pela ferramenta CAB-MVG. Nota-se que o valor mínimo admissível para as amostras de treinamento no caso do CAB-MVG é igual à dimensionalidade dos dados mais um. Um valor inferior resultará em uma matriz de covariância singular e, portanto, não utilizável (LANDGREBE, 2003).
O tamanho das amostras de treinamento foi escolhido deliberadamente pequeno com relação à dimensionalidade dos dados para desta forma melhor evidenciar os problemas que ocorrem em situações reais, ou seja, o pequeno número de amostras de treinamento normalmente disponíveis. Para os experimentos realizados empregando a ferramenta CAB-SVM (com 50, 99, 200 e 300 amostras de treinamento e 300 amostras de teste para cada caso), foram usadas 80 bandas para o cálculo da distância de Bhattacharyya e LV de 99%. Decidiu-se fixar o LV em 99% para que fosse obtida sempre a maior estrutura possível, ou seja, o número máximo de nós terminais (MORAES, 2005). Ainda segundo o autor, valores mais altos para o LV produzem, uma menor variabilidade no valor estimado da acurácia de cada classe individual, em função da dimensão dos dados.
Para a estimação do multiplicadores de Lagrange (Equação 40) foi utilizado a função quadprog.m disponível em MATLAB® e em todos os casos C foi tomado igual a 1. As Tabelas (4 - 12) e Figuras (17 - 24) abaixo mostram o comportamento da acurácia média variando-se o grau do polinômio, no caso do uso do Kernel Polinomial (Equação 45), e variando-se o parâmetro gamma (
γ
) no caso do Kernel RBF (Equação 44).4.3.1.1 Experimento 1
Neste experimento, fez-se uso do Kernel Polinomial, variando-se o grau do polinômio de 1 à 4. Na Figura 17 e Tabela 4 encontram-se os resultados para a acurácia média com o kernel linear, ou seja, kernel polinomial grau 1. Nas tabelas 5, 6 e 7 e Figuras 18, 19 e 20, estão as acurácias médias para o kernel polinomial grau 2, 3 e 4 respectivamente.
Tabela 4: Acurácia Média para kernel polinomial grau 1.
Dimensionalidade dos Dados (bandas)
50 amostras