• Nenhum resultado encontrado

EXPERIMENTOS, RESULTADOS E DISCUSSÕES

5.4 Rede Neural Convolucional (CNN) RGB x YU

Uma das dificuldades na utilização da CNN é a definição do espaço de cor a ser utilizado nas imagens de entrada da rede e como esta escolha impacta na acurácia e no tempo de treinamento. Este tra- balho realizou um comparativo efetuando o treinamento nos espaços de cores RGB e YUV nas bases Caltech101 e na base RecogProd. Nas redes convolucionais foram utilizadas imagens de tamanho fixo 32 ◊ 32 redimensionadas a partir da base original. A Figura 34 mostra o tempo de treinamento e a acurácia obtidos na base Caltech101 utilizando o es- paço de cores YUV na base de treinamento e na base de teste. É possível observar que após aproximadamente 15 horas de treinamento a CNN se aproxima de 100% de acurácia na base de treinamento (utilizada como base para o cálculo dos ajustes dos pesos da rede) e aproximadamente 50% de acurácia na base de teste. A Figura 35 mostra a acurácia e o tempo de treinamento utilizando o espaço de cores RGB, ainda na base Caltech101. É possível observar que uma porcentagem de acurácia se- melhante ao treinamento utilizando YUV, em torno de 50% só é obtida após 50 horas de treinamento. O treinamento realizado utilizando RGB foi interrompido após 170 horas de treinamento (uma semana) antes de alcançar os 100% de acurácia na base de treinamento, ou seja, é possível que a acurácia na base de testes fosse melhorada caso o processamento fosse mantido até os 100% de acurácia da base de treinamento. Apesar desta possibilidade o comportamento apresentado no gráfico sugere que o ganho seria pequeno.

Resultado semelhante ao apresentado na base Caltech101 tam- bém foi observado na base RecogProd. Na Figura 36 é observado que o treinamento da CNN utilizando YUV alcança 100% de acurácia na base de treinamento após aproximadamente 12 horas. A acurácia da base de teste se mantém relativamente estável em torno dos 70% após 10 horas de treinamento. Na Figura 37, referente ao treinamento da CNN utilizando RGB, é possível observar que apesar da base de teste obter uma acurácia semelhante à utilização do YUV, em torno e 70%, esta acurácia é obtida apenas após aproximadamente 70 horas de trei- namento.

O comportamento apresentado nos experimentos nas duas ba- ses estudadas mostra que ambos os espaços de cores, YUV e RGB, apresentaram acurácias semelhantes na base de teste. Porém, a CNN utilizando RGB necessitou de um tempo de treinamento muito supe- rior.

Figura 34 – Tempo de treinamento e acurácia da CNN na base Cal- tech101 utilizando imagens no espaço de cores YUV.

Fonte: produção do próprio autor.

Figura 35 – Tempo de treinamento e acurácia da rede neural convolu- cional na base Caltech101 utilizando imagens RGB.

Figura 36 – Tempo de treinamento e acurácia da rede neural convolu- cional na base RecogProd utilizando imagens YUV.

Fonte: produção do próprio autor.

Figura 37 – Tempo de treinamento e acurácia da rede neural convolu- cional na base RecogProd utilizando imagens RGB.

mento é responsável pela detecção das características na nova imagem no momento de uma consulta. No primeiro nível de filtros é possível observar algumas linhas e orientações utilizadas para essa detecção. A Figura 38 mostra os filtros de tamanho 5 ◊ 5 aprendidos na primeira camada convolucional nas bases Caltech101 e na base RecogProd utili- zando os espaços de cores YUV e RGB. É possível observar que alguns filtros detectam claramente características horizontais, alguns detectam características verticais e alguns detectam saliências no ângulo de 45 e 135 graus.

Figura 38 – Filtros obtidos após o treinamento da rede neural. (a) Fil- tros da CNN YUV na base Caltech101. (b) Filtros da CNN RGB na base Caltech101. (c) Filtros da CNN YUV na base RecogProd. (d) Filtros da CNN RGB na base RecogProd.

Fonte: produção do próprio autor.

A Figura 40 mostra o resultado da convolução da primeira camada da CNN YUV e RGB na imagem mostrada na Figura 39 pelos filtros apresentados na Figura 38 (a). É possível observar como as áreas com saliências horizontais, verticais e diagonais são destacadas após a convolução pelo respectivo filtro.

Figura 39 – Imagem utilizada nos exemplos de resultado da convolução na base Caltech101.

Figura 40 – Resultado da convolução dos filtros na primeira camada convolucional da CNN YUV (a) e RGB (b) na base Cal- tech101.

(a) (b)

Fonte: produção do próprio autor.

Resultado semelhante também foi obtido na base RecogProd, conforme mostrado na Figura 42, para a CNN YUV e RGB quando utilizada a imagem mostrada na Figura 41.

Figura 41 – Imagem utilizada nos exemplos de resultado da convolução na base RecogProd.

Figura 42 – Resultado da convolução dos filtros na primeira camada convolucional da CNN YUV (a) e RGB (b) na base Recog- Prod.

(a) (b)

RecogProd com 5, 10, 15 e 36 categorias. 91

5.5 Acurácia das técnicas BOVW, CNN e CNN como descritor

natural na base RecogProd com 5, 10, 15 e 36 categorias.

Um bom classificador deve ser capaz de identificar uma ima- gem com acurácia após o seu treinamento com uma determinada base de dados. Porém, além desta característica, deve ser avaliado também qual é o comportamento do classificador quando esta base de dados cresce, tanto em número de imagens, quando em números de catego- rias. Com o objetivo de avaliar a acurácia dos classificadores estudados a base RecogProd foi dividida em 5, 10, 15 e 36 (base completa) catego- rias. O experimento foi realizado com as técnicas BOVW, CNN YUV e CNN (Overfeat) como um descritor natural. A técnica CNN RGB não foi incluída neste experimento pois, além de seu tempo de processa- mento elevado, não resultou em uma acurácia superior comparada com a CNN YUV conforme exibido no experimento anterior entre as bases Caltech101 e a base RecogProd. A Figura 43 mostra a acurácia com o treinamento das bases com os números de categorias estudados. É possível observar que a queda na acurácia entre os diferentes tamanhos de bases é menor quando utilizada a CNN como um descritor natural (Overfeat) em conjunto com o classificador SVM. Apesar do classifica- dor SVM resultar em uma melhor acurácia, a queda da acurácia a cada categoria foi muito próxima à do classificador OPF-S. O gráfico ainda mostra que os experimentos envolvendo o classificador OPF-S na téc- nica BOVW apresentaram uma queda superior na acurácia conforme a quantidade de categorias da base foi aumentando.

A Figura 44 mostra o F1 dos resultados dos mesmos experi- mentos. A acurácia e F1 dos experimentos foram semelhantes, porém, no F1, é possível observar uma diferença maior em relação aos expe- rimentos BOVW OPF-U com o classificador OPF-S e OPF-U com o classificador SVM.

Figura 43 – Acurácia das técnicas estudadas na base RecogProd com 5, 10, 15 e 36 categorias.

Fonte: produção do próprio autor.

Figura 44 – F1 das técnicas estudadas na base RecogProd com 5, 10, 15 e 36 categorias.

Documentos relacionados