METODOLOGIA PROPOSTA - Proposta de bag-of-visual-words por meio de redes complexas

A metodologia proposta é dividida nos seguintes passos: (1) Divisão da base de imagens β em um conjunto para a criação do vocabulário de palavras β0 e um conjunto de imagens para a criação dos histogramas β00; (2) Detecção dos pontos de interesse das imagens do conjunto β0; (3) Descrição dos pontos de interesse com o método de descrição de imagens utilizando redes complexas, conforme descrito no Algoritmo 2; (4) Criação do vocabulário de palavras a partir das descrições dos pontos de interesse; (5) Detecção dos pontos de interesse das imagens do conjunto β00; (6) Descrição dos pontos de interesse detectados no conjunto β00 com o método de descrição de imagens utilizando redes complexas, conforme descrito no Algoritmo 2; (7) Criação dos histogramas da frequência de palavras visuais das imagens per- tencentes ao conjunto β00 de acordo com o vocabulário de palavras visuais criado; (8) Divisão dos histogramas H em 10 diferentes conjuntos para treinamento H0e conjuntos para teste H00; (9) Criação de um modelo de aprendizagem com os conjuntos H0e classificação dos conjuntos H00; (10) Cálculo da acurácia média, desvio padrão e média harmônica a partir das acurácias obtidas e o tamanho do descritor (Algoritmo 3); Tais passos são descritos mais detalhadamente no Algoritmo 1.

Para a etapa de detecção de pontos de interesse foram utilizados os métodos de detec- ção de pontos de interesse descritos na Seção 2.2.3. Para a descrição de um ponto de interesse é aberta uma janela do tamanho que cubra a vizinhança significativa desse ponto de interesse. O tamanho da vizinhança significativa do ponto de interesse é definido de acordo com a escala em que esse ponto foi encontrado, assim o tamanho da vizinhança significativa pode ser diferente para cada ponto. A janela é definida de acordo com a coordenada do ponto de interesse e a sua vizinhança significativa e é utilizada como entrada para o método de descrição de imagens utilizando redes complexas. O método de descrição de imagens utilizando redes complexas é apresentado no Algoritmo 2. A visão geral da metodologia proposta utilizando a metodologia de descrição de imagens utilizando redes complexas para a etada de descrição dos pontos de interesse pode ser visualizada na Figura 22.

O primeiro passo para a descrição de imagens com redes complexas é realizar a modelagem da imagem de entrada em grafos, esta etapa resulta em um conjunto de grafos não orientados, ponderados e com ausência de laços. Para cada pixel da imagem de entrada é criado um vértice correspondente no grafo G. Para a criação das arestas do grafo é realizada uma varredura pixel a pixel sobre a imagem de entrada e para cada pixel selecionado é calculada a distância euclidiana entre os seus pixels vizinhos. Conforme mostra a Equação 34, se a distância euclidiana entre os dois pixels p = (i, j) ∈ P e p = (i0, j0) ∈ P for menor ou igual que r, os dois

Vetor de características Extração de

medidas

Figura 22: Visão geral da metodologia proposta utilizando a metodologia de descrição de imagens utilizando redes complexas para a etada de descrição dos pontos de interesse. Fonte: Autoria própria.

vértices correspondente aos pixels em questão são conectados por uma aresta. O valor utilizado para r é igual a 5 conforme sugerido na literatura (BACKES et al., 2013).

E = {((i, j), (i0, j0)) ∈ PxP| q

(i − i0)2_{+ ( j − j}0₎2_{≤ r}} ₍₃₄₎

Para cada aresta e ∈ E do grafo G é associado um peso, que é calculado através das co- ordenadas dos dois pixels que formaram a aresta, suas respectivas intensidades, o raio utilizado para a criação das arestas (r) e o maior valor de intensidade presente na imagem (L), conforme apresentado na Equação 35. Os pesos das arestas estão presentes entre o intervalo de 0 e 1.

d(e) =(x − x

0₎2_{+ (y − y}0₎2_{+ r}2 |(I(x,y)−I(x0,y0)| L

r2_{+ r}2 (35)

Após a modelagem da imagem de entrada em um grafo é realizada a análise compor- tamental de tal grafo com a análise de subgrafos derivados, em que um conjunto de limiares T = [t1,t2, ...,tL] é aplicado no grafo e para cada limiar t é obtido um novo subgrafo do grafo

original. Tal limiar t é aplicado no conjunto de arestas do grafo e se a aresta tiver o peso maior que o limiar t ela é excluída do subgrafo. O valor do limiar é incremental, iniciando em 0.005 até 0.53, incrementando 0.015, conforme proposto por Backes et al. (2013).

O passo seguinte para a descrição de imagens com redes complexas é realizar a extra- ção de medidas das rede geradas. As medidas utilizadas nessa etapa podem ser visualizadas na Tabela 5, sendo utilizados a quantidade de motifs de tamanhos 3 e 4 encontrados na rede e o valor de k no histograma de conectividade do número 0 ao 20.

Para cada subgrafo gerado na etapa de análise de subgrafos derivados são extraídas as medidas presentes na Tabela 5, formando um vetor de medidas conforme abaixo:

Tabela 5: Medidas extraídas das redes geradas. Medida Símbolo Centralidade média bi_µ Número de comunidades N_C Grau Médio k_µ Transitividade C

Caminho Mínimo Médio `

Motifs M

Histograma de Conectividade p(k)

x_t_n = [bi_µ, N_C, k_µ,C, `, M, p(k)] (36)

Os vetores gerados para cada subgrafo são concatenados para a construção do vetor de características final. O conjuntos desses vetores são utilizados como entrada para o método de agrupamento k-means, após os centróides são selecionados para compor o vocabulário de palavras visuais.

Após a criação do vocabulário de palavras visuais das imagens, são gerados os histogramas de palavras visuais das imagens do conjunto β00. Para cada imagem presente no conjunto β00 são detectados os seus pontos de interesse, os pontos de interesse detectados são descritos utilizando a metodologia de descrição de imagens utilizando redes complexas descrita anteri- ormente. Para cada descrição da imagem é calculada a sua distância com cada palavra visual do vocabulário de palavras visuais, a palavra visual que apresentar a menor distância terá o bin que a representa no histograma de palavras visuais incrementado em uma unidade. A função de distância utilizada é a distância Euclidiana. Tal histograma é a representação final da imagem, sendo utilizado para a sua classificação.

Dado um conjunto de métodos de aprendizado supervisionado, para cada método de aprendizado supervisionado os histogramas gerados são divididos em 10 diferentes conjuntos de treinamento (H0) e teste (H00), de maneira balanceada. Os conjuntos H0são utilizados para criar modelos de aprendizagem e as amostras dos conjuntos H00são classificadas. Para a avaliação da metodologia proposta são utilizadas as métricas: acurácia média, desvio padrão dos resultados obtidos e a média harmônica entre a acurácia média obtida e a dimensão do descritor utilizado na etapa de descrição do ponto de interesse. O cálculo dessas métricas é demonstrado mais detalhadamente no Algoritmo 3. A média harmônica é utilizada para mensurar o custo-benefício da metodologia proposta em comparação a outros descritores disponíveis na literatura. O descritor que minimize a média harmônica apresentará maior custo-benefício, conforme descrito na Equação 37.

utilizado apenas um limiar para gerar o subgrafo derivado, ao invés de utilizar um conjunto de limiares, conforme pode ser visualizada na Figura 23. Assim, após a modelagem da imagem de entrada como um grafo, é aplicado o limiar t no grafo obtendo-se um subgrafo derivado do original. Tal limiar t é aplicado no conjunto de arestas do grafo e se a aresta tiver o peso maior que o limiar t ela é excluída do subgrafo.

Figura 23: Visão geral da metodologia proposta utilizando a metodologia de descrição de imagens utilizando redes complexas para a etada de descrição dos pontos de interesse com apenas um limiar. Fonte: Autoria própria.

Algoritmo 1: Metodologia Proposta

Entrada: base de imagens β , detector de pontos de interesse α, descritor de pontos de interesse δ , tamanho do vocabulário de palavras visuais γ , conjunto de métodos de aprendizado supervisionado Cr

Saída: Acurácia média µAcc, desvio padrão d p e média harmônica θ da metodologia proposta

Dados: conjunto de imagens para a criação do vocabulário de palavras β0, conjunto de imagens para a criação dos histogramas β00, número de imagens do conjunto B00_l s, pontos de interesse para a criação do voca- bulário de palavras P0, conjunto de pontos de interesse para a criação dos histogramas P00, descrição dos pontos de interesse para a criação do vocabulário de palavras V0, conjunto de descrição dos pontos de interesse para a criação dos histogramas V00, vocabulário de palavras visuais Voc, histogramas H, histogramas de treinamento H0[p], histogramas de teste H00[p], número de métodos de aprendizado supervisionado nr, lista de acurácias médias Acc[p], acurácia média µAcc,

desvio padrão d p, média harmônica θ início

β0← 80% do conjunto de β β00← 20% do conjunto de β \β0

P0← detecção dos pontos de interesse das imagens do conjunto β0com o método α

V0← descrição dos pontos de interesse P0com o método δ (Algoritmo 2) Voc← criação do vocabulário de palavras de tamanho γ a partir das descrições V0

para cada B00_l _{∈ R, l = 1, 2, ..., n}_l faça

P_l00← detecção dos pontos de interesse das imagens do conjunto β_l00 com o método α

V_l00← descrição dos pontos de interesse P_l00com o método δ (Algoritmo 2)

H_l← criação do histograma da descrição V_l00 de acordo com o vocabulário de palavras visuais Voc

H← H + Hl

fim

para cada Cr∈ R, r = 1, 2,..., nrfaça

para p ← 0 to 10 faça µ Acc[ p] ← 0

H0[p] ← 80% do conjunto de H

H00[p] ← 20% do conjunto de H\H0[p]

Acc[p] ← Criação de um modelo de aprendizagem com o conjunto H0[p] e classificação do conjunto H00[p]

fim

µ Acc, d p, θ ← Cálculo da acurácia média, desvio padrão e média harmônica a partir das acurácias Acc e o tamanho do descritor δ (Algoritmo 3)

fim fim

número de limiares nk, conjunto de grafos Gm, número de grafos nm,

conjunto de vetor de características Vq, vetor de características final

V início

para cada Pi∈ R, i = 1, 2,..., nifaça

G← modelagem da imagem como grafo (Pi)

para cada Tk∈ R, i = 1, 2, ..., nkfaça

Gm← limiarização do grafo (G0, Tk)

fim

para cada Gm∈ R, i = 1, 2,..., nmfaça

V_q← extração das medidas (G_m) fim

V ← concatenação dos vetores Vq

fim fim

retorna Vetor de características final V

Algoritmo 3: Cálculo da acurácia média, desvio padrão e média harmônica Entrada: lista de acurácias Acc[p], dimensão do descritor Dim Saída: Acurácia média µAcc, desvio padrão d p, média harmônica θ

Dados: tamanho da lista de acurácias np, média harmônica θ , desvio padrão

d p, acurácia média µAcc início

µ Acc ← 0

para cada Acc[p] ∈ R, p = 1, 2, ..., npfaça

µ Acc ← µ Acc + Acc[ p] fim

µ Acc ←µ Acc_n p

para cada Acc[p] ∈ R, p = 1, 2, ..., npfaça

d p← (Acc[p] − µAcc)2 fim d p← r d p np θ ← 2 ∗ µ Acc∗Dim µ Acc+Dim fim

4 RESULTADOS E DISCUSSÕES

Para todos os experimentos as bases de imagens foram divididas em 80% para a etapa de criação de vocabulário de palavras visuais e 20% para a etapa de criação dos histogramas, tal divisão foi realizada de modo que as amostras entre as classes ficassem balanceadas (i.e. handout estratificado) e para todos os experimentos as divisões fossem as mesmas. Para a etapa de classificação os histogramas foram divididos em 80% de treinamento e 20% de teste realizando 10 iterações com o método split disponível na biblioteca LibOPF (PAPA et al., 2014), gerando 10 diferentes conjuntos de treinamento-teste.

Para a etapa de criação de vocabulário de palavras visuais foram utilizados os métodos random, de escolha aleatória das palavras visuais, e o método de aprendizado não supervisionado k-means. Para os experimentos utilizando método de agrupamento k-means, foi utilizado o algoritmo k-means disponível na biblioteca de visão computacional OpenCV (BRADSKI, 2000). Para todos os experimentos foram utilizados vocabulários de palavras visuais de tamanhos 10, 50, 100, 200, 300 e 500, 1000, 1500 e 2000, com tais valores definidos de maneira empírica.

Para avaliar a performance dos experimentos foram utilizados os métodos de aprendizado supervisionado: árvore de decisão, Naive Bayes (NB), Support Vector Machine (SVM) e baseado em florestas de caminho ótimo. Para o método de árvore de decisão foi utilizada a implementação do J48 para o método C4.5 e para o método SVM foi utilizado o LibSVM com configuração do kernel como linear. Também foi utilizada a biblioteca LibOPF, que implementa o método de aprendizado supervisionado baseado em florestas de caminho ótimo (OPF) (PAPA et al., 2009).

Os detectores de pontos de interesse utilizados nos experimentos foram SIFT, SURF, HARRIS, ORB, FAST com implementações da biblioteca de visão computacional OpenCV (BRADSKI, 2000), os descritores utilizados foram SIFT, SURF, Fourier, BIC, LBOC, LBP e o método proposto na presente dissertação baseado em Redes Complexas. Para os descritores SIFT, SURF foram utilizadas as implementações da biblioteca OpenCV. Com relação ao des-

Considerando a descrição de imagens utilizando Redes Complexas foi utilizada a biblioteca de estruturação e operações em grafos iGraph (CSARDI; NEPUSZ, 2006). Nos experimentos realizados com a base de imagens Pulmão e o detector de pontos ORB os tamanhos de vocabulários de palavras utilizados foram 10, 50, 100, 200, 300 e 500, pois o detector de pontos ORB de- tectou apenas 566 pontos de interesse no conjunto de criação do vocabulário de palavras dessa base.

Para todos os experimentos utilizando a base de sementes 1 foram realizadas concate- nações dos vetores de características das imagens referentes à mesma semente, i.e, o vetor de características final representa a semente como todo. Por questões de organização e estrutura- ção a presente subseção apresenta os resultados mais ressaltados e interessantes para análise. Os resultados dos testes com a base de Sementes 1 em sua completude podem ser visualizados no Apêndice A. Os resultados dos testes com a base de Sementes 2 podem ser visualizados no Apêndice B. Os resultados dos experimentos com a base Smear podem ser visualizados no Apêndice C. Os resultados dos experimentos com a base Pulmão podem ser visualizados no Apêndice D.

Analisando os resultados obtidos com o descritor Redes, nos experimentos utilizando a base de Sementes 1, foi obtida como maior acurácia média de 66.50% com o detector de pontos de interesse FAST, vocabulário de palavras visuais de tamanho 50 construído com o método k-means e classificados com o classificador OPF. Com a base de imagens de Sementes 2, obteve-se a maior acurácia média de 69.99% com o detector de pontos de interesse FAST, vocabulário de palavras visuais de tamanho 1500 construído com o método k-means e classificado com o classificador SVM. Com a base de imagens Smear, foi obtido como maior acurácia de 66.03%, com o detector FAST, vocabulário de palavras visuais de tamanho 100, construído com o método k-means e classificador OPF. Com a base de imagens Pulmão, obteve-se a maior acurácia de 89.77%, com o detector FAST, vocabulário de palavras visuais de tamanho 300, construído com o método k-means e classificador OPF.

O experimento utilizando o descritor proposto com apenas um limiar para a etapa de análise de subgrafos derivados com a base de Sementes 1 foi realizado com o detector FAST, vocabulário de palavras construído com o método k-means e classificador OPF, pois foi o cená- rio que apresentou melhor resultado com o descritor Redes dentre os experimentos realizados

com a base. Na Tabela 6 pode-se visualizar o comparativo da acurácia média e média harmônica dentre os resultados obtidos utilizando todos os limiares e apenas um valor de limiar para a etapa de análise de subgrafos derivados do descritor Redes, são apresentados os melhores resultados obtidos para cada tamanho de vocabulário de palavras visuais. Pode-se observar que na grande maioria dos tamanhos de vocabulários de palavras os experimentos utilizando apenas um valor de limiar apresentaram acurácia média maior que com todos os limiares, consequentemente os experimentos utilizando apenas um limiar também apresentaram maior custo-benefício em comparação aos experimentos utilizando todos os limiares. A maioria dos melhores resultados foram obtidos com valores de limiares medianos e altos, apresentando qual seria a melhor faixa de valores de limiares para essa base. A maior acurácia média obtida com o experimento de apenas um limiar foi de 73.68%, com valor de limiar igual a 0.005, apresentando a média harmônica de 51.85 e com o vocabulário de palavras visuais de tamanho 50.

Tabela 6: Melhores resultados dos experimentos com o descritor Redes com todos os limiares e apenas um limiar com a base Sementes 1.

Tamanho do Vocabulário Limiares Tamanho do Descritor Acurácia Média (%) Média Harmônica 10 Todos 1.440 56.55 108.83 0.32 40 71.94 51.41 50 Todos 1.440 66.50 127.13 0.005 40 73.68 51.85 100 Todos 1.440 64.02 122.59 0.395 40 66.29 49.89 200 Todos 1.440 52.18 100.71 0.245 40 71.35 51.26 300 Todos 1.440 63.19 121.07 0.53 40 70.53 51.05 500 Todos 1.440 66.20 126.58 0.44 40 64.22 49.30 1000 Todos 1.440 53.91 103.93 0.425 40 65.21 49.58 1500 Todos 1.440 57.01 109.68 0.395 40 65.11 49.56 2000 Todos 1.440 51.25 98.98 0.425 40 65.17 49.57

O experimento utilizando o descritor proposto com apenas um limiar para a etapa de análise de subgrafos derivados com a base de Sementes 2 foi realizado com o detector FAST, vocabulário de palavras construído com o método k-means e classificado com o classificador SVM, pois foi cenário que apresentou melhor resultado com o descritor Redes dentre os experimentos realizados com a base. Na Tabela 7 pode-se visualizar o comparativo da acurácia média e média harmônica dentre os resultados obtidos utilizando todos os limiares e apenas um valor

os experimentos utilizando apenas um limiar também apresentaram maior custo-benefício em comparação aos experimentos utilizando todos os limiares. A maioria dos melhores resultados com apenas um limiar foram obtidos com valores de limiares baixos, apresentando a melhor faixa de valores de limiares para essa base sendo de 0.02 a 0.125. A maior acurácia média obtida com o experimento de apenas um limiar foi de 62.57%, com valor de limiar igual a 0.125, apresentando a média harmônica de 48.80 e com o vocabulário de palavras visuais de tamanho 50.

Tabela 7: Melhores resultados dos experimentos com o descritor Redes com todos os limiares e apenas um limiar com a base Sementes 2.

Tamanho do Vocabulário Limiares Tamanho do Descritor Acurácia Média Média Harmônica 10 Todos 1.440 45.45 88.12 0.23 40 56.51 46.84 50 Todos 1.440 46.96 90.95 0.125 40 62.57 48.80 100 Todos 1.440 59.24 113.80 0.02 40 60.09 48.03 200 Todos 1.440 65.15 124.66 0.035 40 58.77 47.60 300 Todos 1.440 63.78 122.15 0.065 40 59.03 47.69 500 Todos 1.440 69.69 132.95 0.08 40 61.94 48.61 1000 Todos 1.440 68.33 130.47 0.11 40 58.53 47.52 1500 Todos 1.440 69.99 133.49 0.08 40 58.31 47.45 2000 Todos 1.440 69.09 131.85 0.125 40 58.11 58.06

O experimento utilizando o descritor proposto com apenas um limiar para a etapa de análise de subgrafos derivados com a base de Smear foi realizado com o detector FAST, vocabu- lário de palavras construído com o método k-means e classificado com o classificador OPF, pois foi o cenário que apresentou o melhor resultado com o descritor Redes dentre os experimentos realizados com a base. Na Tabela 8 pode-se visualizar o comparativo da acurácia média e média harmônica dentre os resultados obtidos utilizando todos os limiares e apenas um valor de limiar para a etapa de análise de subgrafos, são apresentados os melhores resultados obtidos para cada

tamanho de vocabulário de palavras visuais. Pode-se observar que na maioria dos tamanhos de vocabulários de palavras os experimentos utilizando apenas um valor de limiar apresentaram acurácia média maior que com todos os limiares, consequentemente os experimentos utilizando apenas um limiar também apresentaram maior custo-benefício em comparação aos experimentos utilizando todos os limiares. Na maioria dos melhores resultados com apenas um limiar foram obtidos com valores de limiares medianos e altos, sendo a melhor faixa de valores de limiares para essa base dentre 0.14 e 0.47. A maior acurácia média obtida com o experimento de apenas um limiar foi de 65.17%, com valor de limiar igual a 0.14, com vocabulário de palavras visuais de tamanho 100 e apresentando a média harmônica de 49.57.

Tabela 8: Melhores resultados dos experimentos com o descritor Redes com todos os limiares e apenas um limiar com a base Smear.

Tamanho do Vocabulário Limiares Tamanho do Descritor Acurácia Média (%) Média Harmônica 10 Todos 1.440 54.30 104.15 0.44 40 61.77 48.56 50 Todos 1.440 62.80 120.35 0.14 40 63.74 49.15 100 Todos 1.440 66.03 126.27 0.14 40 65.17 49.57 200 Todos 1.440 61.11 117.24 0.365 40 65.13 49.56 300 Todos 1.440 60.62 116.34 0.305 40 61.33 48.42 500 Todos 1.440 51.02 98.55 0.065 40 61.68 48.53 1000 Todos 1.440 57.05 109.75 0.38 40 59.47 47.83 1500 Todos 1.440 53.64 103.43 0.47 40 57.92 47.32 2000 Todos 1.440 54.39 104.82 0.455 40 58.31 47.45

O experimento utilizando o descritor proposto com apenas um limiar para a etapa de análise de subgrafos derivados com a base Pulmão foi realizado com o com o detector FAST, vocabulário de palavras construído com o método k-means e classificado com o classificador OPF, pois foi o cenário que apresentou melhor resultado com o descritor Redes dentre os experimentos realizados com a base. Na Tabela 9 pode-se visualizar o comparativo da acurácia média e média harmônica dentre os resultados obtidos utilizando todos os limiares e apenas um valor de limiar, são apresentados os melhores resultados obtidos para cada tamanho de vocabulário de palavras visuais. Pode-se observar que na maioria dos tamanhos de vocabulários de palavras os experimentos utilizando apenas um valor de limiar apresentaram acurácia média maior

maior acurácia média obtida com o experimento de apenas um limiar foi de 81.93%, com valor de limiar igual a 0.275, com vocabulário de palavras visuais de tamanho 300 e apresentando a média harmônica de 53.76.

Tabela 9: Experimento com a base Pulmão, detector FAST, descritor Redes com um limiar e voca- bulário de palavras construído com o k-means.

Tamanho do Vocabulário Limiares Tamanho do Descritor Acurácia Média (%) Média Harmônica 10 Todos 1.440 73.37 139.63 0.38 40 74.27 52.00 50 Todos 1.440 79.53 150.73 0.38 40 79.58 53.24 100 Todos 1.440 86.69 163.54 0.35 40 80.99 53.33 200 Todos 1.440 87.55 165.07 0.35 40 81.77 53.72 300 Todos 1.440 89.77 169.01 0.275 40 81.93 53.76 500 Todos 1.440 89.53 168.59 0.32 40 81.17 53.59 1000 Todos 1.440 87.47 164.92 0.41 40 79.97 53.33 1500 Todos 1.440 87.06 164.19 0.365 40 80.71 59.40 2000 Todos 1.440 85.11 160.72 0.32 40 77.28 52.71

Nas Tabelas 10, 11, 12 e 13, podem ser visualizadas as acurácias médias e as médias harmônicas dos melhores resultados obtidos com as bases Sementes 1, Sementes 2, Smear e Pulmão, respectivamente, em relação aos experimentos realizados com os outros descritores. Em descritores que apresentam a mesma dimensão é utilizada apenas as acurácias médias para análise entre eles, sendo tais casos marcados com um símbolo (∗) ao lado da média harmô- nica. A média harmônica desses descritores é utilizada para comparativo apenas com outros descritores que tenham diferentes dimensões.

Considerando os melhores resultados de acurácia média e de média harmônica dentre os experimentos com a base de Sementes 1, o descritor LBOC apresentou o melhor comporta-

No documento Proposta de bag-of-visual-words por meio de redes complexas (páginas 56-117)