Proposta de bag-of-visual-words por meio de redes complexas

(1)

GEOVANA VELOSO LOUREIRO DE LIMA

PROPOSTA DE BAG-OF-VISUAL-WORDS POR MEIO DE REDES

COMPLEXAS

DISSERTAÇÃO DE MESTRADO

CORNÉLIO PROCÓPIO 2017

(2)

PROPOSTA DE BAG-OF-VISUAL-WORDS POR MEIO DE REDES

COMPLEXAS

Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Informática da Universidade Tecnológica Federal do Paraná - UTFPR como re-quisito parcial para a obtenção do título de “Mestre em Informática”.

Orientador: Prof. Dr. Pedro Henrique Bugatti.

CORNÉLIO PROCÓPIO 2017

(3)

“

PROPOSTA DE BAG-OF-VISUAL WORDS POR MEIO DE

REDES COMPLEXAS

”.

por

Geovana Veloso Loureiro de Lima

Orientador: Pedro Henrique Bugatti

Esta dissertação foi apresentada como requisito parcial à obtenção do grau de MESTRE EM INFORMÁTICA – Área de Concentração: Computação Aplicada, pelo Programa de Pós-Graduação em Informática – PPGI – da Universidade Tecnológica Federal do Paraná – UTFPR – Câmpus Cornélio Procópio, às 16h do dia 01 de agosto de 2017. O trabalho foi _____________ pela Banca Examinadora, composta pelos professores:

__________________________________

Prof. Dr. Pedro Henrique Bugatti

(Presidente – UTFPR-CP)

__________________________________

Profa. Dra. Priscila Tiemi Maeda Saito

(UTFPR-CP)

__________________________________

Prof. Dr. Fabrício Martins Lopes

(UTFPR-CP)

__________________________________

Prof. Dr. Daniel dos Santos Kaster

(UEL-PR)

Visto da coordenação: __________________________________

André Takeshi Endo

Coordenador do Programa de Pós-Graduação em Informática UTFPR Câmpus Cornélio Procópio

A Folha de Aprovação assinada encontra-se na Coordenação do Programa.

Av. Alberto Carazzai, 1640 - 86.300-000- Cornélio Procópio – PR.

(4)

Em primeiro lugar a Deus, que iluminou o meu caminho durante esta caminhada.

A minha família, pelo amor, carinho, compreensão e apoio incondicional. Agradeço de forma especial a minha mãe e ao meu pai, por não medirem esforços para que eu pudesse levar meus estudos adiante.

Ao professor Dr. Pedro Henrique Bugatti, pela orientação, apoio, paciência e confiança. A professora Dra. Priscila Tiemi Maeda Saito, pela colaboração, empenho e paciência.

Ao Marcelo Ferreira, pelo apoio, força e por me trazer paz e alegria nos momentos de tristeza. Aos amigos e companheiros de laboratório e projetos, pelo auxílio, contribuições, alegrias, tristezas e dores compartilhadas.

Aos colegas que de alguma maneira contribuíram para o desenvolvimento desse trabalho. A esta universidade, seu corpo docente, direção e administração.

A todos que de forma direta e indireta contribuíram com esse trabalho. Muito obrigada.

(5)

O uso de sementes vigorosas é primordial para o sucesso da lavoura. Dentre as técnicas de análise de sementes que objetivam identificar o vigor do lote das sementes, o teste tetrazólio se destaca pelo número de informações fornecidas. Porém, o teste tetrazólio tem o resultado fortemente atrelado ao empirismo dos analistas de sementes. O presente trabalho objetiva o desenvolvimento de uma metodologia de avaliação automática por meio de imagens do vigor da sementes de soja submetidas ao teste tetrazólio, que sirva de contraprova para o analista de sementes, a fim de aumentar a confiabilidade e acelerar os resultados. Foi utilizado o método Bag-of-Visual-Wordse realizado experimentos com diferentes detectores e descritores da litera-tura a fim de encontrar o pipeline que apresentasse o melhor custo-benefício na categorização do vigor de sementes, sendo obtido 78.95% de acurárica média como melhor resultado. Neste trabalho também foi proposto a utilização de Redes Complexas na etapa de descrição do mé-todo Bag-of-Visual-Words. A memé-todologia proposta utilizando apenas um limiar na etapa de análise de subgrafos apresentou resultados melhores que utilizando todos os limiares, além de apresentar maior custo-benefício do que alguns métodos de descrição em Bag-of-Visual-Words populares na literatura. Tais resultados identificam o conjunto de detectores e descritores do método Bag-of-Visual-Words que apresentam maior acurácia e melhor custo-benefício para a análise do vigor das sementes submetidas ao teste tetrazólio, além da proposta da fusão dos mé-todos Bag-of-Visual-Words e Redes Complexas e da utilização de apenas um limiar na descrição de imagens utilizando Redes Complexas.

Palavras-chave: Teste Tetrazólio; Sementes de Soja; Bag-of-Visual-Words; Visão Computaci-onal; Redes Complexas.

(6)

LIMA, Geovana Veloso Loureiro de. A BAG-OF-VISUAL-WORDS APPROACH THROUGH COMPLEX NETWORKS.. 116 f. Dissertação de Mestrado – Programa de Pós-Graduação em Informática, Universidade Tecnológica Federal do Paraná. Cornélio Procópio, 2017.

The use of vigorous seeds is paramount to the success of the crop. Among the techniques of seed analysis that aim to identify seed batch vigor, the tetrazolium test stands out for the num-ber of information provided. However, the tetrazolium test has the result strongly tied to the empiricism of the seed analysts. The present work aims to develop a methodology of automatic evaluation by means of images of the vigor of the soybean seeds submitted to the tetrazolium test, which serves as a check for the seed analyst, in order to increase the reliability and accele-rate the results. It was used the Bag-of-Visual-Words method and conducted experiments with different detectors and descriptors of the literature in order to find the pipeline that presented the best cost-benefit in the categorization of seed vigor, obtaining 78.95% of average accuracy as the best result. In the present work it was also proposed the use of Complex Networks in the description stage of the Bag-of-Visual-Words method. The methodology proposed using only one threshold in the subgraph analysis step presented better results than all the thresholds, in addition to being more cost-effective than some methods of description in Bag-of-Visual-Words popular in the literature. These results identify the set of detectors and descriptors of the Bag-of-Visual-Words method that are more accurate and cost-effective for the vigor analy-sis of the seeds submitted to the tetrazolium test, besides the proposed merger of the Bag-of-Visual-Words and Complex Network

Keywords: Tetrazolium Test; Soybean Seeds; Bag-of-Visual-Words; Computer Vision; Com-plex Networks.

(7)

–

FIGURA 4 Exemplo de sementes submetidas ao teste tetrazólio que apresentam da-nos por umidade. . . 22 –

FIGURA 5 Exemplo de sementes submetidas ao teste tetrazólio que apresentam da-nos por percevejo. . . 22 –

FIGURA 6 Exemplo de construção de D(x, y, σ ) . . . 27 –

FIGURA 7 Detecção dos máximos e mínimos da DoG. . . 28 –

FIGURA 8 Exemplo de interpolação utilizando os pontos candidatos. . . 28 –

FIGURA 9 Exemplo do processo de seleção de pontos de interesse . . . 30 –

FIGURA 10 Derivadas de segunda ordem e suas aproximações . . . 31 –

FIGURA 11 Exemplo da formação da imagem integral. . . 32 –

FIGURA 12 Detecção de pontos de interesse com o método FAST . . . 33 –

FIGURA 13 Criação do padrão binário com o método LBP. . . 36 –

FIGURA 14 Exemplo do processo de descrição dos pontos de interesse . . . 39 –

FIGURA 15 Núcleos de convolução Haar Wavelet. . . 39 –

FIGURA 16 Definição da orientação dominante ao redor do ponto de interesse . . . 40 –

FIGURA 17 Processo de descrição do ponto de interesse . . . 40 –

FIGURA 18 Visão geral do método BoVW . . . 44 –

FIGURA 19 Exemplo da estrutura da árvore de decisão . . . 47 –

FIGURA 20 Obtenção da diferença entre os hiperplanos canônicos . . . 48 –

FIGURA 21 Exemplo de imagens de uma semente em que a classe da semente não condiz com a classe dos lados da semente. . . 53 –

FIGURA 22 Visão geral da metodologia proposta . . . 56 –

FIGURA 23 Visão geral da metodologia proposta com apenas um limiar . . . 58 –

FIGURA 24 Boxplot dos testes realizados com a base Sementes 1 . . . 87 –

FIGURA 25 Boxplot dos testes realizados com a base Sementes 2 . . . 97 –

FIGURA 26 Boxplot dos testes realizados com a base Smear . . . 108 –

(8)

–

TABELA 1 Descrição das classes e distribuição das amostras na base de imagens Sementes 1. . . 53 –

TABELA 2 Descrição das classes e distribuição das amostras na base de imagens Sementes 2. . . 54 –

TABELA 3 Descrição das classes e distribuição das amostras na base de imagens Pulmão. . . 54 –

TABELA 4 Descrição das classes e distribuição das amostras na base de imagens Pap Smear. . . 54 –

TABELA 5 Medidas extraídas das redes geradas. . . 57 –

TABELA 6 Melhores resultados dos experimentos com o descritor Redes com todos os limiares e apenas um limiar com a base Sementes 1. . . 63 –

TABELA 7 Melhores resultados dos experimentos com o descritor Redes com todos os limiares e apenas um limiar com a base Sementes 2. . . 64 –

TABELA 8 Melhores resultados dos experimentos com o descritor Redes com todos os limiares e apenas um limiar com a base Smear. . . 65 –

TABELA 9 Experimento com a base Pulmão, detector FAST, descritor Redes com um limiar e vocabulário de palavras construído com o k-means. . . 66 –

TABELA 10 Média harmônica entre a acurácia média obtida e a dimensão dos des-critores dos melhores resultados obtidos com a base de Sementes 1. . . 67 –

TABELA 11 Média harmônica entre a acurácia média obtida e a dimensão dos des-critores dos melhores resultados obtidos com a base de Sementes 2. . . 68 –

TABELA 12 Média harmônica entre a acurácia média obtida e a dimensão dos des-critores dos melhores resultados obtidos com a base Smear. . . 68 –

TABELA 13 Média harmônica entre a acurácia média obtida e a dimensão dos des-critores dos melhores resultados obtidos com a base Pulmão. . . 69 –

TABELA 14 Média ± Desvio padrão obtidos com o detector SIFT e descritor SIFT utilizando a base de Sementes 1. . . 78 –

TABELA 15 Média ± Desvio padrão obtidos com o detector SURF e descritor SIFT utilizando a base de Sementes 1. . . 78 –

TABELA 16 Média ± Desvio padrão obtidos com o detector ORB e descritor SIFT utilizando a base de Sementes 1. . . 78 –

TABELA 17 Média ± Desvio padrão obtidos com o detector HARRIS e descritor SIFT utilizando a base de Sementes 1. . . 79 –

TABELA 18 Média ± Desvio padrão obtidos com o detector FAST e descritor SIFT utilizando a base de Sementes 1. . . 79 –

TABELA 19 Média ± Desvio padrão obtidos com o detector SIFT e descritor SURF utilizando a base de Sementes 1. . . 79 –

TABELA 20 Média ± Desvio padrão obtidos com o detector SURF e descritor SURF utilizando a base de Sementes 1. . . 79 –

TABELA 21 Média ± Desvio padrão obtidos com o detector ORB e descritor SURF utilizando a base de Sementes 1. . . 80 –

(9)

utilizando a base de Sementes 1. . . 81 –

TABELA 27 Média ± Desvio padrão obtidos com o detector HARRIS e descritor Fourier utilizando a base de Sementes 1. . . 81 –

TABELA 28 Média ± Desvio padrão obtidos com o detector FAST e descritor Fourier utilizando a base de Sementes 1. . . 81 –

TABELA 29 Média ± Desvio padrão obtidos com o detector SIFT e descritor BIC utilizando a base de Sementes 1. . . 82 –

TABELA 30 Média ± Desvio padrão obtidos com o detector SURF e descritor BIC utilizando a base de Sementes 1. . . 82 –

TABELA 31 Média ± Desvio padrão obtidos com o detector ORB e descritor BIC utilizando a base de Sementes 1. . . 82 –

TABELA 32 Média ± Desvio padrão obtidos com o detector HARRIS e descritor BIC utilizando a base de Sementes 1. . . 83 –

TABELA 33 Média ± Desvio padrão obtidos com o detector FAST e descritor BIC utilizando a base de Sementes 1. . . 83 –

TABELA 34 Média ± Desvio padrão obtidos com o detector SIFT e descritor LBOC utilizando a base de Sementes 1. . . 83 –

TABELA 35 Média ± Desvio padrão obtidos com o detector SURF e descritor LBOC utilizando a base de Sementes 1. . . 84 –

TABELA 36 Média ± Desvio padrão obtidos com o detector ORB e descritor LBOC utilizando a base de Sementes 1. . . 84 –

TABELA 37 Média ± Desvio padrão obtidos com o detector HARRIS e descritor LBOC utilizando a base de Sementes 1. . . 84 –

TABELA 38 Média ± Desvio padrão obtidos com o detector FAST e descritor LBOC utilizando a base de Sementes 1. . . 84 –

TABELA 39 Média ± Desvio padrão obtidos com o detector SIFT e descritor LBP utilizando a base de Sementes 1. . . 85 –

TABELA 40 Média ± Desvio padrão obtidos com o detector SURF e descritor LBP utilizando a base de Sementes 1. . . 85 –

TABELA 41 Média ± Desvio padrão obtidos com o detector ORB e descritor LBP utilizando a base de Sementes 1. . . 85 –

TABELA 42 Média ± Desvio padrão obtidos com o detector HARRIS e descritor LBP utilizando a base de Sementes 1. . . 85 –

TABELA 43 Média ± Desvio padrão obtidos com o detector FAST e descritor LBP utilizando a base de Sementes 1. . . 86 –

TABELA 44 Média ± Desvio padrão obtidos com o detector SIFT e descritor Redes utilizando a base de Sementes 1. . . 86 –

TABELA 45 Média ± Desvio padrão obtidos com o detector HARRIS e descritor Redes utilizando a base de Sementes 1. . . 86 –

(10)

TABELA 48 Média ± Desvio padrão obtidos com o detector SURF e descritor SIFT utilizando a base de Sementes 2. . . 88 –

TABELA 49 Média ± Desvio padrão obtidos com o detector ORB e descritor SIFT utilizando a base de Sementes 2. . . 88 –

TABELA 50 Média ± Desvio padrão obtidos com o detector HARRIS e descritor SIFT utilizando a base de Sementes 2. . . 89 –

TABELA 51 Média ± Desvio padrão obtidos com o detector FAST e descritor SIFT utilizando a base de Sementes 2. . . 89 –

TABELA 52 Média ± Desvio padrão obtidos com o detector SIFT e descritor SURF utilizando a base de Sementes 2. . . 89 –

TABELA 53 Média ± Desvio padrão obtidos com o detector SURF e descritor SURF utilizando a base de Sementes 2. . . 89 –

TABELA 54 Média ± Desvio padrão obtidos com o detector ORB e descritor SURF utilizando a base de Sementes 2. . . 90 –

TABELA 55 Média ± Desvio padrão obtidos com o detector HARRIS e descritor SURF utilizando a base de Sementes 2. . . 90 –

TABELA 56 Média ± Desvio padrão obtidos com o detector FAST e descritor SURF utilizando a base de Sementes 2. . . 90 –

TABELA 57 Média ± Desvio padrão obtidos com o detector SIFT e descritor Fourier utilizando a base de Sementes 2. . . 90 –

TABELA 58 Média ± Desvio padrão obtidos com o detector SURF e descritor Fourier utilizando a base de Sementes 2. . . 91 –

TABELA 59 Média ± Desvio padrão obtidos com o detector ORB e descritor Fourier utilizando a base de Sementes 2. . . 91 –

TABELA 60 Média ± Desvio padrão obtidos com o detector HARRIS e descritor Fourier utilizando a base de Sementes 2. . . 91 –

TABELA 61 Média ± Desvio padrão obtidos com o detector FAST e descritor Fourier utilizando a base de Sementes 2. . . 91 –

TABELA 62 Média ± Desvio padrão obtidos com o detector SIFT e descritor BIC utilizando a base de Sementes 2. . . 92 –

TABELA 63 Média ± Desvio padrão obtidos com o detector SURF e descritor BIC utilizando a base de Sementes 2. . . 92 –

TABELA 64 Média ± Desvio padrão obtidos com o detector ORB e descritor BIC utilizando a base de Sementes 2. . . 92 –

TABELA 65 Média ± Desvio padrão obtidos com o detector HARRIS e descritor BIC utilizando a base de Sementes 2. . . 93 –

TABELA 66 Média ± Desvio padrão obtidos com o detector FAST e descritor BIC utilizando a base de Sementes 2. . . 93 –

TABELA 67 Média ± Desvio padrão obtidos com o detector SIFT e descritor LBOC utilizando a base de Sementes 2. . . 93 –

TABELA 68 Média ± Desvio padrão obtidos com o detector SURF e descritor LBOC utilizando a base de Sementes 2. . . 94 –

TABELA 69 Média ± Desvio padrão obtidos com o detector ORB e descritor LBOC utilizando a base de Sementes 2. . . 94 –

(11)

TABELA 75 Média ± Desvio padrão obtidos com o detector HARRIS e descritor LBP utilizando a base de Sementes 2. . . 95 –

TABELA 76 Média ± Desvio padrão obtidos com o detector FAST e descritor LBP utilizando a base de Sementes 2. . . 96 –

TABELA 77 Média ± Desvio padrão obtidos com o detector SIFT e descritor Redes utilizando a base de Sementes 2. . . 96 –

TABELA 78 Média ± Desvio padrão obtidos com o detector HARRIS e descritor Redes utilizando a base de Sementes 2. . . 96 –

TABELA 79 Média ± Desvio padrão obtidos com o detector FAST e descritor Redes utilizando a base de Sementes 2. . . 96 –

TABELA 80 Média ± Desvio padrão obtidos com o detector SIFT e descritor SIFT utilizando a base Smear. . . 98 –

TABELA 81 Média ± Desvio padrão obtidos com o detector SURF e descritor SIFT utilizando a base Smear. . . 98 –

TABELA 82 Média ± Desvio padrão obtidos com o detector ORB e descritor SIFT utilizando a base Smear. . . 98 –

TABELA 83 Média ± Desvio padrão obtidos com o detector HARRIS e descritor SIFT utilizando a base Smear. . . 99 –

TABELA 84 Média ± Desvio padrão obtidos com o detector FAST e descritor SIFT utilizando a base Smear. . . 99 –

TABELA 85 Média ± Desvio padrão obtidos com o detector SIFT e descritor SURF utilizando a base Smear. . . 99 –

TABELA 86 Média ± Desvio padrão obtidos com o detector SURF e descritor SURF utilizando a base Smear. . . 99 –

TABELA 87 Média ± Desvio padrão obtidos com o detector ORB e descritor SURF utilizando a base Smear. . . 100 –

TABELA 88 Média ± Desvio padrão obtidos com o detector HARRIS e descritor SURF utilizando a base Smear. . . 100 –

TABELA 89 Média ± Desvio padrão obtidos com o detector FAST e descritor SURF utilizando a base Smear. . . 100 –

TABELA 90 Média ± Desvio padrão obtidos com o detector SIFT e descritor Fourier utilizando a base Smear. . . 100 –

TABELA 91 Média ± Desvio padrão obtidos com o detector SURF e descritor Fourier utilizando a base Smear. . . 101 –

TABELA 92 Média ± Desvio padrão obtidos com o detector ORB e descritor Fourier utilizando a base Smear. . . 101 –

TABELA 93 Média ± Desvio padrão obtidos com o detector HARRIS e descritor Fourier utilizando a base Smear. . . 101 –

(12)

utilizando a base Smear. . . 102 –

TABELA 96 Média ± Desvio padrão obtidos com o detector SURF e descritor BIC utilizando a base Smear. . . 102 –

TABELA 97 Média ± Desvio padrão obtidos com o detector ORB e descritor BIC utilizando a base Smear. . . 102 –

TABELA 98 Média ± Desvio padrão obtidos com o detector HARRIS e descritor BIC utilizando a base Smear. . . 103 –

TABELA 99 Média ± Desvio padrão obtidos com o detector FAST e descritor BIC utilizando a base Smear. . . 103 –

TABELA 100 Média ± Desvio padrão obtidos com o detector SIFT e descritor LBOC utilizando a base Smear. . . 103 –

TABELA 101 Média ± Desvio padrão obtidos com o detector SURF e descritor LBOC utilizando a base Smear. . . 104 –

TABELA 102 Média ± Desvio padrão obtidos com o detector ORB e descritor LBOC utilizando a base Smear. . . 104 –

TABELA 103 Média ± Desvio padrão obtidos com o detector HARRIS e descritor LBOC utilizando a base Smear. . . 104 –

TABELA 104 Média ± Desvio padrão obtidos com o detector FAST e descritor LBOC utilizando a base Smear. . . 104 –

TABELA 105 Média ± Desvio padrão obtidos com o detector SIFT e descritor LBP utilizando a base Smear. . . 105 –

TABELA 106 Média ± Desvio padrão obtidos com o detector SURF e descritor LBP utilizando a base Smear. . . 105 –

TABELA 107 Média ± Desvio padrão obtidos com o detector ORB e descritor LBP utilizando a base Smear. . . 105 –

TABELA 108 Média ± Desvio padrão obtidos com o detector HARRIS e descritor LBP utilizando a base Smear. . . 105 –

TABELA 109 Média ± Desvio padrão obtidos com o detector FAST e descritor LBP utilizando a base Smear. . . 106 –

TABELA 110 Média ± Desvio padrão obtidos com o detector SIFT e descritor Redes utilizando a base Smear. . . 106 –

TABELA 111 Média ± Desvio padrão obtidos com o detector SURF e descritor Redes utilizando a base Smear. . . 106 –

TABELA 112 Média ± Desvio padrão obtidos com o detector HARRIS e descritor Redes utilizando a base Smear. . . 106 –

TABELA 113 Média ± Desvio padrão obtidos com o detector FAST e descritor Redes utilizando a base Smear. . . 107 –

TABELA 114 Média ± Desvio padrão obtidos com o detector SIFT e descritor SIFT utilizando a base Pulmão. . . 109 –

TABELA 115 Média ± Desvio padrão obtidos com o detector SURF e descritor SIFT utilizando a base Pulmão. . . 109 –

TABELA 116 Média ± Desvio padrão obtidos com o detector ORB e descritor SIFT utilizando a base Pulmão. . . 109 –

TABELA 117 Média ± Desvio padrão obtidos com o detector HARRIS e descritor SIFT utilizando a base Pulmão. . . 110 –

(13)

SURF utilizando a base Pulmão. . . 111 –

TABELA 123 Média ± Desvio padrão obtidos com o detector FAST e descritor SURF utilizando a base Pulmão. . . 111 –

TABELA 124 Média ± Desvio padrão obtidos com o detector SIFT e descritor Fourier utilizando a base Pulmão. . . 111 –

TABELA 125 Média ± Desvio padrão obtidos com o detector SURF e descritor Fourier utilizando a base Pulmão. . . 112 –

TABELA 126 Média ± Desvio padrão obtidos com o detector ORB e descritor Fourier utilizando a base Pulmão. . . 112 –

TABELA 127 Média ± Desvio padrão obtidos com o detector HARRIS e descritor Fourier utilizando a base Pulmão. . . 112 –

TABELA 128 Média ± Desvio padrão obtidos com o detector FAST e descritor Fourier utilizando a base Pulmão. . . 112 –

TABELA 129 Média ± Desvio padrão obtidos com o detector SIFT e descritor LBP utilizando a base Pulmão. . . 113 –

TABELA 130 Média ± Desvio padrão obtidos com o detector SURF e descritor LBP utilizando a base Pulmão. . . 113 –

TABELA 131 Média ± Desvio padrão obtidos com o detector ORB e descritor LBP utilizando a base Pulmão. . . 113 –

TABELA 132 Média ± Desvio padrão obtidos com o detector HARRIS e descritor LBP utilizando a base Pulmão. . . 114 –

TABELA 133 Média ± Desvio padrão obtidos com o detector FAST e descritor LBP utilizando a base Pulmão. . . 114 –

TABELA 134 Média ± Desvio padrão obtidos com o detector SIFT e descritor Redes utilizando a base Pulmão. . . 114 –

TABELA 135 Média ± Desvio padrão obtidos com o detector SURF e descritor Redes utilizando a base Pulmão. . . 115 –

TABELA 136 Média ± Desvio padrão obtidos com o detector ORB e descritor Redes utilizando a base Pulmão. . . 115 –

TABELA 137 Média ± Desvio padrão obtidos com o detector HARRIS e descritor Redes utilizando a base Pulmão. . . 115 –

TABELA 138 Média ± Desvio padrão obtidos com o detector FAST e descritor Redes utilizando a base Pulmão. . . 115

(14)

PCA Principal component analysis

BIC Border/Interior Classification

DoG Difference of Gaussians

FAST Features from Accelerated Segment Test

ORB Oriented FAST and Rotated BRIEF

LBP Local Binary Patterns

DFT Discrete Fourier Transform

LBOC Local Bag-of-Colors

BoVW Bag-of-Visual-Words

OPF Optimum-Path Forest

SVM Support Vector Machine

NB Naive Bayes

(15)

1.2.1 Objetivo Geral . . . 17

1.2.2 Objetivos Específicos . . . 17

2 FUNDAMENTAÇÃO TEÓRICA . . . 19

2.1 ANÁLISE DE SEMENTES . . . 19

2.1.1 Teste Tetrazólio em Sementes de Soja . . . 20

2.1.2 Trabalhos relacionados . . . 23

2.2 PROCESSAMENTO DIGITAL DE IMAGENS . . . 25

2.2.1 Detectores de pontos de interesse . . . 25

2.2.1.1 SIFT . . . 26 2.2.1.2 SURF . . . 30 2.2.1.3 FAST . . . 32 2.2.1.4 Harris Detector . . . 34 2.2.2 Descritores de imagens . . . 35 2.2.2.1 LBP . . . 36 2.2.2.2 Fourier . . . 36 2.2.2.3 BIC . . . 37 2.2.2.4 LBOC . . . 37 2.2.2.5 SIFT . . . 38 2.2.2.6 SURF . . . 38

2.2.2.7 Descrição de Imagens Utilizando Redes Complexas . . . 40

2.2.3 Bag-of-Visual-Words . . . 43

2.3 RECONHECIMENTO DE PADRÕES . . . 45

2.3.1 Métodos de aprendizado supervisionado . . . 46

2.3.1.1 Árvore de Decisão . . . 47

2.3.1.2 Support Vector Machine . . . 48

2.3.1.3 Naive Bayes . . . 49

2.3.1.4 Optimum-Path Forest . . . 49

2.3.2 Métodos de aprendizado não supervisionado . . . 50

2.3.2.1 k-means . . . 50

2.4 CONSIDERAÇÕES FINAIS . . . 51

3 MATERIAIS E MÉTODOS . . . 52

3.1 DESCRIÇÃO DAS BASES DE IMAGENS . . . 52

3.1.1 Base de imagens de sementes de soja submetidas ao teste tetrazólio . . . 52

3.1.2 Outras bases de bioimagens utilizadas . . . 53

3.2 METODOLOGIA PROPOSTA . . . 55

4 RESULTADOS E DISCUSSÕES . . . 61

5 CONCLUSÕES E TRABALHOS FUTUROS . . . 70

(16)

Apêndice C -- RESULTADOS DA BASE SMEAR . . . 98 Apêndice D -- RESULTADOS DA BASE PULMÃO . . . 109

(17)

Atualmente, o Brasil é o segundo maior produtor de soja do mundo. De acordo com o Acompanhamento da Safra Brasileira de Grãos, realizado pela Companhia Nacional de Abas-tecimento, a safra 2014/15 teve recorde na produção de soja com 96,2 milhões de toneladas, apresentando aumento de 10,4% na produção em relação à temporada anterior (ABASTECI-MENTO, 2015). Segundo o Ministério da Agricultura, Pecuária e Abastecimento, o complexo de soja (grão, farelo e óleo) é o principal movimentador do mercado cambial do Brasil, che-gando a negociações anuais que ultrapassam US$ 20 bilhões (AGRICULTURA, 2005).

Devido ao papel importante que a cultura da soja desempenha na economia nacional, vem-se buscando incrementar a sua produção por meio do aumento da área cultivada e da pro-dutividade. Dentre os diversos fatores importantes para uma alta produtividade das lavouras de soja, a utilização de sementes de soja de alto vigor é primordial (NETO et al., 1998, 2012; VI-EIRA et al., 2004; COSTA et al., 2008; KOLCHINSKI et al., 2014, 2005; KRZYZANOWSKI; NETO, 2001; PINTO et al., 2007, 2009). Sementes de soja com alto vigor apresentam germi-nação mais rápida e resultam em plantas maiores e com maior produção de vagens e grãos.

Entre os testes que realizam a análise do vigor das sementes de soja, o teste tetrazólio se destaca pelo número de informações fornecidas, pois além de avaliar o vigor das sementes e o potencial de germinação, ele também fornece as causas da redução do vigor do lote de sementes, e assim é possível tomar decisões que poderão aumentar o vigor daquele e/ou de outros lotes daquela lavoura.

O teste tetrazólio atualmente é realizado de maneira individual, manual e por inspeção visual, com o seus resultados fortemente atrelados ao empirismo dos analistas de sementes. O presente trabalho objetiva o desenvolvimento de uma metodologia em que seja possível realizar a análise e a classificação do vigor de sementes de soja submetidas ao teste tetrazólio utilizando visão computacional, para que tal metodologia sirva de contraprova ao analista de sementes.

(18)

1.1 JUSTIFICATIVA

Como mencionado anteriormente, o vigor da semente é um dos principais fatores para o sucesso de uma lavoura e os níveis de vigorosidade das sementes podem ser obtidos por meio do teste tetrazólio.

Apesar do teste tetrazólio ser um teste simples, requerer recursos de baixo custo e re-sultar em uma boa avaliação das sementes, é um teste que exige muito estudo, treino, paciência e perspicácia, além de ocupar uma grande quantidade de horas do analista de sementes (NETO et al., 1998). Pela subjetividade do teste os resultados podem variar de analista para analista (HOFFMASTER et al., 2003) e os fatores apresentados contribuem com a possibilidade de uma análise inconsistente do vigor das sementes.

Quando os testes de análise de sementes são demorados e/ou imprecisos as tomadas de decisões relativas à colheita, ao processamento, à armazenagem e à comercialização são afetadas, resultando em sérios prejuízos aos produtores de sementes (NETO et al., 1998).

Com o desenvolvimento de uma metodologia de avaliação automática do vigor da se-mentes de soja por meio do teste tetrazólio utilizando métodos da área de visão computacional, a realização dos testes de tetrazólio serão otimizadas e a confiabilidade dos resultados será au-mentada.

1.2 OBJETIVOS

1.2.1 OBJETIVO GERAL

Este trabalho objetiva propor um método de descrição de imagens com o principal intuito de de avaliar de maneira automática o vigor da semente de soja submetidas ao teste tetrazólio, porém extensível a outras aplicações.

1.2.2 OBJETIVOS ESPECÍFICOS

• Aquisição e organização de uma base de imagens de sementes de soja submetidas ao teste tetrazólio referentes aos seus níveis de vigor;

• Desenvolvimento de uma nova metodologia de descrição de imagens.

• Desenvolvimento de uma abordagem baseada em visão computacional que permita a aná-lise das sementes com relação ao seu vigor, definindo os tipos de características mais

(19)

(20)

ade-2 FUNDAMENTAÇÃO TEÓRICA

Neste Capítulo serão apresentados os conceitos importantes para o presente trabalho, como a análise de sementes, o teste tetrazólio e a metodologia Bag-of-Visual-Words, bem como suas etapas e as principais técnicas presentes na literatura para a realização de cada etapa.

2.1 ANÁLISE DE SEMENTES

A necessidade de analisar e avaliar as sementes se tornou importante na Europa na segunda metade do século XIX, época em que a comercialização de sementes se intensificou (NOVEMBRE, 2001). Eram recorrentes os casos de adulteração nas vendas de sementes, boas sementes eram misturadas a sementes de menor valor comercial ou a outros objetos (e.g. areia misturada às sementes de trevo), e tais adulterações levavam a grandes perdas nas lavouras e prejuízos econômicos.

Com o intuito de avaliar a qualidade das sementes foram criadas técnicas de análise de sementes, e para a regulamentação do comércio de sementes surgiram as Regras de Análise de Sementes. Em 1928, a Associação Internacional de Análise de Sementes (ISTA), publicou a sua primeira versão da Regras para a Análise de Sementes, tal versão vem sendo melhorada desde então. Atualmente o Ministério da Agricultura utiliza as regras adotadas pelo ISTA para a regulamentação da análise de sementes no Brasil, as regras garantem que as sementes comer-cializadas apresentem alto vigor.

Sementes com alto vigor apresentam germinação mais rápida mesmo em condições de estresse e maior taxa de crescimento e produção de vagens e grãos (NETO et al., 2012). O uso de sementes vigorosas é primordial para o sucesso da lavoura (NETO et al., 1998, 2012; VIEIRA et al., 2004; COSTA et al., 2008; KOLCHINSKI et al., 2014, 2005; KRZYZANOWSKI; NETO, 2001; PINTO et al., 2007, 2009).

As técnicas utilizadas atualmente para a análise de sementes são atividades realiza-das em sua maioria de maneira individual, manual e por inspeção visual, estando fortemente

(21)

mercialização são afetadas, resultando em sérios prejuízos aos produtores de sementes (NETO et al., 1998).

Segundo Hoffmaster et al. (2003) e Dell’Aquila (2007), tais problemas podem ser resolvidos por meio do uso de técnicas de processamento de imagens digitais aplicadas na análise das sementes.

2.1.1 TESTE TETRAZÓLIO EM SEMENTES DE SOJA

Entre os testes de vigor de sementes, o teste tetrazólio se destaca pelo número de informações fornecidas. Além de avaliar o vigor das sementes e o potencial de germinação, ele fornece as causas da redução da qualidade do lote de sementes. O Brasil lidera o ranking de países que aplicam o teste tetrazólio a nível de rotina (NETO et al., 1998).

O teste tetrazólio se fundamenta na redução do sal de tetrazólio (2,3,5 - Trifenil Cloreto de Tetrazólio) nos tecidos vivos, realizada pelas enzimas desidrogenas. Tais enzimas catalisam as reações respiratórias nas mitocôndrias durante a glicólise e o ciclo de Krebs. Quando ocorre a reação de redução do sal de tetrazólio é formado o composto trifenilformazan, que é vermelho, estável e não-difusível.

Para a realização do teste tetrazólio é utilizada uma amostragem de 100 sementes (2 subamostras com 50 cada) do lote, que devem ser pré-condicionadas por 16 horas em tempera-tura de 25oC ou por 6 horas em temperatura de 41oC. Após, as sementes devem ser submersas a solução de sal de tetrazólio com concentração de 0,075% durante 150 a 180 minutos. Então as sementes são cortadas longitudinalmente através do eixo embrionário (Figura 1), analisadas e avaliadas. Após a a aplicação do teste tetrazólio o tecido vigoroso apresenta uma colora-ção vermelho carmim claro, tal coloracolora-ção é a indicacolora-ção positiva da viabilidade da semente por meio da identificação de respiração celular, o tecido em deterioração apresenta um vermelho mais intenso e o tecido morto apresenta a cor branca. Na Figura 2 pode-se visualizar exemplos de sementes submetidas ao teste tetrazólio, em que a coloração carmim claro uniforme indica sementes sem danos.

O teste tetrazólio possibilita a identificação dos seguintes danos:

(22)

Figura 1: Corte longitudinal da semente de soja e suas estruturas embrionárias. Fonte: Adaptado de (NETO et al., 1998).

Figura 2: Exemplo de sementes submetidas ao teste tetrazólio sem danos. Fonte: (COSTA et al., 2008).

desde a colheita até a semeadura. São identificados por lesões de coloração vermelha escura (Figura 3).

• Danos por umidade: gerados por exposição das sementes a ciclos alternados de ambientes úmidos e secos. São identificados por lesões de coloração vermelho intensa ou branca nos cotilédones, na região oposta ao hilo e/ou sobre o eixo embrionário (Figura 4).

• Danos por percevejo: gerados devido a inoculação da levedura Nematospora coryli Pe-glion, quando o inseto se alimenta da semente de soja. São identificados por lesões circu-lares esbranquiçadas, às vezes esverdeadas, amareladas ou acinzentadas (Figura 5).

As sementes são classificadas em nível de viabilidade de 1 ao 8, sendo 1 a semente que apresenta o mais alto vigor e 8 a semente que apresenta o vigor mais baixo. Tal viabilidade é dada de acordo com a localização e quais estruturas da semente o dano está afetando. A literatura apresenta os exemplos mais recorrentes na classificação do nível de viabilidade das sementes, alguns deles são explicados por Neto et al. (1998).

(23)

Figura 3: Exemplo de sementes submetidas ao teste tetrazólio que apresentam danos mecânicos. Fonte: (COSTA et al., 2008).

Figura 4: Exemplo de sementes submetidas ao teste tetrazólio que apresentam danos por umidade. Fonte: (COSTA et al., 2008).

Figura 5: Exemplo de sementes submetidas ao teste tetrazólio que apresentam danos por perce-vejo.

Fonte: (COSTA et al., 2008).

percentual de sementes classificadas em cada nível de viabilidade. O potencial de germinação do lote é determinado pelo somatório do percentual de sementes classificadas nos níveis de viabilidade 1 ao 5. O vigor do lote é determinado pelo somatório do percentual de sementes classificadas nos níveis de viabilidade 1 ao 3.

A classificação do vigor do lote de sementes é realizada de acordo como apresentado por Neto et al. (1998):

• Vigor muito baixo: inferior ou igual a 49%. • Vigor baixo: entre 50% e 59%.

(24)

• Vigor alto: entre 75% e 84%.

• Vigor muito alto: igual a 85% ou superior.

Quanto ao percentual de sementes classificadas nos níveis 6 e 8 de viabilidade, se for inferior a 6% o lote é considerado sem restrições, se for entre 7% e 10% o lote é considerado com problemas sérios e se for superior a 10% o lote é considerado com problemas muito sérios. Entre as limitações do teste tetrazólio apresentadas por Neto et al. (1998), estão o alto nível de treinamento sobre estruturas embrionárias das sementes, experiência e senso crítico requeridos aos analistas de sementes, além de paciência e energia devido a estrutura do teste.

2.1.2 TRABALHOS RELACIONADOS

Segundo Dell’Aquila (2007),“As perspectivas futuras dos analistas e pesquisadores de sementes concentram-se na introdução de um sistema de visão computacional nos laboratórios de sementes”. Na literatura estão presentes diversos trabalhos que objetivam a identificação de danos nas sementes e avaliar o vigor das mesmas por meio de visão computacional.

Ahmad et al. (1999), propôs a identificação de sementes de soja imaturas e com danos causados por fungos e vírus. Para a detecção e descrição das áreas danificadas foram utilizados a limiarização multinível e os valores dos canais de cor RGB, para a redução de dimensionalidade foi utilizado os coeficientes de correlação de Pearson.

Hoffmaster et al. (2003), propôs uma metodologia para a análise automática do vigor das sementes de soja submetidas ao teste de germinação, em que as imagens são segmentadas e após são criadas representações binárias das plântulas, a classificação das plântulas em normais e anormais são realizada de acordo com a relação da área das caixa delimitadoras das partes das plântulas.

Narvankar et al. (2009), analisou e classificou sementes de soja infestadas por fun-gos utilizando técnicas de visão computacional em imagens de raio-X das sementes. Foram utilizados os valores de máximo, mínimo, média, mediana, desvio padrão, variância e 7 carac-terísticas extraídas das matrizes de coocorrência de níveis de cinza (energia, homogeneidade, contraste, correlação, média, entropia e máxima entropia) nas orientações 0o, 45o, 90o e 135o para descrição das imagens e a técnica Principal component analysis (PCA) para a redução de dimensionalidade.

A realização da análise automática do vigor de sementes de soja submetidas ao teste tetrazólio é pouco explorada na literatura. Santanna et al. (2014), propuseram analisar o vigor

(25)

tores de Haralick. Para a recuperação das imagens foi utilizada a técnica de k vizinhos mais próximos, com k sendo igual a 15. Os melhores resultados foram obtidos com o descritor BIC. O grande número de trabalhos na literatura e os crescentes esforços para a automatiza-ção da análise de sementes evidenciam as dificuldades encontradas na aplicaautomatiza-ção das metodolo-gias tradicionais de análise de sementes.

(26)

2.2 PROCESSAMENTO DIGITAL DE IMAGENS

A área de Processamento Digital de Imagens desperta expressivo interesse na área acadêmica e na área industrial pela sua vasta aplicação em quase todos os ramos da atividade humana (FILHO; NETO, 1999).

O processamento digital de imagens tem como objetivos a melhoria da informação visual das imagens para a interpretação humana e a extração de informações intrínsecas das imagens para a percepção automática por meio de máquinas (GONZALEZ; WOODS, 2006), sendo o segundo objetivo denominado visão computacional.

As etapas presentes em um sistema de visão computacional dependem do domínio do problema e objetivos a serem alcançados com tal sistema, porém existem etapas típicas encon-tradas na maioria dos sistemas de visão computacional, como: aquisição, pré-processamento, segmentação, extração de características e reconhecimento, todas essas etapas considerando o domínio do problema e a base de conhecimento.

A etapa de aquisição das imagens pode ser realizadas por meio de câmera, scanner, raio-X, etc. A etapa de pré-processamento da imagem objetiva melhorar a qualidade da ima-gem, como realce de contraste, nivelamento do brilho, remoção de ruídos, etc. A etapa de segmentação tem como principal objetivo dividir a imagem em objetos de interesse. A etapa de extração de características objetiva extrair informações úteis da imagem, de modo que na etapa de reconhecimento seja possível realizar a distinção entre imagens de diferentes classes.

Os métodos de extração de características podem ser classificados em globais e locais. Os descritores globais descrevem as imagens como um todo e os descritores locais descrevem regiões da imagem. Tais regiões podem ser definidas por meio de métodos de detecção de pontos de interesse.

2.2.1 DETECTORES DE PONTOS DE INTERESSE

Pontos de interesse são partes das imagens que contém rica informação local (JIANG et al., 2010; YANG et al., 2007). Métodos de detecção de pontos de interesses procuram por padrões que se diferenciam da sua vizinhança na imagem e que podem ser facilmente rastre-ados e comparrastre-ados (TUYTELAARS; MIKOLAJCZYK, 2008). Tais padrões são geralmente encontrados em:

(27)

detectores de pontos de interesse, o mais simples é o de seleção randômica, em que os pontos são escolhidos aleatoriamente na imagem. Entretanto, por não ser considerada nenhuma informação para a seleção dos pontos tal método não apresenta bons pontos de interesse (AFONSO et al., 2012). A seguir, serão explanados outros métodos de detecção de pontos de interesse populares na literatura.

2.2.1.1 SIFT

O método SIFT é o detector e descritor pontos de interesses mais popular na área de processamento digital de imagens (BHATTACHARYA; GAVRILOVA, 2013), sendo invariante a escala, rotação e parcialmente invariante a ponto de vista e iluminação. Segundo Lowe (2004), o método de detecção de pontos do SIFT é dividido em: Detecção de extremos, localização dos pontos de interesse e identificação da orientação.

A detecção de extremos tem como objetivo detectar pontos de interesse que sejam estáveis em diferentes escalas e diferentes pontos de vista. Primeiramente é criado o espaço de escala da imagem, para isso a imagem é convolucionada com o filtro gaussiano. O espaço de escala da imagem é definido pela Equação 1. A utilização da função gaussiana tem como objetivo obter amostras das imagem em que detalhes indesejados e ruídos sejam eliminados e características fortes realçadas.

L(x, y, σ ) = G(x, y, σ ) ∗ I(x, y), (1)

onde I(x, y) é a imagem de entrada, ∗ é o operador de convolução e G(x, y, σ ) é a função gaus-siana, que é definida pela Equação 2.

G(x, y, σ ) = 1 2πσ2e

−(x2_+y2_)/2σ2

(2) Lowe (1999) propôs o método Difference of Gaussians (DoG) para a identificação de pontos de interesses, neste método é realizada a subtração entre imagens de escalas próximas separadas por uma constante k. DoG é uma aproximação da Laplacian of Gaussian com a escala normalizada, sendo definido pela Equação 3.

(28)

D(x, y, σ ) = L(x, y, kσ ) − L(x, y, σ ) (3)

Na Figura 6 pode-se visualizar um exemplo da construção de D(x, y, σ ). Dada uma imagem de entrada, esta imagem é convolucionada com filtros gaussianos produzindo imagens separadas pela constante k no espaço de escala. Considerando que a oitava será dividida por um valor inteiro s, então serão criadas s + 3 imagens convolucionadas por oitava e a contante k é definida por k = 21s. As imagens convolucionadas são subtraídas de suas vizinhas de escala para a criação das imagens provenientes da DoG. Após cada oitava, a imagem gaussiana é remostrada com o dobro do valor inicial de σ e o processo é repetido na nova oitava.

Escalas Oitavas

-Figura 6: Exemplo de construção de D(x, y, σ ) . Fonte: Autoria própria.

Para detectar os máximos e mínimos de D(x, y, σ ), cada pixel (ponto alvo) é comparado aos seus outros vizinhos locais e aos seus nove vizinhos das escalas acima e abaixo (conforme a Figura 7). Se o ponto alvo tiver valor menor ou maior que todos os seus vizinhos ele é selecionado como um possível ponto de interesse. Os pontos candidatos a serem pontos de interesse são analisados, pontos que apresentam baixo contraste ou má localização aos longo das bordas são rejeitados. Para se obter o reconhecimento dos pontos mais estáveis é utilizada a abordagem proposta por Brown e Lowe (2002), em que é realizado o ajuste de uma função quadrática 3D para determinar a localização interpolada do ponto máximo (Figura 8).

Para encontrar a localização interpolada do ponto máximo é utilizada a expansão de Taylor da função D(x, y, σ ) transladada, com a origem desta expansão no ponto candidato, de-finida pela Equação 4.

(29)

Figura 7: Detecção dos máximos e mínimos da DoG. O pixel alvo (marcado com x) é comparado com os pixeis vizinhos (marcado com círculos).

Fonte: Adaptado de (LOWE, 2004).

Figura 8: Exemplo de interpolação utilizando os pontos candidatos. Fonte: (AFONSO, 2013). D(x) = D +∂ D T ∂ x x+ 1 2x T∂2D ∂ x2x (4)

De suas derivadas são avaliadas no ponto candidato e x = (x, y, σ )T define o desloca-mento a partir do ponto. A localização do extremo ( ˆx) é obtida com a derivada desta função se igualando a zero, conforme definido na Equação 5.

ˆ x= −∂ 2_D ∂ x2 −1 ∂ D ∂ x (5)

O valor da função do extremo, D( ˆx), é utilizada para rejeitar extremos instáveis. Rea-lizando a substituição da Equação 4 na Equação 5 obtemos a Equação 6.

D( ˆx) = D +1 2

∂ DT ∂ x ˆ

x (6)

(30)

sugere que sejam rejeitados os extremos que apresentarem os valores de D( ˆx) inferiores a 0.03. Para analisar a localização ao longo das bordas são analisadas as curvaturas principais, uma grande curvatura principal através da borda mas pequena na direção perpendicular é sinô-nimo de um pico mal formado na DoG. Tais curvaturas são calculadas a partir de uma matriz hessiana de dimensões 2x2, computada na localização e escala do ponto candidato (Equação 7).

H= " Dxx Dxy Dxy Dyy # (7)

Tal procedimento tem como objetivo mensurar a razão entre as curvaturas principais. Os autovalores da matriz hessiana são proporcionais as curvaturas principais de D. Sendo α e β os autovalores com maior e menor magnitude, respectivamente, é computado a soma dos autovalores pelo traço e o produto pela determinante da matriz hessiana (Equações 8 e 9). Caso a determinante seja negativa o ponto candidato é rejeitado.

Tr(H) = Dxx+ Dyy= α + β (8)

Det(H) = DxxDyy− (Dxy)2= αβ (9)

Considerando que α = rβ e r é a razão entre os autovalores de maior e menor magni-tude, tem-se a igualdade definida pela Equação 10.

Tr(H)2 Det(H) = (α + β )2 α β = (rβ + β )2 rβ2 = (r + 1)2 r (10)

Analisando a Equação 11 é possível conferir se a razão entre as curvaturas principais é menor que determinado limiar r, assim os pontos candidatos que tiverem a razão entre as curvaturas principais maiores que o limiar r são rejeitados. Lowe (2004) sugere que o valor de r seja igual a 10.

Tr(H)2 Det(H) <

(r + 1)2

r (11)

Na Figura 9 pode-se visualizar um exemplo do processo de seleção de pontos estáveis. Um ponto de interesse com a orientação bem definida e descrito por essa orientação se torna invariante a rotação (LOWE, 2004). Assim, a próxima etapa é definição da orientação

(31)

Figura 9: Exemplo do processo de seleção de pontos de interesse. (a) Imagem original. (b) Os iniciais 832 pontos candidatos máximos e mínimos da função DoG. (c) Os 729 pontos candida-tos selecionados após a aplicação do limiar de mínimo contraste. (d) Os 536 poncandida-tos candidacandida-tos selecionados após a seleção de acordo com razão das curvaturas principais.

Fonte: (LOWE, 2004).

dos pontos de interesses. Para cada pixel da imagem é calculada a magnitude do gradiente e a orientação. Para cada ponto candidato é criado um histograma de orientações contendo 36 bins, tais bins abrangem os 360 graus de possíveis orientações.

Cada amostra adicionada no histograma é ponderada pelo valor da magnitude do gradi-ente e por um janela gaussiana com 1.5σ da escala em que o ponto candidato está localizado. O bincom maior valor e os bins locais que apresentem o valor de no mínimo 80% do maior valor são utilizados para a criação do ponto de interesse com tais orientações. Após, os três valores mais próximos dos bins selecionados são interpolados, para se obter uma melhor precisão.

2.2.1.2 SURF

O método SURF objetiva detectar e descrever os pontos de interesse de uma imagem com rapidez. Proposto por Bay et al. (2008), o método se destaca pelos bons resultados e baixo custo computacional, sendo invariante a escala e rotação.

O detector de pontos de interesse SURF é baseado na matriz hessiana. Considerando o ponto x = (x, y) da imagem I, a matriz hessiana em x na escala σ é definida pela Equação 12.

H= " L_xx(x, σ ) Lxy(x, σ ) Lxy(x, σ ) Lyy(x, σ ) # (12)

(32)

Sendo Lxx(x, σ ) e Lxy(x, σ ) definidos pelas Equações 13 e 14, em que a imagem no

ponto x é convolucionada com a derivada gaussiana de segunda ordem.

L_xx(x, σ ) = I(x) ∗ ∂ 2 ∂ x2 g(σ ) (13) L_xy(x, σ ) = I(x) ∗ ∂ 2 ∂ xyg(σ ) (14)

As derivadas gaussianas de segunda ordem são recortada e discretizada e após são aproximadas em filtros de caixa. Na Figura 10 pode-se visualizar as derivadas de segunda ordem recortadas e discretizadas e suas aproximações com σ = 1.2.

Figura 10: Derivadas de segunda ordem recortadas e discretizadas e suas aproximações (as áreas cinzas são iguais a 0). (a) Derivada de segunda ordem recortada e discretizada em y (Lyy). (b)

Aproximação da derivada de segunda ordem em y (Dyy). (c) Derivada de segunda ordem recortada

e discretizada em xy (Lxy). (d) Aproximação da derivada de segunda ordem em xy (Dxy).

Fonte: Adaptado de (BAY et al., 2008).

Para assegurar a conservação da energia das gaussianas após as aproximações a deter-minante deve ser ponderada por uma constante w, conforme definido pela Equação 15. Bay et al. (2008) sugerem que seja utilizado o valor 9 para a constante w.

Det(H) = DxxDyy− (wDxy)2 (15)

Com o intuito de garantir a rapidez e o baixo custo computacional do método, ao invés de variar o tamanho da imagem para analisar a imagem em diferentes escalas, como o SIFT, o SURF varia o tamanho dos núcleos de convolução, considerando o conceito de oitavas, i.e., o mesmo núcleo é aplicado com tamanhos diferentes na imagem, que se mantêm no seu tamanho original. Além da utilização de imagens integrais para realizar as somas dos valores dos pixels

(33)

16). Na Figura 11 pode-se visualizar um exemplo da formação da imagem integral.

ii(x, y) =

_∑

x0≤x,y0_≤y

I(x0, y0) (16)

Figura 11: Exemplo da formação da imagem integral. O valor da imagem integral na localização do ponto 1 é a soma dos pixels no retângulo A, na localização do ponto 2 é a soma dos pixels presentes em A+B, na localização do ponto 3 é a soma dos pixels presentes em A+C e na localização do ponto 4 é a soma dos pixels presentes em A+B+C+D.

Fonte: (VIOLA; JONES, 2001).

Após a convolução da imagem em diferentes oitavas, são realizadas as localizações dos máximos e mínimos, como descrito na Seção 2.2.1.1. Para selecionar apenas os pontos de interesse mais estáveis e representativos é aplicado o método proposto por Brown e Lowe (2002) como explanado na Seção 2.2.1.1.

2.2.1.3 FAST

O método de detecção de pontos de interesse Features from Accelerated Segment Test (FAST) tem como principal proposta ser mais rápido que outros métodos conhecidos na litera-tura, e.g. SIFT e SURF, sem sacrificar a eficiência (ROSTEN; DRUMMOND, 2006).

Sendo o pixel p candidato a ser selecionado como ponto de interesse, Ipa intensidade

do pixel p, t um valor de threshold e a vizinhança de um círculo de 16 pixels de raio 3 ao redor do pixel p. O pixel p é classificado como ponto de interesse se um conjunto de 12 pixels contíguos no círculo tiverem intensidade maior que Ip+ t ou menor que Ip− t. Para melhorar

(34)

3 destes pixels devem ter a intensidade maior que Ip+ t ou menor que Ip− t para então serem

testados os outros pixels da vizinhança de p e a verificação da existência do conjunto de 12 pixelscontíguos no círculo, conforme a Figura 12.

Figura 12: Detecção de pontos de interesse com o método FAST. Sendo p o pixel candidato, os pixelsem destaque os vizinhos de p e o tracejado definindo o conjunto dos 12 pixels contíguos com a intensidade maior que a intensidade do pixel p mais o valor definido para o threshold t ou menor pixel pmenos o valor definido para o threshold t.

Fonte: (ROSTEN; DRUMMOND, 2006).

Para a melhoria do algoritmo FAST, é introduzida uma abordagem de aprendizado de máquina que apresenta duas etapas. Na primeira etapa, é aplicada a detecção de pontos de interesse FAST explanada anteriormente, em que é extraído um círculo de 16 pixels ao comparado os valores das intensidades dos pixels com um limiar.

Para o pixel candidato p, cada localização no círculo x ∈ {1, 2, ..., 16} pode ser deno-tado por p → x. Assim, cada pixel pertencente p → x, deve estar em um esdeno-tado (Sp→x) como

definido na Equação 17. Sp→x=        d, Ip→x≤ Ip− t (Mais escuro) s, Ip− t < Ip→x< Ip+ t (Similar) b, Ip+ t ≤ Ip→x (Mais claro) (17)

Sendo P um conjunto de todos os pixels das imagens de treinamento. Escolhendo um candidato x, o conjunto P é divido nos subconjuntos Pd, Ps e Pb. O subconjunto Pd é composto

por todos os pixels em que x é mais escuro que o pixel central menos limiar, o subconjunto P_b é composto por todos os pixels em que x é mais brilhante que o pixel central mais o limiar e o subconjunto Ps é composto por todos os pixels em que x é similar ao pixel central.

Na segunda etapa é aplicado o algoritmo ID3, um algoritmo de árvore de decisão, objetivando selecionar o x que produz o maior ganho de informação medido pela entropia de kp, sendo kpuma variável booleana que é verdadeira se o pixel candidato p é um canto e falso

(35)

H_g= H(P) − H(Pb) − H(Ps) − H(Pd) (19)

A minimização da entropia é aplicada recursivamente nos três subconjuntos, até que a entropia do subconjunto seja igual a zero. A árvore de decisão criada é convertida em código C, criando uma longa sequência de instruções de if-else e sendo usada como o detector de cantos.

Após a detecção dos pontos de interesse é aplicada a supressão não máxima com o objetivo de eliminar o problema de detecção de pontos adjacente um ao outro. Para cada ponto de interesse detectado é calculado uma pontuação, que é definida pela somatória da diferença absoluta entre os pixels pertencentes no círculo da vizinhança do ponto de interesse e o pixel central. Tendo dois pontos de interesse adjacentes, as suas pontuações são comparadas e o que tiver o menor valor é descartado.

O método FAST apresenta bons resultados e utiliza pouco recursos computacionais mas não é invariante a orientação, o método Oriented FAST and Rotated BRIEF (ORB) utiliza o detector de cantos Harris para qualificar os pontos de interesse detectados com o FAST e refina a orientação de tais pontos com o método Rosin (ROSIN, 1999) com os centróides de intensidade, sendo tais etapas realizadas em cada nível de uma pirâmide da imagem escalonada com um fator de 1.4 (RUBLEE et al., 2011; KRIG, 2014).

2.2.1.4 HARRIS DETECTOR

Proposto por Harris e Stephens (1988), o método de detector de cantos Harris foi pro-posto como melhoria para o método detector de cantos de Moravec’s, utilizando o diferencial da pontuação do canto em relação à direção em vez de usar patches deslocados.

Em primeiro momento é utilizada a soma do quadrado das diferenças em uma janela para detecção de variações no gradiente da imagem, considerando uma imagem I, uma área da imagem (u, v) e desloca-lá para (x, y), a soma do quadrado das diferenças é definida pela Equação 20.

(36)

E(x, y) =

_∑

u

∑

v

w(u, v)(I(u + x, v + y) − I(u, v))2 (20)

Para maximizar E(x, y) é utilizada a expansão de Taylor. Após a aplicação da expansão de Taylor e alguns passos matemáticos a Equação fica como definida na Equação 21.

E(x, y) ≈ [x, y]M   x y  , (21) onde: M=

_∑

u

∑

v w(u, v)   I_x2 I_xy I_xy I_y2  =   hI2 xi hIxyi hI_xyi hI2 yi   (22)

Após, é criada uma medida de qualidade de cantos para a realização da seleção de pixelsde cantos. Tal medida de qualidade definida em termos dos autovalores de M é definida na Equação 23. R= Det(M) − k(Tr(M))2, (23) onde: • Det(M) = λ1λ2 • Tr(M) = λ1+ λ2 • λ1e λ2são os autovalores de M.

Se |R| é um valor baixo a região é plana, se R < 0 a região é uma linha e se R é um valor alto a região é um canto.

2.2.2 DESCRITORES DE IMAGENS

A descrição de imagens é a etapa que descreve as informações intrísecas das imagens em informações quantitativas de interesse que melhor diferenciem a imagem de uma classe das imagens de outras classes.

(37)

Considerando um pixel na imagem, o código LBP desse pixel é criado da comparação da sua intensidade com o valor das intensidades dos pixels que compõem a sua vizinhaça de tamanho 3x3, se a intensidade do pixel central for maior ou igual a intensidade do pixel vizinho é adicionado ao código o número 1, caso seja menor é adicionado o número 0. Tal comparação é iniciada do vizinho superior esquerdo do pixel central e realizada no sentido horário. O valor decimal correspondente do número binário gerado é utilizada como descrição do pixel central (HUANG et al., 2011). A visão geral da criação do padrão binário no método LBP pode ser visualizada na Figura 13. 1 2 2 9 5 6 5 3 1 0 0 0 1 1 1 0 0 Binário: 00010011 Decimal: 19

Figura 13: Criação do padrão binário com o método LBP. Fonte: Autoria própria.

Então, é criado um histograma com os valores obtidos. Como a vizinhança consiste em 8 pixels, é possível obter 28 padrões binários, i.e, o histograma criado é de tamanho 256 (PIETIKÄINEN et al., 2011) .

2.2.2.2 FOURIER

O descritor Fourier é utilizado em processamento de imagens para a análise de textura das imagens. Com a Discrete Fourier Transform (DFT) a imagem é decomposta em seus senos e cossenos, i.e., a imagem é transformada do domínio espacial para o domínio de frequência (AZENCOTT et al., 1997).

Tendo uma imagem de tamanho MxN a DFT bidimensional é dada pela Equação 24, sendo f o valor da imagem no domínio espacial, F no domínio da frequência e i = −√1.

(38)

F(u, v) = M−1

∑

x=0 N−1

∑

y=0 f(x, y)e−i2π(uxM+ vy N) (24)

A transformada de fourier resulta em número complexos, i.e., composta por uma parte real e uma parta imaginária ou por magnitude e fase (GONZALEZ; WOODS, 2006). A magni-tude é definida como na Equação 25.

M(u, v) = [R2(u, v) + I2(u, v)]12 ₍₂₅₎

A magnitude é melhor interpretada se a origem for movida para o meio do período (M₂,N₂). Após a operação de deslocamento o espectro bidimensional do Fourier é dividido em 64 setores radiais com oito de distância radial do centro e oito ângulos. O vetor de caracterís-ticas produzido com o descritor de Fourier é de tamanho 64, composto pela soma dos valores absolutos de aspectros em cada setor.

2.2.2.3 BIC

Proposto por Stehling et al. (2002), o descritor BIC classifica os pixels que compõem a imagem como pixels de borda e pixels de interior, utilizando o espaço de cor RGB quantizado em 64 cores.

O pixel é classificado como pixel de interior se os seus 4 vizinhos (superior, inferior, esquerda e direita) tiverem a mesma cor quantizada que ele, caso contrário o pixel será classi-ficado como pixel de borda. Após a classificação dos pixels são computados um histograma de cor considerando apenas os pixels de borda e outro histograma considerando apenas os pixels de interior. Ao final os dois histogramas são concatenados, sendo a representação das caracte-rísticas extraídas com o descritor BIC.

2.2.2.4 LBOC

Proposto por Wengert et al. (2011), o método de descrição Local Bag-of-Colors (LBOC) é utilizado após a aplicação de um detector de pontos de interesse, preferencialmente após a aplicação do detector de pontos de interesse SIFT, e da vizinhança representativa do ponto de interesse é extraída a cor de maior ocorrência, gerando um vetor de características de 3 dimen-sões para cada ponto de interesse.

(39)

2.2.2.5 SIFT

O método de descrição SIFT, é geralmente utilizado após a detecção de pontos de interesse. Assim, cada ponto de interesse é descrito por um vetor de características de 128 dimensões. Na Figura 14 pode se visualizar o processo de descrição dos pontos de interesse.

Para manter o método invariante a rotação, as coordenadas do descritor e as orientações dos gradientes são rotacionadas para a mesma orientação do ponto de interesse que será descrito. Uma janela é definida ao redor do ponto de interesse com nxn regiões com kxk pixels cada, Lowe (2004) sugere que seja utilizado o valor de 4 para n e k.

A imagem é desfocada com a função gaussiana utilizando a mesma escala em que o ponto de interesse se encontra. Então, são computadas as magnitudes dos gradientes e as orien-tações dos pixels que estão no interior da janela formada, tais magnitudes são ponderadas por uma função gaussiana com o valor de σ sendo igual a metade da largura da janela. São criados histogramas das magnitudes em oito orientações para cada região n. O vetor de características então é formado pela concatenação de tais histogramas. A fim de que o descritor seja invariante a iluminação, o vetor de características é normalizado.

2.2.2.6 SURF

O método de descrição SURF é geralmente utilizado após a detecção de pontos de interesse. Assim, cada ponto de interesse é descrito por um vetor de características de 64 di-mensões.

Para que o método seja invariante a rotação, é necessário que seja atribuída a mesma orientação dos vizinhos do ponto de interesse ao descritor. Para a atribuição da orientação, é criada uma janela circular de raio 6s ao redor do ponto de interesse, considerando s a escala em que se encontra o ponto de interesse. A área desta janela é convolucionada com dois núcleos de tamanho 4s, que podem ser visualizados na Figura 15. As respostas obtidas são ponderadas com uma função gaussiana (σ = 2s) centrada na localização do ponto de interesse.

Para cada pixel presente na área da janela são obtidas respostas no eixo x e no eixo y, tais valores são representados como pontos do espaço, com a resposta do eixo x ao longo da abscissa e a resposta do eixo y ao longo da ordenada. Considerando uma janela deslizante

(40)

Figura 14: Exemplo de descrição dos pontos de interesse. (a) Rotação das coordenadas do descri-tor e as orientações dos gradientes para a mesma orientação do ponto de interesse. (b) Desfocagem da imagem com a função gaussiana e definição da janela a ser usada pelo descritor. (c) Computa-ção e ponderaComputa-ção das magnitudes dos gradientes e criaComputa-ção do histograma de magnitudes em oito orientações (representados como o comprimento das setas). (d) Criação e normalização do vetor de características pela concatenação dos histogramas.

Fonte: Adaptado de (SOARES, 2012).

Figura 15: Núcleos de convolução Haar Wavelet que computam respostas na direção x e na direção y, respectivamente. A área preta tem peso -1 e a área branca tem peso +1.

Fonte: (BAY et al., 2008).

de tamanho π

3, para cada área que janela cobrir os pontos presentes serão contados, a área

que apresentar maior número de pontos define a orientação dominante. Na Figura 16 pode-se visualizar um exemplo do processo de atribuição de orientação.

Após a atribuição da orientação, é criada uma janela de tamanho 20s ao redor do ponto de interesse. Tal janela é dividida de modo que se obtenha 16 sub-janelas. Os núcleos de convo-lução (Figura 15) são aplicados nas sub-janelas com os eixos alinhados a orientação atribuída. As respostas obtidas da convolução são ponderadas com a função gaussiana (σ = 3.3s) cen-trada no ponto de interesse. Assim, para cada sub-janela é obtido um vetor de características contendo:

(41)

Figura 16: Definição da orientação dominante ao redor do ponto de interesse. Os pontos são as respostas obtidas após a convolução, a área em azul é a janela deslizante e a seta vermelha é a orientação dominante.

Fonte: Adaptado de (FREITAS, 2015).

• d_x: a soma dos valores variantes na direção do eixo x.

• dy: a soma dos valores variantes na direção do eixo y

• |dx|: módulo de dx.

• |dy|: módulo de dy.

A Figura 17 ilustra o processo de descrição do ponto de interesse após a atribuição da sua orientação. Os vetores de cada sub-janela são concatenados gerando um vetor de caracte-rísticas de 64 dimensões para cada ponto de interesse detectado.

Figura 17: Processo de descrição do ponto de interesse. Primeiramente a janela criada de tama-nho 20s é dividida em 16 sub-janelas e para cada sub-janela é aplicado os núcleos de convolução alinhados a orientação atribuída. Para cada região são obtidas as somas de dx, dy, |dy|, |dx|.

Fonte: (BAY et al., 2008).

2.2.2.7 DESCRIÇÃO DE IMAGENS UTILIZANDO REDES COMPLEXAS

A utilização da teoria de Redes Complexas para a descrição de imagens tem se mos-trado altamente relevante e muitos trabalhos com a utilização de redes complexas para a análise

(42)

de textura das imagens têm surgido (LIMA et al., 2015; BACKES et al., 2013, 2010; COUTO et al., 2015).

Redes complexas são grafos que apresentam uma estrutura não trivial e podem ser mo-deladas para a resolução de problemas específicos (BARABÁSI, 2003). Um grafo é composto por vértices que são interligados por meio de arestas (NEWMAN, 2003). Considerando um grafo G = (V, E), tal que os elementos de V são os vértices e os elementos de E são as arestas do grafo. Um vértice V é incidente a uma aresta se V ∈ E, dois vértices são adjacentes se eles são incidentes da mesma aresta. Um grafo pode ser ponderado, quando é associado um valor a cada uma de suas arestas, geralmente denominado peso da aresta. Se existem duas arestas incidentes do mesmo vértice, orientado ou não orientado, entre outras propriedades, a estrutura é denominada multigrafo (BOCCALETTI et al., 2006).

A utilização das redes complexas para a descrição de imagens usualmente possui duas etapas: a modelagem das imagens como grafos e a extração de medidas dessa rede. Para a modelagem da imagem em rede complexa, cada pixel da imagem passa a corresponder a um vértice do grafo. Para a construção das conexões entre os vértices é adotado o método de construção de adjacência de lattice conectada por raio, em que são conectados todos os vértices que representam os pixels vizinhos que estão dentro de um raio r. Esse método facilita a relação de afinidade local por meio de diferentes regiões (CASANOVA, 2013). Se a distância euclidiana entre os dois pixels p = (x, y) ∈ P e p0= (x0, y0) ∈ P for menor ou igual que r, os dois vértices correspondentes aos pixels em questão são conectados por uma aresta.

Para cada aresta e ∈ E do grafo G é associado um peso, que é calculado através das co-ordenadas dos dois pixels que formaram a aresta, suas respectivas intensidades, o raio utilizado para a criação das arestas e o maior valor de intensidade presente na imagem (L), como visto na Equação 26. Os pesos das arestas estão presentes entre o intervalo de 0 e 1.

d(e) =(x − x

0₎2_{+ (y − y}0₎2_{+ r}2 |(I(x,y)−I(x0,y0)| L

r2_{+ r}2 (26)

Para a análise comportamental do grafo é realizada a análise de subgrafos derivados, um conjunto de limiares T = [t1,t2, ...,tL] é aplicado no grafo e para cada limiar t é obtido um

novo subgrafo do grafo original. Tal limiar t é aplicado no conjunto de arestas do grafo e se a aresta tiver o peso menor ou igual ao limiar t ela é mantida no subgrafo.

Para a etapa de extração de medidas, existem alguns conjuntos de medidas propostas na literatura. Backes et al. (2013) propuseram a utilização de estatísticas de primeira ordem para a descrição da rede. Tendo um histograma de conectividade da rede, é computada a função

(43)

- Grau médio: o grau médio é a soma do número de arestas divida pelo número de vértices do grafo.

- Histograma de conectividade: o histograma de conectividade p(φ ) computa quan-tos vértices existem com grau φ .

- Caminho mínimo médio: o caminho mínimo médio é a média de todos os caminho mínimos dos pares de nós da rede (BOCCALETTI et al., 2006).

- Centralidade média: a centralidade média é dada pela proporção das centralidades de intermediação dos nós da rede pelo número total de nós. A medida de centralidade de inter-mediação de um nó tem como objetivo quantificar a importância de cada nó para os caminhos mínimos rede (BOCCALETTI et al., 2006) . A centralidade de intermediação é definida pela Equação 27, sendo njk o caminho mínimo entre os vértices j e k e njk(i) o caminho mínimo

entre os vértices j e k que passa por i.

b_i=

_∑

j,k, j6=k

n_jk(i)

n_jk (27)

- Transitividade: a transitividade é a probabilidade média da rede de que se o vértice ie o vértice j estão conectados ao vértice k, eles também estarão conectados entre si.

- Número de Comunidades: define o número de subgrafos da rede em que os vértices estão fortemente conectados, i.e., todos os nós do subgrafo estão conectados entre si.

- Motifs: quantifica os motifs que aparecem na rede. Motifs são pequenos padrões de interconexões que ocorrem em um grafo com uma frequência significamente maior do que o esperado em sua versão randômica (KONAGURTHU; LESK, 2008). O grau de significância de um motif é dado pelo Z-score (Equação 28).

Z_M= nM− < n

rand M >

σ_nrand_M , (28)

onde nM é quantas vezes o motif M apareceu no grafo e o nrand_M e σnrandM são a média e o desvio padrão do número de vezes que o motif M apareceu na rede aleatória, respectivamente.