• Nenhum resultado encontrado

Representação de séries temporais usando descritores de forma aplicados a recurrence plots

N/A
N/A
Protected

Academic year: 2021

Share "Representação de séries temporais usando descritores de forma aplicados a recurrence plots"

Copied!
51
0
0

Texto

(1)

Universidade Estadual de Campinas Instituto de Computação

INSTITUTO DE COMPUTAÇÃO

Ederlon Barbosa Cruz

Representação de Séries Temporais Usando Descritores

de Forma Aplicados a Recurrence Plots

CAMPINAS

2016

(2)

Ederlon Barbosa Cruz

Representação de Séries Temporais Usando Descritores de Forma

Aplicados a Recurrence Plots

Dissertação apresentada ao Instituto de Computação da Universidade Estadual de Campinas como parte dos requisitos para a obtenção do título de Mestre em Ciência da Computação.

Orientador: Prof. Dr. Ricardo da Silva Torres

Este exemplar corresponde à versão final da Dissertação defendida por Ederlon Barbosa Cruz e orientada pelo Prof. Dr. Ricardo da Silva Torres.

CAMPINAS

2016

(3)

Agência(s) de fomento e nº(s) de processo(s): CAPES, 01-P-1965/2012; CNPq,

132748/2014-2

Ficha catalográfica

Universidade Estadual de Campinas

Biblioteca do Instituto de Matemática, Estatística e Computação Científica Maria Fabiana Bezerra Muller - CRB 8/6162

Cruz, Ederlon Barbosa,

C889r CruRepresentação de séries temporais usando descritores de forma aplicados a recurrence plots / Ederlon Barbosa Cruz. – Campinas, SP : [s.n.], 2016.

CruOrientador: Ricardo da Silva Torres.

CruDissertação (mestrado) – Universidade Estadual de Campinas, Instituto de Computação.

Cru1. Análise de séries temporais - Processamento de dados. 2. Análise de imagem. 3. Processamento de imagens. 4. Reconhecimento de padrões. 5. Descritores. I. Torres, Ricardo da Silva,1977-. II. Universidade Estadual de Campinas. Instituto de Computação. III. Título.

Informações para Biblioteca Digital

Título em outro idioma: Representation of time series using shape descriptors applied to

recurrence plots

Palavras-chave em inglês:

Time-series analysis - Data processing Image analysis

Image processing Pattern recognition Descriptors

Área de concentração: Ciência da Computação Titulação: Mestre em Ciência da Computação Banca examinadora:

Ricardo da Silva Torres [Orientador] Alexandre Mello Ferreira

Luiz Camolesi Júnior

Data de defesa: 22-01-2016

Programa de Pós-Graduação: Ciência da Computação

(4)

Universidade Estadual de Campinas Instituto de Computação

INSTITUTO DE COMPUTAÇÃO

Ederlon Barbosa Cruz

Representação de Séries Temporais Usando Descritores de Forma

Aplicados a Recurrence Plots

Banca Examinadora:

• Prof. Dr. Ricardo da Silva Torres Instituto de Computação - UNICAMP • Prof. Dr. Alexandre Mello Ferreira

Instituto de Computação - UNICAMP • Prof. Dr. Luiz Camolesi Júnior

Faculdade de Tecnologia - UNICAMP

A ata da defesa com as respectivas assinaturas dos membros da banca encontra-se no processo de vida acadêmica do aluno.

(5)

Dedicatória

Dedico esse trabalho aos meus pais Elisabet Oliveira Barbosa e Francisco de Assis da Silva Cruz. Aos meus irmãos Eder Barbosa Cruz e Edgar Peres B. Neto. Dedico também à minha noiva Karen Barbosa P. Silva. E por fim e não menos importante a todos meus professores, amigos e familiares.

(6)

Agradecimentos

Agradeço primeiramente a Deus, meu ponto de equilíbrio e fonte da força, minha grande inspiração e meu protetor que me conduziu durante toda esta caminhada. À minha família, por sempre estarem comigo, pelo apoio e preocupação. Em especial os meus pais e meus irmãos, que sempre acreditaram no meu potencial e nunca desistiram de mim nem por um momento.

Agradeço a Karen Barbosa, minha eterna companheira, pelo apoio neste e em todos os outros momentos que vivi ao longo desses anos. Obrigado pelo amor, dedicação, cuidado, companheirismo, carinho, compreensão e principalmente paciência.

Ao professor, amigo e orientador Ricardo Torres pela extrema confiança que sempre depositou no meu trabalho, pelo apoio nos momentos mais difíceis durante essa caminhada e pelo seu conhecimento e críticas que foram de extrema importância para meu crescimento pessoal e profissional. Se hoje cheguei até aqui grande parte devo a você! Muito Obrigado! Agradeço a todos meus amigos do Pará, em especial, Gabriel, Fagner, Davidson, Ra-fael, Jefferson, Henrique, Carlinhos e Fernando por todos os bons momentos que partilha-mos. Agradeço também ao Cristiano pela amizade e acolhida. Agradeço ao meu amigo professor Fábio Bezerra por todo apoio, conversas e bons momentos de convivência.

Agradeço aos companheiros integrantes do RECOD, em especial Greice, Daniel, Pris-cila, Ewerton, Ramon, Gerson, Luís, Rafael, Alberto, Flávio, Fábio, Allan, Carlos, Pablo e Javier. Aos demais membros do laboratório pelo companheirismo, brincadeiras e dis-trações que tornaram o ambiente mais estimulante e produtivo.

Agradeço ao Samuel Martins, meu grande amigo, pelo suporte emocional, por todas as brincadeiras e por estar sempre presente em todos os momentos, principalmente os mais difíceis.

Agradeço a CAPES, CNPq, AMD e o Instituto Virtual FAPESP-Microsoft (processos #2013/50155-0 e #2013/50169-1) pela infraestrutura do Laboratório RECOD.

Enfim, a todos vocês que compartilharam comigo seus conhecimentos, carinho e ami-zade, sou eternamente grato por viver no mesmo tempo em que vocês, e pelo privilégio de tê-los conhecido. Meus mais sinceros agradecimentos. Obrigado.

(7)

Resumo

Fenologia de plantas tem sido recohecida como uma importante área de pesquisa para o entendimento de mudanças climáticas globais. Neste contexto, novas tecnologias para ob-servação fenológica têm sido propostas. Câmeras digitais têm sido utilizadas com sucesso como sensores de imagem multicanal, na medida em que permitem obter informações sobre medidas de alteração da cor (canais RGB) das folhas, do folheamento ou mudanças fenológicas em plantas. Recentemente, foi iniciado o monitoramento de mudanças nos padrões das folhas de uma região de cerrado por meio da captura diária de imagens di-gitais. As análises das imagens vêm sendo realizadas por meio da definição de 10 regiões de interesse (RIs) na imagem digital original, incluindo imagens totais ou parciais, asso-ciadas a 6 espécies de plantas. A extração de séries temporais assoasso-ciadas às diferentes regiões em que as imagens foram obtidas faz aumentar a necessidade do uso de ferra-mentas apropriadas para a mineração de padrões de interesse. Nos últimos anos, várias técnicas vêm sendo usadas para representar dados e séries temporais com o objetivo de facilitar a extração de informações e descoberta de padrões. Em especial, Recurrence Plot (RP) tem se mostrado uma boa solução para representação de séries temporais. Neste trabalho, usamos RP para representar as séries temporais extraídas a partir dos dados fenológicos com o objetivo de identificar e avaliar descritores de forma adequados para a caracterização de séries temporais associadas a diferentes horas do dia, a diferentes canais de cor, e a diferentes áreas de interesse. Em nosso estudo, as séries temporais foram caracterizadas por descritores de forma tradicionais. Resultados experimentais apontam para a boa eficácia de descritores de forma na caracterização de representações RP de séries temporais.

(8)

Abstract

Plant phenology has been recognized as an important research area for climate change understanding. In this context, new technologies for phenological observation has been proposed. Digital cameras have been successfully used as multi-channel image sensors, providing measures of leaf color change information (RGB channels), or leafing pheno-logical changes in plants. We have been monitoring leaf-changing patterns of a cerrado-savanna vegetation by taking daily digital images. We extracted RGB channels from digital images and correlated it with phenological changes over time. The image analyses were conducted by defining ten regions of interest (ROIs) in the original digital image, including total or partial images, and six plant species. The extraction of time series as-sociated with different regions in which the images have been obtained raises the need of using appropriate tools for mining patterns of interest. In recent years various techniques have been used to represent time series in order to facilitate the extraction of information and discovery patterns. In particular, Recurrence Plot (RP) has proven to be a good solution for the representation of time series. In this work, we use RP to represent the time series drawn from the phenological data in order to identify and evaluate appropri-ate shape descriptors for characterizing time series associappropri-ated with different times of day, different color channels, and with different areas of interest. In our study, time series were characterized by traditional shape descriptors. Experimental results demonstrate the effectiveness of shape descriptors in characterizing RP representations of time series.

(9)

Lista de Figuras

2.1 Representação RP associada a uma série temporal do canal azul de uma região de cerrado. . . 18 2.2 Representação das características associadas a uma série temporal de canal

verde de uma região de cerrado. . . 19 2.3 Ilustração do processo de obtenção de uma representação RP . . . 20 2.4 Representação das características sem (à esquerda) e com (à direita)

apli-cação de threshold. . . 21 2.5 (a) Exemplo de uma consulta por raio de abrangência. (b) Exemplo de

consulta por vizinhança do tipo KN N em que k = 5. . . 21 2.6 Ilustração da etapa de extração de características do descritor HOG. . . 23 2.7 Definição de sub-imagem e bloco de imagem para cálculo do descritor Edge

Histogram (figura adaptada de [16]). . . 25 2.8 Representação PHOG. . . 27 3.1 Conjunto de etapas visando à caracterização de séries temporais. . . 29 3.2 Exemplo de séries temporais associadas ao canal R, G e B de uma região

contendo um indivíduo da espécie Miconia rubiginosa, às 14:00h. . . 29 3.3 Imagem da torre de 18m com o braço mecânico onde a câmera digital foi

instalada. Imagem adaptada de imagem retirada de [6]. . . 31 3.4 Exemplo de uma imagem típica de uma região de Cerrado. . . 31 3.5 Exemplo de uma imagem de uma região de Cerrado capturada pela câmera

e os resultados da segmentação para as escalas selecionadas na amostra de uma sub-imagem. . . 32 3.6 Série temporal (original). . . 32 3.7 Regiões de interesse definidas para análise de seis espécies de plantas do

cerrado. . . 33 4.1 Gráfico comparativo da avaliação dos descritores para o canal R e

th-reshold 5, considerando a métrica p@5. . . 35 4.2 Gráfico comparativo da avaliação dos descritores para o canal R e

th-reshold 10, considerando a métrica p@5 . . . 36 4.3 Gráfico comparativo da avaliação dos descritores para o canal R e

th-reshold 20, considerando a métrica p@5. . . 37 4.4 Gráfico comparativo da avaliação dos descritores para o canal R e

th-reshold 50, considerando a métrica p@5. . . 37 4.5 Gráfico comparativo da avaliação dos descritores para o canal G e

th-reshold 5, considerando a métrica p@5. . . 38 4.6 Gráfico comparativo da avaliação dos descritores para o canal G e

(10)

4.7 Gráfico comparativo da avaliação dos descritores para o canal G e th-reshold 20, considerando a métrica p@5. . . 39 4.8 Gráfico comparativo da avaliação dos descritores para o canal G e

th-reshold 50, considerando a métrica p@5. . . 40 4.9 Gráfico comparativo da avaliação dos descritores para o canal B e

th-reshold 5, considerando a métrica p@5. . . 41 4.10 Gráfico comparativo da avaliação dos descritores para o canal B e

th-reshold 10, considerando a métrica p@5. . . 41 4.11 Gráfico comparativo da avaliação dos descritores para o canal B e

th-reshold 20, considerando a métrica p@5. . . 42 4.12 Gráfico comparativo da avaliação dos descritores para o canal B e

(11)

Lista de Tabelas

2.1 Semântica das caixas do Edge Histogram . . . 25 4.1 Diferenças de P @5 entre as melhores versões de descritores de forma,

(12)

Sumário

1 Introdução 13

2 Trabalhos Correlatos e Terminologia Básica 15

2.1 Fenologia e o Projeto e-Phenology . . . 15

2.1.1 Fenologia . . . 15

2.1.2 Projeto e-Phenology . . . 16

2.2 Séries Temporais . . . 16

2.3 Recurrence Plot . . . 17

2.4 Recuperação de Imagens por Conteúdo (CBIR) . . . 19

2.4.1 Fluxograma CBIR . . . 19

2.4.2 Consulta por Similaridade . . . 20

2.5 Descritores de Forma . . . 22

2.5.1 Histogram of Oriented Gradients – HOG . . . 22

2.5.2 Invariantes de Momento . . . 23

2.5.3 Histograma de Borda . . . 25

2.5.4 Histograma Piramidal de Gradientes Orientados – PHOG . . . 26

3 Metodologia 28 3.1 Caracterização de Séries Temporais . . . 28

3.1.1 Definição de Regiões de Interesse . . . 28

3.1.2 Extração das Séries Temporais . . . 28

3.1.3 Extração de Representações Recurrence Plot . . . 30

3.1.4 Caracterização de Imagens RP Usando Descritores de Forma . . . . 30

3.2 Metodologia de Validação . . . 30

3.2.1 Base de Dados . . . 30

3.2.2 Protocolo de Avaliação: Busca de Séries Temporais por Similaridade 33 4 Experimentos e Resultados 34 4.1 Protocolo Experimental . . . 34

4.1.1 Cálculo de distância . . . 34

4.1.2 Medidas de Avaliação e Teste Estatístico . . . 34

4.2 Resultados Experimentais . . . 35

4.2.1 Avaliação dos Descritores . . . 35

4.2.2 Testes Estatísticos . . . 43

5 Conclusões 44

(13)

Capítulo 1

Introdução

Fenologia, o estudo de fenômenos naturais recorrentes e sua relação com o clima [57], é uma ciência tradicional de observar os ciclos (fenofases) das plantas e dos animais e relacioná-los com os dados meteorológicos locais, bem como com interações bióticas e filogênicas [48].

O brotamento e senescência são eventos importantes nos ciclos de plantas e fundamen-tais para entender uma série de processos no ecossistema devido ao seu impacto sobre o crescimento, estado da água, troca gasosa e ciclo de nutrientes [49, 38]. A época do cresci-mento das plantas desempenha um papel crucial no balanço e na produtividade terrestre [27, 55, 32], no controle espacial, padrão temporal de Carbono e troca de água entre a floresta e a atmosfera [69, 59].

Fenologia tem ganhado importância como o indicador mais simples e confiável no con-texto de pesquisa em mudanças globais, estimulando o desenvolvimento de novas tecnolo-gias para observação fenológica [67, 39, 65, 53, 50]. As câmeras digitais têm sido utilizadas com sucesso como sensores de imagem multicanal, e as informações sobre as medidas nas mudanças de cor (canais RGB) a partir das imagens digitais permitem detectar mudanças de eventos fenológicos em plantas [51, 1, 50, 24, 29, 37, 34].

Após quantificar a cor dos canais vermelho, verde e azul (RGB), por exemplo, pesqui-sadores especialistas em fenologia podem estimar as mudanças em eventos fenológicos, tais como a sequência das folhas ao analisar o canal verde, ou a mudança da cor das folhas e senescência usando os valores do canal vermelho [1, 50]. Em especial, o processamento de imagens de câmeras digital é desafiador para regiões tropicais onde há predominância de um alto número de espécies. Nestas regiões, uma imagem pode abranger dezenas ou mais de uma centena de espécies, diferente do observado em vegetações de clima temperado.

Nesse contexto, foi proposto o projeto e-Phenology1 que é financiado pelo Instituto

Virtual FAPESP-Microsoft2. O e-phenology é um projeto multidisciplinar que vem sendo

desenvolvido no contexto de uma colaboração entre o Instituto de Computação da Univer-sidade Estadual de Campinas e o Departamento de Botânica – Laboratório de Fenologia da Universidade Estadual Paulista que combina pesquisas nas áreas de computação e fe-nologia. Seu objetivo é solucionar problemas teóricos e práticos envolvidos na utilização de novas tecnologias para observação fenológica remota, visando detectar mudanças

ambi-1

http://www.recod.ic.unicamp.br/ephenology/ (Acesso em: 08/01/2016).

2

http://www.fapesp.br/en/5392 (Acesso em: 08/01/2016).

(14)

CAPÍTULO 1. INTRODUÇÃO 14

entais locais e compreender os efeitos do aquecimento global nos trópicos. Essa pesquisa foi conduzida e validada no âmbito do projeto e-Phenology. Nesse projeto está sendo monitorada uma vegetação de savana tropical do cerrado para avaliar a confiabilidade das imagens digitais para detectar mudanças fenológicas associadas a plantas.

A extração de séries temporais associadas às diferentes regiões (individuos) contidas nas imagens faz aumentar a necessidade do uso de ferramentas apropriadas para a mine-ração de padrões de interesse. Uma série temporal T é uma lista ordenada de números, tal que T = {t1, t2, . . . , tm}. Cada valor ti ∈ T pode ser qualquer número finito e m é o

tamanho da série T [46]. Exemplos de séries temporais típicas em Fenologia incluem no valores de intensidade de fenofases de indivíduos ao longo dos anos e a variação do valor médio do canal verde de uma imagem ao longo do tempo para uma dada região.

Nos últimos anos, está sendo aplicado um grande esforço para representar diversos tipos de dados e com isso várias técnicas foram criadas e usadas para representar dados e séries temporais com o objetivo de facilitar a extração de informações e descoberta de padrões. Dentre essas técnicas o Recurrence Plot (RP) [15] apresentou bons resultados e é uma boa solução para representação de séries temporais [18]. O RP é uma representação capaz de revelar em quais pontos (“estado”) algumas séries retornam a um estado visitado anteriormente. Na representação gráfica de um RP, uma imagem de N × N pixels é definida de modo que os pixels correspondentes a valores 1 (recorrentes) na matriz de recorrência são geralmente pretos e os de valor 0 (não recorrentes) são brancos [62].

Neste trabalho, usamos RP para representar as séries temporais extraídas a partir de imagens de vegetação com o objetivo de identificarmos descritores de forma adequados para a caracterização e identificação de padrões em séries temporais associadas a diferentes horas do dia, a diferentes canais de cor, e a diferentes áreas de interesse. Em nosso estudo, as séries temporais foram caracterizadas por descritores de forma tradicionais. Resultados experimentais apontam para a boa eficácia de descritores de forma na caracterização de representações RP de séries temporais fenológicas.

Este trabalho de recuperação de séries temporais no contexto fenológico é bastante promissor na medida em que pode auxiliar uma melhor análise dos dados temporais feno-lógicos, como por exemplo, identificar indivíduos da mesma espécie em imagem. A partir da seleção de bons descritores, é possível identificar potenciais indivíduos de interesse em uma imagem. Em resumo, as principais contribuições desta pesquisa consiste na investi-gação do uso de recurrence plots na representação de séries temporais associadas a canais de cor de imagens de vegetação e na avaliação comparativa de descritores de forma na caracterização de recurrence plots.

Esta dissertação está organizada em 5 capítulos. No Capítulo 2, apresentamos tra-balhos correlatos e descrevemos alguns conceitos necessários para a melhor compreensão deste trabalho. No Capítulo 3 apresentamos a metodologia utilizada para avaliar diferen-tes descritores de forma na tarefa de caracterizar séries temporais, representadas por meio de Recurrence Plots. No Capítulo 4 apresentamos o protocolo experimental adotado para validação. Em especial, detalhamos como foi realizada cada etapa do protocolo experi-mental. E por fim, no Capítulo 5, apresentamos nossas conclusões e trabalhos futuros.

(15)

Capítulo 2

Trabalhos Correlatos e Terminologia

Básica

Neste capítulo, apresentamos os termos e definições básicas necessárias para a melhor compreensão deste trabalho. Será apresentado também o Projeto e-Phenology, projeto ao qual os dados considerados neste estudo estão relacionados.

2.1

Fenologia e o Projeto e-Phenology

Esta seção define o que é fenologia e qual sua importância como área de estudo da Bio-logia. Apresentamos ainda o Projeto e-Phenology, um dos projetos pioneiros na área de Fenologia voltados à monitoração de vegetação nos trópicos.

2.1.1

Fenologia

Fenologia, o estudo de fenômenos naturais recorrentes e sua relação com o clima [58], é uma ciência tradicional de observar os ciclos (fenofases) das plantas e dos animais e relacioná-los com os dados meteorológicos locais, bem como com interações bióticas e filogênicas [47]. Recentemente, fenologia tem ganhado importância como o indicador mais simples e confiável dos efeitos das mudanças climáticas sobre plantas e animais [40, 66, 54].

A relevância da fenologia da planta como um indicador confiável de respostas das espé-cies às mudanças climáticas globais tem estimulado o desenvolvimento de novas tecnologias para o monitoramento fenológico [39, 50, 53, 65, 67]. A técnica de monitoramento por meio de fotografias usando câmeras digitais tem sido cada vez mais utilizada para diversas aplicações ecológicas [11, 19]. Com um investimento de baixo custo, redução no tamanho da configuração e instalação, e dados de alta resolução fazem câmeras digitais uma ferra-menta confiável para uma gama de aplicações [35], incluindo mudanças na dinâmica dos ecossistemas e da estrutura [43], crescimento da vegetação e biomassa [11, 20], estresse da planta e nível de nitrogênio [68], e monitoramento de culturas [60]. Por isso, este novo ramo de investigação vem sendo usado por vários grupos de pesquisa [1, 2, 24, 50, 72, 18], com bons resultados.

(16)

CAPÍTULO 2. TRABALHOS CORRELATOS E TERMINOLOGIA BÁSICA 16

2.1.2

Projeto e-Phenology

O e-Phenology é um projeto multidisciplinar desenvolvido no âmbito de uma colaboração envolvendo o Instituto de Computação da Universidade Estadual de Campinas e o Depar-tamento de Botânica (Laboratório de Fenologia) da Universidade Estadual Paulista. Este projeto combina pesquisas nas áreas de computação e fenologia. Seu objetivo é solucionar problemas teóricos e práticos envolvidos na utilização de novas tecnologias para obser-vação fenológica remota, visando detectar mudanças ambientais locais e compreender os efeitos do aquecimento global nos trópicos.

Ele tem como foco os seguintes requisitos:

1. A utilização das novas tecnologias de monitoramento ambiental com base em siste-mas de monitoramento remoto de fenologia usando imagens digitais de vegetação; 2. A criação de um protocolo para um programa de monitoramento de fenologia de

longo prazo no Brasil e para integração entre diversas disciplinas, avançando o conhe-cimento atual de respostas sazonais dentro dos trópicos para mudanças climáticas; 3. Especificação e desenvolvimento de modelos, métodos e algoritmos de apoio à gestão,

integração e análise de dados de sistemas de fenologia remota.

Maiores detalhes acerca do projeto podem ser obtidos em no seu site 1.

2.2

Séries Temporais

Segundo Keogh et al. em [46], uma série temporal T é uma lista ordenada de números, tal que T = {t1, t2, . . . , tm}. Cada valor ti ∈ T pode ser qualquer número finito e m é o

tamanho da série T . Exemplos de séries temporais podem ser facilmente identificados na economia (por exemplo o preço das ações em dias sucessivos), na meteorologia (por exem-plo a umidade do ar medida em horas sucessivas), na análise de mercado em iniciativas de marketing (por exemplo o número de vendas em dias, semanas ou meses sucessivos) e outros como mostrado por Chatf ield em [10]. A análise de uma série temporal é impor-tante para o entendimento de fenômenos que acontecem ao longo do tempo, predizer os próximos valores da série temporal, etc. Uma técnica de análise de séries temporais co-mum consiste no uso de algoritmos de mineração de dados visando dentre outros objetivos estabelecer correlação entre fenômenos.

Séries temporais são estudadas e aplicadas na solução de vários problemas em diversas áreas. Por exemplo, Keogh e Ye, em [70], utilizaram a analise de séries temporais para classificar, por exemplo, espécies de plantas. O trabalho apresentou a série temporal Sha-pelets, que possibilita por exemplo a classificação de série temporais em redes de sensores (com recursos escassos de processamento). Trata-se de um dos primeiros trabalhos volta-dos ao processamento de séries temporais utilizando conceitos associavolta-dos à caracterização de formas.

1

(17)

CAPÍTULO 2. TRABALHOS CORRELATOS E TERMINOLOGIA BÁSICA 17

Em [64], Torres et al. usam séries temporais com estudos de fenologia remota. O tra-balho tem como objetivo identificar descritores de forma adequados para a caracterização de séries temporais, modeladas como sinais 1D e 2D.

Em [33] foi desenvolvido um estudo para descrição de padrões de oscilação utilizando descrição e comparação de séries temporais. O estudo apresentou uma técnica para abusca por similaridade de séries temporais, definindo um descritor de forma que utiliza os coefi-cientes angulares de uma segmentação linear que representa a evolução da série analisada. Diferentemente dos trabalhos desenvolvidos por Torres et al. [64] and Mariote et al. [33] e por Keogh et al. [70], nessa dissertação de mestrado investigamos e avaliamos diferentes descritores de forma na tarefa de caracterizar séries temporais, representadas por meio de recurrence plots.

Recurrence plots associados a séries temporais fenológicas foram objetos de estudo em [18]. Diferente do presente trabalho, investigou-se a capacidade de descritores de cor e textura na caracterização de recurrence plots.

2.3

Recurrence Plot

Segundo [62], a análise de comportamentos recorrentes é importante em muitas aplicações. No entanto, estes comportamentos são frequentemente difíceis de serem visualizados no domínio do tempo. Para contornar essa limitação, Eckmann et al.[14] criaram uma repre-sentação chamada Recurrence Plot (RP). Esta reprerepre-sentação é capaz de revelar em que pontos algumas trajetórias retornam a um estado visitado anteriormente. Formalmente, um RP pode ser definido como na Equação 2.1.

Ri,j = Θ(− k −→x (i) − −→x (j) k), −→x (·)  <m, i, j = 1..N (2.1)

em que N é o número de estados, ~xi e ~xj são as subsequências observadas nas posições

i e j, respectivamente, k·k é o padrão (por exemplo, norma euclidiana) entre as observa-ções,  representa um limiar de proximidade e Θ é a função de Heaviside, definida pela Equação 2.2.

Θ(z) = { 0 , se z < 01, caso contrário (2.2) A Equação 2.2 indica que, se a trajetória m-dimensional da série temporal no momento j está próximo (em termos de uma área pré-definida) para a subsequência observada no momento i, haverá o valor 1 na posição (i, j) da matriz de recorrência. Caso contrário, o valor é 0. Na representação gráfica, uma imagem de N x N pixels é definida de modo a que os pixels correspondentes a valores 1 na matriz são pretos e os de 0 são brancos. A Figura 2.1 mostra um exemplo da representação RP para uma série temporal asssociada a uma série temporal do canal azul de uma região de cerrado.

A Figura 2.2 ilustra a representação em recurrence plot de uma outra série temporal (canal verde de uma região de cerrado) da nossa base de dados. Nessa figura, pode ser observado como é representada uma série temporal por meio de RP . Também é mostrada uma reprentação desses mesmos dados por meio de uma série temporal ao longo do tempo.

(18)

CAPÍTULO 2. TRABALHOS CORRELATOS E TERMINOLOGIA BÁSICA 18

Figura 2.1: Representação RP associada a uma série temporal do canal azul de uma região de cerrado.

Apesar da sua simplicidade, este método requer a especificação de um parâmetro de limite de proximidade. Esse limite define o tamanho de uma área na qual duas subsequên-cias são considerados semelhantes. No entanto, determinar um valor apropriado para este parâmetro não é intuitivo. Diferentes critérios podem ser adotados. Por exemplo, um limiar de 10% da maior distância observada, ou um valor que resulta em uma determi-nada porcentagem de pontos pretos. Todavia, estas são heurísticas locais, ou seja, que utilizam a informação de um único gráfico de RP para definir o valor de limiar (threshold). Portanto, é difícil generalizar um valor de limiar que seja consistente em vários recurrence plots. Esta é uma questão importante quando queremos determinar a similaridade entre vetores de características extraídos de imagens RPs.

A Figura 2.3 ilustra o processo de obtenção de uma representação RP . Visualmente em 2.3(a) podemos observar que os pontos −→x7, −→x8e −→x9 são similares aos pontos −→x2, −→x3 e −→x4

(ilustrados na Figura 2.3(b)). Logo, ao preencher a matriz de recorrência, para esses pontos, teremos o resultado ilustrado na Figura 2.3(c). Vale observar que a diagonal da matriz sempre será preenchida por pixels pretos uma vez que a distância de um ponto pra ele mesmo é 0 e sempre será menor que qualquer threshold definido.

A fim de eliminar o parâmetro de proximidade, que pode usar informações de cor, a imagem é gerada na escala de cinza, de modo que as distâncias são representadas como um nível de cinza. Assim, a imagem é uma representação direta da matriz de distância. Nestes casos, a representação recurrence plot não é mais uma ferramenta para analisar as recorrências considerando os mais próximos; e sim uma ferramenta para analisar o quão perto cada par de subsequências estão em suas trajetórias [25]. Esta representação é conhecida como Recurrence Plot Unthresholded, distância ou matriz de auto similari-dade. A Figura 2.4 mostra um exemplo de um threshold definido e um Recurrence Plot Unthresholded para uma mesma série temporal.

(19)

CAPÍTULO 2. TRABALHOS CORRELATOS E TERMINOLOGIA BÁSICA 19

Figura 2.2: Representação das características associadas a uma série temporal de canal verde de uma região de cerrado.

2.4

Recuperação de Imagens por Conteúdo (CBIR)

Segundo [44, 63], sistemas de recuperação de imagens por conteúdo (CBIR) abrangem várias tecnologias e métodos com o objetivo de organizar as bases de imagens digitais de acordo com suas propriedades visuais (cor, textura e forma). Áreas da computação como processamento de imagens, visão computacional, base de dados e outras, fomentam o desenvolvimento de sistemas CBIR. Em geral, imagens são representadas com vetores de características que de alguma forma codificam informações de cor, forma e textura. O grande desafio ao se trabalhar com imagens está em utilizar um descritor que seja capaz de sintetizar a essência da imagem em um vetor de características. Outras questões importantes dizem respeito ao uso de estruturas de indexação e adoção de métodos de validação que sejam adequados.

2.4.1

Fluxograma CBIR

Segundo [44], as principais etapas em um sistema CBIR são:

1. Definição de Imagem de Consulta: uma imagem de consulta é fornecida como en-trada e o sistema CBIR faz o processamento da imagem (filtrar, segmentar, etc.).

(20)

CAPÍTULO 2. TRABALHOS CORRELATOS E TERMINOLOGIA BÁSICA 20

Figura 2.3: Ilustração do processo de obtenção de uma representação RP .

2. Extração dos Vetores de Características: Após o processamento da imagem de con-sulta, realizado no passo anterior, é feita a extração de vetores de características da imagem usando descritores de cor, forma, textura e etc.

3. Indexação e busca: Após processar a imagem e extrair o vetor de característica, é utilizada uma estrutura de indexação para recuperar imagens na base de imagens. A indexação está associada a um método de busca por similaridade, ou seja, busca que considera o quão similares são dois dados entre si. A similaridade entre duas imagens é encontrada por meio de uma função de distância d(Oi, Oj). Essa função de distância retorna zero se os objetos Oi e Oj forem idênticos e um valor positivo senão. Esse valor positivo aumenta quanto mais dissimilares forem os objetos.

2.4.2

Consulta por Similaridade

Segundo [44], as consultas por similaridade podem ser classificadas em consulta por abran-gência ou consulta por vizinhança. Na consulta por raio de abranabran-gência (Range Query), é fornecido um objeto de referência O e um raio de cobertura r. O conjunto de resposta Rq inclui todos os elementos S da base de consulta que se encontram a uma distância menor ou igual ao raio r do elemento O. Formalmente é definida da seguinte forma:

Rq = {S|d(S, O) ≤ r} (2.3)

A Figura 2.5(a), adptada de [44], mostra um exemplo de uma consulta por abrangência no domínio bidimensional, onde temos 10 elementos válidos no conjunto de resposta –

(21)

CAPÍTULO 2. TRABALHOS CORRELATOS E TERMINOLOGIA BÁSICA 21

Figura 2.4: Representação das características sem (à esquerda) e com (à direita) aplicação de threshold.

considerando o objeto de consulta. A distância utilizada neste exemplo, foi a distância Euclidiana (L2).

Figura 2.5: (a) Exemplo de uma consulta por raio de abrangência. (b) Exemplo de consulta por vizinhança do tipo KN N em que k = 5.

Segundo [44], na consulta por vizinhança é fornecido um objeto de referência O e um número inteiro k que é o número de elementos mais próximos ao objeto de referência O que se deseja obter como conjunto de resposta RkN N. Podemos definir formalmente por:

RkN N = {S| ∀ P { Ω − RkN N}, d(O, S) ≤ d(O, P ), |RkN N| = K} (2.4)

em que Ω representa o conjunto de todos os elementos. A Figura 2.5(b), adaptada de [44], ilustra um exemplo de consulta por vizinhança do tipo kN N no domínio bidimensional, no qual o conjunto de resposta contém seis elementos.

(22)

CAPÍTULO 2. TRABALHOS CORRELATOS E TERMINOLOGIA BÁSICA 22

2.5

Descritores de Forma

Em reconhecimento de padrões e áreas afins, a forma é uma característica importante para identificar e distinguir objetos [31, 71]. Descritores de forma são classificados em descritores de contorno e região[71].

• Contorno: São descritores que levam em consideração se as características da forma foram extraídas a partir do contorno.

• Região: São descritores que levam em consideração se as características da forma foram extraídas a partir do região inteira.

Estas duas classes, por sua vez, podem ser divididas em descritores estruturais (local) e descritores globais. Esta subdivisão é feita considerando se a forma é representada como um todo ou se é representada por segmentos/partes.

Nesta dissertação, são avaliados descritores de região, considerando-se o fato de que não é possível obter contornos das imagens RP processadas. Os descritores utilizados neste trabalho são descritos a seguir.

2.5.1

Histogram of Oriented Gradients – HOG

Segundo Dalal et al. em [12], o descritor Histogram of Oriented Gradient (HOG) é usado em visão computacional e processamento de imagem para fins de detecção de objetos. O HOG foi introduzido por Navneed Dalal e Bill Triggs que têm desenvolvido e testado diversas variações de descritores HOG, com diferentes organizações espaciais e métodos de normalização. A ideia básica por trás desse descritor é que a aparência local do objeto e a forma dentro de uma imagem podem ser descritas pela distribuição da intensidade de gradientes.

Os principais passos realizados pelo HOG, ilustrado na Figura 2.6, são:

1. Normalização global da imagem (opcional): Nesta primeira etapa, aplica-se uma equalização na imagem que é projetada para reduzir a influência os efeitos das variações de sombreamento e de iluminação locais. Na prática, usa-se compressão gama, que é o cálculo da raiz quadrada ou do log de cada canal de cor.

2. Cálculo do gradiente da imagem em x e y: Esta fase calcula gradientes de primeira ordem da imagem. Este contorno captura silhueta e algumas informações de tex-tura, proporcionando mais resistência às variações de iluminação. O canal de cor dominante é usado localmente, o que propicia invariância de cor em grande medida. Métodos variantes podem também incluir derivadas de imagens de segunda ordem, que agem como detectores primitivos de barras.

3. Cálculo de histogramas de gradiente: Esta é a terceira fase e tem como objetivo produzir uma codificação que é sensível ao conteúdo local da imagem, permanecendo resistente a pequenas mudanças na pose ou aparência. O método adota conjuntos de informação de orientação locais de gradiente na mesma maneira com as mesmas

(23)

CAPÍTULO 2. TRABALHOS CORRELATOS E TERMINOLOGIA BÁSICA 23

Figura 2.6: Ilustração da etapa de extração de características do descritor HOG. características. A janela da imagem é dividida em pequenas regiões, chamadas células. Para cada célula é acumulado um histograma local 1-D ou orientações de borda sobre todos os pixels na célula. A combinação dessas células constitui a representação básica do histograma. Cada histograma divide a faixa de ângulo de inclinação em um número fixo de posições predeterminadas, chamadas de blocos. 4. Normalização através de blocos: Neste passo é realizada uma normalização. A partir

dos grupos locais de células, normaliza-se o contraste de suas respostas globais antes de passar para a próxima fase. A normalização introduz uma melhor invariância de iluminação, sombreamento e contraste de borda. O resultado é usado para norma-lizar cada célula no bloco. Normalmente, cada célula individual é compartilhada entre vários blocos, mas suas normalizações são blocos dependentes e, portanto, diferentes. A célula aparece, assim, várias vezes no vetor de saída final com dife-rentes normalizações. Isto pode parecer redundante, mas melhora o desempenho. Referimos aos blocos normalizados como Histograma de Gradiente Orientado. 5. Compressão em um vetor de característica: O passo final combina os descritores

HOG de todos os blocos de uma rede densa de blocos de sobreposição cobrindo a janela de detecção num vetor de característica combinado.

2.5.2

Invariantes de Momento

Segundo [28], tradicionalmente, as invariantes de momento (IM) são calculados com base nas informações fornecidas tanto o limite da forma quanto por sua região interior [23, 45]. Os momentos utilizados para construir os IM são definidos como contínuos, mas para a implementação prática eles são computados de forma discreta.

(24)

CAPÍTULO 2. TRABALHOS CORRELATOS E TERMINOLOGIA BÁSICA 24

Mpq =

Z Z

xpyqf (x, y)dxdy (2.5)

Para implementação em formato digital torna-se: Mpq = X x X y xpypf (x, y) (2.6)

Para normalizar para translação no plano da imagem, os centróides da imagem são usados para definir os momentos centrais. As coordenadas do centro de gravidade da imagem são calculados utilizando a Equação 2.6 e são dadas por:

x = M10 M00

y = M01 M00

(2.7) Os momentos centrais podem, então, ser definido em sua representação discreta como:

µpq = X x X y (x − x)p(x − y)q (2.8)

Os momentos são adicionalmente normalizados para os efeitos da mudança de escala usando a seguinte fórmula:

ηpq = µpq/µy00 (2.9)

Quando o fator de normalização: y = p+q2 + 1. A partir dos momentos centrais normalizadas um conjunto de sete valores pode ser calculado e são definidos por:

Φ1 = η20+ η02 Φ2 = (η20− η02)2+ 4η112 Φ3 = (η30− 3η12)2+ (η03− 3η21)2 Φ4 = (η30+ η12)2 + (η03+ η21)2 Φ5 = (3η30− 3η12)(3η30+ 3η12)[(η03+ η21)2 − 3(η21+ η03)2] + (3η21− η03)(η21+ η03)[3(η30+ η02)2− (η21+ η03)2] Φ6 = (η20− η02)[(η30+ η12)2− (η21+ η03)2] + 4η11(η30+ η12)(η21+ η03) Φ7 = (3η21− η03)(η30+ η12)[(η30+ η12)2 − 3(η21+ η03)2] + (3η12− η30)(η21+ η03)[3(η30+ η12)2− (η21+ η30)2] (2.10)

Estes sete momentos invariantes ΦI, 1 ≤ I ≤ 7 estabelecidos por Hu em [23], foram

adicionalmente mostrado para ser independente da rotação. No entanto, eles são calcula-dos sobre o limite da forma e sua região interior [28].

Segundo [7], para este descritor, cada um dos objetos é representado por meio de um vetor de características com 14 dimensões, incluindo dois conjuntos de invariantes de momento normalizados, sendo um do contorno do objeto e outro da sua silhueta sólida [23, 13].

(25)

CAPÍTULO 2. TRABALHOS CORRELATOS E TERMINOLOGIA BÁSICA 25

Tabela 2.1: Semântica das caixas do Edge Histogram Caixa[0] Borda Vertical da sub-imagem em (0,0) Caixa[1] Borda Horizontal da sub-imagem em (0,0) Caixa[2] Borda de 45o da sub-imagem em (0,0) Caixa[3] Borda de 135o da sub-imagem em (0,0)

Caixa[4] Borda não direcional da sub-imagem em (0,0) Caixa[5] Borda Vertical da sub-imagem em (0,1)

. .

Caixa[78] Borda de 135o da sub-imagem em (3,3)

Caixa[79] Borda de não direcional da sub-imagem em (3,3)

2.5.3

Histograma de Borda

Segundo [16], distribuição espacial de bordas em uma imagem é um outro descritor de forma útil para pesquisa de similaridade e recuperação. O Edge Histogram representa a distribuição local de borda na imagem. Especificamente, ele trabalha dividindo o espaço da imagem em sub-imagens 4 × 4 como mostrado na Figura 2.7 (adaptada de [16]).

Figura 2.7: Definição de sub-imagem e bloco de imagem para cálculo do descritor Edge Histogram (figura adaptada de [16]).

A distribuição de borda para cada sub-imagem local pode ser representada por um histograma. Segundo [16], para gerar o histograma, as bordas da sub-imagens são classifi-cadas em cinco tipos: borda vertical, borda horizontal, borda diagonal de 45 graus, borda diagonal de 135 graus e borda não direcional. Uma vez que existem 16 sub-imagens, um total de 5 × 16 = 80 histogramas são necessários. A Tabela 2.1 resume a semântica de cada elemento da representação Edge Histogram [9, 56].

Para a Edge Histogram, é necessário detectar as bordas não direcionais, bem como as quatro bordas direcionais. As bordas não direcionais incluem as bordas sem direção. Os cinco tipos de bordas podem ser extraídas por um sistema de extração baseada em bloco

(26)

CAPÍTULO 2. TRABALHOS CORRELATOS E TERMINOLOGIA BÁSICA 26

de borda. Cada sub-imagem é dividida em um novo bloco de imagem não sobreposto. O tamanho do bloco de imagem depende da resolução da imagem. Entretanto, inde-pendentemente do tamanho da imagem, o espaço da imagem é dividida em um número predeterminado de blocos. O número de blocos de imagem normalmente é em torno de 1100 [16, 26].

Cada um dos blocos de imagem é classificado em uma das cinco categorias mencionadas na Tabela 2.1 ou como um bloco não-edge (sem borda). Um método simples de fazer esta classificação consiste em tratar cada bloco de imagem como um super-pixel de imagem de bloco 2 × 2 e aplicar detectores de borda apropriados para calcular os pontos fortes da borda correspondente [16, 26].

2.5.4

Histograma Piramidal de Gradientes Orientados – PHOG

Segundo [8], o Pyramid of Histograms of Orientation Gradients – PHOG, é um descritor recentemente proposto, que foi inspirado no Image Pyramid Representation de Lazebnik et al. [30] e no Histogram of Gradient Orientation (HOG) de Dalal e Triggs [12]. PHOG tem por objetivo representar uma imagem pela sua forma local e pela disposição espacial da forma.

O descritor consiste em um histograma de gradientes de orientação sobre cada sub-região de imagem em cada nível de resolução. A ideia do PHOG é ilustrada na Figura 2.8 (adaptada de [8]). Nessa figura podemos observar: Linha (a): uma imagem e grades para níveis (level ) de l = 0 à l = 2; Linha (b): histograma de representação correspondente a cada nível. O vetor PHOG final é uma concatenação ponderada de vetores (histogramas) para todos os níveis. Linhas (c), (d) e (e): imagens da mesma e de diferentes categorias, em conjunto com as respectivas representações do histograma.

A distância entre dois descritores de imagem PHOG reflete o grau em que as imagens contêm formas semelhantes e correspondem em seu layout espacial.

(27)

CAPÍTULO 2. TRABALHOS CORRELATOS E TERMINOLOGIA BÁSICA 27

(28)

Capítulo 3

Metodologia

Este capítulo apresenta a metodologia utilizada para avaliar diferentes descritores de forma na tarefa de caracterizar séries temporais, representadas por meio de recurrence plots. Primeiramente, na Seção 3.1, descrevemos a metodologia de extração e caracterização de séries temporais. Em seguida, na Seção 3.2, descrevemos a metodologia experimental utilizada neste trabalho.

3.1

Caracterização de Séries Temporais

A Figura 3.1 apresenta o conjunto de etapas dedicadas à tarefa de caracterização de séries temporais. Como ilustrado na figura, no passo (a) é feita a definição de regiões de interesse para uma dada imagem de vegetação. Esta etapa é realizada por especialista em Fenologia. No passo (b), dadas as regiões de interesse, é feita a extração das séries temporais. Neste passo, são geradas para cada hora do dia e para cada canal de cor (R, G e B), 8.813 séries temporais. No passo (c), estas séries temporais são representadas a partir de recurrence plots. Para cada séries temporal, uma imagem RP é gerada contendo a representação da série em escala de cinza. Finalmente, no passo (d), cada os padrões de forma presentes nas imagens RP são caracterizados por descritores de forma. A seguir, cada uma destas etapas é descrita.

3.1.1

Definição de Regiões de Interesse

Esta etapa compreende a definição de regiões de interesse por especialistas em Fenologia. As regiões de interesse são definidas pela área na imagem que contém um indivíduo de uma espécie sobre a qual deseja-se investigar alterações dos padrões fenológicos ao longo do tempo.

3.1.2

Extração das Séries Temporais

Dadas as regiões de interesse, foi utilizado o software ImageViewer 1 para a extração

das séries temporais. Foram obtidas 343.707 mil séries temporais. Essas séries foram

1Este software vem sendo desenvolvido no contexto no projeto e-Phenology por colaboradores da

UNICAMP, UNESP e UNIFESP.

(29)

CAPÍTULO 3. METODOLOGIA 29

Figura 3.1: Conjunto de etapas visando à caracterização de séries temporais. distribuídas da seguinte forma: 8.813 para cada hora do dia (das 06:00h às 18:00h, uma série por hora) e para cada canal de cor (vermelho, verde e azul). Ou seja, para cada hora foram extraídas três séries temporais, uma para o cada canal de cor (R – Vermelho, G – Verde e B – Azul). A Figura 3.2 mostra um exemplo de três séries temporais associadas aos canais R, G e B de uma região contendo a espécie Miconia rubiginosa, às 14:00.

Figura 3.2: Exemplo de séries temporais associadas ao canal R, G e B de uma região contendo um indivíduo da espécie Miconia rubiginosa, às 14:00h.

(30)

CAPÍTULO 3. METODOLOGIA 30

3.1.3

Extração de Representações Recurrence Plot

Cada série temporal extraída das regiões de interesse foi representada usando Recurrence Plot, ou seja, ao final deste processamento gerou-se para cada uma dessas séries temporais uma nova imagem.

A obtenção de representações recurrence plot considerou o uso de variações de dife-rentes limiares (thresholds) na Equação 2.1. Cada série temporal foi associada a quatro diferentes valores de threshold : 5, 10, 20 e 50. Para cada threshold o processamento das séries temporais gerou 343.707 mil imagens. Essas imagens foram organizadas e distri-buídas da seguinte maneira: 8.813 imagens para cada hora do dia (das 06:00h às 18:00h, uma imagem por hora), para cada canal de cor (R, G e B).

No total, 1.375.108 imagens foram geradas a partir das séries temporais originais, considerando-se as diferentes variações de threshold na representação recurrence plot. To-das estas imagens foram caracterizaTo-das pelos descritores de forma avaliados.

3.1.4

Caracterização de Imagens RP Usando Descritores de Forma

No desenvolvimento do nosso estudo, usamos como base o fluxo de um sistema CBIR, voltado para busca de regiões a partir de vetores de características que caracterizam a forma de objetos presentes em imagens recurrence plot. Foi utilizado o protocolo de busca dos k vizinhos mais próximos. Neste trabalho, estudamos e usamos descritores de forma tradicionais e descritores de forma recentemente propostos. Os descritores selecionados e utilizados neste estudo para caracterizar as séries temporais foram: Histogram of Oriented Gradients (HOG), Moments Ivariants, Phog e Edge Histogram. Estes descritores são caracterizados no Capítulo 2.

3.2

Metodologia de Validação

Esta seção descreve a metodologia experimental adotada neste trabalho.

3.2.1

Base de Dados

Este estudo foi validado no âmbito do projeto e-phenology. O projeto tem um sistema de aquisição baseado no uso de câmera instalada no topo de uma torre de 18m existente em uma região de Cerrado restrito (Figura 3.3), uma vegetação do tipo savana localizada em Itirapina (22o 10’49.18”S / 47o 52’16.54”O), São Paulo, Brasil. Uma câmera digital

de lente hemisférica (Mobotix Q24) foi instalada no topo da torre, fixada em um braço de ferro no sentido nordeste. A atividade da câmera é controlada por um temporizador e sua fonte de energia é uma bateria de 12v carregada por um painel solar.

A primeira coleta de dados pela câmera foi feita em 18 de agosto de 2011. A câmera foi configurada para capturar automaticamente uma sequência diária de cinco imagens JPEG (em 1280 × 960 pixels de resolução) por hora, entre 06:00 às 18:00h (UTC-3). Consideramos na análise de nosso estudo 3.510 imagens (Figura 3.4), registradas no final da estação seca, entre 29 de agosto e 03 de outubro de 2011 [6, 3].

(31)

CAPÍTULO 3. METODOLOGIA 31

Figura 3.3: Imagem da torre de 18m com o braço mecânico onde a câmera digital foi instalada. Imagem adaptada de imagem retirada de [6].

Figura 3.4: Exemplo de uma imagem típica de uma região de Cerrado.

Regiões são definidas utilizando a segmentação hierárquica com base no algoritmo Guigues [21]. A imagem usada para obter a hierarquia de regiões segmentadas foi tirada as 12:00h do dia 15 de outubro de 2011. Foram selecionadas 5 escalas de segmentação a partir da hierarquia para fazer a extração de características. A melhor escala é composta por 27.380 regiões. A Figura 3.5 mostra as 5 escalas segmentadas em uma amostra de

(32)

CAPÍTULO 3. METODOLOGIA 32

sub-imagem. Nossos experimentos foram realizados considerando a escala 5.

Original Scale 1 Scale 2

Scale 3 Scale 4 Scale 5

Figura 3.5: Exemplo de uma imagem de uma região de Cerrado capturada pela câmera e os resultados da segmentação para as escalas selecionadas na amostra de uma sub-imagem. Cada região foi analisada em termos de contribuição das cores primárias (vermelho, verde e azul), como proposto por Richard et al. [52]. Inicialmente foi analisado cada canal de cor e calculado o valor médio da intensidade de pixel. Posteriormente, foi calculado o brilho (ou normalizado) relativo a cada canal de cor, como:

T otalavg.= V ermavg.+ V erdeavg.+ Azulavg. (3.1)

% of V erm = V ermavg.

T otalavg.

% of V erde = V erdeavg.

T otalavg. % of Azul =

Azulavg. T otalavg. 32 33 34 35 36 37 38 245 250 255 260 265 270 275 % of Brightness DOY

Figura 3.6: Série temporal (original).

Foram definidos seis RIs (Figura 3.7) com base na seleção de seis espécies de plantas identificadas na imagem capturada pela camera hemisférica: (1) Aspidosperma tomen-tosum (Figura 3.7(a)), (2) Caryocar brasiliensis (Figura 3.7(b)), (3) Myrcia guianesis (Figura 3.7(c)), (4) Miconia rubiginosa (Figura 3.7(d)), (5) em Pouteria ramiflora (Fi-gura 3.7(e)), and (6)Pouteria torta (Fi(Fi-gura 3.7(f)).

(33)

CAPÍTULO 3. METODOLOGIA 33

(a) Aspidosperma tomentosum (b) Caryocar brasiliensis (c) Myrcia guianesis

(d) Miconia rubiginosa (e) Pouteria ramiflora (f) Pouteria torta

Figura 3.7: Regiões de interesse definidas para análise de seis espécies de plantas do cerrado.

3.2.2

Protocolo de Avaliação: Busca de Séries Temporais por

Si-milaridade

A estratégia adotada para avaliar os descritores de forma, no contexto de descrição de sé-ries temporais foi baseada utilizando um protocolo de busca de sésé-ries temporais de regiões a partir dos descritores de forma extraídos das representações RP de séries temporais. Foi utilizado um protocolo com base na similaridade entre as regiões. Esta similaridade entre as regiões foi calculada com uma função de distância entre os vetores de características que foram extraídos das séries temporais. Um descritor de forma é melhor do que outro se o seu uso permitir que séries associadas às regiões pertencentes a mesma RI sejam posicionadas nas primeiras posições da lista ordenada retornada.

Consideramos que uma determinada região pertence a um RI, se pelo menos 80% do seu tamanho é sobreposto por tal RI. Em nossos experimentos, utilizamos somente regiões com a melhor escala, pois segundo [5], elas têm se mostrado mais eficazes para classificar espécies de plantas.

A Figura 3.6 mostra um exemplo de uma série temporal relacionada com os valores extraídos do canal R para uma das regiões na escala 5, considerando somente as imagens digitais obtidas ao meio dia.

(34)

Capítulo 4

Experimentos e Resultados

Neste capítulo, apresentamos mais detalhes acerca do protocolo experimental adotado para validação. Em especial, detalhamos como foi realizada cada etapa do protocolo experimental.

4.1

Protocolo Experimental

Esta seção descreve o conjunto de passos adotado no protocolo experimental relativos ao cálculo de distância e a medida de avaliação adotada assim como o teste estatístico realizado.

4.1.1

Cálculo de distância

Dadas as caraterísticas do nosso conjunto de dados e seguindo o que é recomendado pela literatura para tais características, a distância usada para medir a similaridade foi a Euclidiana. A distância foi calculada de cada característica para as demais (de uma mesma hora e canal de cor). Desta forma, as demais séries foram ordenadas segundo sua distância em relação ao objeto de consulta.

4.1.2

Medidas de Avaliação e Teste Estatístico

Avaliamos a eficácia de cada abordagem usando as métricas de precisão e revocação (re-call). A precisão é a razão entre o número de regiões relevantes recuperados e o número total de regiões relevantes e irrelevantes recuperados. A revocação é a razão entre o nú-mero de regiões relevantes recuperadas e o núnú-mero total de regiões relevantes na base de dados. Aqui, uma dada região é considerada como relevante apenas se ela pertence a um inidvíduo da mesma espécie da região cuja série é definida como consulta. No entanto, há um trade-off entre precisão e revocação. Uma maior precisão diminui a revocação e uma maior revocação leva à diminuição da precisão. Assim, optamos por apresentar um valor médio referente à Precisão em 5 (p@5), que é a precisão média para 5 regiões recuperadas. Esta métrica torna a comparação de diferentes descritores mais fácil. P @5 permite a avaliação da eficácia dos métodos, considerando apenas as primeiras posições

(35)

CAPÍTULO 4. EXPERIMENTOS E RESULTADOS 35

das listas ordenadas. Para cada abordagem, destacamos a hora do dia, canal de cor e threshold que proporcionou o melhor resultado, procedimento similar ao adotado em [4]. Ao final do processo, identificamos e comparamos as melhores versões de cada descri-tor, considerando, a hora do dia, canal de cor e threshold. Em seguida, realizamos teste estatístico, computando o intervalo de confiança (nível de confiança 99%), considerando a diferença de eficácia (P @5) para cada consulta. Se o intervalo de confiança incluir o zero, há diferença estatística entre os métodos [4].

4.2

Resultados Experimentais

Esta seção apresenta os resultados experimentais relativos à avaliação dos descritores de forma investigados neste trabalho.

4.2.1

Avaliação dos Descritores

A Figura 4.1 mostra o resultado p@5 para os descritores HOG, Moments Invariants, Edge Histogram e PHOG, considerando o canal R. Este gráfico considerou o valor de limiar 5 na Equação 2.1. Como pode ser observado, destacam-se:

• O bom desempenho do HOG às 06:00, 15:00 e 18:00h.

• O baixo desempenho do Moments Invariants para todas as horas do dia. • O bom desempenho do Edge Histogram às 06:00, 13:00h e 17:00h. • O bom desempenho do PHOG às 06:00, 14:00 e 18:00h.

Figura 4.1: Gráfico comparativo da avaliação dos descritores para o canal R e threshold 5, considerando a métrica p@5.

(36)

CAPÍTULO 4. EXPERIMENTOS E RESULTADOS 36

Figura 4.2: Gráfico comparativo da avaliação dos descritores para o canal R e threshold 10, considerando a métrica p@5

A Figura 4.2 é similar à Figura 4.1, com a diferença que é para o limiar 10 na Equa-ção 2.1. Como pode ser observado, destacam-se:

• O bom desempenho do HOG em todas as horas do dia.

• O baixo desempenho do Moments Invariants para todas as horas do dia. • O bom desempenho do Edge Histogram às 06:00, 10:00 e 18:00h.

• O bom desempenho do PHOG às 06:00, 09:00, 12:00h e 18:00h.

A Figura 4.3 é similar à Figura 4.2, com a diferença que é para o limiar 20 na Equa-ção 2.1. Como pode ser observado, destacam-se:

• O bom desempenho do HOG às 06:00, 07:00, 09:00, 13:00 e 18:00h. • O baixo desempenho do Moments Invariants para todas as horas do dia. • O bom desempenho do Edge Histogram às 06:00, 10:00, 15:00 e 18:00h. • O bom desempenho do PHOG às 06:00, 13:00 e 18:00h.

A Figura 4.4 também é similar à Figura 4.3, com a diferença que é para o limiar 50 na Equação 2.1. Destacam-se neste gráfico:

• O bom desempenho do HOG às 06:00, 10:00, 12:00, 15:00 e 18:00h. • O baixo desempenho do Moments Invariants para todas as horas do dia. • O bom desempenho do Edge Histogram às 06:00, 15:00 e 17:00h.

(37)

CAPÍTULO 4. EXPERIMENTOS E RESULTADOS 37

Figura 4.3: Gráfico comparativo da avaliação dos descritores para o canal R e threshold 20, considerando a métrica p@5.

Figura 4.4: Gráfico comparativo da avaliação dos descritores para o canal R e threshold 50, considerando a métrica p@5.

• O bom desempenho do PHOG às 06:00, 13:00 e 18:00h.

A Figura 4.5 mostra o resultado p@5 para os descritores HOG, Moments Invariants, Edge Histogram e PHOG, considerando o canal G. Este gráfico considerou o valor de limiar 5 na Equação 2.1. Como pode ser observado, destacam-se:

• O bom desempenho do HOG às 06:00, 10:00, 13:00, 15:00 e 18:00h. • O baixo desempenho do Moments Invariants para todas as horas do dia.

(38)

CAPÍTULO 4. EXPERIMENTOS E RESULTADOS 38

• O bom desempenho do Edge Histogram às 06:00h e 18:00h.. • O bom desempenho do PHOG às 06:00, 11:00 e 17:00h.

Figura 4.5: Gráfico comparativo da avaliação dos descritores para o canal G e threshold 5, considerando a métrica p@5.

Figura 4.6: Gráfico comparativo da avaliação dos descritores para o canal G e threshold 10, considerando a métrica p@5.

A Figura 4.6 é similar à Figura 4.5, com a diferença que é para o limiar 10 na Equação 2.1. Podemos observar:

(39)

CAPÍTULO 4. EXPERIMENTOS E RESULTADOS 39

• O bom desempenho do HOG às em praticamente todas as horas do dia. • O bom desempenho do Moments Invariants às 12:00, 15:00 e 18:00h. • O bom desempenho do Edge Histogram às 06:00, 11:00 e 17:00h. • O bom desempenho do PHOG às 06:00, 09:00 e 17:00h.

Figura 4.7: Gráfico comparativo da avaliação dos descritores para o canal G e threshold 20, considerando a métrica p@5.

A Figura 4.7 é similar à Figura 4.6, com a diferença que é para o limiar 20 na Equa-ção 2.1. Como pode-se observar, temos:

• O bom desempenho do HOG na maioria das as horas do dia.

• O baixo desempenho do Moments Invariants para todas as horas do dia. • O bom desempenho do Edge Histogram às 06:00, 10:00, 13:00 e 18:00h. • O bom desempenho do PHOG para as 06:00 e 17:00h.

A Figura 4.8 é similar à Figura 4.7, com a diferença que é para o limiar 50 na Equa-ção 2.1. Como podemos observar, destacam-se:

• O bom desempenho do HOG às 06:00, 09:00, 15:00 e 18:00h.

• O baixo desempenho do Moments Invariants para todas as horas do dia. • O bom desempenho do Edge Histogram às 06:00, 10:00, 13:00 e 17:00h. • O bom desempenho do PHOG para as 06:00, 09:00, 12:00, 15:00 e 18:00h.

(40)

CAPÍTULO 4. EXPERIMENTOS E RESULTADOS 40

Figura 4.8: Gráfico comparativo da avaliação dos descritores para o canal G e threshold 50, considerando a métrica p@5.

A Figura 4.9 mostra o resultado p@5 para os descritores HOG, Moments Invariants, Edge Histogram e PHOG, considerando o canal B. Este gráfico considerou o valor de limiar 5 na Equação 2.1. Como pode ser observado, destacam-se:

• O bom desempenho do HOG às 06:00, 09:00, 15:00 e 18:00h.

• O bom desempenho do Moments Invariants para às 06:00h e baixo desempenho para as demais horas do dia.

• O bom desempenho do Edge Histogram às 06:00, 09:00, 15:00 e 18:00h. • O bom desempenho do PHOG às 06:00, 09:00 e 18:00h.

A Figura 4.10 é similar à Figura 4.9, com a diferença que é para o limiar 10 na Equação 2.1. Como podemos observar, destacam-se:

• O bom desempenho do HOG às 06:00, 09:00, 14:00 e 18:00h.

• O baixo desempenho do Moments Invariants para todas as horas do dia. • O bom desempenho do Edge Histogram às 06:00, 12:00 e 17:00h.

• O bom desempenho do PHOG para as 06:00, 09:00 e 18:00h.

A Figura 4.11 é similar à Figura 4.10, com a diferença que é para o limiar 20 na Equação 2.1. Como pode-se ser observado, destacam-se:

• O bom desempenho do HOG às 06:00, 09:00, 14:00 e 18:00h.

(41)

CAPÍTULO 4. EXPERIMENTOS E RESULTADOS 41

Figura 4.9: Gráfico comparativo da avaliação dos descritores para o canal B e threshold 5, considerando a métrica p@5.

Figura 4.10: Gráfico comparativo da avaliação dos descritores para o canal B e th-reshold 10, considerando a métrica p@5.

• O bom desempenho do Edge Histogram às 06:00, 15:00 e 18:00h. • O bom desempenho do PHOG para as 06:00 e 09:00, 14:00 e 18:00h.

A Figura 4.12 é similar à Figura 4.11, com a diferença que é para o limiar 50 na Equação 2.1. Como podemos observar, destacam-se:

(42)

CAPÍTULO 4. EXPERIMENTOS E RESULTADOS 42

• O bom desempenho do Moments Invariants para 07:00h e baixo para as demais horas do dia.

• O bom desempenho do Edge Histogram às 06:00, 14:00, 17:00 e 18:00h. • O bom desempenho do PHOG para as 06:00 e 14:00 e 17:00h.

Figura 4.11: Gráfico comparativo da avaliação dos descritores para o canal B e th-reshold 20, considerando a métrica p@5.

Figura 4.12: Gráfico comparativo da avaliação dos descritores para o canal B e th-reshold 50, considerando a métrica p@5.

(43)

CAPÍTULO 4. EXPERIMENTOS E RESULTADOS 43

Análise dos Resultados

Dados os resultados apresentados anteriormente, podemos avaliar que:

1. Em geral, o HOG se mostrou melhor quando comparado aos outros descritores na grande maioria das horas do dia e nos três canais de cor.

2. O Moments Invariants em geral teve o pior resultado para todos os canais e todas as horas do dia.

3. No geral, os descritores tiveram o melhor desempenho próximo as horas extremas do dia, ou seja, próximo às 06:00 e próximo às 18:00h.

4. Os descritores apresentaram melhores desempenho com os valores de limiar 20 e 50. 5. Em geral, os descritores tiveram melhores resultados no canal B.

4.2.2

Testes Estatísticos

Este seção compara as melhores versões dos descritores, considerando a hora do dia, o canal de cor e o threshold usado para binarizar à imagem de recurrence plot. São elas: Edge Histogram (thre. 10, 6h, Canal B), HOG (thre. 20, 6h, Canal B), Moments (thre. 5, 6h, Canal B) e PHOG (thre. 10, 6h, Canal B).

Tabela 4.1: Diferenças de P @5 entre as melhores versões de descritores de forma, consi-derando hora do dia, canal de cor e threshold.

Intervalo de Confiança (95%)

Método min. max.

Edge Histogram (thre. 10, 6h, Canal B) – HOG (thre. 20, 6h, Canal B) -0.146 0.006

Edge Histogram (thre. 10, 6h, Canal B) – Moments (thre. 5, 6h, Canal B) 0,064 0,215

Edge Histogram (thre. 10, 6h, Canal B) – PHOG (thre. 10, 6h, Canal B) -0,195 0,015

HOG (thre. 20, 6h, Canal B) – Moments (thre. 5, 6h, Canal B) 0,085 0,117

HOG (thre. 20, 6h, Canal B) – PHOG (thre. 10, 6h, Canal B) -0,003 0,028

Moments (thre. 5, 6h, Canal B) – PHOG (thre. 10, 6h, Canal B) -0,103 -0,0734

A Tabela 4.1 apresenta os resultados do intervalo de confiança da diferença entre os melhores métodos comparados. Como pode ser observado o Edge Histogram tem resultado médio da ordem de 0, 38 e o HOG de 0, 32. Mas não há diferença estatística entre eles. O mesmo é observado em relação aos resultados do PHOG quando comparados aos do Edge Histogram e o HOG. Pode ser observado também que todos eles apresentam resultados estatisticamente superiores ao do Moments Invariants.

(44)

Capítulo 5

Conclusões

Esta dissertação tratou da representação de séries temporais extraídas a partir dos dados fenológicos do projeto e-phenology usando a representação recurrence plot (RP). O RP é uma representação capaz de revelar em quais pontos algumas trajetórias retornam a um estado visitado anteriormente. O objetivo deste trabalho identificar e investigar descrito-res de forma adequados para a caracterização de séries temporais associadas a diferentes horas do dia, a diferentes canais de cor, e a diferentes áreas de interesse. Trata-se de primeiro trabalho voltado à caracterização de imagens RP usando descritores de forma.

Os resultados experimentais apontam para a boa eficácia de descritores de forma na caracterização de representações RP de séries temporais, o que mostra que seu uso é promissor no contexto de busca de indivíduos de mesma espécie (regiões de interesse) em imagens de vegetação. Com base em nossos experimentos, constatamos que:

• em geral, o HOG apresentou os melhores resultados quando comparado aos outros descritores na grande maioria das horas do dia e nos três canais de cor.

• o descritor Moments Invariants em geral teve o pior resultado para todos os canais de cor e todas as horas do dia;

• em geral, os descritores tiveram o melhor desempenho próximo as horas extremas do dia, ou seja, próximo às 06:00 e próximo às 18:00h;

• os descritores apresentaram melhores desempenho com os valores de limiar 20 e 50 na Equação 2.1.

• no geral, os descritores apresentaram os melhores resultados no canal B. Como trabalhos futuros pretendemos:

1. investigar outros descritores de forma recentemente propostos na caracterização de imagens recurrence plot [61, 22];

2. estender a avaliação realizada para séries temporais de outros domínios (séries do mercado financeiro, por exemplo) e ou séries fenológicas associadas a dados de campo [3].

(45)

CAPÍTULO 5. CONCLUSÕES 45

3. investigar a correlação dos descritores de forma visando a definir mecanismos apro-priados para combiná-los. Técnicas supervisionadas [36, 18, 17] e não supervisiona-das [41] poderiam ser empregasupervisiona-das neste processo. Uma outra vertente associada a este tópico consiste na combinação de descritores de forma com outros tipos de des-critores (por exemplo, desdes-critores de textura). Um trabalho promissor para iniciar esta linha de pesquisa consiste no survey apresentado em [42].

(46)

Referências Bibliográficas

[1] H. Ahrends, S. Etzold, W. Kutsch, R. Stoeckli, R. Bruegger, F. Jeanneret, H. Wanner, N. Buchmann, and W. Eugster. Tree phenology and carbon dioxide fluxes: use of digital photography at for process-based interpretation the ecosystem scale. Climate Research, 39:261–274, 2009.

[2] H. Ellen Ahrends, R. Brügger, Reto Stöckli, Jürg Schenk, Pavel Michna, Francois Je-anneret, Heinz Wanner, and Werner Eugster. Quantitative phenological observations of a mixed beech forest in northern switzerland with digital photography. Journal of Geophysical Research: Biogeosciences, 113(G4):n/a–n/a, 2008. G04004.

[3] B. Alberton, J. Almeida, R. Helm, R. S. Torres, A. Menzel, and L. P. C. Morellato. Using phenological cameras to track the green up in a cerrado savanna and its on-the-ground validation. Ecological Informatics, 19:62 – 70, 2014.

[4] J. Almeida, J. A. Santos, B. Alberton, L. P. C. Morellato, and R. S. Torres. Vi-sual rhythm-based time series analysis for phenology studies. In IEEE International Conference on Image Processing, ICIP 2013, Melbourne, Australia, September 15-18, 2013, pages 4412–4416, 2013.

[5] J. Almeida, J. A. Santos, B. Alberton, R. S. Torres, and L. P. C. Morellato. Remote phenology: Applying machine learning to detect phenological patterns in a cerrado savanna. In IEEE International Conference on eScience (eScience’12), pages 1–8, 2012.

[6] J. Almeida, J. A. Santos, B. Alberton, R. S. Torres, and L. P. C. Morellato. Applying machine learning based on multiscale classifiers to detect remote phenology patterns in cerrado savanna trees. Ecological Informatics, 23:49 – 61, 2014. Special Issue on Multimedia in Ecology and Environment.

[7] F. A. Andaló. Descritores de forma baseados em tensor scale. Msc thesis, Universi-dade Estadual de Campinas . Instituto de Computação., 2007.

[8] A. Bosch, A. Zisserman, and X. Munoz. Representing shape with a spatial pyramid kernel. In Proceedings of the 6th ACM International Conference on Image and Video Retrieval, CIVR ’07, pages 401–408, New York, NY, USA, 2007. ACM.

[9] S. Chang, T. Sikora, and A. Purl. Overview of the mpeg-7 standard. Circuits and Systems for Video Technology, IEEE Transactions on, 11(6):688–695, Jun 2001.

Referências

Documentos relacionados

A participação de mulheres no islamismo é grande, haja vista o grupo das Irmãs Muçulmanas (parte integrante da Irmandade Muçulmana) e a enorme quantidade (por volta de um

Esse processo, como descrito por Markwick e Fill (1997), traduz a identidade em imagem corporativa e enfatiza o modo que a empresa utiliza para se apresentar aos seus

Médias ± EP da duração e viabilidade da fase pupal de Tuta absoluta proveniente de lagartas criadas em folhas de tomateiro tratadas com extratos aquosos 0,1% de folhas de

esta espécie foi encontrada em borda de mata ciliar, savana graminosa, savana parque e área de transição mata ciliar e savana.. Observações: Esta espécie ocorre

O valor da reputação dos pseudônimos é igual a 0,8 devido aos fal- sos positivos do mecanismo auxiliar, que acabam por fazer com que a reputação mesmo dos usuários que enviam

Esta pesquisa discorre de uma situação pontual recorrente de um processo produtivo, onde se verifica as técnicas padronizadas e estudo dos indicadores em uma observação sistêmica

Em última análise, a única maneira pela qual qualquer pessoa é justifica- da diante de Deus é pelas obras; somos salvos pelas obras, e apenas pelas obras?. Mas obras

1º HOMOLOGAR o afastamento do Professor do Magistério Superior FERNANDO SÉRGIO VALENTE PINHEIRO, matrícula nº 388424, lotado no Campus Capanema, no período de 16