Tegen et al (2014) - Anotac¸˜ao de imagem

3.2 Anotac¸˜ao de imagem

3.3.2 Tegen et al (2014)

Visando aprender a forma como os humanos descrevem uma imagem nas legendas, em (TEGEN et al., 2014) é proposto um sistema cujo objetivo é ligar as regiões da imagem às palavras

que aparecem nas legendas. Para tanto, o sistema proposto, descrito na Figura 3.30, utiliza caracter´ısticas visuais da imagem e caracter´ısticas textuais da legenda da imagem.

Figura 3.30: Arquitetura do sistema proposto para alinhamento texto-imagem em (TEGEN et al., 2014).

Fonte: (TEGEN et al., 2014)

O trabalho foi realizado com base no banco de imagens SAIAPR TC-12 (ESCALANTE et al., 2010; GRUBINGER et al., 2006) que contém 20.000 imagens anotadas. Além das anotações de referência presentes no SAIAPR, anotações adicionais foram feitas para a obtenção de um conjunto de validação confiável (conjunto de referência). Para tanto, as regiões das imagens do SAIAPR foram rotuladas manualmente com um vocabulário de 282 rótulos. Devido à variada frequência com que esses rótulos aparecem, foram escolhidas as 100 palavras mais frequentes e estas foram divididas em 13 classes visuais13: água, céu, vegetação, construção, humanos, objetos da casa, solo, animal, ve´ıculo, montanha, estrada, piso e tecidos.

O sistema proposto realiza duas etapas: treinamento e anotac¸˜ao das imagens. Na etapa de

13_{Apenas 13 classes foram consideradas devido ao agrupamento de palavras semelhantes (que possuem o mesmo} significado) numa mesma classe.

3.3 Alinhamento texto-imagem 58

treinamento ocorre: (1) o treinamento utilizando as regiões anotadas para estimar à qual das 13 classes visuais pertence a região (Visual Pipeline, ilustrado na Figura 3.30) e (2) a remoção de palavras que estão na legenda mas não foram anotadas manualmente (Semantic Pipeline, ilustrado na Figura 3.30).

O treinamento das regiões inicia-se com a obtenção das caracter´ısticas visuais, por meio da segmentação das imagens em regiões utilizando o segmentador CPMC (CARREIRA; SMINCHI- SESCU, 2010). O CPMC segmenta a imagem a partir da similaridade entre pixels adjacentes e a partir de uma classificação de qualidade dos segmentos e agrupa as regiões com maior po- tencial em uma imagem utilizando uma implementação do Random Forest (BREIMAN, 2001) dispon´ıvel na biblioteca LIBLINEAR (FAN et al., 2008). Como parâmetro para o CPMC foi definido um número de regiões de 500 à 1.000.

Em seguida, para cada região da imagem, são extra´ıdas caracter´ısticas visuais como: lar- gura e altura, média e desvio padrão dos eixos x e y, bordas, convexidade, desvio padrão e assimetria dos espaços de cores RGB e CIE-Lab. Essas caracter´ısticas também foram utilizadas por Carbonetto (2003). As caracter´ısticas extra´ıdas são, então, usadas no treinamento de utiliza as regiões já anotadas anteriormente como dados de treinamento e estima a probabilidade de cada região pertencer a uma das 13 classes.

A segunda etapa de treinamento (via Semantic Pipeline) objetiva remover as palavras de uma legenda que não foram anotadas manualmente, significando que essas palavras removidas não possuem caracter´ısticas visuais. Essas palavras são armazenadas e toda vez que aparecem em uma legenda são ignoradas na tarefa de anotação da imagem. Para a extração das palavras pertencentes à legenda das imagens, foi aplicado um analisador sintático (chunker) (LAI; HOC- KENMAIER, 2014) que separa o texto em sintagmas. Os sintagmas nominais foram escolhidos

para a extração das palavras-chave pois geralmente fazem menção a objetos e lugares. A palavra mais à direita é escolhida dentro de cada sintagma. As palavras que não foram descartadas são consideradas palavras-chave.

A etapa final do sistema consiste em anotar as regiões de uma imagem com as palavras- chave contidas na legenda. Cada região da imagem encontrada pelo segmentador CPMC é classificada em uma das 13 classes visuais pelo regressor LIBLINEAR. Em alguns casos há regiões que não correspondem a nenhuma das classes visuais. Quando isso acontece, a região não é anotada. Para cada palavra-chave é calculada a probabilidade de pertencer a uma das 13 classes visuais. Essa probabilidade é estimada utilizando a hierarquia da WordNet para calcular a distância entre a palavra-chave e as classes visuais.

da regi˜ao. Caso mais de uma palavra remeta a uma mesma classe visual, escolhe-se a palavra- chave que possui um maior valor de distˆancia calculado pela WordNet.

O sistema foi testado com 142 imagens do banco SAIAPR. Para essas imagens, foram encontradas 1.109 palavras-chave das quais apenas 754 possu´ıam regiões anotadas no conjunto de referência. Das 754 regiões, o sistema produziu anotação para apenas 482. Dessas, 466 palavras-chave foram atribu´ıdas às mesmas regiões que as anotações de referência e 16 palavras foram atribu´ıdas a regiões pelo sistema mas nas anotações a palavra foi anotada como “palavra sem região”. Levando em consideração todas as 754 palavras-chave, o sistema deixou de anotar 288 palavras que verdadeiramente possu´ıam uma região.

Para a avaliação da ligação entre as regiões da imagem geradas pelo CPMC e as regiões do conjunto de referência foi utilizado o ´ındice de Jaccard (1901) que é calculado pela equação a seguir: J(A, B) = |A T B| |AS B| (3.3)

sendo A o conjunto de pixels pertencentes às regiões de referência e Bo conjunto de pixels gerados pelo sistema. O ´ındice de Jaccard tem como valor m´ınimo 0 e valor máximo 1. Quanto maior o valor do ´ındice, mais semelhantes são as regiões avaliadas. Alguns resultados com as pontuações medidas pelo ´ındice de Jaccard podem ser visualizados na Figura 3.31.

Figura 3.31: Alguns resultados de classificac¸˜ao do sistema proposto em (TEGEN et al., 2014) e o respectivo valor para o ´ındice de Jaccard (1901)

Cap´ıtulo 4

O ALINHADOR TEXTO-IMAGEM

LINKPICS

O alinhador LinkPICS, descrito neste documento, tem a tarefa de alinhar os elementos presentes no texto de uma not´ıcia com os elementos presentes na imagem associada. A seção 4.1 descreve a arquitetura do LinkPICS e, em suas subseções, cada uma das etapas envolvidas no processo de alinhamento texto-imagem proposto neste trabalho. Por fim, a seção 4.2 ilustra a sa´ıda gerada pelo LinkPICS.

4.1 Arquitetura do LinkPICS

A arquitetura proposta para o LinkPICS est´a baseada em (NOEL; PETERSON, 2013), que

faz distinc¸˜ao entre “pessoa” e outras categorias, aqui chamadas de “objeto”, como ilustrado na Figura 3.26; e (TEGEN et al., 2014), que divide o alinhamento em processamento de imagem e de texto, como no LinkPICS, como ilustrado na Figura 3.30.

No LinkPICS, o alinhamento texto-imagem é realizado em cinco etapas, conforme ilustrado na Figura 4.1 e detalhado nas próximas subseções: (1) extração da not´ıcia, (2) processamento de imagem, (3) processamento de texto, (4) alinhador de pessoas e (5) alinhador de objetos.

No documento UNIVERSIDADE FEDERAL DE S ˜ (páginas 72-76)