• Nenhum resultado encontrado

Tegen et al (2014)

No documento UNIVERSIDADE FEDERAL DE S ˜ (páginas 72-76)

3.2 Anotac¸˜ao de imagem

3.3.2 Tegen et al (2014)

Visando aprender a forma como os humanos descrevem uma imagem nas legendas, em (TEGEN et al., 2014) ´e proposto um sistema cujo objetivo ´e ligar as regi˜oes da imagem `as palavras

que aparecem nas legendas. Para tanto, o sistema proposto, descrito na Figura 3.30, utiliza caracter´ısticas visuais da imagem e caracter´ısticas textuais da legenda da imagem.

Figura 3.30: Arquitetura do sistema proposto para alinhamento texto-imagem em (TEGEN et al., 2014).

Fonte: (TEGEN et al., 2014)

O trabalho foi realizado com base no banco de imagens SAIAPR TC-12 (ESCALANTE et al., 2010; GRUBINGER et al., 2006) que cont´em 20.000 imagens anotadas. Al´em das anotac¸˜oes de referˆencia presentes no SAIAPR, anotac¸˜oes adicionais foram feitas para a obtenc¸˜ao de um conjunto de validac¸˜ao confi´avel (conjunto de referˆencia). Para tanto, as regi˜oes das imagens do SAIAPR foram rotuladas manualmente com um vocabul´ario de 282 r´otulos. Devido `a variada frequˆencia com que esses r´otulos aparecem, foram escolhidas as 100 palavras mais frequentes e estas foram divididas em 13 classes visuais13: ´agua, c´eu, vegetac¸˜ao, construc¸˜ao, humanos, objetos da casa, solo, animal, ve´ıculo, montanha, estrada, piso e tecidos.

O sistema proposto realiza duas etapas: treinamento e anotac¸˜ao das imagens. Na etapa de

13Apenas 13 classes foram consideradas devido ao agrupamento de palavras semelhantes (que possuem o mesmo significado) numa mesma classe.

3.3 Alinhamento texto-imagem 58

treinamento ocorre: (1) o treinamento utilizando as regi˜oes anotadas para estimar `a qual das 13 classes visuais pertence a regi˜ao (Visual Pipeline, ilustrado na Figura 3.30) e (2) a remoc¸˜ao de palavras que est˜ao na legenda mas n˜ao foram anotadas manualmente (Semantic Pipeline, ilustrado na Figura 3.30).

O treinamento das regi˜oes inicia-se com a obtenc¸˜ao das caracter´ısticas visuais, por meio da segmentac¸˜ao das imagens em regi˜oes utilizando o segmentador CPMC (CARREIRA; SMINCHI- SESCU, 2010). O CPMC segmenta a imagem a partir da similaridade entre pixels adjacentes e a partir de uma classificac¸˜ao de qualidade dos segmentos e agrupa as regi˜oes com maior po- tencial em uma imagem utilizando uma implementac¸˜ao do Random Forest (BREIMAN, 2001) dispon´ıvel na biblioteca LIBLINEAR (FAN et al., 2008). Como parˆametro para o CPMC foi definido um n´umero de regi˜oes de 500 `a 1.000.

Em seguida, para cada regi˜ao da imagem, s˜ao extra´ıdas caracter´ısticas visuais como: lar- gura e altura, m´edia e desvio padr˜ao dos eixos x e y, bordas, convexidade, desvio padr˜ao e assimetria dos espac¸os de cores RGB e CIE-Lab. Essas caracter´ısticas tamb´em foram utilizadas por Carbonetto (2003). As caracter´ısticas extra´ıdas s˜ao, ent˜ao, usadas no treinamento de utiliza as regi˜oes j´a anotadas anteriormente como dados de treinamento e estima a probabilidade de cada regi˜ao pertencer a uma das 13 classes.

A segunda etapa de treinamento (via Semantic Pipeline) objetiva remover as palavras de uma legenda que n˜ao foram anotadas manualmente, significando que essas palavras removidas n˜ao possuem caracter´ısticas visuais. Essas palavras s˜ao armazenadas e toda vez que aparecem em uma legenda s˜ao ignoradas na tarefa de anotac¸˜ao da imagem. Para a extrac¸˜ao das palavras pertencentes `a legenda das imagens, foi aplicado um analisador sint´atico (chunker) (LAI; HOC- KENMAIER, 2014) que separa o texto em sintagmas. Os sintagmas nominais foram escolhidos

para a extrac¸˜ao das palavras-chave pois geralmente fazem menc¸˜ao a objetos e lugares. A pala- vra mais `a direita ´e escolhida dentro de cada sintagma. As palavras que n˜ao foram descartadas s˜ao consideradas palavras-chave.

A etapa final do sistema consiste em anotar as regi˜oes de uma imagem com as palavras- chave contidas na legenda. Cada regi˜ao da imagem encontrada pelo segmentador CPMC ´e classificada em uma das 13 classes visuais pelo regressor LIBLINEAR. Em alguns casos h´a regi˜oes que n˜ao correspondem a nenhuma das classes visuais. Quando isso acontece, a regi˜ao n˜ao ´e anotada. Para cada palavra-chave ´e calculada a probabilidade de pertencer a uma das 13 classes visuais. Essa probabilidade ´e estimada utilizando a hierarquia da WordNet para calcular a distˆancia entre a palavra-chave e as classes visuais.

da regi˜ao. Caso mais de uma palavra remeta a uma mesma classe visual, escolhe-se a palavra- chave que possui um maior valor de distˆancia calculado pela WordNet.

O sistema foi testado com 142 imagens do banco SAIAPR. Para essas imagens, foram encontradas 1.109 palavras-chave das quais apenas 754 possu´ıam regi˜oes anotadas no conjunto de referˆencia. Das 754 regi˜oes, o sistema produziu anotac¸˜ao para apenas 482. Dessas, 466 palavras-chave foram atribu´ıdas `as mesmas regi˜oes que as anotac¸˜oes de referˆencia e 16 palavras foram atribu´ıdas a regi˜oes pelo sistema mas nas anotac¸˜oes a palavra foi anotada como “palavra sem regi˜ao”. Levando em considerac¸˜ao todas as 754 palavras-chave, o sistema deixou de anotar 288 palavras que verdadeiramente possu´ıam uma regi˜ao.

Para a avaliac¸˜ao da ligac¸˜ao entre as regi˜oes da imagem geradas pelo CPMC e as regi˜oes do conjunto de referˆencia foi utilizado o ´ındice de Jaccard (1901) que ´e calculado pela equac¸˜ao a seguir: J(A, B) = |A T B| |AS B| (3.3)

sendo A o conjunto de pixels pertencentes `as regi˜oes de referˆencia e Bo conjunto de pixels gerados pelo sistema. O ´ındice de Jaccard tem como valor m´ınimo 0 e valor m´aximo 1. Quanto maior o valor do ´ındice, mais semelhantes s˜ao as regi˜oes avaliadas. Alguns resultados com as pontuac¸˜oes medidas pelo ´ındice de Jaccard podem ser visualizados na Figura 3.31.

Figura 3.31: Alguns resultados de classificac¸˜ao do sistema proposto em (TEGEN et al., 2014) e o respectivo valor para o ´ındice de Jaccard (1901)

.

Cap´ıtulo 4

O ALINHADOR TEXTO-IMAGEM

LINKPICS

O alinhador LinkPICS, descrito neste documento, tem a tarefa de alinhar os elementos presentes no texto de uma not´ıcia com os elementos presentes na imagem associada. A sec¸˜ao 4.1 descreve a arquitetura do LinkPICS e, em suas subsec¸˜oes, cada uma das etapas envolvidas no processo de alinhamento texto-imagem proposto neste trabalho. Por fim, a sec¸˜ao 4.2 ilustra a sa´ıda gerada pelo LinkPICS.

4.1

Arquitetura do LinkPICS

A arquitetura proposta para o LinkPICS est´a baseada em (NOEL; PETERSON, 2013), que

faz distinc¸˜ao entre “pessoa” e outras categorias, aqui chamadas de “objeto”, como ilustrado na Figura 3.26; e (TEGEN et al., 2014), que divide o alinhamento em processamento de imagem e de texto, como no LinkPICS, como ilustrado na Figura 3.30.

No LinkPICS, o alinhamento texto-imagem ´e realizado em cinco etapas, conforme ilustrado na Figura 4.1 e detalhado nas pr´oximas subsec¸˜oes: (1) extrac¸˜ao da not´ıcia, (2) processamento de imagem, (3) processamento de texto, (4) alinhador de pessoas e (5) alinhador de objetos.

No documento UNIVERSIDADE FEDERAL DE S ˜ (páginas 72-76)

Documentos relacionados