• Nenhum resultado encontrado

Baseados em Dicionários Visuais

5.3.1 Classificação de Imagens em Cidades Históricas

Nos trabalhos citados anteriormente, é possível perceber que em nenhum momento se aborda o assunto de detecção automática de imagens em cidades históricas ou classi- ficação de estilos arquitetônicos e, tampouco, a existência de bases de dados anotadas para esse fim é relatada. Portanto, é corriqueiro que trabalhos relacionados com essa área tenham que prover e anotar as suas próprias bases de dados, que geralmente não são disponibilizadas, trazendo dificuldades para a comparação entre métodos. Gerar as próprias bases de dados anotadas foi a solução encontrada por Shalunts et al. [2011, 2012a,b] e Mathias et al. [2011] para testar suas metodologias, descritas a partir de agora.

O método proposto por Shalunts et al. [2011], baseado na técnica de BoW, classi- fica janelas de edificações em três estilos arquitetônicos, sendo eles: Românico, Gótico e Renascentista/Barroco. Shalunts et al. [2011] avaliam a classificação final que será dada a uma janela levando em consideração a resposta máxima observada no histo- grama dos BoW feito a partir de sua imagem, considerando os três estilos citados anteriormente.

Ao invés de janelas, Shalunts et al. [2012a] utiliza domos, classificando os mesmos entre os estilos Renascentista, Russo e Islâmico. Para isso, esse método de classificação segue uma abordagem em três passos que determinam os estilos por eliminação: (i) a altura e a largura de um domo são usadas para separar os pertencentes ao estilo Islâmico; (ii) determinados tons da cor dourada ajudam a selecionar os domos Russos; e (iii) o passo final é baseado em BoW e detecta se o domo é Renascentista ou se pertence aos dois estilos anteriores e não foi classificado corretamente nos dois primeiros passos, usando novamente a resposta máxima do histograma dos BoW da imagem em relação aos estilos [Shalunts et al., 2011].

Adicionalmente, Shalunts et al. [2012b] classificam elementos arquitetônicos di- ferentes, estendendo Shalunts et al. [2011]. Os elementos são traceria2, frontão3 e

balaustrada4, associados ao estilo barroco ou ao gótico.

Indo além da classificação de elementos arquitetônicos, Mathias et al. [2011] abor- dam a identificação de estilos arquitetônicos em fachadas de edificações. Os autores propõem, inicialmente, a identificação da cena conforme sua natureza, como por exem- plo: Sem edificações, Parte de edificação, Rua ou Fachadas. Caso a classe Fachadas seja identificada, a imagem é retificada e as fachadas presentes nela são separadas. Final-

2

Ornamento feito em pedra.

3

Arremate superior de portas e janelas, bem como elemento de vedação entre o telhado duas águas e as paredes.

4

5.3. Classificação de Imagens 81 mente, o classificador Naïve-Bayes Nearest-Neighbor (NBNN) faz a distinção de cada fachada entre os estilos: Renascimento Flamenco5, Haussmanniano6 e Neoclássico.

Em um trabalho mais recente, Doersch et al. [2012] apresentam a associação entre imagens georreferenciadas e a detecção de elementos arquitetônicos de forma a possibilitar a classificação de imagens conforme sua localização geográfica. Dessa forma, cenas urbanas não anotadas podem ser relacionadas com as cidades segundo suas características arquitetônicas. No trabalho, são desenvolvidos vários testes e avaliadas as respostas para as cidades de Paris, Londres, Praga, Milão e Barcelona.

5.3.2

O Uso da Segmentação na Classificação de Imagens

A segmentação das cenas também pode contribuir para a identificação e classificação de objetos e imagens. São discutidos, a seguir, vários modelos de segmentação que, num primeiro momento, buscam a identificação de objetos específicos nas cenas para posteriormente segmentá-las conforme as informações obtidas inicialmente. Observa- se, também, o emprego da segmentação nos trabalhos sobre classificação de estilos arquitetônicos em cidades históricas citados na seção anterior.

Russell et al. [2009] tornam possível que uma imagem de busca seja descrita atra- vés de casamentos parciais de cenas similares. A otimização na técnica de casamentos parciais acontece através do emprego da segmentação baseada em MRF, que atua sobre as informações de bordas. Para cada imagem de busca é associada uma pilha contendo imagens semelhantes à primeira, usando o descritor Gist [Oliva & Torralba, 2001]. A pilha é usada para segmentar a imagem de busca através da detecção de bordas e, pos- teriormente, a detecção de regiões. A primeira é feita através do uso do algoritmo de detecção de bordas Probability of Boundary Edge Detector (PB) [Martin et al., 2004] e das imagens contidas na pilha, que auxiliam na descoberta das bordas entre objetos, que são de interesse para a segmentação, e as bordas internas aos objetos, que são descartadas. No caso das regiões, retalhos retangulares da pilha são comparados com os da imagem de busca e depois agrupados, usando o algoritmo K–means, formando regiões maiores na imagem. Finalmente, as duas informações são combinadas de forma a definir a segmentação definitiva da imagem. Os resultados obtidos por Russell et al. [2009] podem ser vistos na Figura 5.3. Os autores afirmam que, além do casamento entre cenas, a técnica pode ser usada em tarefas como reconhecimento de objetos ou computação gráfica.

5

Movimento renascentista ocorrido nos Países Baixos.

6

Decorrente da reforma urbana de Paris promovida por Georges-Eugène Haussmann de 1852 a 1870

82 Capítulo 5. Trabalhos Relacionados

(a) (b)

(c)

Figura 5.3: Exemplo do uso da segmentação usando composição de imagens extraído de Russell et al. [2009]: (a) apresenta a imagem de pesquisa usada, (b) a segmentação da imagem de pesquisa e (c) os resultados obtidos na busca usando a segmentação feita em (b).

A segmentação semântica de cenas urbanas também é abordada por Zhang et al. [2010] como um tópico de pesquisa importante para compreensão de cena (scene un- derstanding) e modelagem baseada em imagens para cidades e áreas urbanas. A cor- respondência entre elementos para prover a transferência das anotações para a imagem de busca é baseada na técnica K-Nearest-Neighbors–Markov Random Field (KNN– MRF). É importante frisar que os elementos que serão combinados entre as imagens são chamados de superpixel, ou seja, são concatenações de grupos de pixels vizinhos nas imagens.

O uso da técnica BoW por Sivic et al. [2005] objetiva descobrir categorias de objetos em um conjunto de imagens não anotadas e, consequentemente, segmentar essas imagens. A aplicação de doublets, que codificam regiões espacialmente sobrepostas e são uma extensão do vocabulário habitual da técnica BoW, propicia uma segmentação mais refinada das imagens, sendo que a aprendizagem não-supervisionada sobre as divisões se dá pelo algoritmo probabilistic Latent Semantic Analysis (pLSA) e é comparada com resultados obtidos através do algoritmo K–means.

5.4. Considerações 83 Nos trabalhos de classificação de imagens de cidades históricas é muito comum, também, o uso da segmentação, uma vez que o processo de classificação é dirigido para elementos arquitetônicos específicos, presentes nas edificações.

No trabalho de Shalunts et al. [2011], cujo objetivo é a detecção do estilo ar- quitetônico de janelas, os detectores de janelas vistos por Ali et al. [2007]; Recky & Leberl [2010a,b] são usados para a geração de delimitadores retangulares em volta dos objetos. Por outro lado, Shalunts et al. [2012a] propõem que as regiões delimitadoras dos domos a serem classificados sejam geradas manualmente, através da intervenção de usuários.

Outras propostas de solução do problema de segmentação semântica automática de imagens envolvem o uso de um repositório de imagens anotadas para realizar a transferência das anotações para os objetos, a partir de uma segmentação inicial [Liu et al., 2009] e, ainda, há os que tem o objetivo de localizar a posição dos objetos dentro da imagem para uma posterior reconstrução tridimensional [Snavely et al., 2006].

5.4

Considerações

Foram vistas, aqui, algumas das principais técnicas utilizadas nas tarefas de classifica- ção de imagens. Primeiramente, as técnicas de representação de imagens por meio de dicionários visuais foram abordadas, sendo discutidas as suas principais vantagens e, também, seus pontos fracos.

Posteriormente, deu-se atenção a uma das principais técnicas de aprendizagem supervisionada voltada para a classificação de imagens que são as SVM.

O uso combinado das técnicas vistas tem proporcionado enormes avanços na clas- sificação automática de imagens, mas carece, ainda, do uso de informações semânticas a respeito do conteúdo das imagens. Essa abordagem traz benefícios importantes, como uma maior robustez dos descritores de nível médio gerados em relação a transformações afins e melhor controle da compacidade desses descritores.

Os métodos de representação de imagens por dicionários visuais BoW [Sivic & Zisserman, 2003; Csurka et al., 2004] e SPM [Lazebnik et al., 2006] serão a base para o método Semantic Spatial Pyramids (SSP), cujo objetivo é efetuar a quantização dos descritores das imagens através de dicionários visuais e regiões semânticas. A ideia de empregar regiões semânticas na tarefa de classificação de imagens veio dos trabalhos propostos por Oliva & Torralba [2001] e Torralba et al. [2008], nos quais resultados promissores foram obtidos para segmentar regiões das imagens de street-view usando informação semântica. O sucesso desses autores nos motivou a questionar se regiões

84 Capítulo 5. Trabalhos Relacionados semanticamente obtidas não poderiam ser utilizadas na melhoria das representações baseadas em BoW.

Finalmente, observam-se diversos trabalhos da literatura relacionados com as propostas presentes neste texto, como em Shalunts et al. [2011, 2012a,b] e Mathias et al. [2011], na classificação de estilos arquitetônicos em bases de dados de fachadas de cidades históricas.

Capítulo 6

Contribuições Propostas para a