Os Momentos de Zernike no Reconhecimento
de Contornos de Edif´ıcios
Renata Nagima Imada,
Mestranda em Matem´atica Aplicada e Computacional, FCT, UNESP 19060-900, Presidente Prudente, SP
E-mail: [email protected]
Aluir Porf´ırio Dal Poz
Departamento de Cartografia, FCT, UNESP 19060-900, Presidente Prudente, SP
E-mail: [email protected].
Resumo: Prop˜oe-se neste trabalho estudar e avaliar experimentalmente o problema de carac-teriza¸c˜ao e reconhecimento de formas de contorno de edif´ıcio usando os momentos complexos de Zernike. Primeiramente, faz-se um estudo te´orico de todos os fundamentos que ser˜ao utili-zados em seu desenvolvimento, para posteriormente criar uma base de dados contendo esbo¸cos de poss´ıveis apari¸c˜oes de contornos de edif´ıcio numa dada cena e associar a cada esbo¸co um vetor de descritores baseados nos momentos de Zernike e assim avaliar a capacidade do m´etodo na discrimina¸c˜ao entre diferentes formas de edif´ıcios, e tamb´em entre formas de edif´ıcios e n˜ao edif´ıcios.
Palavras-chave: Imagens de alta resolu¸c˜ao, Segmenta¸c˜ao de imagem, Polinˆomios ortogonais de Zernike, Momentos de Zernike, Contorno de edif´ıcios.
Introdu¸c˜ao
As edifica¸c˜oes urbanas s˜ao objetos topogr´aficos de grande importˆancia para o mapeamento cadastral em escala grande e para tarefas espec´ıficas como o planejamento urbano e a an´alise ambiental.
Atualmente est˜ao dispon´ıveis imagens de alta resolu¸c˜ao (GSD entre 0,6 m e 2,5 m) de variados sensores, embarcados em sat´elites tais como o Ikonos e o Quickbird.
A compila¸c˜ao manual de edifica¸c˜oes usando t´ecnicas convencionais de restitui¸c˜ao fotogram´ e-trica ´e bastante onerosa, tanto em termos de tempo quanto financeiro. Assim, ´e fundamental o aumento do n´ıvel de automa¸c˜ao dos processos de compila¸c˜ao de edifica¸c˜oes a partir de imagens de alta resolu¸c˜ao, trazendo duas implica¸c˜oes importantes: maior agilidade e menor custo na compila¸c˜ao de grande massa de dados capturados por sensores diversos (imagens a´ereas e de sat´elite, dados de varredura a laser, etc.). Isso tamb´em ´e importante para viabilizar ciclos mais curtos de atualiza¸c˜ao de bases de dados topogr´aficos de edifica¸c˜oes (Sowmya e Trinder, 2000).
As imagens de alta resolu¸c˜ao facilitam a identifica¸c˜ao de edifica¸c˜oes, mas tamb´em imp˜oem desafios aos m´etodos cl´assicos de an´alise de imagem, tais como os voltados para a classifica¸c˜ao de imagens ao n´ıvel do pixel e para a segmenta¸c˜ao por regi˜oes. De fato, com o aumento da resolu¸c˜ao espacial os edif´ıcios podem se manifestar geometricamente de forma mais intrincada
e espectralmente com assinaturas espectrais variadas em fun¸c˜ao de v´arios fatores, tais como, varia¸c˜oes na orienta¸c˜ao e nos materiais dos telhados.
Assim, uma melhor explora¸c˜ao do potencial das imagens de alta resolu¸c˜ao depende da mo-delagem mais eficiente das caracter´ısticas geom´etricas do objeto de interesse.
Diante dessa discuss˜ao, prop˜oe-se estudar o problema de caracteriza¸c˜ao de forma de contorno de edif´ıcio usando os momentos complexos de Zernike, que baseiam-se na ´area do objeto de interesse e s˜ao invariantes em rela¸c˜ao a transforma¸c˜oes geom´etricas de rota¸c˜ao, transla¸c˜ao e escala; e s˜ao pouco sens´ıveis a deforma¸c˜oes no contorno.
Metodologia
De in´ıcio, deve-se segmentar por regi˜oes a imagem a ser trabalhada, pois ser˜ao geradas regi˜oes (segmentos) da imagem a serem submetidas `a an´alise de forma com base no m´etodo dos momentos de Zernike.
E assim, atrav´es da segmenta¸c˜ao, ser´a poss´ıvel melhor interpretar a imagem, que ser´a parti-cionada em regi˜oes que representam seus diferentes objetos ou partes de objetos. Essas parti¸c˜oes s˜ao encontradas a partir dos n´ıveis de cinza da imagem. Dada uma imagem I, o problema de segmenta¸c˜ao pode ser visto como uma parti¸c˜ao dessa imagem em n regi˜oes R1, R2, ..., Rn, tal
que (Jain et al., 1995, Pedrini e Schwartz, 2008): (a) n S i=1 Ri = I; (b) Ri∩ Rj = ∅ para todo i e j, i 6= j; (c) P (Ri) = V ERDADEIRO para i = 1, 2, ..., n;
(d) P (Ri∪ Rj) = F ALSO para i 6= j e Ri adjacente a Rj.
onde P (Ri) ´e um atributo de homogeneidade para os pontos do conjunto Ri, ou seja, ´e uma
senten¸ca que se refere a determinadas propriedades que servem para agrupar os pixels da imagem em uma regi˜ao, tais como intensidade m´edia, variˆancia, textura ou cor.
A primeira condi¸c˜ao quer dizer que cada pixel deve pertencer a uma regi˜ao, desse modo, a uni˜ao de todas as regi˜oes ´e a pr´opria imagem. A condi¸c˜ao (b) indica que as regi˜oes s˜ao distintas, logo, a interse¸c˜ao de duas regi˜oes deve ser o conjunto vazio. A condi¸c˜ao (c) estabelece que o pixel deve satisfazer `a senten¸ca P (Ri) para pertencer `a regi˜ao Ri e a condi¸c˜ao (d) indica que a
fus˜ao de duas regi˜oes adjacentes n˜ao satisfaz a mesma senten¸ca P , isto ´e, elas n˜ao podem ser unidas em uma ´unica regi˜ao.
Uma forma simples de segmenta¸c˜ao ´e dividir a imagem em dois conjuntos, convertendo-a em uma imagem bin´aria, onde um dos conjuntos representa os objetos e o outro ´e reservado para o fundo. No entanto, este conceito pode ser generalizado para segmentar imagens com mais de dois n´ıveis, atrav´es de algoritmos de limiariza¸c˜ao, que analisam a distribui¸c˜ao dos n´ıveis de cinza, geralmente utilizando o histograma da imagem e, dependendo da aplica¸c˜ao, selecionam o limiar mais apropriado.
Existem diversos m´etodos para a segmenta¸c˜ao de imagens por regi˜oes: m´etodos pontuais (limiar percentual, moda, limiariza¸c˜ao iterativa, limiariza¸c˜ao adaptativa), m´etodos de an´alise de vizinhan¸ca (divis˜ao e fus˜ao, crescimento de regi˜oes) e m´etodos de persegui¸c˜ao de contorno. O m´etodo de segmenta¸c˜ao mais favor´avel ser´a aquele que produzir melhores ´ındices de qualidade. Quanto aos momentos de Zernike, eles s˜ao definidos como proje¸c˜oes da fun¸c˜ao de intensidade da imagem (f (x, y)) sobre fun¸c˜oes de bases ortogonais, no caso, os polinˆomios de Zernike, que formam um conjunto ortogonal complexo no interior de um c´ırculo unit´ario, sendo, portanto,
limitado pela curva x2+y2 = 1. A forma desses polinˆomios em coordenadas polares ´e (Khotanzad e Hong, 1990, Kim e Lee, 2003):
Vnm(x, y) = Vnm(ρ, θ) = Rnm(ρ)eimθ (1)
onde n ´e um inteiro n˜ao-negativo e m ´e um inteiro (negativo ou positivo) sujeito `as condi¸c˜oes: n − |m| deve ser par e |m| ≤ n, onde n e m s˜ao denominados ordem e repeti¸c˜ao, respectivamente. Al´em disso, ρ ´e a norma do vetor que parte da origem at´e o pixel (x, y) e θ ´e o ˆangulo entre esse vetor e o eixo x no sentido anti-hor´ario.
O polinˆomio radial Rnm(ρ) ´e definido como (Khotanzad e Hong, 1990, Kim e Lee, 2003):
Rnm(ρ) = n−|m| 2 X s=0 (−1)s(n − s)!ρn−2s s! n+|m| 2 − s ! n−|m| 2 − s ! (2) Note que Rnm(ρ) = Rn,−m(ρ).
Esses polinˆomios s˜ao ortogonais porque satisfazem: Z Z x2+y2≤1 Vnm∗ (x, y)Vn0m0(x, y)dxdy = π n + 1δnn0δmm0 (3) onde δnn0 = 1, se n = n0
0, caso contr´ario e o s´ımbolo * denota o conjugado complexo.
Sendo assim, os momentos de Zernike de ordem n com repeti¸c˜ao m para uma fun¸c˜ao de imagem cont´ınua f (x, y) sobre um disco unit´ario s˜ao dados como (Celebi e Aslandogan, 2005, Khotanzad e Hong, 1990, Kim e Lee, 2003):
Znm= n + 1 π Z Z x2+y2≤1 f (x, y)Vnm∗ (x, y)dxdy (4)
Para imagens digitais, que s˜ao discretas, as integrais devem ser substitu´ıdas por somat´orios. As equa¸c˜oes 5 e 6 s˜ao representa¸c˜oes para os momentos de Zernike em coordenadas cartesianas e polares, respectivamente. Znm= n + 1 π X x X y f (x, y)Vnm∗ (x, y), x2+ y2 ≤ 1 (5) Znm= n + 1 π X ρ X θ f (ρ cos θ, ρ sin θ)Vnm∗ (ρ, θ), ρ ≤ 1 (6) Para calcular os momentos Zernike de uma imagem (ou regi˜ao de interesse), o centro dela ´e considerado como o centro do disco unit´ario e as coordenadas do pixel s˜ao mapeadas para este disco e os pixels fora dele n˜ao s˜ao usados no c´alculo.
Pode ser provado que os momentos de Zernike s˜ao invariantes em rela¸c˜ao `a transforma¸c˜ao de rota¸c˜ao e tamb´em podem ser invariantes em rela¸c˜ao `as transforma¸c˜oes de escala e transla¸c˜ao se a imagem de entrada passar por uma manipula¸c˜ao pr´evia baseada na teoria dos momentos geom´etricos.
Estas propriedades de invariˆancia nos motivam a propor uma base de dados contendo esbo¸cos (ou modelos) de poss´ıveis apari¸c˜oes de contornos de edif´ıcio numa dada cena e associar a cada esbo¸co um vetor de caracter´ısticas baseado nos momentos de Zernike.
Os momentos de Zernike tamb´em seriam utilizados para descrever a forma de objetos obtidos pela segmenta¸c˜ao da imagem. A fim de avaliar a capacidade do m´etodo dos momentos de Zernike na discrimina¸c˜ao entre diferentes formas de edif´ıcios, e tamb´em entre formas de edif´ıcios e n˜ao edif´ıcios, prop˜oe-se utilizar uma m´etrica (por exemplo, a distˆancia euclidiana) para medir a similaridade entre um vetor de caracter´ıstica contendo momentos de Zernike para um edif´ıcio da imagem e um outro vetor do mesmo tipo para um esbo¸co de edif´ıcio da base de dados.
Resultados
O trabalho est´a em desenvolvimento e pretende-se construir um banco de dados contendo esbo¸cos ou modelos de contornos de telhados, pass´ıveis de serem encontrados numa dada cena e que podem servir de referˆencia para o reconhecimento de edifica¸c˜oes em uma imagem digital. Al´em disso, ´e preciso determinar os parˆametros ´otimos do m´etodo dos momentos de Zernike, de forma a maximizar a capacidade de discrimina¸c˜ao de formas de edif´ıcios e n˜ao edif´ıcios.
A ideia principal para avaliar a capacidade dos descritores de Zernike na discrimina¸c˜ao entre diferentes formas de contornos de edif´ıcios e entre formas de contornos de edif´ıcios e de outros objetos ´e separar as regi˜oes segmentadas em duas classes: 1) regi˜oes correspondentes a edif´ıcios; e 2) regi˜oes correspondentes a outros objetos; tendo por base a distˆancia euclidiana (ou outra m´etrica) entre o vetor de Zernike calculado para uma dada regi˜ao extra´ıda da imagem e os vetores de Zernike armazenados no banco de dados.
Os dados necess´arios para a avalia¸c˜ao experimental do m´etodo proposto s˜ao imagens a´ereas e de sat´elite de alta-resolu¸c˜ao. As imagens a´ereas possuem resolu¸c˜ao de aproximadamente 0,2 m e as imagens de sat´elite possuem resolu¸c˜ao de 1 m (imagens pancrom´aticas do sat´elite IKONOS II).
Conclus˜ao
Al´em da relevˆancia cient´ıfica, pode-se apontar que o tema proposto neste trabalho possui tamb´em relevˆancia tecnol´ogica no contexto de captura de informa¸c˜oes espaciais para alimen-tar/atualizar bases de dados de cadastros urbanos em grande escala, que s˜ao fundamentais para muitas a¸c˜oes p´ublicas. Neste sentido, espera-se contribuir positivamente com o desenvolvimento do m´etodo proposto.
Referˆ
encias
[1] CELEBI, M. E.; ASLANDOGAN, Y. A. A comparative study of three moment-based shape descriptors. In: Proceedings of the International Conference on Information Technology: Coding and Computing (ITCC), Las Vegas, NV, vol. 1, p. 788-793, 2005.
[2] JAIN, R.; KASTURI, R.; SCHUNCK, B. G. Machine vision. McGraw-Hill, 1995.
[3] KHOTANZAD, A.; HONG, Y. H. Invariant image recognition by Zernike moments. IEEE Transactions Pattern Analysis Machine Intelligence, vol. 12, n. 5, p. 489497, 1990.
[4] KIM, H. S.; LEE, H-K. Invariant image watermark using Zernike moments. IEEE Transac-tions on Circuits and Systems for Video Technology, vol. 13, n. 8, p. 766-775, 2003. [5] PEDRINI, H.; SCHWARTZ, W. R. An´alise de Imagens Digitais: Princ´ıpios, Algoritmos e
[6] SOWMYA, A; TRINDER, J. Modelling and representation issues in automated feature extraction from aerial and satellite images. ISPRS Journal of Photogrammetry and Remote Sensing, v. 55, n. 1, pp. 34-47, 2000.