Representação e Modelagem
4.11. RECONSTRUÇÃO TRIDIMENSIONAL
A representação do espaço tridimensional (3D), no plano bidimensional (2D), in- troduziu realismo nas pinturas e desenhos e foi uma das mais importantes desco-
bertas no mundo das artes: a perspectiva (seção 2,7.4). Quando a fotografia foi in- ventada, a possibilidade de registro em 2D de cenas 3D foi popularizada (passando a ser feita por máquinas e não mais por dons artísticos ou estudos de técnicas de de- senho).
A imagem de uma máquina fotográfica, assim como a projeção perspectiva, pos- sibilita o registro de uma cena 3D em 2D com o realismo da visão humana. Uma imagem fotográfica e uma projeção perspectiva contêm informações análogas. O que se espera da imagem fotográfica de objetos é que ela corresponde à imagem dos objetos vista por olhos humanos.
Fotografias e vídeo constituem meios, tradicionais e amplamente difundidos, de registrar uma cena de forma instantânea. No entanto, no processo de projeção do mundo 3D em imagens 2D, parte da informação contida na cena, como a informa- ção de profundidade, é perdida. Uma única imagem representando as mudanças de intensidade de luz e geometria local de uma cena não contém, por si só, informação suficiente para reconstrução da cena. Assim, uma questão importante é a recupera- ção, a partir de imagens de intensidade bidimensionais, das propriedades tridimen- sionais geométricas e físicas das superfícies representadas nessas imagens [Pen- tland, 1990].
A perda de informação que ocorre ao se projetar em um plano a cena tridimen- sional geralmente faz com que a solução do problema inverso não seja única (ambi- güidade), ou seja inexistente devido à oclusão de informações. Como conseqüên- cia, precisa contar com suposições (restrições) sobre o mundo físico para eliminar a ambigüidade na sua reconstrução. Essas suposições, de acordo com o número de vistas usadas na análise da cena, podem se basear em técnicas monoculares, bino- culares ou de múltiplas vistas [Noborio et al, 1988].
Visão monocular é o termo usado para técnicas de visão computacional que utili- zam apenas um ponto de vista. Os métodos de aquisição de forma dependem da in- formação disponível. Uma só imagem não é suficiente para fornecer informação completa de profundidade, mas distâncias a objetos, ou profundidades podem ser percebidas monoscopicamente com base no tamanho relativo de objetos ou de suas texturas (seção 1.5).
Pessoas com visão normal têm visão binocular, e é a partir desta visão estereoscó- pica que o ser humano inconscientemente avalia profundidades ou julga distâncias [Hadgs, 1992].
A reconstrução tridimensional, através de técnicas de computação visual e computação gráfica, pode recriar espaços virtusos (VE) a partir de imagens pla- nas, e ser um ponto de partida para um número enorme de aplicações: reconstru- ção de edificações, planejamento de estratégias militares, cenários para jogos tri- dimensionais, sistemas interativos de realidade virtual em tempo real, sistemas para visão de robôs, transformação de desenhos 2D ou filmes para 3D, e muitas outras ainda por se criar [Stytz et al, 1996]. Atualmente, os maiores usuários das
técnicas de reconstrução as utilizam para processamento de imagens médicas, microscopia, geologia e indústria aeroespacial [Rhods, 1997].
Para reconstrução do objeto é importante conhecer as coordenadas tridimensio- nais (3D) de seus pontos (ou pelo menos dos pontos mais importantes do objeto), e recuperar dados perdidos no processo de projeção/fotografia, que transforma os dados 3D em 2D. Diferentes técnicas empregadas nos sistemas de visão computa- cional tentam obter esta terceira coordenada.
Os sistemas de shape from stereo usam duas ou mais imagens de um ponto de vis- ta, com uma pequena diferença de iluminação, para calcular a profundidade. Pode- mos ainda utilizar duas ou mais imagens tiradas de uma câmera em movimento [Giachetti e Torre, 1996].
A teoria geométrica da visão estéreo, que utiliza a obtenção de coordenadas tridi- mensionais de objetos a partir de pares de imagens, depende da capacidade de se re- solver o problema da correspondência, ou seja, determinar os elementos do par de imagens que são projeções ao mesmo elemento no mundo 3D. Não existe solução ge- ral para o problema da correspondência devido à existência de candidatos ambíguos para combinação, ou mesmo da inexistência de correspondentes devido à oclusão. Conseqüentemente, todo método estéreo usa várias suposições sobre a geometria da imagem e/ou os objetos na cena para reduzir o número de ambigüidades.
Na busca de soluções para dificuldades encontradas nos métodos estéreos, tam- bém foram desenvolvidas técnicas de múltiplas vistas. O multiple-baseline stereo foi desenvolvido por Okutomi e Kanade em 1991, e é base de diversas variações. O estéreo fotométrico baseado em disparidades, agrega características dos processos de estéreo fotométrico e de estereoscopia.
Nos sistemas shape from motion, um objeto em movimento pode produzir as dis- paridades de iluminação em uma seqüência de imagens capturadas por uma câmera estática.
Nos sistemas shape from texture, propostos inicialmente por Kender em 1979, as variações no tamanho, na forma e na densidade das texturas da imagem 2D forne- cem pistas para a recuperação das informações 3D.
Os sistemas shape from focus exploram as propriedades das câmeras, onde obje- tos em uma determinada distância aparecem focados e outros, em distâncias mai- ores, ficam mais embaçados quanto maior sua distância do ponto focal.
Nos sistemas shape from shading, introduzidos em 1977 por Horn, a idéia básica se concentra na variação da intensidade no plano da imagem para calcular a profun- didade, considerando o modelo de iluminação de Phong e Gouraud.
As técnicas de shape from shading têm sido alvo de muitos estudos, mas sua inte- gração com outras técnicas de reconstrução 3D, como motion, textura e estéreo, por exemplo, é recente. A importância da fusão de técnicas está na possibilidade de explorar os pontos fortes de cada uma das técnicas envolvidas. Sistemas que utili- zam a fusão de técnicas de reconstrução de superfícies ainda não estão disponíveis
comercialmente no mercado, dado que essas tentativas são recentes e, portanto, com poucos resultados práticos disponíveis.
A habilidade de representar um objeto no espaço tridimensional é fundamental para visualizar, compreender e analisar detalhes do objeto[ Wanger et al, 1992]. Gi- rar, transladar e projetar o objeto é fundamental para diversas aplicações da simples compressão de sua forma a mais sofisticada aplicação de realidade virtual.
A técnica Shape from Boxes é o resultado de um estudo realizado junto a Secreta- ria de Segurança Pública do Estado do Rio de Janeiro(SSP-RJ). Para a SSP-RJ, a inclu- são de um sistema de treinamento em realidade virtual deveria acompanhar as ne- cessidades imediatistas de planejamento das operações do Comando de Operações Especiais, o COPE.
Essa metodologia foi então publicada no Simpósio Brasileiro de Computação Gráfica (SIBGRAPHI 2002) onde apresentamos um método para retirar as informa- ções 3D do objeto a partir de uma foto (Figura 4.42) e pontos marcados na imagem, como mostram as linhas na Figura 4.43. A Figura 4.44 mostra a reconstituição vista de um outro ângulo. A reconstituição permitirá visualizar espaços entre as constru- ções, determinar campos e alcances visuais, distâncias, medidas, inclusão de ícones e objetos para planejamento estratégico.
O sistema trabalha em conjunto com a engrenagem Fly3D, permitindo simulações de colisão, passeios virtuais, treinamento em redes, perseguições com armas de fogo e todos os outros recursos de simulação física da engrenagem. O modelo 3D pode ser ex- portado para o Max, onde ajustes finos de iluminação e modelagem podem ser feitos.
O sistema permite ainda a escolha da textura do solo, iluminação virtual, inclu- são de qualquer objeto 3DS na cena, empilhamento de objetos reconstruídos e vôos virtuais pelas construções através de um observador móvel.