REPRESENTAÇÃO E DESCRIÇÃO - DESENVOLVIMENTO DE UM CLASSIFICADOR DE MOTOCICLETAS

2. DESENVOLVIMENTO DE UM CLASSIFICADOR DE MOTOCICLETAS

2.1. CONTEXTUALIZAÇÃO

2.1.3. REPRESENTAÇÃO E DESCRIÇÃO

Após a segmentação de objetos na imagem é possível representar e descrever essas regiões de tal maneira que seja capaz de extrair algum conhecimento desses objetos. De maneira simplificada, representar uma região da imagem pode ocorrer de duas maneiras: (i) pelas características externas, analisando os pixels que compõem sua fronteira, ou (ii) pelas características internas, analisando os pixels que compõem a região em si (GONZALEZ; WOODS, 2010).

Após a escolha do modo de representação da região é necessário optar pela forma como será descrita. De forma geral, para se descrever uma região por cor ou textura, usualmente é escolhido a representação interna, e quando se deseja descrever a região por forma, normalmente é escolhido a representação externa (FORSSÉN; GRANLUND, 2003; DALAL; TRIGGS, 2005; HEIKKILA; PIETIKAINEN, 2006; GUOYING ZHAO et al., 2012).

Através da revisão bibliográfica foi possível notar que alguns dos descritores mais utilizados na literatura atualmente para se trabalhar com imagens são: HOG, LBP e SURF (NIXON; AGUADO, 2002; FORSSÉN; GRANLUND, 2003; TAKALA; AHONEN; PIETIKÄINEN, 2005; DALAL; TRIGGS, 2005; BAY; TUYTELAARS; VAN GOOL, 2006; KIM; DAHYOT, 2008; GONZALEZ; WOODS, 2010; PIETIKÄINEN et al., 2011; GUOYING ZHAO et al., 2012; SILVA et al., 2013a; CUNHA, 2013; SILVA, 2014; BEYELER, 2015). O descritor LBP (Local Binary Pattern) é um descritor baseado em textura o qual é calculado a partir de uma varredura dos pixels da imagem analisando a variação dos brilhos entre o pixel de referência e os seus vizinhos. Esse descritor permite invariância a rotação realizando uma contagem entre a variação positiva e negativa entre os pixels analisados. Usualmente este descritor pode utilizar como critério de similaridade a distância euclidiana ou a distância Manhattan para reconhecer regiões semelhantes em imagens distintas (TAKALA; AHONEN; PIETIKÄINEN, 2005; PIETIKÄINEN et al., 2011; GUOYING ZHAO et al., 2012). Em sua versão original, sua vizinhança de análise era de 3×3, e os valores dos pixels eram comparados ao valor do pixel central produzindo um valor binário, ou seja, caso o valor do pixel da vizinhança, na escala de cinza fosse superior ao valor do pixel central, na mesma escala de cinza, o resultado seria 1, caso contrário o resultado seria 0. E para se obter o código do pixel central denominado de código LBP, cada um desses valores resultantes eram multiplicados por potência de dois e somados, como é ilustrado pela Figura 7.

Figura 7: Exemplo da aplicação do descritor LBP.

(a) Procedimento utilizado pelo descritor. (b) Imagem de entrada. (c) Resultado obtido. (d) Histograma produzido pelo descritor.

Fonte: Adaptado de CUNHA (2013).

Já no descritor HOG (Histogram of Oriented Gradients) a ideia principal é descrever as formas locais e a aparência dos objetos presentes na imagem através de uma distribuição das direções de suas bordas. Para isso, a imagem é dividida em pequenas regiões chamadas de células (cells) que são conectadas formando os blocos (blocks) onde são calculados os histogramas de direções de inclinações, ou seja, os histogramas das direções das bordas, sendo assim o descritor é o resultado do agrupamento desses diferentes histogramas. Para se obter um desempenho melhor, é possível normalizar esses histogramas locais por contraste o que proporciona uma melhor invariância às mudanças de sombreamento e iluminação, Figura 8. De modo simplificado este descritor é basicamente uma lista dos histogramas normalizados de forma a permitir que o primeiro plano (objetos ou regiões de interesse) seja diferenciado do plano de fundo (DALAL; TRIGGS, 2005; BEYELER, 2015).

Figura 8 : Exemplo da aplicação do descritor HOG.

(a) Imagens de entrada;(b) Esquema do método utilizando os seguintes parâmetros: células de 4×4 pixels, blocos de 2×2 células e janela de detecção de 64×128 pixels;(c) Resultados obtido.

Fonte: Adaptado de https://software.intel.com/en-us/ipp-dev-reference-histogram-of-oriented-gradients-hog-descriptor e de “http://scikit-image.org/docs/dev/auto_examples/features_detection/plot_hog.html”.

Com o avanço dos descritores, métodos surgiram com o intuito de localizar várias áreas de interesse em uma imagem, como por exemplo localizar regiões que apresentem grande variação de intensidade de direção (cantos).

Porém, nem todos os cantos são fáceis de se identificar ou de rastrear ainda mais se a escala do objeto sofrer algum tipo de alteração, como muitas vezes ocorre em arquivos de vídeos que nada mais são do que sequência de imagens digitais (denominada frames) que usualmente apresentam uma taxa de atualização de 30 frames por segundo, ou seja, para cada segundo do vídeo, são mostradas 30 imagens. Essa taxa de atualização pode variar dependendo do tipo de vídeo: 16 frames por segundo, em filmes antigos (NEUMEYER, 2013) até 4,4 trilhões de frames por segundo, em gravações de câmera lenta (NAKAGAWA et al., 2014) .

Muitas vezes quando se trabalha com imagens obtidas de vídeos se torna necessário o uso de algumas técnicas de pré-processamento para minimizar imperfeições nas imagens e facilitar a diferenciação dos objetos nela presente , principalmente por diversas dificuldades encontradas quando se trabalha com imagens de objetos em movimento, como por exemplo veículos em velocidade elevada (interferindo na qualidade da imagem por alteração de foco), mudança de luminosidade, alteração do formato do objeto (redução de tamanho e contorno), obstrução e oclusão por interferência de outros objetos, entre outros.

Com essa ótica, o descritor SIFT (Scale-Invariant Features Transform) foi desenvolvido com o intuito de permitir localizar e descrever pontos chaves (key points) que não sofram com a mudança de tamanho ou com mudança de orientação tanto em imagens estáticas como em vídeos. Este descritor por ser um dos primeiros descritores locais baseado em gradiente é muito citado na literatura. Seu processo básico de

descrição, cálculo da escala dos gradientes seguido da formulação dos histogramas orientados para determinar a orientação principal de uma região envolta do ponto de interesse, está ilustrada na Figura 9.(LOWE, 1999; BAY; TUYTELAARS; VAN GOOL, 2006)

Figura 9:Esquema do descritor SIFT.

Fonte: Adaptado de BUENO (2011).

Posteriormente, o descritor SURF (Speeded Up Robust Features) surgiu permitindo a detecção e extração de características locais, mesmo a pequenas alterações de perspectiva, rotação, escala, mudanças de iluminação e ruído nas imagens. A principal característica que torna melhor o desempenho do descritor SURF perante o SIFT é que seu modelo aproximativo do espaço de escala é baseado na imagem integral (BAY; TUYTELAARS; VAN GOOL, 2006; KIM; DAHYOT, 2008). De modo simplificado, o algoritmo SURF pode ser separado em duas partes: (i) detectar os pontos de interesse e (ii) formular um descritor. Para que sua varredura por pontos de interesse seja realizada é necessário determinar um limite para se definir se o ponto deve ser considerado chave ou não, sendo que um valor elevado resulta em quantidade menor de pontos, porém teoricamente de maior importância, o que torna este método teoricamente mais rápido e com resultados de melhor qualidade (BEYELER, 2015). A Figura 10 mostra a utilização do descritor SURF em uma imagem em escala de cinza.

Figura 10: Representação da detecção dos pontos de interesse utilizando o descritor SURF.

No documento Identificação automática de motociclistas através de processamento de imagens de vídeo de tráfego (páginas 32-36)