Compressão Seletiva de Imagens Coloridas com Detecção Automática de Regiões de Interesse

(1)

Programa de Pós-Gradua¸cão em Engenharia Elétrica

Compress˜

ao Seletiva de Imagens Coloridas com

Detec¸c˜

ao Autom´

atica de Regi˜

oes de Interesse

Diego de Miranda Gomes

Orientador: Prof. Dr. Adri˜ao Duarte D´oria Neto

(2)

Programa de Pós-Gradua¸cão em Engenharia Elétrica

Compress˜

ao Seletiva de Imagens Coloridas com

Detec¸c˜

ao Autom´

atica de Regi˜

oes de Interesse

Diego de Miranda Gomes

Disserta¸cão submetida ao Programa de Pós-Gradua¸cão em Engenharia Elétrica da Uni-versidade Federal do Rio Grande do Norte como parte dos requisitos necessários para a obten¸cão do grau de Mestre em Ciências.

Orientador: Prof. Dr. Adri˜ao Duarte D´oria Neto

(3)

(4)

Ao meu orientador, prof. Adrião, pela orienta¸cão, por ajudar na minha forma¸cão e pela amizade.

Ao prof. Jorge Dantas de Melo por sempre estar disposto a ajudar, pelas colabora¸c˜oes e sugest˜oes.

Ao amigo Allan de Medeiros Martins, pela ajuda, dicas, id´eias, e-mails respondidos, incentivos, etc...

Aos professores Francisco das Chagas Mota e Pablo Javier Alsina, pela aten¸c˜ao dis-pensada, enquanto coordenadores do PPGEE.

Aos professores e amigos do LECA-DCA.

Um agradecimento especial a Luciana, minha noiva, pelo companheirismo e carinho e por (quase) sempre ser compreensiva enquanto eu estava ocupado com o trabalho. Te amo!

Finalmente a todos que contribu´ıram, direta ou indiretamente, para a conclus˜ao deste trabalho.

(5)

A compressão seletiva de imagens tende a ser cada vez mais utilizada, visto que diver-sas aplica¸cões fazem uso de imagens digitais que em alguns casos não permitem perdas de informa¸cões em certas regiões. Porém, existem aplica¸cões nas quais essas imagens são cap-turadas e armazenadas automaticamente, impossibilitando a um usuário indicar as regiões da imagem que devem ser comprimidas sem perdas. Uma solu¸cão para esse problema seria a deteçcão automática das regiões de interesse, um problema muito dif´ıcil de ser resolvido em casos gerais. Em certos casos, no entanto, pode-se utilizar técnicas inteligentes para detectar essas regiões. Esta disserta¸cão apresenta um compressor seletivo de imagens col-oridas onde as regiões de interesse, previamente fornecidas, são comprimidas totalmente sem perdas. Este método faz uso da transformada wavelet para descorrelacionar os pixels da imagem, de uma rede neural competitiva para realizar uma quantiza¸cão vetorial, da morfologia matemática e do código adaptativo de Huffman. Além da op¸cão da sele¸cão manual das regiões de interesse, existem duas op¸cões de deteçcão automática: um método de segmenta¸cão de texturas, onde a textura com maior freqüência é selecionada para ser a região de interesse, e um novo método de deteçcão de faces onde a região da face é com-primida sem perdas. Os resultados mostram que ambos os métodos podem ser utilizados com o algoritmo de compressão, fornecendo a este o mapa de região de interesse.

(6)

There has been an increasing tendency on the use of selective image compression, since several applications make use of digital images and the loss of information in certain regions is not allowed in some cases. However, there are applications in which these images are captured and stored automatically making it impossible to the user to select the regions of interest to be compressed in a lossless manner. A possible solution for this matter would be the automatic selection of these regions, a very difficult problem to solve in general cases. Nevertheless, it is possible to use intelligent techniques to detect these regions in specific cases. This work proposes a selective color image compression method in which regions of interest, previously chosen, are compressed in a lossless manner. This method uses the wavelet transform to decorrelate the pixels of the image, competitive neural network to make a vectorial quantization, mathematical morphology, and Huffman adaptive coding. There are two options for automatic detection in addition to the manual one: a method of texture segmentation, in which the highest frequency texture is selected to be the region of interest, and a new face detection method where the region of the face will be lossless compressed. The results show that both can be successfully used with the compression method, giving the map of the region of interest as an input.

(7)

Resumo ii

Abstract iii

Lista de Figuras vi

Lista de Tabelas ix

Lista de Algoritmos x

1 Introdu¸c˜ao 1

1.1 Motiva¸c˜oes . . . 1

1.2 Objetivos . . . 2

1.3 Organiza¸c˜ao da Disserta¸c˜ao . . . 3

2 Imagens Digitais 5 2.1 Introdu¸c˜ao . . . 5

2.2 Modelo de Cores . . . 6

2.2.1 Modelo de Cor RGB . . . 6

2.2.2 Modelo de Cor YUV . . . 7

2.3 M´etodos de Processamento de Imagens Utilizados . . . 8

2.3.1 Histograma . . . 8

2.3.2 Equaliza¸c˜ao de Histograma . . . 9

2.3.3 Auto-Contraste . . . 10

2.3.4 Transformada de Hotelling (KLT) . . . 11

(8)

3.2 Compress˜ao de Imagens . . . 17

3.2.1 Redundˆancia de Codifica¸c˜ao . . . 17

3.2.2 Redundˆancia Interpixel . . . 17

3.2.3 Redundˆancia Psicovisual . . . 17

3.3 Crit´erios de Fidelidade . . . 18

3.4 Compress˜ao sem Perdas . . . 19

3.4.1 Codifica¸c˜ao Adaptativa de Huffman . . . 20

3.4.2 Codifica¸c˜ao de Comprimento de Varredura . . . 21

3.5 Compress˜ao com Perdas . . . 21

4 A Transformada Wavelet 23 4.1 Introdu¸c˜ao . . . 23

4.2 Vis˜ao Geral . . . 23

4.3 An´alise de Multiresolu¸c˜ao . . . 24

4.4 Transformada Wavelet Discreta . . . 27

4.5 Bancos de Filtros e Wavelets . . . 28

4.5.1 Transformada Wavelet Discreta Utilizando Bancos de Filtros . . . . 28

4.6 Transformada Wavelet Aplicada `as Imagens Digitais . . . 30

4.7 Lifting Scheme . . . 32

5 Redes Neurais 34 5.1 Introdu¸c˜ao . . . 34

5.2 Conceitos B´asicos . . . 34

5.3 Redes Neurais Competitivas . . . 37

5.4 Algoritmo de Treinamento para Espa¸cos Discretos . . . 40

5.5 Quantiza¸c˜ao Vetorial . . . 41

5.6 Reconhecimento de Padr˜oes . . . 42

6 Morfologia Matem´atica 44 6.1 Introdu¸c˜ao . . . 44

(9)

6.3 Aplica¸c˜ao dos Operadores Morfol´ogicos . . . 47

7 Método de Compressão Seletiva 50 7.1 Introdu¸cão . . . 50

7.2 Vis˜ao Geral . . . 50

7.3 Compressor com Perdas . . . 53

7.4 Compressor com Perdas Para os Canais U e V . . . 57

7.5 Compressor sem Perdas . . . 57

7.6 Resultados . . . 58

8 Sele¸cão Automática de Regiões de Interesse 62 8.1 Introdu¸cão . . . 62

8.2 Segmenta¸c˜ao de Texturas . . . 62

8.2.1 Resultados da Segmenta¸c˜ao . . . 64

8.3 Detec¸c˜ao de Face . . . 64

8.3.1 Resultados da Detec¸c˜ao de Face . . . 71

9 Resultados e conclus˜oes 74 9.1 Conclus˜oes . . . 76

9.2 Propostas para trabalhos futuros . . . 77

Referˆencias Bibliogr´aficas 78

(10)

2.1 Exemplo de imagem digital com a conven¸c˜ao dos eixos utilizada na sua

representa¸c˜ao. . . 6

2.2 Cubo de cores RGB. . . 7

2.3 Uma imagem e o seu histograma. . . 9

2.4 Resultado da equaliza¸c˜ao de histograma. . . 10

2.5 Resultado da aplica¸c˜ao do auto-contraste. . . 11

2.6 Estrutura de vizinhan¸ca utilizada no algoritmo. . . 14

2.7 Exemplo das condi¸c˜oes (a) e (b) do passo 1 do algoritmo. Nesse caso N(p1) = 4 eS(p1) = 3. . . 14

2.8 Uma regi˜ao e o seu respectivo esqueleto. . . 15

3.1 Arvore de´ Huffman juntamente com as probabilidades dos s´ımbolos e os c´odigos dos mesmos. . . 20

3.2 Modelo de um compressor com perdas. . . 22

4.1 Uma mesma imagem em quatro resolu¸c˜oes diferentes. Da esquerda, para a direita e de cima para baixo: a) Vi, b) Vi−1, c) Vi−2 e d)Vi−3. . . 26

4.2 C´alculo dos coeficientes wavelets de expans˜ao. . . 29

4.3 Transformada wavelet discreta utilizando uma estrutura em ´arvore. . . 29

4.4 C´alculo de um n´ıvel da IDWT. . . 30

4.5 Transformada IDWT utilizando uma estrutura em ´arvore. . . 30

4.6 Transformada wavelet de dois n´ıveis aplicada a uma imagem. . . 31

4.7 Resultado de uma transformada wavelet discreta aplicada a uma imagem. . 32

4.8 Diagrama de blocos do lifting scheme. . . 32

(11)

5.4 Arquitetura básica de uma rede neural competitiva onde cada neurônio está totalmente conectado aos nós de entrada (setas preenchidas) e conectados entre si através de arcos inibidores (setas abertas). . . 38 5.5 Dados a serem classificados. . . 39 5.6 Dados após classifica¸cão com o algoritmo competitivo. Os neurônios, no

fim do treinamento, est˜ao marcados com cruzes pretas. . . 40 6.1 Elemento estruturante. . . 46 6.2 Figura Utilizada nos testes. . . 46 6.3 Resultado da dilata¸c˜ao da Figura 6.2 pelo elemento estruturante da Figura

6.1. . . 46 6.4 Resultado da erosão da Figura 6.2 pelo elemento estruturante da Figura 6.1. 47 6.5 Imagem representando um mapa de coeficientes significativos. . . 48 6.6 Operadores utilizados: a) primeira dilata¸cão, b) segunda dilata¸cão e c)

imagem final após erosão. . . 49 7.1 Diagrama de blocos do método de compressão seletiva de imagens coloridas. 51 7.2 Diagrama de blocos do descompressor. . . 52 7.3 Diagrama de blocos para o compressor com perdas do canal Y. . . 53 7.4 Exemplo do canal Y fornecido como entrada do compressor com perdas. . . 54 7.5 Mapa obtido da etapa de limiariza¸cão. Os pixels brancos representam

coeficientes significantes. . . 55 7.6 Resultado da aplica¸cão dos operadores morfológicos. . . 55 7.7 Resultado da quantiza¸cão vetorial do mapa de coeficientes significantes. . . 56 7.8 Diagrama de blocos do compressor sem perdas. . . 58 7.9 Resultados da compressão com perdas para algumas imagens. . . 59 7.10 Peppers original e comprimida com taxa de compressão 10,52 e PSNR 21,69. 59 7.11 Airplane F-16 original e comprimida com taxa de compressão 10,43 e PSNR

31,35. . . 60

(12)

7.13 Orf virus lesions com as les˜oes comprimidas sem perdas e taxa de

com-press˜ao de 10,76. . . 61

8.1 Diagrama de blocos do m´etodo de segmenta¸c˜ao de texturas. . . 63

8.2 Imagem sintética de textura o mapa resultante da segmenta¸cão automática. 64 8.3 Imagem montada com texturas reais e o mapa resultante. . . 65

8.4 Outra imagem montada com texturas reais e o mapa resultante. . . 65

8.5 Ultima imagem montada com texturas reais e mapa resultante. . . 65´

8.6 Imagem de células obtida de um microscópio eletrônico e mapa resultante. 66 8.7 Valores U e V para os pixels de uma imagem. Os pontos azuis são os pixels de pele. . . 67

8.8 Uma imagem para ser realizada a detec¸c˜ao de face. . . 67

8.9 Mapa de pele obtido ap´os a segmenta¸c˜ao. . . 68

8.10 Mapa de pele obtido após a aplica¸cão dos operadores morfológicos. . . 69

8.11 Mapa de pele após a esqueletiza¸cão e a rota¸cão da região da face. . . 70

8.12 Resultado final da rota¸c˜ao de face. . . 70

8.13 Resultados da detec¸c˜ao de face. . . 72

8.14 Resultado da deteçcão de face em imagens de múltiplas faces. . . 73

9.1 Imagem sintética de textura com região de interesse comprimida sem perdas. 74 9.2 Imagem de células com as regiões de interesse comprimidas sem perdas. . . 75

9.3 Resultado da compress˜ao da Figura 8.13. . . 75

9.4 Resultado da compress˜ao da Figura 8.14. . . 76

(13)

3.1 Escala de notas da “Television Allocations Study Organization”[21] . . . . 18 7.1 Coeficientes do Filtro Wavelet biortogonal SWE(13,7) [28] . . . 54

(14)

5.1 Treinamento competitivo . . . 39 8.1 Método de deteçcão de faces . . . 68

(15)

Introdu¸c˜

ao

1.1 Motiva¸c˜

oes

As imagens digitais são muito difundidas e o seu uso é abrangente, sendo utilizadas na medicina, seguran¸ca, educa¸cão, lazer e diversas outras aplica¸cões. Para a transmissão ou armazenamento das mesmas é desejável que, devido aos tamanhos dos arquivos, sejam comprimidas. Para isso, existem diversos métodos de compressão de imagens que têm como objetivo reduzir a quantidade de dados necessários para representar uma imagem digital. Essa redu¸cão de dados é poss´ıvel através da identifica¸cão e redu¸cão (ou remo¸cão) das redundâncias contidas na imagem. A compressão da imagem pode se dar com perda ou sem perda de informa¸cão.

Na compressão com perdas é poss´ıvel atingir altas taxas de compressão porém, existe alguma perda de informa¸cão na imagem. A compressão sem perdas atinge, geralmente, baixas taxas de compressão, mas não existe perda de informa¸cão, ou seja, na etapa de descompressão a imagem é reconstru´ıda perfeitamente.

(16)

que sejam poss´ıveis altas taxas de compressão e mesmo assim permitir que a imagem seja utilizada para os fins a que se destina, é o uso de técnicas de compressão mistas, onde regiões de interesse são selecionadas e comprimidas sem perdas e o restante da imagem é comprimido com perdas.

O padrão JPEG 2000 [2] permite que sejam escolhidas regiões de interesse. Porém, este método não garante uma reconstru¸cão perfeita das regiões. Ele garante apenas que a região de interesse será comprimida com “a máxima qualidade poss´ıvel” com rela¸cão ao resto da imagem.

Normalmente as regiões de interesse são definidas manualmente. Em casos em que não é poss´ıvel a existência de um usuário, é interessante que essas regiões sejam, de alguma forma, determinadas automaticamente. Para um propósito geral, essa tarefa é muito dif´ıcil. Porém, podem-se utilizar algumas técnicas em que, para casos espec´ıficos, as regiões de interesse são determinadas automaticamente. Em [3, 4] mostram-se métodos em que as regiões de interesse são codificadas com diferentes n´ıveis de qualidade. Em [5] mostra-se uma aplica¸cão em que a região de interesse é automaticamente detectada para um caso espec´ıfico e em [6] um método em que regiões de interesse são definidas baseadas nas texturas. Outros trabalhos tratam apenas da codifica¸cão de regiões de interesse como em [7, 8].

1.2 Objetivos

Este trabalho propõe um método de compressão seletiva de imagens coloridas com a possibilidade de se utilizar em múltiplas regiões de interesse. A compressão é totalmente sem perdas, possibilitando o uso do método em aplica¸cões em que não seja permitido (ou não recomendável) a perda de informa¸cões nessas regiões.

(17)

tecidos orgˆanicos, como amostras de folhas ou c´elulas.

Outra op¸cão proposta nesta disserta¸cão é a deteçcão automática de faces. Aqui, as imagens coloridas podem ser em ambientes diferentes, a pessoa pode estar com a face rotacionada em rela¸cão ao plano e pode existir mais de uma pessoa na imagem. Uma exigência é que a face seja frontal. Essa aplica¸cão pode ser utilizada em sistemas de seguran¸ca, onde é recomendável que a região da face não sofra perdas, para que não possa haver dúvidas na identifica¸cão da pessoa. O método que será apresentado é baseado no template matching onde é feito um pré-processamento para tornar o processo mais rápido. Existem diversas técnicas de deteçcão de face em imagens coloridas como em [9, 10, 11]. O método aqui apresentado possui algoritmo de simples implementa¸cão e rápido processamento.

Por fim, um aplicativo foi desenvolvido para facilitar a utiliza¸cão dos métodos anal-isados neste trabalho. Ele permite que as regiões de interesse sejam selecionadas man-ualmente ou utilizando uma das técnicas de sele¸cão automática descritas acima. Deve-se levar em conta contudo que, os métodos de sele¸cão automática não têm a necessidade de interven¸cão do usuário e só estão no aplicativo para fins de testes.

1.3 Organiza¸c˜

ao da Disserta¸c˜

ao

(18)

(19)

Imagens Digitais

2.1 Introdu¸c˜

ao

Uma imagem em escala de cinza pode ser considerada como uma fun¸cão de intensi-dade luminosa bidimensional, denotada pela fun¸cão f(x, y). O valor da amplitude f nas coordenadas espaciais (x, y) dá a intensidade (brilho) da imagem naquele ponto. Como a luz é uma forma de energia, a fun¸cão f(x, y) é definida positiva.

Uma imagem digital é uma imagemf(x, y) discretizada tanto em coordenadas espaci-ais quanto em brilho [12]. A digitaliza¸cão das coordenadas espaciespaci-ais (x, y) é denominada amostragem da imagem e a digitaliza¸cão da amplitude é chamada quantiza¸cão em n´ıveis de cinza. Uma forma de representar a imagem digital é na forma de matriz como mostrado na equa¸cão (2.1) onde cada elemento desta matriz armazena um valor correspondente a um n´ıvel de cinza. Cada elemento desta matriz é denominado de pixel.

f(x, y) =

       

f(0,0) f(0,1) _{· · ·} f(0, M₋1) f(1,0) f(1,1) · · · f(1, M−1)

... ... . .. ...

f(N −1,0) f(N −1,1) · · · f(N −1, M−1)

        (2.1)

(20)

Figura 2.1: Exemplo de imagem digital com a conven¸c˜ao dos eixos utilizada na sua representa¸c˜ao.

2.2 Modelo de Cores

Os modelos de cores são sistemas de coordenadas tridimensionais onde uma cor é representada por um único ponto [12]. A maioria dos modelos de cores existentes são para o uso em hardware (como monitores coloridos e impressoras) ou para aplica¸cões envolvendo manipula¸cão de cores. Os modelos mais comuns são o RGB para monitores e uma ampla classe de câmeras coloridas; o CMY para impressoras coloridas e o YUV, utilizado na transmissão de TV e que será mostrado na subse¸cão 2.2.2. Outros modelos de cores são o HSV e o HSI, utilizados em manipula¸cão de imagens coloridas.

2.2.1 Modelo de Cor RGB

(21)

Figura 2.2: Cubo de cores RGB.

a partir da origem. No caso do cubo da Figura 2.2 as cores estão normalizadas entre [0,1]. Imagens no modelo de cores RGB consistem em três planos de imagem independentes, um para cada cor primária. Na compressão de imagens coloridas esse modelo de cor não é interessante de ser utilizado, pois suas camadas são muito correlacionadas e, para obter vantagens na compressão, deve-se converter a imagem para um espa¸co de cor mais descorrelacionado.

2.2.2 Modelo de Cor YUV

(22)

seja necessária uma menor banda para a transmissão em YUV em compara¸cão com RGB (no caso de transmissão digital, menos bits). A compatibilidade com a TV preto e branco também é garantida pois a componente Y é a versão equivalente em escala de cinza da imagem RGB. A conversão de RGB para YUV [13] é definida como:

     Y U V     =     

0.299 0.587 0.114

−0.147 ₋0.289 0.436 0.615 −0.515 −0.100

    ·      R G B    

. (2.2)

Para fazer a transforma¸cão de YUV para RGB é necessário apenas utilizar a matriz inversa. Esse espa¸co de cor foi utilizado neste trabalho, pois, dessa forma, as componentes U e V, que são de menor importância, podem utilizar o mapa de coeficientes significantes obtidos da camada Y. Mais detalhes sobre como é isso é feito serão apresentados no Cap´ıtulo 7, que trata sobre o método de compressão seletiva.

2.3 M´

etodos de Processamento de Imagens

Utiliza-dos

Nesse trabalho são utilizadas algumas técnicas de processamento digital de imagens para que os métodos de deteçcão de face e de segmenta¸cão possam ser utilizados. Al-gumas técnicas são abordadas nesta se¸cão, a saber: transformada de Hotteling (também conhecida como transformada Karhunen-Lòeve-KLT), o auto-contraste e a equaliza¸cão de histograma e o algoritmo para encontrar o esqueleto de uma figura binária [12]

2.3.1 Histograma

Seja uma imagem digital em n´ıveis de cinza quantizados em 8 bits. Para essa imagem, serão poss´ıveis 256 n´ıveis de cinza. Um histograma é uma fun¸cão discreta p[rk] = nk/n,

onde rk é o k-ésimo n´ıvel de cinza,nk é o número de pixels na imagem com esse n´ıvel de

cinza, n ´e o n´umero de pixels da imagem e k = 0,1,2, . . .255.

Ou seja,p[rk] fornece a estimativa de probabilidade da ocorrˆencia do n´ıvel de cinzark

(23)

Uma opera¸cão desse tipo é chamada de transforma¸cão de histograma, que é dada por

s=T(r) (2.3)

onde r é um valor de intensidade do pixel de uma imagem e s será o novo valor de intensidade para esse pixel. O que define a transforma¸cão é a opera¸cão que se deseja aplicar na imagem.

Em imagens coloridas geralmente são utilizados três histogramas, um para cada ca-mada de cor. Não necessariamente são utilizados o espa¸co de cor RGB. Dependendo da aplica¸cão da imagem, pode-se utilizar outro espa¸co de cor, como o YUV. A Figura 2.3 [14] mostra uma imagem e o seu respectivo histograma, onde é poss´ıvel notar que existe uma certa concentra¸cão de n´ıveis de cinza.

Figura 2.3: Uma imagem e o seu histograma.

2.3.2 Equaliza¸c˜

ao de Histograma

A equaliza¸cão de histograma é uma técnica utilizada para obter um histograma uni-forme com a inten¸cão de aumentar o contraste da imagem. A transforma¸cão de histograma que realiza essa fun¸cão é definida como [12]

sk =T(rk) = k

X

j=0

nj

n =

k

X

j=0

pr(rj) 0≤rk ≤255 e k= 0,1, ...,255. (2.4)

(24)

juntamente com o seu histograma, foi obtida a partir de programas implementados para esse trabalho. ´E poss´ıvel notar a ocorrˆencia do “espalhamento” do histograma e um aumento de contraste na imagem.

Figura 2.4: Resultado da equaliza¸c˜ao de histograma.

2.3.3 Auto-Contraste

O auto-contraste, assim como a equaliza¸cão, tem o objetivo de aumentar o contraste da imagem de maneira que se tenha uma certa ocorrência de todos os n´ıveis de cinza. Diferentemente da equaliza¸cão, o auto-contraste não modifica a forma do histograma porém é necessário informar dois parâmetros para a fun¸cão de transforma¸cão que é definida como [15]:

T(rk) =

        

n1 se rk ≤n1

TL(rk) se n1 < rk< n2

n2 se rk ≥n2

(2.5)

n1 e n2 são os chamados n´ıveis truncados eTL(rk) é uma transforma¸cão linear, dado por:

TL(rk) =

255 n2−n1

(rk−n1). (2.6)

Um exemplo da aplica¸c˜ao do auto-contraste ´e mostrado na Figura 2.5 com n1 = 20 e

(25)

Figura 2.5: Resultado da aplica¸c˜ao do auto-contraste.

2.3.4 Transformada de Hotelling (KLT)

A transformada de Hotelling baseia-se em propriedades estat´ısticas de representa¸cão de vetores. Ela tem várias propriedades úteis que a tornam uma importante ferramenta para o processamento de imagens [12]. Seja um conjunto X de vetores do tipo

x=         x1 x2 ... xn         (2.7)

Ovetor m´edio, do conjunto de vetores, ´e dado por

mX=E{X} (2.8)

em queE{·}é a fun¸cão valor esperado. O valor esperado de um vetor ou matriz é obtido ao se tomar o valor esperado de cada um de seus elementos.

A matriz de covariˆancia do conjunto de vetores ´e definida como

Cx=E{(x−mX)(x−mX)T} (2.9)

ondeT indica transposi¸c˜ao de matriz. Se vetorxtem dimens˜aon,Cxe (x−mx)(x−mx)T

são matrizes de ordem n_×n. O elementocii deCxé a variância de xi, o i-ésimo

compo-nente dos vetoresxno conjunto, e o elementocij deCx´e a covariˆancia entre os elementos

xi e xj desses vetores. A matriz Cx é real e simétrica e se os elementos xi e xj são

(26)

O vetor m´edio e a matriz de covariˆancia podem ser aproximados por

mx =

1 M

M

X

k=1

xk (2.10)

e

Cx =

1 M

M

X

k=1

xkxTk −mxmxT, (2.11)

onde M ´e o n´umero de amostras.

Como a matriz Cx é real e simétrica, é sempre poss´ıvel encontrar um conjunto de

n autovetores ortonormais [16]. Sejam ei e λi, i = 1,2, . . . , n, os autovetores e

au-tovalores correspondentes de Cx, em ordem decrescente de modo que λj ≥ λj+1 para

j = 1,2, . . . , n₋1. Seja Auma matriz cujas linhas s˜ao formadas a partir dos autovetores de Cx, ordenados de maneira que a primeira linha corresponda ao maior autovalor e a

´

ultima, ao menor autovalor.

A transformada de Hotteling se d´a mapeando os vetores x em vetores y de acordo com

y=A(x−mx) (2.12)

a média dos vetores y resultantes dessa transforma¸cão é zero, my = 0, e a matriz de

covariˆancia pode ser obtida em termos de A e Cx atrav´es de

Cy=ACxAT. (2.13)

A matriz Cy ´e uma matriz diagonal, onde os elementos ao longo da diagonal principal

s˜ao os autovalores de Cx:

Cy=        

λ1 0

λ2

. ..

0 λn

        (2.14)

Como os elementos fora da diagonal principal são zero, os elementos do vetor y são descorrelacionados. Além disso as matrizes Cy e Cx possuem os mesmos autovalores e

mesmos autovetores.

(27)

No primeiro caso ela é utilizada para descorrelacionar as camadas de cores R, G e B. Nesse caso, o conjunto de vetores de entrada serão os pixels de cada uma camada de cor e a sa´ıda será uma nova imagem com as camadas de cores descorrelacionadas. Para o segundo caso, ela é utilizada para detectar se uma face está rotacionada e o seu ângulo de rota¸cão. Para isso os vetores de entrada serão dois, um para as coordenadas do eixo x e outro para as coordenadas do eixo y dos locais dos pixels em que são identificados como pele. A partir dos autovetores da matriz de correla¸cão Cx, é poss´ıvel encontrar o ângulo

e a rela¸cão entre a largura e a altura da região de pele para identificar regiões que não são faces, como, por exemplo, um bra¸co.

2.3.5 Algoritmo de Esqueletiza¸c˜

ao

A esqueletiza¸cão é aplicada em imagens binárias para encontrar o esqueleto de uma região. A esqueletiza¸cão consiste em reduzir uma região planar a um grafo. Essa opera¸cão é utilizada em diversos problemas de processamento de imagem como inspe¸cão automática de circuitos elétricos e em aplica¸cões médicas [12, 17].

O algoritmo utilizado nesse trabalho foi a transforma¸cão do eixo médio (Medial Axis Transform - MAT) [18]. A MAT de uma região R com borda B é definida da seguinte forma: para cada ponto pem R, encontramos seu vizinho mais próximo emB. Septiver mais de um vizinho desse tipo, então diz-se que ele pertence ao eixo médio (ou esqueleto) de R. O conceito de “mais próximo” depende da métrica utilizada. Nesse trabalho foi utilizada a distância Euclidiana. O algoritmo utilizado para encontrar a MAT apaga iterativamente os pontos de borda de uma região respeitando algumas restri¸cões nas quais a elimina¸cão desses pontos não deve ocorrer: (1) remo¸cão de pontos extremos; (2) quebra de conectividade; (3) causar a erosão excessiva da região.

Assume-se que as regiões binárias são compostas por pixels de valor 1 e o fundo de pixels de valor 0. O método consiste na aplica¸cão sucessiva de dois passos aos pontos de contorno da região. Um ponto de contorno é um pixel de valor 1 que possua ao menos um vizinho de 8 com valor 0. Seja um pixel p1; a Figura 2.6 mostra os seus vizinhos de

(28)

condi¸c˜oes forem satisfeitas:

(a) 2≤N(p1)≤6;

(b) S(p1) = 1;

(c) p2·p4 ·p6 = 0;

(d) p4·p6·p8 = 0

(2.15)

em que N(p1) é o número de vizinhos não nulos de p1, e S(p1) é o número de transi¸cões

0-1 na seq¨uˆencia ordenada, p2, p3, . . . , p8, p9, p2. Por exemplo, N(p1) = 4 e S(p1) = 3 na

Figura 2.7.

p9 p2 p3

p8 p1 p4

p7 p6 p5

Figura 2.6: Estrutura de vizinhan¸ca utilizada no algoritmo.

0 0 1

1 p1 0

1 0 1

Figura 2.7: Exemplo das condi¸c˜oes (a) e (b) do passo 1 do algoritmo. Nesse casoN(p1) = 4

e S(p1) = 3.

No segundo passo, as condi¸cões (a) e (b) continuam as mesmas, mas as condi¸cões (c) e (d) são modificadas para

(c´) p2·p4·p8 = 0;

(d´) p2·p6·p8 = 0.

(2.16)

(29)

(30)

Compress˜

ao

3.1 Introdu¸c˜

ao

Hoje em dia as informa¸cões digitais já fazem parte das nossas vidas e as usamos em nosso trabalho, para o nosso entretenimento, para obter informa¸cões, etc. Sinais digitais possuem algumas vantagens em rela¸cão aos analógicos: são fáceis de serem armazenados e transmitidos a longas distâncias sem acumular distor¸cões e o armazenamento apresenta maior resistência a degrada¸cões [19].

Porém, dados digitais em sua forma natural, ou seja, sem nenhuma forma de com-pressão ou processamento, tendem a necessitar de muitos bits para serem representados. Por exemplo, uma imagem colorida digital com a resolu¸cão de 1024_×768 pixels e 24 bits/pixel necessita de mais de 2 Mbytes para ser representada.

Compressão de dados permite a representa¸cão digital eficiente de um sinal, ou seja, é a representa¸cão de um sinal, de forma digital, utilizando a menor quantidade de bits poss´ıvel, mantendo-se ainda uma qualidade aceitável. O sinal pode representar dados, imagens estáticas, voz, áudio, v´ıdeo ou qualquer informa¸cão que necessita ser transmitida ou armazenada. A compressão de dados pode ser de duas formas: sem perdas, onde o sinal é reconstru´ıdo de forma perfeita ou com perdas onde a reconstru¸cão não é perfeita

(31)

3.2 Compress˜

ao de Imagens

A maioria dos sinais digitais possui redundâncias quando estão em seu estado natural e as imagens digitais não fogem à regra. Existem, basicamente, três redundâncias que podem ser identificadas e exploradas [12]: redundância de codifica¸cão, redundância inter-pixels e redundânciapsicovisual. O objetivo de um compressor é eliminar ou reduzir uma ou mais dessas redundâncias. A seguir, cada uma delas será explicada.

3.2.1 Redundˆ

ancia de Codifica¸c˜

ao

Em uma codifica¸cão binária natural (por exemplo, codifica¸cão em n´ıveis de cinza) é atribu´ıdo o mesmo número de bits tanto para os valores de cinza menos prováveis quanto para os mais prováveis. Quando isto ocorre diz-se que existe a redundância de codifica¸cão. Uma maneira de reduzir ou eliminar esta redundância é atribuir códigos binários adequados de acordo com a probabilidade de ocorrência de determinado n´ıvel de cinza: códigos binários menores para valores que ocorrem com mais freqüência e códigos binários maiores para os que ocorrem com menos freqüência.

3.2.2 Redundˆ

ancia Interpixel

Esta redundância é mais diretamente ligada a imagem em si e não a forma como cada pixel é representado. Ela ocorre quando o valor de algum pixel (ou um valor aproximado) pode ser previsto, por exemplo, pelo valor de seus vizinhos. Diz-se então que estes pixels são correlacionados. Portanto, a informa¸cão trazida por este pixel é muito pouca ou nenhuma. Para eliminar esta redundância utiliza-se, na prática, uma transformada nos pixels da imagem. A imagem resultante geralmente perde o aspecto original, porém ela pode ser reconstru´ıda aplicando-se a transformada inversa. No dom´ınio da transformada, é poss´ıvel identificar os pixels que trazem poucas informa¸cões e eliminá-los sem que haja perdas significativas na imagem.

3.2.3 Redundˆ

ancia Psicovisual

(32)

regiões como as bordas de uma imagem são de interesse especial para o sistema de visão. Esta redundância pode ser reduzida fazendo a quantiza¸cão de n´ıveis de cinza dos pixels. Isto causa perda de dados da imagem, porém a perda de informa¸cão pode ser pouca. Por exemplo, o método de quantiza¸cão em n´ıveis de cinza melhorada (IGS - ”Improved Gray-Scale quantization”) [20] reduz uma imagem com 256 n´ıveis de cinza em uma equivalente de 16 n´ıveis sem que haja uma perda visivelmente significativa.

3.3 Crit´

erios de Fidelidade

Existem duas categorias de critérios de avalia¸cão da qualidade de uma imagem com-primida: os objetivos e os subjetivos. Os subjetivos são feitos apresentando-se a imagem resultante para um determinado número de pessoas e interrogando-as quanto à qualidade da mesma em rela¸cão à original, por exemplo, fornecendo notas como mostradas na tabela 3.1.

Tabela 3.1: Escala de notas da “Television Allocations Study Organization”[21]

Valor Nota Descri¸c˜ao

1 Excelente Imagem de qualidade extremamente alta, t˜ao boa quanto se

possa desejar.

2 Boa Imagem de alta qualidade, permitindo visualiza¸c˜ao

agradável. A interferência não prejudica.

3 Regular Imagem de qualidade aceitável. A interferência não

preju-dica.

4 Limite Imagem de qualidade ruim; vocˆe gostaria de poder melhor´

a-la. A interferˆencia ´e um tanto prejudicial.

5 Inferior Imagem muito ruim, mas você pode apreciá-la. Interferência

prejudicial faz-se definitivamente presente.

6 Inútil Imagem tão ruim que você não pode apreciá-la.

(33)

é necessário um número significativo de pessoas, o que dificulta o uso do mesmo.

Neste trabalho foi utilizado o PSNR (Peak Signal to Noise Ratio - Rela¸cão Pico de Sinal/Ru´ıdo), que é um critério objetivo, para aferi¸cão da qualidade das imagens.O PSNR é definido como [12]:

P SN R(I,I) = 10ˆ _·log₁₀ 255

2

e2

ms(I,I)ˆ

, (3.1)

ondeIé a imagem original e Îé a imagem resultante da compressão, 255 é o valor máximo poss´ıvel para a intensidade de um pixel e o e2ms é o erro médio quadrático definido, para

imagens em escala de cinza, como

e2_ms = 1 M N M X i=1 N X j=1 h

I(i, j)₋I(i, j)ˆ i2, (3.2)

e para imagens em RGB

e2_ms = 1 3_·M N

M X i=1 N X j=1 X RGB h

I(i, j)₋I(i, j)ˆ i2, (3.3)

onde M e N são as dimensões da imagem e o 3 refere-se as três camadas de cores da imagem.

3.4 Compress˜

ao sem Perdas

As técnicas de compressão sem perdas garantem a reconstru¸cão perfeita do sinal orig-inal [19]. Por exemplo, os arquivos de um computador, quando são comprimidos para liberar espa¸co do disco r´ıgido, devem ser comprimidos sem perdas. Em imagens, algumas aplica¸cões também não permitem perda de dados. Imagens médicas para diagnóstico não podem ser comprimidas com perdas, seja por motivos legais (de acordo com o sistema legal de alguns pa´ıses) ou por medo do médico de fazer um diagnóstico errado [1].

(34)

3.4.1 Codifica¸c˜

ao Adaptativa de

Huffman

Uma das técnicas mais populares de compressão sem perdas é a codifica¸cão adaptativa de Huffman [22]. O que este algoritmo faz é fornecer para s´ımbolos que ocorrem com mais freqüência códigos binários de comprimento menor e para s´ımbolos menos freqüentes códigos binários maiores. O algoritmo de Huffman cria o código ótimo para o conjunto de s´ımbolos e probabilidades sob a restri¸cão de que os s´ımbolos sejam codificados um por vez.

Uma vez que o código tenha sido criado, a codifica¸cão/decodifica¸cão é feita a partir de uma tabela gerada de uma árvore denominada m´ınima ou de Huffman. Um exemplo desta árvore é mostrado na Figura 3.1 onde também são mostradas as probabilidades de ocorrência de cada s´ımbolo. O código gerado é um código prefixado, onde nenhum código é prefixo de outro. Dessa forma, qualquer cadeia de s´ımbolos codificados utilizando-se o algoritmo Huffman pode ser decodificada através do exame de s´ımbolos individuais da esquerda para a direita.

Figura 3.1: ´Arvore de Huffman juntamente com as probabilidades dos s´ımbolos e os c´odigos dos mesmos.

Por exemplo, seja o código binário da Figura 3.1 e uma cadeia 010100111100 codificada por ele. A primeira palavra codificada seria a 01010, que é o código da palavra s´ımbolo a3. O próximo código válido é 011, que corresponde aa1. Se o processo for continuado o

(35)

3.4.2 Codifica¸c˜

ao de Comprimento de Varredura

A codifica¸cão de comprimento de varredura [12] consiste em trocar uma seqüência de s´ımbolos pelo número de vezes que o s´ımbolo se repete seguido do próprio s´ımbolo. Por exemplo, seja o conjunto de caracteres abaixo:

AAF F F CDDDAAADDDDDCCCF F F F BBBB a vers˜ao codificada da cadeia acima poderia ser:

2A3F1C3D3A5D3C4F4B

Este método simples torna-se eficiente quando o código a ser comprimido possui muitas repeti¸cões, e este é justamente o caso em que este método é utilizado no trabalho. Como será visto no Cap´ıtulo 7, a codifica¸cão de comprimento de varredura é utilizada para comprimir o mapa de regiões de interesse que é uma imagem binária composta por muitos bits zeros e algumas regiões contendo bits uns.

3.5 Compress˜

ao com Perdas

Os métodos de compressão com perdas [12], ao contrário dos métodos de compressão sem perdas, podem atingir altas taxas de compressão em detrimento da perda de in-forma¸cão da imagem que, em alguns casos, pode ser até impercept´ıvel ao ser humano. Estes métodos são divididos em dois tipos principais: a codifica¸cão previsora com per-das e a codifica¸cão por transformada. Só será discutida neste trabalho a compressão por transformada.

(36)

a imagem é novamente obtida. Em imagens naturais, após a transformada, o número de coeficientes de baixa magnitude é grande e os mesmos podem ser quantizados de maneira grosseira ou até mesmo descartados, obtendo-se assim altas taxas de compressão, com perda aceitável de qualidade.

Figura 3.2: Modelo de um compressor com perdas.

(37)

A Transformada Wavelet

4.1 Introdu¸c˜

ao

A transformada wavelet que é uma ferramenta matemática versátil com um conteúdo muito rico e com um grande potencial de aplica¸cões [23]. Entre outras aplica¸cões, ela é usada em processamento de sinais, compressão de imagens, processos estocásticos, es-tat´ıstica, economia e geologia [24]. Além de abordar um pouco da teoria sobre wavelets, neste Cap´ıtulo serão discutidos a análise em multiresolu¸cão, bancos de filtros e transfor-mada wavelet e aplica¸cões desta transfortransfor-mada em compressão de imagens.

4.2 Vis˜

ao Geral

A transformada de um sinal consiste em mapear o mesmo de seu dom´ınio original para o dom´ınio da transformada. Dessa forma é poss´ıvel observar propriedades do sinal que seriam mais dif´ıceis ou imposs´ıveis de serem observadas no dom´ınio original. A trans-formada wavelet possui a caracter´ıstica de decompor o sinal em diferentes componentes de freqüência, permitindo o estudo de cada componente separadamente. Dessa forma, diferentemente da transformada de Fourier, que perde completamente a dependência en-tre tempo e espa¸co, a transformada wavelet é capaz de obter informa¸cões tanto sobre a freqüência quanto sobre o tempo.

A transformada wavelet [25] decompõe um sinal em dilata¸cões e transla¸cões de wavelets. Uma wavelet é uma fun¸cãoψ _∈L2₍

R), ondeL2₍

(38)

integrável cuja energia é limitada e de média zero:

Z +∞

−∞

ψ(t)dt = 0. (4.1)

Ela é normalizada kψk = 1, com o seu centro em t = 0. A fun¸cão ψ é também chamada wavelet-mãe e uma fam´ılia de wavelets são geradas a partir dela escalando em s e transladando, no tempo, por u:

ψu,s(t) =

1

√

sψ

t₋u s

. (4.2)

Essas wavelets geradas continuam normalizadas,kψu,sk= 1. A transformada wavelet

de f _∈L2₍

R) no tempo u em escala s ´e definida como: W f(u, s) =_hf, ψu,si=

Z +∞

−∞

f(t)√1

sψ

∗

t−u s

dt. (4.3)

onde hf, ψu,si representa o produto interno de f e ψu,s e ψ∗ representa o complexo

conjugado de ψ.

4.3 An´

alise de Multiresolu¸c˜

ao

Uma importante caracter´ıstica da transformada wavelet é a multiresolu¸cão [26]. Uti-lizando a resolu¸cão adequada de um sinal, permite-se que sejam processados somente os detalhes relevantes para uma determinada tarefa. Nesta se¸cão serão discutidos alguns aspectos da multiresolu¸cão.

O conceito de multiresolu¸cão é baseado em cinco princ´ıpios básicos [27]:

1. Existe uma seq¨uˆencia de subespa¸cos aninhados contidos em L2₍_R_{) cada qual}

repre-sentando uma resolu¸c˜ao,

V−∞· · · ⊂V−1 ⊂V0 ⊂V1 ⊂. . . V∞=L2(R). (4.4)

Cada subespa¸coVipossui diferentes vetores de bases, os quais determinam diferentes

n´ıveis de resolu¸c˜ao no tempo/espa¸co. Quanto maior o ´ındice, a resolu¸c˜ao torna-se mais refinada;

2. Existe uma fun¸c˜aoϕ(t), chamada fun¸c˜ao de escala, que, com os seus deslocamentos no tempo, formam a base ortonormal do subespa¸co V0,

(39)

3. A mudan¸ca de subespa¸cos de escalas adjacentes ´e feita de acordo com a seguinte propriedade:

f(t)_∈Vi ⇐⇒f(2t)∈Vi+1; (4.6)

4. Deslocamentos no tempo de um sinalf(t)_∈Vi est˜ao restritos ao mesmo subespa¸co

Vi. Esta propriedade é chamada invariância do deslocamento frente às escalas,

f(t)_∈Vi =⇒f(t−n)∈Vi,∀n∈Z; (4.7)

5. O espa¸co L2₍_R_{) cont´em todos os subespa¸cos e portanto ´e o espa¸co de maior}

reso-lu¸cão. E a única fun¸cão que pode ser representada em qualquer escala é a fun¸cão nula,

[

i∈_Z

Vi =L2(R) e

\

i∈_Z

Vi ={0}. (4.8)

A partir das propriedades descritas acima ´e poss´ıvel provar que a base ortonormal para cada subespa¸co Vi pode ser constru´ıda, a partir do prot´otipoϕ(t), base deV0, como

mostrado abaixo

ϕi,k = 2i/2ϕ(2it−k), i, k∈Z (4.9)

onde o fator 2i/2 _{´e usado para garantir a norma unit´aria.}

A partir de ϕ(t) ∈ V0, V0 ⊂ V1 e 21/2ϕ(2t−k) ser base ortonormal de V1, pode-se

escrever ϕ(t) como combina¸c˜ao linear de ϕ(2t₋k), k _∈Z, de acordo com

ϕ(t) = X

k

h0[k]·21/2ϕ(2t−k), k∈Z (4.10)

onde h0[k] s˜ao os coeficientes de escala.

A partir das bases anteriores, um sinal f(t)∈Vi pode ser representado como:

f(t) = X

m

αi(m)·ϕi,m(t). (4.11)

Com os coeficientes de expans˜ao

αi(m) = hf(t), ϕi,m(t)i. (4.12)

(40)

espa¸co. As imagens resultantes foram obtidas utilizando algoritmos implementados para este trabalho.

Uma fun¸cãoϕ(2i+1_{t) é comprimida por um fator 2 no eixo do tempo em compara¸cão}

com a fun¸c˜ao ϕ(2i_{t). Ent˜ao um sinal em um espa¸co} _V

i+1 tem o dobro da resolu¸c˜ao de um

sinal em um espa¸co Vi.

Figura 4.1: Uma mesma imagem em quatro resolu¸c˜oes diferentes. Da esquerda, para a direita e de cima para baixo: a) Vi, b) Vi−1, c) Vi−2 e d)Vi−3.

A partir da Figura 4.1 é clara a perda de qualidade (informa¸cão) entre as imagens de resolu¸cões mais baixas. Estas informa¸cões perdidas são, então, representadas em um subespa¸co complementar: para todo subespa¸co Vi ⊂Vi+1, existe um subespa¸co ortogonal

Wi de tal forma que Vi+1 pode ser representado como uma soma direta, indicada pelo

s´ımbolo _⊕, o que significa que qualquer elemento em Vi+1 pode ser expresso como uma

soma de dois elementos ortogonais, um de Vi e outro de Wi:

Vi+1 =Vi⊕Wi, i∈Z. (4.13)

Oespa¸co complementar Wi ´e gerado por uma base ortonormal

(41)

onde ψ(t) é a wavelet-mãe. Portanto, uma fun¸cão f(t)_∈Wi pode ser escrita como

f(t) = X

m

βi(m)·ψi,m(t), (4.15)

onde

βi(m) =hf(t), ψi,m(t)i. (4.16)

ComoWi ⊂Vi+1, a fun¸cão f(t) pode também ser expandida em termos de fun¸cões de

escalaϕi+1,k(t) do espa¸coVi+1. A wavelet-m˜ae, comi=k= 0, pode tamb´em ser expressa

utilizando a base do espa¸co V1:

ψ(t) =Xh1(n)ϕ(2t−n). (4.17)

O espa¸coVi em (4.13) pode tamb´em ser decomposto em uma soma diretaVi =Vi−1⊕

Wi−1, assim como o espa¸co Vi−1 e assim por diante. A decomposi¸c˜ao do espa¸co L2(R) de

acordo com (4.4) pode tamb´em ser reescrita como:

L2(R) =Vj⊕Wj⊕Wj+1⊕ · · · ⊕W−1⊕W0⊕W1⊕ · · · (4.18)

O ´ındice j é arbitrário e denota a profundidade da decomposi¸cão.

A proje¸c˜ao de uma fun¸c˜ao f(t) ∈ L2₍_R_{) em subespa¸cos de acordo com (4.18)}

cor-responde a transformada wavelet. Essencialmente, esta proje¸cão consiste em calcular os coeficientes de expansão. A expansão de uma fun¸cãof(t) em termos de fun¸cões escalares e wavelets, a partir de (4.18), (4.11) e (4.15), é

f(t) = X

m

αj(m)ϕj,m(t) +

∞ X

i=j

X

m

βi(m)ψi,m(t). (4.19)

4.4 Transformada Wavelet Discreta

Na prática, os sinais são projetados em um número finito de subespa¸cos. Neste caso, eles precisam ser elementos de um certo subespa¸co de L2₍_R_{). Seja um sinal} _{f(t) tal que:}

f(t)_∈V0 ⊂L2(R). (4.20)

A decomposi¸cão em (4.18) é então análoga

(42)

Se os coeficientes de expansão α0(m) de um sinalf(t)∈V0 são conhecidos, então para

calcular a série de expansão wavelet da fun¸cão é necessário somente obter αj(m) e βj(m)

a partir de α0(m). Esta é uma computa¸cão discreta e também é conhecida como

trans-formada wavelet discreta (Discrete Wavelet Transform - DWT). A seguir, ser´a mostrado como obter a transformada wavelet discreta e a sua inversa a partir de bancos de filtros.

4.5 Bancos de Filtros e Wavelets

A utiliza¸cão conjunta de wavelets e bancos de filtros de reconstru¸cão perfeita leva a uma implementa¸cão computacional eficiente da DWT e estabelece um significado prático para esta transformada [27].

4.5.1 Transformada Wavelet Discreta Utilizando Bancos de

Fil-tros

Será mostrado aqui como é feita a computa¸cão dos coeficientes de expansão da proje¸cão de um sinal em um espa¸co Vi+1 nos subespa¸cosVi eWi através de um banco de filtros de

dois canais.

Inicialmente, tem-se o sinal f(t) =X

n

αi+1(n)·ϕi+1,n(t)∈Vi+1, (4.22)

cujos coeficientes αi+1(n) devem ser conhecidos. Como Vi+1 = Vi⊕Wi, este sinal pode

ser expandido como combina¸c˜oes das bases de Vi e Wi:

f(t) = X

n

αi(m)·ϕi,m+

X

m

β(m)_·ψi,m(t). (4.23)

Na pr´atica, deve-se calcular os coeficientes desconhecidos αi(m) e βi(m) a partir dos

coeficientes conhecidos αi+1(m) Esse c´alculo pode ser feito fazendo a convolu¸c˜ao dos

coeficientes αi+1(m) com as s´eries h0(−n) e h1(−n), respectivamente, e, em seguida,

fazendo uma subamostragem por um fator 2:

αi(m) = h0(−n)∗αi+1(n)|n=2m; (4.24)

(43)

onde _∗ indica a opera¸c˜ao de convolu¸c˜ao.

A Figura 4.2 esquematiza este processo. Portanto, o cálculo dos coeficientes da decom-posi¸cão de um sinal é feito por um banco de filtros de análise com respostas ao impulso h0(−n) eh1(−n). O sinalf(t)∈Vi+1 possui o dobro da resolu¸cão comparado com as suas

proje¸cões. Porém, os coeficientes de expansão αi(m) e βi(m) necessitam da metade das

amostras dos coeficientes αi+1(m).

Figura 4.2: C´alculo dos coeficientes wavelets de expans˜ao.

A proje¸c˜ao de Vi+1 em Vi corresponde a uma filtragem passa-baixa e a proje¸c˜ao em

Wi a uma filtragem passa-alta. Então h0(−n) é um filtro passa-baixa digital e h1(−n) é

um filtro passa-alta digital complementar associado.

Se forem conectados, repetidamente, bancos de filtros de análise de dois canais nas sa´ıdas passa-baixa do banco mostrado na Figura 4.2, então a decomposi¸cão se dará de acordo a Figura 4.3 em um esquema estruturado em árvore.

Figura 4.3: Transformada wavelet discreta utilizando uma estrutura em ´arvore. Os coeficientesβ−1 at´eβ−5, das wavelets, podem ser pensados como sinais discretos de

alta freqüência enquanto o coeficiente α−5, da fun¸cão de escala, pode ser pensado como

(44)

Atransformada wavelet discreta inversa(Inverse Discrete Wavelet Transform- IDWT) ´e feita utilizando bancos de filtros de s´ıntese. Ela ´e feita unindo dois sinais dos subespa¸cos Vi e Wi em um sinal do subespa¸co Vi+1. Isso faz com que o novo sinal possua o dobro da

resolu¸c˜ao dos sinais anteriores.

A Figura 4.4 mostra como é feita esta união. Assim como na Figura 4.3, a transformada wavelet discreta inversa também faz uso de um esquema estruturado em árvore, como mostrado na Figura 4.5.

Figura 4.4: C´alculo de um n´ıvel da IDWT.

Figura 4.5: Transformada IDWT utilizando uma estrutura em ´arvore.

4.6 Transformada Wavelet Aplicada `

as Imagens

Dig-itais

(45)

cada n´ıvel de decomposi¸c˜ao obtido pela transformada wavelet unidimensional, alternamos a dire¸c˜ao processada.

Por exemplo, suponha primeiramente as linhas de uma imagem contidas no espa¸coV0

ap´os aplicada a transformada nas linhas, elas passar˜ao para os subespa¸cos V−1 e W−1.

Fazendo o mesmo processo agora para as colunas passaremos elas do espa¸co V0 para os

subespa¸cos V−1 e W−1. Ap´os isso estar´a terminado um n´ıvel da transformada wavelet

aplicada `a imagem. A imagem original no espa¸co V0×V0 passar´a a ser quatro subimagens

nos subespa¸cos V−1×V−1, V−1×W−1,W−1×V−1 e W−1×W−1. Para um segundo n´ıvel

da transformada wavelet o mesmo procedimento deve ser feito agora para a subimagem contida no espa¸co V−1 ×V−1. Feito isso, a subimagem ser´a substitu´ıda por mais quatro

novamente, que por sua vez estar˜ao nos subespa¸cos V−2×V−2, V−2×W−2, W−2×V−2 e

W−2×W−2. A Figura 4.6 mostra o esquema da transformada wavelet de 2 n´ıveis em uma

imagem, L significa baixas freqüências e o H altas freqüências, então LL1 é o subespa¸co V−1×V−1, LH1 é o V−1×W−1 e assim por diante. Já a Figura 4.7 mostra a transformada

wavelet de 3 n´ıveis aplicada `a imagem de Lena [14], onde a imagem resultante foi obtida a partir de software implementado para este trabalho.

Figura 4.6: Transformada wavelet de dois n´ıveis aplicada a uma imagem.

Depois de aplicada a transformada wavelet, o resultado será uma subimagem composta por coeficientes do subespa¸coV−j×V−j, ondejé o n´ıvel da transformada wavelet, e vários

(46)

Figura 4.7: Resultado de uma transformada wavelet discreta aplicada a uma imagem.

wavelet é uma ótima ferramenta para a compressão de imagens digitais.

4.7 Lifting Scheme

A transformada wavelet utilizando olifting scheme é também chamada de wavelet de segunda gera¸cão por possuir vantagens (como velocidade, por exemplo) sobre a transfor-mada tradicional mostrada anteriormente [28]. O diagrama de blocos dessa transfortransfor-mada é mostrado na Figura 4.8. Esse processo envolve basicamente três passos: separa¸cão, predi¸cão e atualiza¸cão.

Figura 4.8: Diagrama de blocos do lifting scheme.

(47)

pares e a outra as ´ımpares. Ou seja:

αi(n) = αi+1(2n)

βi(n) = αi+1(2n+ 1)

(4.26)

Na predi¸cão, a informa¸cão contida na seqüência ´ımpar βi(n) é subtra´ıda por uma

predi¸c˜ao baseada em αi(n):

βi(n) =βi(n)−

X

m

e

sn_i(m)αi(m) (4.27)

onde s_en

i(m) s˜ao coeficientes pr´e-definidos conforme o tipo de transformada wavelet

uti-lizada (e.g. Haar, Daubechie, biortogonais, etc).

Dessa forma, a correla¸c˜ao entre αi(n) e βi(n) ´e retirada, deixando um conjunto βi(n)

que pode sofrer um limiar com menor perda de qualidade do que o caso do conjuntoβi(n)

original. Esse passo estabelece os coeficientes da transformada wavelet no n´ıvel i como sendo o conjunto βi(n).

A etapa de atualiza¸cão é feita para assegurar que propriedades globais do sinal de entrada, como o valor médio, sejam herdados por αi(n). A atualiza¸cão é feita utilizando

os coeficientes wavelet obtidos do passo anterior:

αi(n) =αi(n)−

X

m

sn_i(m)βi(m) (4.28)

onde sn

i(m) s˜ao coeficientes pr´e-definidos conforme o tipo de transformada wavelet

uti-lizada.

Para cada tipo de wavelet uma seqüência de predi¸cões e atualiza¸cões, com seus respec-tivos coeficientes, é necessária. Após essa etapa, os coeficientes são normalizados:

αi(n) = nlαi(n)

βi(n) =nhβi(n)

(4.29)

onde nLnH = 1. Exemplos do uso do lifting scheme para alguns tipos de transformada

(48)

Redes Neurais

5.1 Introdu¸c˜

ao

Este Cap´ıtulo irá abordar as redes neurais artificiais, que são também chamadas sim-plesmente de “redes neurais”. Serão discutidos detalhes da rede neural competitiva que é uma rede neural auto-organizável. Será mostrado o uso dessa rede como um quantizador vetorial e como um classificador de padrões e os algoritmos de treinamento utilizados.

5.2 Conceitos B´

asicos

Uma rede é uma máquina que deve aprender a realizar uma tarefa particular ou uma fun¸cão de interesse. Para isso as redes neurais empregam uma interliga¸cão maci¸ca de células computacionais simples denominadas “neurônios” ou “unidades de processa-mento”. Haykin [30] define uma rede neural da seguinte forma:

Uma rede neural ´e um processador maci¸camente paralelo distribu´ıdo, constitu´ıdo de

unidades de processamento simples que tˆem a propens˜ao natural para armazenar

conhe-cimento experimental e torn´a-lo dispon´ıvel para o uso. Ele se assemelha ao c´erebro em

dois aspectos:

1. O conhecimento ´e adquirido pela rede a partir de seu ambiente atrav´es de um pro-cesso de aprendizagem.

(49)

Outra caracter´ıstica da rede neural artificial que a assemelha ao cérebro humano é que se algum dos seus neurônios “morre” a rede pode continuar funcionando bem. Além disso, também podem ser feitas modifica¸cões na arquitetura da rede inserindo-se ou removendo-se neurônios. O modelo do neurônio artificial é mostrado na Figura 5.1, onde xi é cada

elemento do vetor xde entrada, wki é o peso sináptico do neurônio k ligado a entrada xi

eϕ(.) é uma fun¸cão de ativa¸cão que pode ser uma fun¸cão sigmóide, tangente sigmóide ou mesmo uma fun¸cão puramente linear [30].

Figura 5.1: Modelo de um neurˆonio artificial.

O processo de aprendizagem é um algoritmo que vai definir como serão modificados os pesos sinápticos da rede. Esses algoritmos são divididos em duas classes principais, ou paradigmas de aprendizagem, que são a aprendizagem supervisionada e a aprendizagem não supervisionada. De uma forma geral o processo de aprendizagem é da seguinte forma:

1. A rede neural ´e estimulada por um ambiente;

2. A rede neural sofre modifica¸cões nos seus pesos sinápticos como resultado desta estimula¸cão;

3. A rede neural responde de uma maneira nova ao ambiente, devido `as modifica¸c˜oes ocorridas na sua estrutura interna.

(50)

processo de aprendizagem a rede neural deve ter a capacidade de emular o professor e a partir da´ı poder lidar com o ambiente por si mesma. Aplica¸cões de redes neurais desse tipo são a classifica¸cão de padrões e a aproxima¸cão de fun¸cões. A rede neural mais conhecida para ser utilizada na aprendizagem supervisionada é a Perceptron de Múltiplas Camadas onde o algoritmo de treinamento mais utilizado é o algoritmo de retropropaga¸cão (back propagation) [31].

Figura 5.2: Diagrama de blocos da aprendizagem supervisionada.

Apesar de atingir bons resultados, essas redes neurais necessitam sempre da figura do professor que deve conhecer o ambiente e fornecer as respostas ótimas para determinado est´ımulo do ambiente. Porém nem sempre é poss´ıvel conhecer a resposta ótima e, para isso, foram desenvolvidos os métodos de aprendizagem não supervisionada.

A aprendizagem não supervisionada ainda pode ser classificada como aprendizagem por refor¸co e aprendizagem auto-organizada. Na aprendizagem por refor¸co [32] ao invés de um professor existe a figura do cr´ıtico que, depois do sistema de aprendizagem sofrer um est´ımulo do ambiente, é responsável em classificar a¸cão como boa ou ruim aplicando uma penaliza¸cão ou uma recompensa.

Naaprendizagem auto-organizada não existe nem a figura do professor nem do cr´ıtico, como é mostrado na Figura 5.3. A rede tem a habilidade de formar representa¸cões internas para codificar as caracter´ısticas da entrada e, desse modo, de criar automaticamente novas classes [33].

(51)

Uma rede neural auto-organizável bastante importante é o mapa auto-organizável de Kohonen [34]. Seu principal objetivo é transformar um padrão de sinal incidente de di-mensão arbitrária em um mapa discreto uni ou bidimensional e realizar esta transforma¸cão adaptativamente de uma maneira topologicamente ordenada. Neste trabalho foi utilizada a rede neural competitiva por oferecer um algoritmo mais simples e rápido para realizar a quantiza¸cão vetorial.

5.3 Redes Neurais Competitivas

Como o nome sugere, nesta rede neural os neurônios “competem” entre si para que somente um neurônio esteja ativo quando um determinado est´ımulo do ambiente seja apli-cado à sua entrada, ao contrário da aprendizagem hebbiana [35], onde vários neurônios da sa´ıda podem estar ativos simultaneamente. Segundo Rumelhart e Zipser [36], exis-tem três elementos básicos para que uma regra de aprendizagem possa ser considerada competitiva:

• Um conjunto de neurônios que são todos iguais entre si, exceto pelos pesos sinápticos distribu´ıdos aleatoriamente, e que por isso respondem diferentemente a um dado conjunto de padrões de entrada;

• Um limite imposto sobre a “for¸ca” de cada neurˆonio;

• Um mecanismo que permita a competi¸cão entre os neurônios onde somente um deles estará ativo em determinado instante. Este neurônio é chamado de neurônio vencedor leva tudo.

Os neurônios da rede aprendem a se especializar em agrupamentos de padrões similares se tornando detectores de caracter´ısticas para classes diferentes de padrões de entrada. A arquitetura mais simples de uma rede neural competitiva é mostrada na Figura 5.4 onde todos os neurônios estão totalmente conectados aos nós de entrada e também conectados uns com os outros através de arcos inibidores.

Quando um neurônioké considerado vencedor significa que seu campo local induzido, vk, para um padrão de entradax, é o maior dentre todos os neurônios da rede. O sinal de

(52)

Figura 5.4: Arquitetura básica de uma rede neural competitiva onde cada neurônio está totalmente conectado aos nós de entrada (setas preenchidas) e conectados entre si através de arcos inibidores (setas abertas).

´e colocado em 0, ou seja:

yk =

  

1 se vk> vj para todosj,j 6=k

0 caso contr´ario (5.1)

onde vk indica o quão próximo o neurônio k é do padrão de entrada x, que pode ser

definido como o produto interno,

vk = m

X

i=1

wki·xi, (5.2)

ou pela distˆancia euclidiana,

vk =

v u u t m X i=1

[wki−xi]2. (5.3)

Para o caso da distancia euclidiana a regra da equa¸cão (5.1) deve ser modificada para o neurônio com menor vk. Nas equa¸cões (5.2) e (5.3) wki representa o peso sináptico

conectando o n´o de entrada i ao neurˆonio k.

Segundo aregra de aprendizagem competitiva padrãoos neurônios considerados perde-dores não sofrerão nenhuma atualiza¸cão nos pesos sinápticos. Os pesos sinápticos do neurônio vencedor devem ser atualizados de acordo com a seguinte equa¸cão:

∆wki =η(xj−wki). (5.4)

(53)

Algoritmo 5.1 Treinamento competitivo

Entrada: número de neurônios, condi¸cão de parada

Enquanton˜ao atingir a condi¸c˜ao de parada Fa¸ca

Sortear um padr˜ao de entrada x

kc ⇐minx=1...kkx−wik {Encontrar o neurˆonio vencedor}

wc(t+ 1) ⇐wc(t) +η(t)·[x(t)−wc(t)]{Atualizar pesos do neurˆonio vencedor}

t =t+ 1

Fim Enquanto

do vetor padr˜ao de entrada x. No Algoritmo 5.1 ´e mostrado um pseudo-algoritmo do treinamento competitivo.

Para exemplificar o funcionamento de uma rede neural competitiva e a sua capacidade de identificar padrões, foi apresentado à rede o conjunto de dados bidimensionais da Figura 5.5. Neste caso foram utilizados cinco neurônios que primeiramente estavam em posi¸cões aleatórias no espa¸co bidimensional. Na medida que o algoritmo de treinamento é executado os neurônios “caminham” para regiões centrais dos agrupamentos de dados. O fim do treinamento é mostrado na Figura 5.6. É poss´ıvel perceber que cada um dos neurônios se deslocou para um centro diferente. As figuras foram obtidas a partir de algoritmos implementados para uso neste trabalho.

(54)

Figura 5.6: Dados após classifica¸cão com o algoritmo competitivo. Os neurônios, no fim do treinamento, estão marcados com cruzes pretas.

As redes neurais competitivas são muito utilizadas para agrupamento de padrões. Para esse exemplo é fácil para o ser humano identificar que existem cinco regiões bem distintas. Se fosse em um caso de três dimensões já seria mais dif´ıcil identificar esses aglomerados e para o caso de quatro ou mais se torna imposs´ıvel identificar os agrupamentos. Entretanto as redes neurais são capazes de generalizar esse processo para qualquer dimensão.

5.4 Algoritmo de Treinamento para Espa¸cos

Discre-tos

O algoritmo tradicional funciona muito bem em espa¸cos m-dimensionais cont´ınuos, porém em espa¸cos m-dimensionais discretos e binários o tempo de treinamento torna-se elevado. Como será visto no Cap´ıtulo 7, a rede neural será utilizada em um espa¸co binário e para agilizar o treinamento o algoritmo utilizado não foi o tradicional.

O algoritmo utilizado foi desenvolvido por Almeida Filho et al. [37] e se comporta muito bem para espa¸cos discretos ou binários. Além disso, ele possui todas as carac-ter´ısticas necessárias, que foram mostradas anteriormente, para ser considerado um algo-ritmo de treinamento competitivo.

(55)

um. Assumindo que cada valor de entrada está no intervalo _{min, . . . , max_}(i.e., min_≤ xi ≤ max, i = 1,2, . . . , n), o limite imposto a cada neurônio é n·max. A defini¸cão do

neurônio vencedor é a mesma do algoritmo tradicional, porém a atualiza¸cão do mesmo é feita de acordo com

∆wki =η·sgn[xk−wki], (5.5)

onde sgn(.) é a fun¸cão sinal que assume o valor +1 se o valor do parâmetro for positivo 0 se for zero e ₋1 se for negativo. O fator de aprendizagem η é dado por

η= max−min

m , (5.6)

onde m é o número de passos (escolhido arbitrariamente) necessários para modificar um peso sináptico do seu menor valor para o seu maior valor.

Se o valor demfor escolhido de forma queηseja um número inteiro todas as opera¸cões matemáticas serão realizadas com aritmética inteira, fazendo que a sua execu¸cão seja mais rápida.

5.5 Quantiza¸c˜

ao Vetorial

A quantiza¸cão vetorial é uma técnica que explora a estrutura subjacente dos vetores de entrada para o propósito de compressão de dados [38]. Especificamente, um espa¸co de entrada é dividido em um número de regiões distintas e para cada região é definido um vetor de reconstru¸cão. Quando um novo vetor de entrada é apresentado ao quantizador é determinada, inicialmente, a região na qual o vetor se encontra e ela é então representada pelo vetor de reconstru¸cão para aquela região. Com isso, utilizando uma versão codificada deste vetor de reconstru¸cão para armazenamento ou transmissão no lugar do vetor de entrada original, pode-se obter uma considerável economia em armazenagem ou largura de banda de transmissão, às custas de alguma distor¸cão. A cole¸cão de poss´ıveis vetores de reprodu¸cão é chamada de livro de código (codebook) do quantizador e seus membros são denominados palavras de código (codewords).

(56)

regra do vizinho mais próximo baseada na métrica euclidiana [38]. A Figura 5.6 mostra o espa¸co de entrada, após o treinamento, dividido em cinco células com os seus vetores associados (os neurônios após o treinamento). Cada célula contém aqueles pontos do espa¸co de entrada que são os mais próximos do vetor dentre a totalidade destes pontos.

Neste trabalho, a quantiza¸cão vetorial é utilizada para comprimir um mapa binário de coeficientes significantes, como será mostrado na se¸cão 7.3, e a regra de aprendizagem utilizada na rede neural competitiva foi a mostrada na se¸cão 5.4.

5.6 Reconhecimento de Padr˜

oes

Para os seres humanos, reconhecer padrões é uma tarefa muito simples. Recebemos dados do mundo à nossa volta através dos nossos sentidos e somos capazes de reconhecer a fonte dos dados. Somos capazes de reconhecer o rosto de alguém mesmo envelhecido alguns anos, reconhecer a voz por uma linha telefônica mesmo com algum ru´ıdo e diferenciar entre um alimento bom ou estragado pelo olfato. Os humanos realizam o reconhecimento de padrões através de um processo de aprendizagem; o mesmo acontece com as redes neurais [30].

O reconhecimento de padrões é formalmente definido como o processo pelo qual um padrão/sinal recebido é atribu´ıdo a uma classe dentre um número predeterminado de

classes (categorias). Uma rede neural realiza o reconhecimento de padrões passando inicialmente por uma se¸cão de treinamento, durante a qual se apresenta repetidamente à rede um conjunto de padrões de entrada junto com a categoria à qual cada padrão particular pertence. Mais tarde, apresenta-se à rede um novo padrão que não foi visto antes, mas que pertence à mesma popula¸cão de padrões utilizada para treinar a rede. A rede é capaz de identificar a classe daquele padrão particular por causa da informa¸cão que ela extraiu dos dados de treinamento. O reconhecimento de padrões realizado por uma rede neural é de natureza estat´ıstica, com os padrões sendo representados por pontos em um espa¸co de decisão multidimensional. O espa¸co de decisão é dividido em regiões, cada uma das quais associada a uma classe e as fronteiras de decisão são determinadas pelo processo de treinamento.

(57)

(58)

Morfologia Matem´

atica

6.1 Introdu¸c˜

ao

A palavra “morfologia” significa “estudo de formas”. Este termo é utilizado em inúmeras áreas cient´ıficas incluindo a biologia e a geografia [39]. Em processamento de imagens, morfologia matemática é uma ferramenta para extra¸cão de componentes de uma imagem que são úteis para a sua representa¸cão e descri¸cão. A técnica foi inicialmente desenvolvida por Matheron [40] e Serra [41] na Ecole des Mines em Paris (na Ecole des Mines eles estavam interessados na análise de dados geológicos e na estrutura de mate-riais). Morfologia matemática fornece fronteiras, esqueletos e fecho convexo. Também é utilizada para pré e pós-processamento, como filtragem morfológica, afinamento e poda (pruning) [12].