Decomposição triangular de imagens: uma aplicação em compressão.

(1)

Decomposicao Triangular de Imagens: Uma

Aplicagao em Compressao

Vania Cordeiro da Silva

Tese de Doutorado submetida a Coordenacao dos Cursos de Pos-Graduacao em Engenharia Eletrica da Universidade Federal de Campina Grande como parte dos requisites necessarios para obtencao do grau de Doutor em Ciencias no Dominio da Engen-haria Eletrica.

Area de Concentracao: Processamento da Informacao

Joao Marques de Carvalho, PhD. Orientador

Campina Grande, Paraiba, Brasil ©Vania Cordeiro da Silva, Outubro 2003

(2)

(3)

DECOMPOSIQAO T R I A N G U L A R DE I M A G E N S : U M A A P L I C A C A O EM COMPRESSAO

V ' A M A CORDEIRO DA S I L V A

Tese Aprovada cm 31.10.2003

PROF. JO A O MARQUES DE C A R V A L H O , Ph.D., UFCG

y Orientador

V >

PROF. N E U C I M A R J E R B M M O L E I T E , Dr., U N I C A M P Componente da Banca

PROF. A R N A L D O DE A L B U Q U E R Q U E A R A U J O , D.Sc, U F M G Componente da Banca (Ausencia Justiflcada)

/I

PROF. R O N E I MARCOS DE M O R A E S , Dr., UFPB Componente da Banca

PROF. BENEiDITO G U I M A R A E S A G U I A R N E T O , Dr., Ing., UFCG Componente da Banca

PROF. FRANCISCO M ARCOS DEASSIS, Dr. UFCG Componente da Banaca

PROF. F R A N C I S C O DE ASSIS FERREIRA TEJO, D.Sc, UFCG Componente da Banaca

C A M P I N A G R A N D E - PB OUTUBRO - 2003

(4)

Dedicatoria

A m i n h a fonte de inspiracao e apoio de todos os momentos, m e u esposo A l v a r o Vinicius.

(5)

Agradecimentos

A Deus p o r poder concluir mais uma etapa da m i n h a v i d a .

A o professor Joao Marques, por sua valiosa orientacao, incentivo e paciencia durante todo o trabalho.

A o m e u esposo A l v a r o Vinicius por suas contribuicoes ao trabalho, apoio pessoal, pelas ajudas neste texto, por entender e suportar m i n h a ausencia, i m p e d i n d o -me ate, de desistir desta empreitada. Sem ele nao teria conseguido.

Aos meus pais, D i n a h e Pacele, e minhas irmas, Vanessa e Valeria, pela ajuda inestimavel e abrigo.

A o m e u sobrinho A r t h u r pelos momentos de descontracao que me p e r m i t i r a m lazeres necessarios para suportar e concluir tao dificil Jornada.

Aos colegas do g r u p o de Analise e Processamento de Imagens coordenado pelo professor Joao Marques, em particular Josemar, Suzete e Luciana pela amizada e colaborac,ao ao trabalho.

U m agradecimento especial ao m e u amigo Josemar, sem o qual seria impossivel o t e r m i n o desde trabalho, sendo pois, m e u representante m i n i m i z a n d o a distancia.

A COPELE e seus funcionarios, Angela, Pedro, Marcos, Eleonora e Rosilda, pela disponibilidade constante.

A o Departamento de Ciencias Exatas e Tecnologicas (DCET) e ao Colegiado do Curso de Computa<;ao (COLCIC) da Universidade Estadual de Santa Cruz - UESC, nas figuras dos professores, H e r l o n , Evandro, Decio e as funcionarias Angelica, A l i o m a r i a e Tatiana, pelo apoio professional, logistico e amizade.

Aos membros da banca da defesa do exame de qualificacao pela presence, pelas correqoes e sugestoes ao trabalho.

A Consuelo pelo apoio e incentivo na fase final deste trabalho.

A Doroteia, Jurubeba, Rosesheila, Doque, Junior e R i q u i n h o , por me devolverem o sorriso nos momentos em que este parecia impossivel.

Agradeeo a todos aqueles que contribuiram direta o u indiretamente para a elab-oracao deste trabalho, cujos nomes nao constam desta minuscula lista.

(6)

Por u l t i m o , a todos os colegas d o LAPS (laboratorio de processamento de sinais) dos quais sempre recebi demostracoes de carinho, simpatia e incentivo.

(7)

Resumo

O objetivo deste trabalho e dar u m a contribuicao a area de compressao de i m -agens, isto e, ao problema de reduzir a quantidade de bits necessarios para repre-sentor u m a dada imagem, sendo ainda capaz de restaura-la para sua forma original (com u m certo grau de fidelidade). A solucao deste problema e importante u m a vez que u m algoritmo de compressao de imagens eficiente, pode representar u m a economia consideravel e m termos de espaco de armazenamento de imagens e/ou ocupacao do canal para sua transmissao.

Este trabalho apresenta u m novo metodo de decomposicao aplicado a imagens, utilizando decomposicao Tritree (TT). A decomposicao TT e similar a decomposicao

Quadtree (QT), a qual tern sido largamente utilizada e m algoritmos de compressao de imagens. Contudo, enquanto a QT funciona s u b d i v i d i n d o a imagem em regioes quadrangulares, progressivamente menores, a decomposicao TT o faz para regioes triangulares. A meta e segmentar a imagem e m u m conjunto de regioes triangulares homogeneas, onde a diferenga dos valores dos pixels nao exceda u m determinado limiar.

U m a arvore e construida para representar a decomposicao T T Cada triangulo sera u m no na arvore. O triangulo inicial, chamado de raiz, contem a imagem toda. Os triangulos finais, representando a i m a g e m c o m p r i m i d a propriamente dita, sao as folhas.

Os resultados experimentais mostram que o metodo proposto tern melhor de-sempenho quando comparado diretamente com a decomposicao QT, e m termos de qualidade da imagem reconstruida e taxa de compressao. C o m isso, e de esperar que os metodos hfbridos de compressao de imagens digitals, que fazem uso da QT, tenham seus resultados melhorados, se estes fizessem uso da TT.

(8)

Abstract

The objective of this w o r k is to bring a contribution to the field of image com-pression, i . e., the p r o b l e m of reducing the a m o u n t of bits needed to represent a given imge, w h i l e still being able to restore it to its shape (to w i t h i n a certain degree of fidelity), whenever needed. A good solution to i t is i m p o r t a n t because it can rep-resent a considerable economy i n terms of image storage space and/or transmission b a n d w i d t h .

This w o r k presents a new m e t h o d for image compression, using Tritree (TT) de-compositon. TT decomposition is similar to Quadtree (QT) decomposition, w h i c h has been largely used for image compression algorithms. However, w h i l e Q T w o r k s by s u b d i v i d i n g the image into progressively smaller square regions, TT decomposi-ton does i t for triangular regions. The goal is to segment the image into a set of triangular homogeneous regions, where the pixel values difference does not exceed a given threshold.

A tree is b u i l t to represent the decomposition. Each triangle w i l l be a node of the T T The initial triangle, called root, containing the w h o l e image. The final triangles, representing the compressed image, are the leaves.

Experimental results show the proposed m e t h o d to p e r f o r m better than the Q T decomposition, i n terms of reconstructed images and compression rate.

(9)

Conteudo

1 Caracterizacao do Problema 1

1.1 Introducao 1 1.2 Representacao Digital da Informa^ao Visual 2

1.3 Principios da Compressao de Imagens 4

1.4 O Problema 5 1.5 Objetivo do Trabalho e Organizac,ao do Texto 6

2 Revisao Bibliografica 1 : Classificacao e M e d i d a s A v a l i a t i v a s dos A l g o r i t

-mos de Compressao de Imagens D i g i t a l s 9 2.1 Classificacao dos A l g o r i t m o s de Compressao 9

2.1.1 Classificagao Segundo a Perda de Informacao 10 2.1.2 Classificacao Segundo o Tipo de Redundancia Eliminada . . . 11

2.1.3 Conclusao 15 2.2 Medidas de Avaliacao dos Algoritmos de Compressao de Imagens . 16

2.2.1 Medidas Avaliativas de Distorcao e de Q u a l i d a d e da

Recon-strucao 17 2.2.2 Medidas de Eficiencia da Compressao 22

2.2.3 M e d i d a de Complexidade do A l g o r i t m o 23

2.2.4 Entropia 23 2.2.5 Conclusao 24

3 Revisao Bibliografica 2: Abordagens mais C o m u n s e Padronizagao dos

M e t o d o s de Compressao 25 3.1 A s Abordagens mais Comuns dos Metodos de Compressao 25

3.1.1 Codificacao Preditiva 28 3.1.2 Codificacao por Transformada 30

(10)

3.1.3 Quantizacao Vetorial 3 5 3.1.4 Codificacao Multirresolucional/Multiescala 40

3.2 Padronizacao das N o r m a s de Compressao 46

3.2.1 I T U - R 6 0 1 48 3.2.2 I T U - T H.120 48 3.2.3 I T U - T H.261 49 3.2.4 I T U - T H.263 49 3.2.5 I T U - T H.263+ 50 3.2.6 ISO/JPEG 51 3.2.7 I S O / M P E G - 1 52 3.2.8 ISO/MPEG 2 o u ITU-T H.262 53 3.2.9 I S O / M P E G - 4 55 3.2.10 U m a breve Visao do Futuro dos Projetos de Padronizacao de

Codificacao 58 3.2.11 Conclusao 60 4 Tritree 61 4.1 Decomposicao Tritree 62 4.1.1 Arvores de pesquisa 62 4.1.2 Estruturas Tritree 64 4.1.3 Enquadrando a I m a g e m 67 4.1.4 Triangulacao 69 4.1.5 Teste de Homogeneidade 72 4.1.6 L i m i a r de Decisao 73 4.1.7 Equalizacao dos Vertices 74

4.2 A r q u i v o C o m p r i m i d o 75 4.2.1 Codificacao da Estrutura da Arvore 75

4.2.2 Codificacao Preditiva dos Vertices 76

4.3 Reconstrucao das Imagens 76 4.3.1 A b o r d a g e m H i b r i d a com wavelets 78

4.4 Conclusao 80

5 Resultados Experimentais 81 5.1 Equalizacao dos Vertices 86 5.2 Teste de Homogeneidade 91

(11)

5.3 L i m i a r Fixo x L i m i a r Variavel 96 5.4 Codificacao Preditiva dos Vertices 101 5.5 Codificacao da Estrutura da A r v o r e 104

5.5.1 Codificagao da estrutura da A r v o r e sem Utilizacao de Flag . . 105 5.5.2 Codificacao da estrutura da A r v o r e c o m Utilizacao de Flag . . 108

5.6 A b o r d a g e m H i b r i d a c o m Wavelets I l l 5.7 Analise de Fourier das Imagens Reconstruidas 112

5.8 Conclusao 119

6 Conclusoes, Contribuicoes e Sugestoes de Trabalhos Futuros 123

6.1 Conclusoes 123 6.2 Sugestoes de Trabalhos Futuros 125

(12)

Lista de Figuras

3.1 Ordenamento dos coeficientes da DCT, exemplificando a varredura

tridi-mensional em zig-zag, das baixas para as altas frequencias 34 3.2 Imagem qualquer dividida em quadrantes e subquadrantes, e sua respectiva

arvore quadtree 43 3.3 Maneiras de construcao de uma Quad-tree: a) top-down e b) bottom-up. . . 44

3.4 Seqiiencia composta a partir de objetos previamente disponiveis. . . . . 59

4.1 Exemplo de uma Arvore Binaria 63

4.2 Estrutura Tritree 64 4.3 Tritree: Estrutura de Dados 65

4.4 Tritree: Disposicao Inicial 68 4.5 Tritree: Retangulo Contendo um Triangulo de Dimensoes Exatas 70

4.6 Os tres pontos de vertice de um triangulo A, B e C, definindo u m piano e o

vetor normal a este piano 77 4.7 Imagem Lena de 512x512 com 1 nivel de decomposicao wavelet 79

5.1 Imagens Utilizadas nos Testes 83 5.2 Tritree x Quadtree - Tritree: Vertices nao Equalizados, Reconstrucao por

Inter-polacao Linear (IL) e Replicacao da Media (RM). Quadtree: Original 85 5.3 Tritree x Quadtree - Tritree: Vertices Equalizados, Reconstrucao por

Interpo-lacao Linear (IL) e Replicacao da Media (RM). Quadtree: Original 88 5.4 Tritree x Quadtree - Tritree: Teste de Homogeneidade pelo Desvio da

Me-dia, Reconstrucao por Interpolacao Linear (IL) e Replicacao da Media (RM).

Quadtree: Teste de Homogeneidade pelo Desvio da Media 90 5.5 Tritree x Quadtree - Tritree: Teste de Homogeneidade pelo Desvio Padrao,

Reconstrucao por Interpolacao Linear (IL) e Replicacao da Media (RM).

Quadtree: Teste de Homogeneidade pelo Desvio Padrao 94

(13)

5.6 Tritree: Comparacao entre os Diferentes Testes de Homogeneidade (Teste Original - OR, Teste pelo Desvio da Media - D M e Teste pelo Desvio Padrao - DP) e as Diferentes Formas de Reconstrucao (Interpolacao Linear - I L e

Replicacao da Media - RM) 95 5.7 Tritree x Quadtree - Tritree: Limiar Variavel (LV), Teste de Homogeneidade

Original, Reconstrucao por Interpolacao Linear (IL) e Replicacao da Media

(RM). Quadtree: Limiar Variavel (LV) e Teste de Homogeneidade Original. . 96 5.8 Tritree x Quadtree - Tritree: Limiar Variavel (LV), Teste de Homogeneidade

pelo Desvio da Media (DM), Interpolacao Linear (IL) e Replicacao da Media (RM). Quadtree: Limiar Variavel (LV), Teste de Homogeneidade pelo Desvio

da Media (DM) 102 5.9 Sinais Unidimensionas: O n d a Quadrada e O n d a Triangular. 112

5.10 Coeficientes da Serie de Fourier 113 5.11 Transformada de Fourier para a Imagem de u m Quadrado 114

5.12 Transformada de Fourier para a Imagem de u m Triangulo 115 5.13 Transformada de Fourier para a Imagem da Lena de Dimensoes 512x512116

5.14 Tritree: Transformada de Fourier da Lena de Dimensoes 512x512, com

L i m i a r 50, Teste de homogeneidade Original e Interpolacao Linear. . 117 5.15 Quadtree: Transformada de Fourier da Lena de Dimensoes 512x512,

com L i m i a r 50 e Teste de homogeneidade original 118

5.16 Erros n o D o m i n i o da Freqiiencia 121 5.17 Exemplos de Imagens Reconstruidas 122

(14)

Lista de Tabelas

2.1 Exemplo de uma codificacao de tamanho variavel 12

2.2 Notas d o teste M O S 18 2.3 M e d i d a s de Qualidade Objetiva 21

3.1 Principals caracteristicas das normas internacionais de codificacao de i m a g e m e video. Nota: Os services e as taxas referidos sao apenas os

mais significativos 57

5.1 Tritree: Vertices nao Equalizados e Reconstrucao por Interpolacao

Linear. 86 5.2 Tritree: Vertices nao Equalizados e Reconstrucao por Replicacao da

M e d i a - 87

5.3 Quadtree Original 87 5.4 Tritree: Reconstrucao por Replicacao da M e d i a 88

5.5 Tritree: Reconstrucao por Interpolacao Linear. 89 5.6 Tritree: Interpolacao Linear e Teste de Homogeneidade pelo Desvio

da M e d i a 91 5.7 Tritree: Replicacao da M e d i a e Teste de Homogeneidade pelo Desvio

da M e d i a 92 5.8 Quadtree: Teste de Homogeneidade pelo Desvio da M e d i a 92

5.9 Tritree: Interpolacao Linear e Teste de Homogeneidade pelo Desvio

Padrao 93 5.10 Tritree: Replicacao da M e d i a e Teste de Homogeneidade pelo Desvio

Padrao 93 5.11 Quadtree: Teste de Homogeneidade pelo Desvio Padrao 94

5.12 Tritree: Interpolacao Linear, Teste de Homogeneidade Original e L i m

-iar Variavel 97

(15)

5.13 Tritree: Replicacao da M e d i a , Teste de Homogeneidade Original e

L i m i a r Variavel 98 5.14 Quadtree: L i m i a r Variavel 99

5.15 Tritree: Interpolacao Linear, L i m i a r Variavel e Desvio da Media. . . . 99 5.16 Tritree: Replicacao da M e d i a , Teste de Homogeneidade pelo desvio

da M e d i a e L i m i a r Variavel 100 5.17 Quadtree: L i m i a r Variavel e Desvio da M e d i a 101

5.18 Tritree: Codificacao Preditiva e Interpolacao Linear. 103 5.19 Tritree: Codificacao Preditiva, Interpolacao Linear e L i m i a r Variavel. 103

5.20 Tritree: Codificacao da Estrurura da Arvore TT sem Flag, para L i m i a r Fixo 8, Teste de Homogeneidade Original, Interpolacao Linear, Taxa

A n t e r i o r de 1,3829 b p p e PSNR de 34,186 dB 106 5.21 Tritree: Codificacao da Estrutura da A r v o r e TT sem Flag, para L i m i a r

Fixo 20, Teste de Homogeneidade Original, Interpolacao Linear, Taxa

A n t e r i o r de 1,0027 b p p e PSNR de 33,123 dB 106 5.22 Tritree: Codificacao da Estrutura da A r v o r e TT sem Flag, para L i m i a r

Fixo 30, Teste de Homogeneidade Original, Interpolacao Linear, Taxa

A n t e r i o r de 0,7639 b p p e PSNR de 32,015 dB 107 5.23 Tritree: Codificacao da Estrutura da Arvore TT sem Flag, para L i m

-iar 40, Teste de Homogeneidade Original, Interpolacao Linear, Taxa

A n t e r i o r de 0,6981 b p p e PSNR de 30,830 dB 108 5.24 Tritree: Codificacao da Estrurura da Arvore TT sem Flag, para L i m

-iar 50, Teste de Homogeneidade Original, Interpolacao linear, Taxa

A n t e r i o r de 0,5731 b p p e PSNR de 29,600 dB 109 5.25 Tritree: Codificacao da Estrutura da Arvore TT com Flag, Teste de

Homogeneidade Original e Interpolacao Linear. 110 5.26 Tritree: Processamento c o m Wavelets com 1 nivel de Decomposicao e

PSNR A n t e r i o r de 30,830 dB 110 5.27 Coeficientes afcS para Ondas Quadrada e Triangular 114

5.28 Resultados Encontrados na Literatura 119

(16)

Capitulo 1

Caracteriza^ao do Problema

1.1 Introdu^ao

" U m a i m a g e m vale mais do que m i l palavras". Este axioma expressa a diferenca essencial entre nossa habilidade para perceber a informaeao linguistica e perceber a informaeao visual. Para u m a mesma mensagem, a representacao visual sempre tende a ser percebida de u m a maneira mais eficiente d o que a palavra escrita e a falada. Isto pode ser mais facilmente entendido quando visto de u m a perspectiva historica e evolucionaria. L i n g u a g e m e mais u m desenvolvimento instantaneo no curso da evolucao historica e e manifestada em somente u m a especie, a nossa. Por u m outro lado, a visao, de uma forma ou de outra, existe ha centenas de milhoes de anos, podendo ser encontrada em u m sem numero de organismos [1].

Ver, para nos, e, sem duvidas, u m a necessidade, pois " o u v i r " o m u n d o , "tocar" o m u n d o , " c h e i r a r " o m u n d o nao nos transmite tanta informaeao e de forma tao rapida, quanto " v e r " o m u n d o [2].

(17)

1.2 Representacao Digital da Informaeao V i s u a l ₂

1.2 Representacao Digital da Informaeao Visual

Nas ultimas tres decadas o m u n d o testemunhou u m a grande evolucao tec-nologica e cientifica no campo das telecomunicacoes, computacao, e entretenimento (TV/cinema). A l e m disso, elementos que historicamente pertenciam a cada u m a dessas areas isoladamente, estao agora sendo introduzidos em outras areas. Por exemplo: computadores estao utilizando video, audio e capacidade de nicacao; v i d e o e interatividade estao sendo adicionados ao m u n d o das telecomu-nicacoes; interatividade esta chegando a T V e ao cinema. Todas estas areas, quase sempre fazendo ampla utilizacao de informaeao visual, pois, sem duvidas, esta e a nossa p r i n c i p a l fonte de obtencao de informaeao, por natureza mais rapida e com-pleta [3].

De fato, a troca, armazenamento e manipulacao de todos os tipos de informaeao tern tido u m a importancia crescente na sociedade moderna [4]. Partindo do ponto em que o sinal analogico tern u m a largura de banda m u i t o elevada (obviamente dependendo da qualidade pretendida e da resolucao espaeo-temporal utilizada), sua utilizacao e limitada e ja saturada. Para pensarmos e m desenvolver novos servicos que u t i l i z e m imagens, temos que pensar, primeiro, no desenvolvimento de metodologias eficientes de representacao da informaeao visual.

Esta integraeao de funcionalidades entre areas distintas, f o i possivel d e v i d o ao desenvolvimento conjugado de tecnologias e metodologias digitals, e m termos de processamento, transmissao e armazenamento de dados, com a metodologia de representacao de sinais audio-visuais. A partir da decada de 60, novas tecnicas e metodologias digitals f o r a m estudadas e desenvolvidas. Comeca a conquistar es-paeo a representacao digital de sinais de i m a g e m e video, o u seja, u m a i m a g e m o u seqiiencia de imagens analogicas (video) pode ter u m a representacao digital. A p e -sar d o nosso m u n d o ser b e m analogico, pois a maior parte das grandezas v a r i a m de m o d o continuo, e de longa data que conhecemos a possibilidade de representar qualquer sinal a partir de u m conjunto de suas amostras, devidamente espacadas

(18)

1.2 Representacao Digital da Inf ormacao Visual ₃

[5], o que e conhecido como discretizagao do sinal.

U m sinal analogico pode ser convertido para a forma d i g i t a l atraves da com-binagao de tres o p e r a t e s basicas e seqiienciais: amostragem, quantizacao e cod-ificacao [6]. N a operacao de amostragem sao tomadas apenas amostras do sinal analogico, situadas e m instantes de tempo uniformemente espacados, caracteri-zando a sua discretizacao. N o processo de quantizacao, cada valor de amostra tornado e aproximado pelo n i v e l de cinza mais p r o x i m o , dentre u m conjunto finito de niveis discretos. N a etapa de codificacao cada n i v e l de quantizacao e represen-tado por u m a palavra-codigo, que consiste de u m a seqiiencia de digitos binarios (O's e l's), qualquer que seja a o r i g e m do sinal amostrado.

A simples transformacao do sinal analogico para a f o r m a digital, n o m i n i m o , dobra as exigencias e m termos de largura de banda. M e s m o assim, a digitalizacao do sinal de video trouxe melhorias de qualidade e possibilitou novas facilidades aos usuarios, principalmente em termos de interatividade. A digitalizacao permite o uso de metodos de analise e processamento digitals, que e l i m i n a m a informaeao redundante, associada a m e m o r i a o u a correlacao presente no sinal de imagem (con-forme sera explicado na Secao 2.1). Permite, tambem, a eliminacao de informaeao irrelevante, o u seja, informaeao a qual a visao h u m a n a e nao o u pouco sensivel, como, por exemplo, baixas freqiiencias e pequenas variagoes de tonalidades, dando preferencia a luminancia sobre a crominancia [7]. A ideia e ter-se u m a

represen-tagao digital da informaeao visual, que permita a recuperacao da original, o u de u m a aproximacao desta, com u m a reducao significativa de bits, ainda que as custas de uma degradagao objetiva, que pode ser o u nao detectavel subjetivamente [7].

A partir dos anos 70, a digitalizacao ja estava sendo utilizada em dados, voz, musica, fac-simile (FAX), fotografia e finalmente televisao. A m e d i d a que evoluiu a tecnologia digital - processadores, memorias, transmissao, comutacao, compressao - maior f o i sendo a pressao para substituir os velhos sistemas analogicos, cuja ca-pacidade de resistencia f o i d i m i n u i n d o a medida que as vantagens da digitalizacao (integragao de services, tolerancia a alguns erros, compressao, processamento) se

(19)

1.3 P r i n c i p i o s da Compressao de Imagens ₄

tornaram mais evidentes e o seu custo f o i d i m i n u i n d o com a evolucao da fisica do estado solido [5].

1.3 Principios da Compressao de Imagens

Por compressao de dados entendemos que e a forma de codificar u m certo con-junto de informaeao, de maneira que o codigo gerado seja menor que o codigo

de origem, o u fonte. O u ainda, c o m p r i m i r u m a i m a g e m digital e o processo que permite reduzir a quantidade total de bits necessaria para representar a infor-maeao nela contida. O processo inverso chama-se descompressao, e, para tanto, e necessario utilizar u m descompressor. Como existem varios e diferentes algo-ritmos de compressao, ha que existir para cada compressor, u m descompressor compativel, estando muitas vezes os dois presentes n o mesmo programa. Por isso mesmo, ao longo deste trabalho, o termo compressor se referira ao par compres-sor/descompressor. Caso contrario, uma observacao sera feita.

Cada algoritmo possui u m conjunto de caracteristicas diferentes, apresentando tambem ganhos diferentes e m determinados tipos de dados. Desta forma, u m al-goritmo que tern u m b o m ganho em texto, pode nao ter u m b o m ganho para com-pressao de imagens, por exemplo.

Tecnicas de compressao de imagens tiveram u m a grande importancia na rev-olucao da representacao da informaeao visual, pois tornaram satisfatoriamente viavel a manipulacao, armazenamento e transmissao desta informaeao, principal-mente em grande quantidade.

Existem duas formas de compressao dependendo da informaeao retirada do codigo fonte da imagem: com perda ou irreversivel e sem perda o u reversivel. C o m -pressao sem perdas e possivel por que, de uma maneira geral, existe u m a quanti-dade significativa de informaeao redundante presente no codigo da imagem, con-forme pode ser visto na Seeao 2.1.2. Esta redundancia e proporcional ao montante

(20)

1.4 O Problema ₅

de correlacao espacial entre os pixels vizinhos de u m a i m a g e m [8].

Metodos de compressao c o m perdas r e m o v e m informaeao redundante e infor-maeao v i s u a l irrelevante, de carater irreversivel, mas idealmente nao perceprivel a visao humana. estes metodos se caracterizam por p r o d u z i r e m imagens semelhantes as originais apenas visualmente, nao numericamente [8].

1.4 O Problema

De u m a maneira geral, pode-se afirmar que existem duas aplicagoes basicas para metodos de compressao de imagens: a transmissao e o armazenamento de imagens [9; 10; 11]. N o s dois casos a motivacao para se c o m p r i m i r a i m a g e m e a necessidade de reducao de custos, seja d i m i n u i c a o dos requisitos de armazenamento, o u u m a economia na ocupa<;ao dos meios (canais) de transmissao, o u simplesmente para agilizar a transmissao de dados. Isto e necessario, pois este tipo de informaeao tern se tornado cada vez mais utilizado. Entretanto, o seu v o l u m e de uso nao e acom-panhado na mesma proporcao pelo crescimento da capacidade dos dispositivos de armazenamento e tecnologias de telecomunicacao, sendo necessario, cada vez mais, o uso de tecnicas de compressao.

Para exemplificar a necessidade da compressao para transmissao, Wang [11] afirma que para se transmitir u m a i m a g e m digital, de tamanho 256x256 c o m 8 bits por pixel n u m canal a u m a taxa de 1200 bit/seg, demora-se cerca de 7,28 minutos.

C o m o exemplo da necessidade de compressao para armazenamento, podemos citar o que acontece c o m a Enciclopedia Britanica1: para representala na forma d i g -ital sao necessarios mais do que 25 gigabytes (25xl09 bytes) de dados [6].

E m aplicagoes para transmissao de imagens, as tecnicas para compressao op-erant em tempo-real e v a r i a m de acordo com a capacidade e a complexidade do

hard-lA Enciclopedia Britanica contem cerca de 25 m i l paginas. Uma unica pagina digitalizada, por

exemplo, a 300 pontos por polegada (dpi - dots per inch) e quantizada com dois niveis de cinza, ou seja, preto e branco, gera aproximadamente 8.000.000 bits (1.000.000 bytes) de dados.

(21)

1.5 Objetivo do Trabalho e Organizacao do Texto ₆

ware em que vao operar. D e v i d o ao seu p r o p r i o objetivo, estes algoritmos sao mais simples. A s aplicacoes voltadas para armazenamento sao mais complexas pois tern a possibilidade de executar u m pre-processamento e/ou u m pos-processamento em

off-line nas imagens. C o n t u d o , os algoritmos de compressao d e v e m ser rapidos e eficientes, para m i n i m i z a r o tempo de execucao do processo de compressao.

Tecnicas de compressao de dados sao ainda utilizadas para o desenvolvimento de algoritmos mais rapidos, nos quais o numero de operacoes requeridas para i m -plementacao de u m determinado metodo e reduzido pois este passa a trabalhar diretamente c o m as informacoes c o m p r i m i d a s [9].

Reduzir a quantidade final de bits para representar u m a dada informaeao, tornou-se a questao central de u m campo de investigacao que a d q u i r i u importan-cia crescente desde o inicio dos anos 70, largamente conhecido p o r compressao o u codificacao de imagens e video [12]. A compressao de imagens desempenha u m importante papel em diversas aplicagoes, dentre as quais p o d e m ser citadas: video-conferencia, sensoriamento remoto (por exemplo, imagens de satelite para previsao do tempo), armazenamento de imagens medicas e documentos e m geral, transmis-sao de fac-simile (FAX), m u l t i m i d i a , redes digitals de servicos integrados (ISDN, Integrated Services Digital Networks), televisao de alta definicao (PiDTV, H i g h

Def-inition T V ) , armazenamento de impressoes digitals e transmissao de T V e imagens obtidas por satelite. N o campo militar podemos citar os veiculos remotamente p i -lotados.

1.5 Objetivo do Trabalho e Organizacao do Texto

U m n u m e r o incontavel e crescente de aplicacoes depende da manipulagao, ar-mazenamento e transmissao de imagens (por exemplo: internet o u albuns digitals), sejam elas em preto-e-branco, e m tons de cinza o u coloridas. Para que isso seja viavel, e desejavel que estas imagens estejam eficientemente comprimidas. Eis a

(22)

1.5 Objetivo do Trabalho e Organizacao do Texto ₇

origem dos constantes esforcos despendidos em pesquisas nesta area.

Este trabalho aborda o problema de compressao de imagem, o u seja, o problema de reduzir a quantidade de bits necessarios para representar u m a determinada i m -agem, garantindo que sera possivel restabelece-la e m sua forma original (dentro de u m certo grau de fidelidade) sempre que preciso. Este problema e importante, porque u m a solucao razoavel para isto (ou seja, u m algoritmo de compressao de i m -agem eficiente) pode representar u m a economia consideravel e m termos de espaqo de armazenamento da i m a g e m e/ou banda de passagem de transmissao.

U m tipo bastante utilizado de tecnicas de compressao de imagens sao aquelas baseadas e m segmentacao o u decomposicao da i m a g e m original em regioes

ho-mogeneas, que p o d e m ser representadas por u m n u m e r o reduzido de bits. Den-tre as tecnicas de decomposicao ja desenvlvidas, destaca-se aquela conhecida como

"Quadtree", que tern sido utilizada e m varios metodos hibridos de ompressao de imagens descritos na literatura (Secao 3.1.4).

O objetivo deste trabalho e o desenvolvimento e implementacao de u m a nova metodologia de decomposicao de imagens reais bidimensionais, em tons de cinza, atraves da utilizacao de estruturas do tipo Tritree. Como base, f o i utilizado o tra-balho de W i l l e [13] para a divisao sucessiva da i m a g e m em regioes triangulares. Chega-se, assim, a u m conjunto de regioes que possuem os seus valores de pixels aproximadamente iguais, ditas regioes homogeneas. O estudo e desenvolvimento de metodos para a reconstrucao das imagens aqui comprimidas, e de formas de ar-mazenamento das informacoes necessarias para a descompressao, t a m b e m f o r a m pesquisados. Foram investigados tambem quais os possiveis criterios para decidir se u m triangulo deve ser novamente subdividido o u nao.

O metodo de Wille [13] f o i originalmente desenvolvido para a geracao de m a l -has de elementos finitos em duas o u tres dimensoes, nao estruturadas, para serem aplicadas na soluqao computacional de problemas aero e hidrodinamicos, na forma de sistemas de e q u a t e s diferenciais. Seu metodo, de u m a maneira resumida, en-quadra a i m a g e m original e m u m triangulo equilatero, e divide este elemento inicial

(23)

1.5 O b j e t i v o d o Trabalho e Organizacao do Texto ₈ em 4 novos triangulos equilateros menores.

Neste trabalho e utilizado u m criterio para pesquisar se cada n o v o elemento deve ser novamente s u b d i v i d i d o o u nao (nao f o r a m utilizados criterios de h o m o -geneidade n o trabalho original de Wille). Para o caso de imagens tridimensionals o procedimento e analogo, sendo a i m a g e m d i v i d i d a e m tetraedros equilateros su-cessivamente menores. N a estrutura gerada, os triangulos o u os tetraedros f o r m a m u m a arvore de pesquisa chamada de Tritree (cujo nome f o i m a n t i d o ) . Cada ele-mento, o u triangulo, forma u m nodo da arvore. O elemento i n i t i a l , que contem a i m a g e m completa, e a raiz da arvore e suas folhas (nos terminals) sao os elementos que g u a r d a m a informaeao relevante da imagem c o m p r i m i d a , o u seja, a informaeao necessaria para a descompressao.

Resumindo, a meta essential desta decomposicao e descobrir e classificar regioes triangulares da imagem, de acordo com seu grau de homogeneidade (valores de pixels aproximadamente iguais). Estruturas do tipo Tritree sao parecidas c o m es-truturas Quadtree, que sao amplamente utilizadas p o r m u i t o s algoritmos de com-pressao e processamento de imagens. Existem diferenqas entre as duas estruturas e em como gerencia-las, mas a principal diferenqa deve-se ao fato de que na primeira estrutura, a Tritree, as regioes da imagem a classificar sao triangulares, enquanto que na segunda estrutura, a Quadtree, as regioes sao quadrangulares. A m b a s as estruturas serao explicadas c o m detalhes, a posteriori.

Este trabalho e descrito da seguinte forma: os Capitulos 2 e 3 fazem u m a revisao bibliografica sobre o tema compressao de imagens, sendo que n o p r i m e i r o se discute a classificacao dos algoritmos de compressao, enquanto que n o segundo se consid-eram as diferentes abordagens sobre os mesmos algoritmos. N o Capitulo 4 o metodo proposto e apresentado. Os resultados obtidos p o d e m ser vistos no Capitulo 5. Este texto se encerra c o m o Capitulo 6, que apresenta as contribuicoes esperadas e as conclusoes d o trabalho.

(24)

Capitulo 2

Revisao Bibliografica 1: Classificacao e

Medidas Avaliativas dos Algoritmos

de Compressao de Imagens Digitals

Este capitulo apresenta a primeira parte da revisao bibliografica feita como parte desta tese, para estabelecer u m a base conceitual apropriada aos entendimentos da compressao de imagens digitals.

2.1 Classificacao dos Algoritmos de Compressao

Os metodos de compressao de imagens desenvolvidos ate o presente, p o d e m ser analisados segundo dois enfoques, que correspondem a duas formas de classificacao dos mesmos. O primeiro enfoque esta relacionado ao fato do metodo produzir, o u nao perda de informaeao contida na imagem, o u seja, o metodo pode ser classificado como c o m o u sem perdas, sendo estas classes mutuamente excludentes.

A segunda categoria leva em consideracao quais os tipos de informaeao, dentre tres tipos identificados na literatura que o metodo elimina na imagem, para que

(25)

2.1 Classificacao dos Algoritmos de Compressao ₁₀

seja feita a compressao, os quais p o d e m ocorrer isoladamente o u combinados. Sao eles: redundancia na codificacao, redundancia interpixel e informaeao psicovisual irrelevante. Historicamente, o problema da compressao sem perdas foi abordado primeiro [14]. Todas as classificaeoes serao explicadas nas proximas seqoes.

2.1.1 Classificacao Segundo a Perda de Informaeao

Segundo este enfoque, os metodos de compressao de imagens dividem-se e m dois grandes grupos: os sem perdas de informaeao, o u reversiveis, e os metodos com perdas, o u irreversiveis [8]. A l g o r i t m o s sem perdas sao caracterizados por eliminarem somente as informacoes redundantes, possibilitando, assim, a recon-strucao total da imagem original apos o processo de descompressao. Os algoritmos de compressao com perdas sao caracterizados por eliminarem, alem das i n -formacoes redundantes, as informaeoes que julgarem irrelevantes, possibilitando somente u m a reconstrucao aproximada da imagem original apos a descompressao.

Quanto a taxa de compressao alcancada por estas duas categorias de algoritmos, de uma maneira geral, pode-se afirmar que os algoritmos de compressao sem perdas so atingem modestas taxas de compressao, quando comparados com os algoritmos com perdas. Os algoritmos de compressao com perdas, conhecidos como algorit-mos "estado-da-arte", normalmente fornecem taxas de compressao de cerca de 30:1, mantendo u m a qualidade razoavel da reconstrucao, enquanto os algoritmos sem perdas atingem cerca de 3:1 o u menos. Consequentemente, pode-se afirmar que alta compressao e obtida a custa de degradacao na i m a g e m reconstruida.

E m geral, a qualidade da i m a g e m c o m p r i m i d a declina a medida que a taxa de compressao aumenta [15]. O grau de fidelidade da i m a g e m descomprimida, em relacao a i m a g e m original, depende fortemente da aplicacao/servico a que se des-tina a imagem c o m p r i m i d a e o grau de relevancia da informaeao descartada, como tambem dos requisitos de software e hardware disponiveis.

(26)

2.1 Classificacao dos Algoritmos de Compressao 11

e a i m a g e m original serao absolutamente identicas. Isto e u m importante requisito para alguns d o m i n i o s de aplicac;6es, como e o caso da medicina. Imagens medicas de altissima qualidade mostram informaeoes funcionais e estruturais detalhadas dos orgaos do corpo h u m a n o , possibilitando u m diagnostico preciso e confiavel. Nos Estados U n i d o s , as clinicas e hospitals que insistem e m utilizar algoritmos de compressao c o m perdas para armazenar suas imagens medicas, tern enfrentado pro-cessos na justica, seja por erros de diagnosticos ou pelo F D A1, questionando-os sobre a falta de testes e regulamentacao sobre a utilizacao de algoritmos de compressao com perdas para esta finalidade [15]. A falta de nitidez nestas imagens pode gerar diagnosticos erroneos.

O u t r o uso dos algoritmos de compressao de imagens sem perdas e nas imagens de satelite, onde eventuais perdas de informaeao p o d e m acarretar uma identificacao errada de u m foco de incendio, por exemplo. Tecnicas de compressao c o m perdas nao d e v e m t a m b e m ser utilizadas para compressao de qualquer outro tipo de dados quando u m unico b i t alterado nao e aceitavel, por exemplo, arquivos documentos e programas executaveis.

A maioria dos metodos de compressao sem perdas pode ser facilmente m o d i f i -cada para i n t r o d u z i r perdas, por exemplo, aumentando-se a quantizacao. A recip-roca, neste caso, nao e verdadeira, o u seja, os metodos de compressao com perdas, em geral, nao p o d e m ser modificados para que seja eliminada a perda de infor-maeao.

2.1.2 Classificacao Segundo o Tipo de Redundancia Eliminada

Sao identificados, na literatura, tres tipos de redundancias que p o d e m ser elimi-nadas para que seja feita a compressao de imagens, os quais p o d e m ocorrer isolados o u combinados. Sao eles: redundancia na codificacao, redundancia interpixel e i n -formaeao v i s u a l irelevante. Estes tres tipos encontram-se resumidos nas segoes que

(27)

2.1 Classificacao dos A l g o r i t m o s de Compressao ₁₂

se seguem.

R e d u n d a n c i a na Codificacao

N o r m a l m e n t e , os valores de nivel de cinza de u m a i m a g e m sao representados por u m n u m e r o fixo de bits. Por exemplo, se para u m a determinada imagem so for possivel se reservar 8 bits para cada valor de n i v e l de cinza, isto implica que a i m a g e m podera no m a x i m o assumir 256 niveis de cinza.

Entretanto, analisando-se histogramas de imagens quaisquer, nao sera dificil no-tar que existem valores de nivel de cinza que aparecem mais na i m a g e m do que outros. Alias, existem valores que, apesar de pertencerem a gama de valores de nivel de cinza que a imagem pode assumir, nao aparecem na imagem.

Tabela 2.1: Exemplo de u m a codificacao de tamanho variavel

Valores Probabilidade Codigo 1 Codigo 2 Tamanho

0 0.19 - 000 11 2 1 0.25 001 01 2 2 0.21 010 10 2 3 0.16 011 001 3 4 0.08 100 0001 4 5 0.06 101 00001 5 6 0.03 110 000001 6 7 0.02 111 000000 6

C o m base nesta informaeao, foram desenvolvidas tecnicas que usam tamanho de codigo variavel para representar cada valor de nivel de cinza das imagens com-primidas. Obviamente, aos valores que com maior freqiiencia aparecem na imagem e atribuido u m codigo de menor tamanho, e vice-versa.

(28)

2.1 Classificacao dos A l g o r i t m o s de Compressao ₁₃

Tomemos o exemplo de u m a imagem qualquer com apenas 8 niveis de cinza, cuja distribuicao e mostrada na coluna 2 da Tabela 2.1. A distribuicao e calculada pela freqiiencia relativa: o n u m e r o de vezes que u m determinado valor de nivel de cinza aparece na imagem d i v i d i d o pelo n u m e r o total de pixels na imagem. A primeira maneira que se poderia pensar de codificar esta imagem seria com u m codigo fixo de 3 bits, como aparece na coluna 3. N a coluna 4 aparece u m a forma alternativa de codificacao, desta vez com tamanho variavel, baseado na estatistica da fonte. Utilizando-se a forma alternativa para c o m p r i m i r a imagem do exemplo, o n u m e r o m e d i o B de bits requeridos para codificar a i m a g e m e reduzido de 3 para 2.7, segundo o calculo abaixo empregando a freqiiencia relativa:

B = 2 x 0.19 + 2 x 0.25 + 2 x 0.21 + 3 x 0.16 + 4 x 0.08 + 5 x 0.06 + 6 x 0.03 + 6 x 0.02 = 2.7

C o m o este tipo de eliminacao de redundancia so trabalha na forma como a i m -agem e codificada, nao ha perdas de informaeao, sendo totalmente reversivel (secao 2.2). Exemplos de algoritmos que e l i m i n a m este tipo de redundancia sao os ja con-sagrados algoritmos de codificacao de H u f f m a n e o algoritmo L Z W .

Redundancia I n t e r p i x e l

Redundancia interpixel tambem e conhecida como redundancia espacial, re-dundancia geometrica o u rere-dundancia interframe. Este tipo de rere-dundancia se car-acteriza pela correlacao existente entre pixels proximos e m u m a imagem, ou seja, o valor de u m determinado pixel pode ser razoavelmente previsto, considerando-se os valores de nivel de cinza de u m conjunto de seus vizinhos. Frequentemente, a diferen<;a entre eles e relativamente pequena.

Para reduzir a redundancia interpixel e m uma imagem, a matriz bidimensional de pixels normalmente utilizada para representar a imagem, deve ser transformada para u m formato mais eficiente (mas normalmente nao visual). Por exemplo, as diferen^as entre pixels adjacentes p o d e m ser utilizadas para representar a imagem.

(29)

2.1 Classificacao dos A l g o r i t m o s de Compressao ₁₄

U m a operacao como esta e totalmente reversivel, pois os elementos da i m a g e m orig-inal p o d e m ser reconstruidos atraves da soma do valor do pixel presente com o do seu v i z i n h o . Considerando-se os valores abaixo como u m a linha qualquer de u m a i m a g e m ficticia,

149 148 149 147 140 136 128 128 a informaeao necessaria para a reconstrucao desta linha seria:

1 4 9 - 1 + 1 - 2 - 7 - 4 - 8

O armazenamento desta segunda linha de informaeao, obviamente, pode ser feito com m u i t o menos bits. Para se reduzir ainda mais o n u m e r o de bits necessarios para a reconstrucao da imagem, pode ser aplicado u m algoritmo que elimina a re-dundancia de codificacao (secao anterior).

A eliminacao da redundancia interpixel normalmente p r o d u z elevadas taxas de compressao em imagens binarias, o u seja, imagens e m preto e branco, pois ao i n -ves de armazenarmos as diferencas entre os pixels, pode-se armazenar a quantidade de 0's e l ' s que f o r m a m pequenas seqiiencias. Por exemplo, sendo a seqiiencia de numeros abaixo u m a linha de u m a imagem binaria:

0 0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0

a informaeao necessaria para sua reconstrucao seria:

(0,6) (1,5) (0,5) (1,3) (0,7)

O que tambem, para ser armazenado, necessita de m u i t o menos espago, p r i n -cipalmente considerando-se u m a imagem inteira, nao so u m a linha. Podemos citar como u m representante dos algoritmos que fazem uso desta abordagem o algoritmo D P C M (Secao 3.1.1).

(30)

2.1 Classificacao dos A l g o r i t m o s de Compressao ₁₅

M u i t o da contribuicao visual de u m unico pixel de u m a i m a g e m e irrelevante, pois ele p o d e ser previsto com base nos seus vizinhos. A l e m disso, o olho h u m a n o nao responde com a mesma sensibilidade a toda informaeao visual. Certas infor-maeoes simplesmente tern menos importancia relativa do que outras, e m u m sis-tema de processamento visual n o r m a l . Este tipo de informaeao pode ser consider-ado irrelevante e pode ser eliminada sem empobrecimento significativo da quali-dade da percepcao da imagem. Suponhamos a linha abaixo, como sendo u m frag-mento de linha de u m a imagem ficticia de 256 niveis de cinza:

203 204 203 195 190 187 178 172 172 171 172

Q u a l observador h u m a n o perceberia as mudanqas sutis de valores de nivel de cinza de 203 para 204, por exemplo? Se essa informaeao (a diferenea) fosse perdida, m u i t o provavelmente a imagem ainda seria passivel de reconhecimento, o u seja, nao seria afetada significativamente a qualidade da i m a g e m reconstruida.

Eliminar a informaeao visual irrelevante, e fundamentalmente diferente das out-ras informaeoes eliminadas anteriormente, pois resulta e m perda de informaeao de carater irreversivel. Desde que a eliminaeao desta redundancia corresponde a per-das quantitativas de informaeao, este tipo de redundancia tambem costuma ser ref-erenciado como quantizaeao [6]. Esta terminologia se refere a aeao de mapear a grade de valores dos pixels de entrada e m u m limitado numero de valores de saida. Esta e u m a operaeao irreversivel, o u seja, alguma informaeao visual e perdida.

Que a eliminaeao deste tipo de informaeao acontece nao chega a ser u m a surpresa, pois a percepeao humana da informaeao contida e m u m a imagem, n o r m a l -mente nao envolve analise quantitativa de cada pixel da imagem. E m geral, u m observador procura por caracteristicas regionais e globais, como bordas e textura e mentalmente as combina para reconhecer o objeto [6; 16].

(31)

2.2 M e d i d a s de Avaliacao dos A l g o r i t m o s de Compressao de Imagens 16

Nesta secao f o r a m apresentadas as duas grandes classificacpes dos algoritmo de compressao. A p r i m e i r a considera a perda o u nao de informaeao resultante da com-pressao. A segunda classificacao se baseia no tipo de informaeao que os metodos de compressao p o d e m eliminar, que sao tres: redundancia na codificacao, redundancia interpixel e informaeao psicovisual irrelevante.

As melhores taxas de compressao sao atingidas pelos algoritmos com perdas, embora com alguma perda de qualidade da imagem reconstruida, que pode ser per-ceptivel o u nao. Os algoritmos que e l i m i n a m informaeao psicovisual irrelevante, o u seja, os que fazem quantizacao no momento da compressao, tambem alcangam m e l -hores taxas de compressao do que os metodos que e l i m i n a m so os outros tipos de redundancia. Por isso, a grande maioria dos metodos de compressao desenvolvidos que p o d e m ser encontrados na literatura, se preocupam e m eliminar a informaeao visual (fazem quantizacao) e, consequentemente, i n t r o d u z e m perdas.

2.2 Medidas de Avaliagao dos Algoritmos de

Com-pressao de Imagens

Para que o desempenho dos algoritmos de compressao de imagem possa ser cal-culado e analisado e, principalmente, para que os algoritmos desenvolvidos possam ser comparados entre si, existe u m a serie de medidas avaliativas padronizadas, u t i -lizadas pela literatura que trata do assunto. De u m a maneira geral, essas medidas objetivam avaliar a eficiencia da compressao, atraves da sua taxa de compressao e/ou taxa de bits p o r it pixel, b e m como a qualidade da i m a g e m reconstruida apos a compressao da i m a g e m digital, complexidade do algoritmo e a sua medida de entropia.

Os algoritmos de compressao de imagens com perdas, p r o d u z e m apenas aprox-ima<;6es da i m a g e m original, ou seja, existem diferencas (tambem chamadas de dis-torcoes o u artefatos) entre a imagem original e a imagem reconstruida. Para que

(32)

2.2 M e d i d a s de Avaliacao dos A l g o r i t m o s de Compressao de Imagens 17

os desempenhos destes algoritmos possam ser avaliados e ate mesmo comparados, estas diferengas devem ser medidas. U m a outra m e d i d a avaliativa e a qualidade da i m a g e m reconstruida e m relacao a original, sendo que esta e utilizada apenas para os metodos de compressao com perdas.

As medidas de eficiencia de compressao, de entropia e de complexidade sao utilizadas para ambos os tipos de metodos, com e sem perdas, sendo que o desem-penho dos metodos de compressao sem perdas e m e d i d o apenas por estes paramet-ros.

2.2.1 Medidas Avaliativas de Distorcao e de Qualidade da

Recon-strucao

A quantidade de distorcao presente na imagem reconstruida, influencia na qual-idade de sua percepcao. Esta qualqual-idade pode ser avaliada atraves de medidas ob-jetivas e subob-jetivas. As medidas obob-jetivas p o d e m ser executadas computacional-mente, atraves de comparacoes matematicas diretas entre a i m a g e m original e a reconstruida. As medidas subjetivas tambem baseiam-se e m comparacoes diretas entre a i m a g e m original e a reconstruida, so que realizadas por u m g r u p o de pes-soas que subjetivamente classificam a qualidade da imagem c o m p r i m i d a segundo u m a escala pre-determinada [17].

Todas as medidas objetivas sao discretas, bidimensionais, que p r o c u r a m explorar as diferen^as entre os pixels da imagem original e seus correspondentes na i m -agem reconstruida. E m outras palavras, as medidas de Distorcao e qualidade da reconstrucao procuram mensurar a similaridade entre duas imagens digitals, explo-rando as diferencas na distribuicao estatistica dos valores dos pixels [17].

(33)

Avaliacoes subjetivas sao realizadas atraves de testes de visualizacao e sao baseadas nas opinioes i n d i v i d u a l s de cada pessoa participante do teste. As

me-didas subjetivas sao de dificil realizaqao, pois d e m a n d a m m u i t o tempo, u m grande n u m e r o de avaliadores (entre eles leigos, especialistas e possiveis usuarios do sis-tema de compressao), deslocamento dos avaliadores ate o laboratorio para a visual-izacao das imagens, disponibilidade destes laboratories e u m razoavel n u m e r o de imagens ja processadas antes da realizacao do teste.

A m e d i d a de qualidade subjetiva mais comumente utilizada para avaliacao dos algoritmos de compressao de imagens com perdas e o teste M O S (Mean O p i n i o n Score2 )[12]. Nesta m e d i d a , os avaliadores classificam a imagem analisada em u m a das cinco categorias (ou notas), como apresentado na p r i m e i r a coluna da Tabela 2.2. Cada nota esta associada a u m adjetivo qualificativo da i m a g e m e a u m a breve descricao da i m a g e m reconstruida (segunda e terceira colunas da Tabela 2.2, respec-tivamente), este teste e conhecido como escala de Likert.

Tabela 2.2: Notas do teste M O S

Notas Qualidade Subjetiva N i v e l de Distorcao

5 Excelente Imperceptivel

4 Boa Perceptivel mas nao incomoda

3 Razoavel Perceptivel e u m pouco incomodante 2 Pobre Incomoda mas ainda percebe-se a i m a g e m 1 Insatisfatoria Incomoda e nao percebe-se a i m a g e m

Sendo N o n u m e r o total de avaliadores e Rn a resposta do avaliador n, o teste

M O S e c o m p u t a d o pela media aritmetica simples das respostas assinaladas pelos avaliadores, como se segue:

1 A

MOS = — V Rn

T l = l

(34)

2.2 M e d i d a s de Avaliacao dos A l g o r i t m o s de Compressao de Imagens 19

U m a outra medida subjetiva de qualidade para avaliar imagens reconstruidas e o teste de preferencia. Neste, a comparacao e feita c o m relacao a u m a i m a g e m de referenda. Este teste utiliza u m a escala de graduacao c o m valores que v a r i a m de u m a cinco, onde cada valor corresponde a u m adjetivo do processo de comparacao [12]:

• 5 - A i m a g e m sob teste tern qualidade m u i t o superior a de referenda;

• 4 - A imagem sob teste tern qualidade u m pouco superior a de referenda;

• 3 - A i m a g e m sob teste tern a mesma qualidade da de referenda;

• 2 - A i m a g e m sob teste tern qualidade u m pouco inferior a de referenda;

• 1 - A i m a g e m sob teste tern qualidade m u i t o inferior a de referenda.

M e d i d a s Objetivas

A s medidas de qualidade objetivas sao mais utilizadas que as subjetivas para avaliacao dos algoritmos de compressao de imagens digitals, d e v i d o a varios fatores como os apresentados por M a d e i r o et. alii. [18], que sao aqui reproduzidos:

• Permitem avaliacao rapida;

• Sao mais facilmente implementadas e m u i t o menos dispendiosas e m tempo, relativamente as medidas subjetivas;

• Podem ser repetidas inumeras vezes durante a fase de desenvolvimento de u m algoritmo;

• Podem auxiliar mais facilmente o ajuste de parametros de algoritmos e ate mesmo servir como u m meio de deteccao de diferen^as sutis no desempenho dos algoritmos, possivelmente nao detectaveis por meio de avaliacao subje-tiva.

(35)

N a Tabela 2.3 estao listadas as 11 principals medidas objetivas para avaliacao de desempenho de algoritmos de compressao c o m perdas, segundo Eskicioglu e Fischer [19]. Os valores dos pixels da imagem original sao representados na tabela por j) e os da i m a g e m reconstruida sao representados p o r R{i,j). Sendo L o n u m e r o de linhas da imagem e C o numero de colunas, o valor de i representa a z-esima linha (1 < i < L) e j representa a j-esima coluna (1 < j < C). N o calculo da m e d i d a PSNR, a variavel A representa o valor m a x i m o de nivel de cinza que os pixels da i m a g e m original p o d e m alcangar.

As medidas objetivas e as subjetivas devem apresentar u m a correlacao forte en-tre si, o u seja, as medidas objetivas de qualidade d e v e m apresentar u m conteudo subjetivo e viceversa: pequenas e grandes variaqoes de u m a m e d i d a devem i m -plicar e m pequenas e grandes variacoes na outra. Mas isso n e m sempre e ver-dadeiro, variando e m funcao da i m a g e m utilizada nos testes e dos algoritmos testa-dos.

Madeiro et. alii, faz em [18] u m a analise da correlacao entre as medidas objetivas que estao listadas na Tabela 2.3 e as medidas subjetivas, representadas pelo teste M O S (secao 2.2.1). Para tanto sao utilizados os resultados obtidos para imagens em nivel de cinza por dois algoritmos de compressao de imagens por quantizacao vetorial, o L B G e SSN-TV.

Os resultados obtidos naquele trabalho i n d i c a m que algumas medidas realmente tern problemas quanto a fidelidade. Por exemplo, as medidas AD, SC, NK, CQ e

MD nao demonstraram ser m u i t o confiaveis para avaliacao de tecnicas, pois o u apresentam baixa correlacao c o m as respostas dos avaliadores, o u o sinal dos co-eficientes de correlacao m u d a . A s outras medidas sao mais confiaveis pois elas al-canqam altos niveis de correlacao com os resultados da m e d i d a subjetiva obtida pelo teste MOS.

O trabalho de Madeiro et. alii. [18] conclui ainda que deve-se ter m u i t o cuidado com algumas medidas, por exemplo a NK, pois elas p o d e m levar a conclusoes i n -corretas se nao forem propriamente interpretadas, quando e feita a comparacao da

(36)

Tabela 2.3: Medidas de Qualidade Objetiva

Medidas F o r m u l a Diferenca M e d i a (Average Difference) LC Conteudo Estrutural (Structural Content) q r £f= 1£y=i[/(M)]2 Correlacao Cruzada N o r m a l i z a d a ( N o r m a l i z e d Cross-Correlation) Qualidade de Correlacao (Correlation Quality) Diferenca M a x i m a ( M a x i m u m Difference) M£> = M a x | / ( i , i ) - R(i,j)\ Fidelidade da Imagem (Image Fidelity) rp -j E f = i E ^ i [ / ( M ' ) - « ( i j ) ]2 E f . i E ? - i l / ( i j ) l2] Erro M e d i o Quadratico (Mean Square Error) Relacao Sinal-Ruido de pico (Peak Signal-to-Noise Ratio)

P S J V f l - l O l q g u I j ^ f ] N o r m a Lp , _ E f - i E ^ i i / « j ) - « « j ) r n _ i o o tp - L C ,p - i . A ^ Erro Absoluto N o r m a l i z d o ( N o r m a l i z e d Absolute Error) Erro M e d i o Quadratico N o r m a l i z a d o ( N o r m a l i z e d M e a n Square Error)

(37)

2.2 M e d i d a s de Avaliagao dos A l g o r i t m o s de Compressao de Imagens ₂₂

performance de diferentes algoritmos de compressao de imagens.

2.2.2 Medidas de Eficiencia da Compressao

A eficiencia da compressao dos algoritmos c o m o u sem perdas pode ser me-dida e m termos de taxa de compressao o u e m taxa de bits p o r p i x e l (bpp) [ 1 ; 20; 21]. A taxa de compressao pode ser entendida como a taxa que expressa a diferenca de " t a m a n h o " entre a imagem original e a imagem c o m p r i m i d a . Este tamanho da imagem pode ter algumas interpretacoes dependendo do proposito e da i m p l e m e n -tacao do algoritmo, mas em geral e m e d i d o em termos de n u m e r o de pixels o u de bytes.

A taxa de bits por pixel TB e calculada como a media d o n u m e r o de bits requeri-dos por pixel para codificar a i m a g e m c o m p r i m i d a [ l ] , o u ainda [21]:

^ _ numero de bits necessarios para codificar a i m a g e m numero de pixels na i m a g e m c o m p r i m i d a

A taxa de compressao TC e a relacao entre o tamanho da i m a g e m original e o tamanho do arquivo compactado, determinado por:

^ _ tamanho do arquivo o r i g i n a l tamanho do arquivo compactado

Tomemos como exemplo u m a imagem de dimensoes 256 x 256 (linha x coluna), codificada originalmente com 8 bits por pixel, o u u m byte por pixel. Esta imagem requer 256 x 256 = 65536 bytes o u pixels, o u 65536 x 8 = 524288 bits, quando armazenada da forma original (nao comprimida). Supondo que apos a execucao de a l g u m algoritmo de compressao seja necessario o armazenamento de apenas 32768 pixels, entao a taxa de compressao e calculada como 65536/32768 = 2.0, dizemos que a taxa de compressao foi de 2 : 1 (dois para u m ) . Desde que a imagem reconstruida ainda tenha as mesmas dimensoes da imagem original, 256 x 256 = 65536 pixels, o

(38)

2.2 M e d i d a s de Avaliacao dos A l g o r i t m o s de Compressao de Imagens ₂₃

arquivo da i m a g e m c o m p r i m i d a necessita de 32768 x 8/65536 = 4 bits por pixel, na media. Entao a taxa de bits por pixel e de 4.

A taxa de compressao e a taxa de bits por pixel sao inversamente proporcionais. Sendo b o n u m e r o de bits p o r pixel necessario para codificar a i m a g e m original,

TC a taxa de compressao e TB a taxa de bits por pixel, a equacao abaixo pode ser calculada:

b = TC x TB (2.1)

2.2.3 Medida de Complexidade do Algoritmo

A complexidade de u m algoritmo para qualquer finalidade e o esforco computa-cional requerido para se realizar todas as etapas do algoritmo, no nosso caso, a com-pressao e descomcom-pressao das imagens [1]. Os processos de comcom-pressao e descom-pressao p o d e m ser medidos pelo numero de o p e r a t e s aritmeticas (flops) por pixel necessarias para que seja totalmente executado.

A complexidade esta intimamente associada a velocidade de execucao do algo-ritmo. A velocidade de u m algoritmo de qualquer proposito e funcao da sua com-plexidade e de sua implementacao. Esta medida e u m fator m u i t o importante, e ate mesmo decisivo, quando estao envolvidas aplicacpes de compressao e descom-pressao de imagens em tempo-real, onde a velocidade e u m a caracteristica crucial.

2.2.4 Entropia

Shannon i n t r o d u z i u o conceito de entropia como sendo a m e d i d a da media da informaeao contida em u m a fonte [ 1 ; 9]. Supondo u m a i m a g e m I cuja escala de

(39)

valores de n i v e l de cinza varia de 0 ate 255, o u seja, u m a i m a g e m que tern ate A = 256 valores de n i v e l de cinza. Sendo pt a probabilidade de u m pixel de I tenha o

valor i. O conteudo da informaeao da imagem I - entropia - e dado por:

A

H ( I ) = -Y

J

P

i

log

2

p

l

(2.2)

i = i

A u n i d a d e de entropia e bits por pixel.

2.2.5 Conclusao

Apesar de termos presente na literatura varias medidas avaliativas de algoritmos de compressao, poucas sao efetivamente utilizadas. A s medidas mais comumente encontradas nos artigos que tratam do assunto sao as medidas objetivas PSNR e MSE. As medidas subjetivas sao mais empregadas e m metodos de objetivo especi-fico, o u quando os futuros usuarios do metodo tern facil acesso aqueles que o de-senvolveram.

(40)

Capitulo 3

Revisao Bibliografica 2: Abordagens

mais Comuns e Padronizacao dos

Metodos de Compressao

Neste Capitulo encontra-se a segunda parte da revisao bibliografica feita como parte desta tese, para que a orientanda tivesse u m conhecimento mais aprofundado da area de pesquisa: Compressao de Imagens.

3.1 As Abordagens mais Comuns dos Metodos de

Compressao

O estudo de metodos de compressao de imagens tern sido u m a area ativa de pesquisa desde o surgimento das tecnicas de processamento digital de sinais. Desde que imagens p o d e m ser entendidas como u m sinal 2 D (bidimensional) com as var-iaveis independentes sendo as coordenadas espaciais 2D (linha x coluna), muitas tecnicas de compressao digital para sinais unidimensionais p o d e m ser estendidas para imagens c o m relativa facilidade [1].

(41)

3.1 A s A b o r d a g e n s mais C o m u n s dos M e t o d o s de Compressao 26

M u i t a s das abordagens encontradas na literatura que tratam de compressao de imagens [6; 15; 9; 1 ; 22; 23; 24; 16], p o d e m ser classificadas e m u m a das catego-rias maiores apresentadas abaixo. Alternativamente, u m a combinacao de algumas dessas tecnicas p o d e m ser utilizadas por u m mesmo metodo, o que e chamado de abordagem hibrida. Entre os autores da area nao existe u m consenso quanto a clas-sificacao de alguns metodos, por apresentarem caracteristicas de mais de u m a abor-dagem. E o caso d o metodo das transformadas wavelet que pode ser encontrado na literatura tanto classificado como u m metodo de codificacao por transformada, quanto p o r codificacao multirresolucional.

Portanto, as classes mais gerais sao:

• Codificacao Preditiva;

• Codificacao p o r Transformada;

• Quantizacao Vetorial;

• Codificacao Multirresolucional/Multiescala;

• A b o r d a g e m H i b r i d a .

A s duas primeiras abordagens (codificacao preditiva e por transformada) sao as mais tradicionais, pois foram as primeiras desenvolvidas, sendo tambem chamadas de "Tecnicas de Compressao de Primeira Geracao [6; 9; 22; 16]". U m a caracteristica destas tecnicas e o fato de nao analizarem a informaeao contida na propria imagem como u m todo para realizar a compressao, elas sao baseadas na informaeao contida nos pixels, o u seja, informaeao local.

A s demais tecnicas, tambem chamadas de "Tecnicas de Compressao de Imagens de Segunda Geracao", caracterizam-se por identificar as caracteristicas da imagem como u m todo e utilizar estas caracteristicas para alcanqar a compressao. Todas as tecnicas da segunda geracao incorporam propriedades do sistema visual h u m a n o

(42)

3.1 A s Abordagens mais C o m u n s dos M e t o d o s de Compressao ₂₇

( H V S1) na sua estrategia de codificacao para atingir altas taxas de compressao, en-quanto ainda m a n t e m u m a qualidade aceitavel na i m a g e m reconstruida [16].

M u i t o esforcp f o i feito para identificar o que o observador h u m a n o considera v i -sualmente mais importante para a caracterizacao de u m a imagem. U m a conclusao geral f o i que o nosso sistema visual normalmente descreve a imagem e m termos de seus contornos e suas texturas [22]. C o m base nesta informaeao, a maioria dos meto-dos desta geracao procura preservar a informaeao de borda, separando-a da infor-maeao de textura, podendo ainda codifica-las separadamente. E m outras palavras, esses metodos identificam na i m a g e m as regioes de significancia e insignificancia visual, podendo aplicar tecnicas de codificacao apropriada para cada area.

Constantemente sao desenvolvidos novos metodos de compressao de imagens com o u sem perdas, a grande maioria se enquadra e m u m a das grandes abordagens listadas anteriormente. Pode ser que venha a ser desenvolvido u m n o v o metodo de compressao que nao se enquadre e m nenhuma dessas e, provavelmente n u m futuro nao m u i t o distante, com a propagacao desta " n o v a " abordagem utilizada, e consequente desenvolvimento de novos metodos que fagam uso desta abordagem, pode ate ser criada u m a nova classificacao.

C o n t u d o , estes sao conceitos m u i t o novos e por isso mesmo ainda nao consoli-dados. C o m isso e c o m u m encontrarmos interpretaqoes diferentes para os mesmos conceitos. Por exemplo, existem autores que classificam as transformadas wavelet como u m metodo de primeira geracao, o u seja, codificacao por transformada [25; 26], outros ja as classificam como u m metodo de segunda geracao, como codifi-cacao multirresolucional [15; 16]. Existem tambem discrepancias quanto ao nome dos metodos. H a metodos com conceitos m u i t o parecidos e nomes diferentes, como exemplo podemos citar a codificacao multirresolucional [16; 20; 21; 27] que tambem e conhecida como multiescala [16], codificacao por sub-bandas o u p i r a m i d a l [16; 11; 21; 27; 28].

U m resumo sobre cada uma das abordagens citadas sera dado nas segoes que se

(43)

3.1 A s A b o r d a g e n s mais C o m u n s dos Metodos de Compressao ₂₈

seguem, b e m como exemplos dos metodos desenvolvidos mais utilizados que usam essas abordagens.

3.1.1 Codificacao Preditiva

Esta abordagem tern como principal caracteristica a simplicidade. N o r m a l m e n t e , imagens de cenas reais exibem u m alto grau de correlacao entre seus pixels vizinhos, o que e conhecido na literatura como redundancia interpixel. Este alto grau de cor-relacao i m p l i c a e m u m alto grau.de redundancia e m cada linha de informaeao [1]. Se esta redundancia for removida pelo descorrelacionamento dos dados, isto por si so ja representaria u m a compressao de dados. Os metodos que fazem uso desta abor-dagem e x p l o r a m justamente a correlacao dos dados da i m a g e m a ser c o m p r i m i d a , o u seja, quanto mais os vizinhos da imagem forem correlacionados, mais eficiente sera a compressao.

A ideia basica das tecnicas de codificacao preditiva e gerar u m vetor de variaveis aleatorias nao correlacionadas,-de u m a imagem, pela utilizacao de uma transfor-mac,ao [9]. A estrutura da transformacao e definida pela utilizacao de u m modelo apropriado da imagem, como a diferen<;a entre o nivel de cinza da imagem e o nivel de cinza p r e d i t o pelo modelo. Estas diferen^as nao sao correlacionadas c o m a i m -agem original e p o d e m ser representadas por m u i t o menos bits. C o m as diferencas e os parametros do modelo, a i m a g e m pode ser reconstruida.

U m a das maiores representantes deste tipo de abordagem e a tecnica D P C M descrita a seguir.

D P C M

U m dos mais antigos metodos de codificacao preditiva, o D P C M (Differential Pulse-Code M o d u l a t i o n ) tern sido extensivamente estudado desde seu desenvolvi-mento. Foi m u i t o utilizado para transmissao de sinais de i m a g e m e video digitals

(44)

(45)

3.1 A s A b o r d a g e n s mais C o m u n s dos Metodos de Compressao 29

[23]. Este metodo e baseado na eliminaeao da redundancia interpixel, pois extrai e codifica somente a nova informaeao de cada pixel. Esta nova informaeao de cada pixel e definida como a diferenga entre o pixel atual e o valor predito de cada pixel [61

O p r i n c i p a l componente de u m metodo D P C M e o preditor [9], que e escolhido no inicio d o funcionamento do metodo, podendo ser o p r i m e i r o pixel da imagem, o de posicao (0,0). Entao a diferenca (chamado de erro de predicao d o pixel) entre o preditor e o p r o x i m o pixel e calculada e sera este valor que sera transmitido o u armazenado. Para a reconstrucao da imagem, o valor de n i v e l de cinza de u m pixel sera o seu erro de predicao somado ao preditor. U m preditor pode ser atualizado ao longo da execu^ao do metodo para u m a mesma imagem, p o r exemplo, sempre que o erro de prediqao ultrapassar u m certo limite conhecido a p r i o r i , o que evita o acumulo d o erro.

O problema principal deste metodo e a escolha do preditor. U m a possivel abor-dagem para tal e utilizar u m modelo estatistico dos dados para derivar u m a funqao que relacione os pixels vizinhos dentro de u m a janela como o explicado por D o n n y e H a y k i n e m [1]. Estes mesmos autores ainda sugerem u m a outra maneira de escolher o preditor, u t i l i z a n d o redes neurais.

U m p r e d i t o r baseado n u m a soma linear de pesos de seus vizinhos e relativa-mente facil de se projetar utilizando caracteristicas estatisticas da imagem. Contudo, se u m m o d e l o nao-linear for mais apropriado para u m a imagem, o uso de predi-tor linear ira claramente resultar n u m a solucao sub-otima. Infelizmente, o projeto de preditores nao-lineares e geralmente nao tratavel matematicamente, como sao os preditores lineares. A utilizacao, entao, de redes neurais para projetar predi-tores nao-lineares resulta em excelentes resultados, como pode ser visto em D o n n y e H a y k i n [ l ] .

A tecnica D P C M tern sido m u i t o utilizado para compressao de imagens medicas sem perdas o u em combinacao com outros metodos de compressao que e l i m i n a m as informaeoes psicovisuais irrelevantes [15].