Decomposicao Triangular de Imagens: Uma
Aplicagao em Compressao
Vania Cordeiro da Silva
Tese de Doutorado submetida a Coordenacao dos Cursos de Pos-Graduacao em Engenharia Eletrica da Universidade Federal de Campina Grande como parte dos requisites necessarios para obtencao do grau de Doutor em Ciencias no Dominio da Engen-haria Eletrica.
Area de Concentracao: Processamento da Informacao
Joao Marques de Carvalho, PhD. Orientador
Campina Grande, Paraiba, Brasil ©Vania Cordeiro da Silva, Outubro 2003
DECOMPOSIQAO T R I A N G U L A R DE I M A G E N S : U M A A P L I C A C A O EM COMPRESSAO
V ' A M A CORDEIRO DA S I L V A
Tese Aprovada cm 31.10.2003
PROF. JO A O MARQUES DE C A R V A L H O , Ph.D., UFCG
y Orientador
V >
PROF. N E U C I M A R J E R B M M O L E I T E , Dr., U N I C A M P Componente da Banca
PROF. A R N A L D O DE A L B U Q U E R Q U E A R A U J O , D.Sc, U F M G Componente da Banca (Ausencia Justiflcada)
/I
PROF. R O N E I MARCOS DE M O R A E S , Dr., UFPB Componente da Banca
PROF. BENEiDITO G U I M A R A E S A G U I A R N E T O , Dr., Ing., UFCG Componente da Banca
PROF. FRANCISCO M ARCOS DEASSIS, Dr. UFCG Componente da Banaca
PROF. F R A N C I S C O DE ASSIS FERREIRA TEJO, D.Sc, UFCG Componente da Banaca
C A M P I N A G R A N D E - PB OUTUBRO - 2003
Dedicatoria
A m i n h a fonte de inspiracao e apoio de todos os momentos, m e u esposo A l v a r o Vinicius.
Agradecimentos
A Deus p o r poder concluir mais uma etapa da m i n h a v i d a .
A o professor Joao Marques, por sua valiosa orientacao, incentivo e paciencia durante todo o trabalho.
A o m e u esposo A l v a r o Vinicius por suas contribuicoes ao trabalho, apoio pessoal, pelas ajudas neste texto, por entender e suportar m i n h a ausencia, i m p e d i n d o -me ate, de desistir desta empreitada. Sem ele nao teria conseguido.
Aos meus pais, D i n a h e Pacele, e minhas irmas, Vanessa e Valeria, pela ajuda inestimavel e abrigo.
A o m e u sobrinho A r t h u r pelos momentos de descontracao que me p e r m i t i r a m lazeres necessarios para suportar e concluir tao dificil Jornada.
Aos colegas do g r u p o de Analise e Processamento de Imagens coordenado pelo professor Joao Marques, em particular Josemar, Suzete e Luciana pela amizada e colaborac,ao ao trabalho.
U m agradecimento especial ao m e u amigo Josemar, sem o qual seria impossivel o t e r m i n o desde trabalho, sendo pois, m e u representante m i n i m i z a n d o a distancia.
A COPELE e seus funcionarios, Angela, Pedro, Marcos, Eleonora e Rosilda, pela disponibilidade constante.
A o Departamento de Ciencias Exatas e Tecnologicas (DCET) e ao Colegiado do Curso de Computa<;ao (COLCIC) da Universidade Estadual de Santa Cruz - UESC, nas figuras dos professores, H e r l o n , Evandro, Decio e as funcionarias Angelica, A l i o m a r i a e Tatiana, pelo apoio professional, logistico e amizade.
Aos membros da banca da defesa do exame de qualificacao pela presence, pelas correqoes e sugestoes ao trabalho.
A Consuelo pelo apoio e incentivo na fase final deste trabalho.
A Doroteia, Jurubeba, Rosesheila, Doque, Junior e R i q u i n h o , por me devolverem o sorriso nos momentos em que este parecia impossivel.
Agradeeo a todos aqueles que contribuiram direta o u indiretamente para a elab-oracao deste trabalho, cujos nomes nao constam desta minuscula lista.
Por u l t i m o , a todos os colegas d o LAPS (laboratorio de processamento de sinais) dos quais sempre recebi demostracoes de carinho, simpatia e incentivo.
Resumo
O objetivo deste trabalho e dar u m a contribuicao a area de compressao de i m -agens, isto e, ao problema de reduzir a quantidade de bits necessarios para repre-sentor u m a dada imagem, sendo ainda capaz de restaura-la para sua forma original (com u m certo grau de fidelidade). A solucao deste problema e importante u m a vez que u m algoritmo de compressao de imagens eficiente, pode representar u m a economia consideravel e m termos de espaco de armazenamento de imagens e/ou ocupacao do canal para sua transmissao.
Este trabalho apresenta u m novo metodo de decomposicao aplicado a imagens, utilizando decomposicao Tritree (TT). A decomposicao TT e similar a decomposicao
Quadtree (QT), a qual tern sido largamente utilizada e m algoritmos de compressao de imagens. Contudo, enquanto a QT funciona s u b d i v i d i n d o a imagem em regioes quadrangulares, progressivamente menores, a decomposicao TT o faz para regioes triangulares. A meta e segmentar a imagem e m u m conjunto de regioes triangulares homogeneas, onde a diferenga dos valores dos pixels nao exceda u m determinado limiar.
U m a arvore e construida para representar a decomposicao T T Cada triangulo sera u m no na arvore. O triangulo inicial, chamado de raiz, contem a imagem toda. Os triangulos finais, representando a i m a g e m c o m p r i m i d a propriamente dita, sao as folhas.
Os resultados experimentais mostram que o metodo proposto tern melhor de-sempenho quando comparado diretamente com a decomposicao QT, e m termos de qualidade da imagem reconstruida e taxa de compressao. C o m isso, e de esperar que os metodos hfbridos de compressao de imagens digitals, que fazem uso da QT, tenham seus resultados melhorados, se estes fizessem uso da TT.
Abstract
The objective of this w o r k is to bring a contribution to the field of image com-pression, i . e., the p r o b l e m of reducing the a m o u n t of bits needed to represent a given imge, w h i l e still being able to restore it to its shape (to w i t h i n a certain degree of fidelity), whenever needed. A good solution to i t is i m p o r t a n t because it can rep-resent a considerable economy i n terms of image storage space and/or transmission b a n d w i d t h .
This w o r k presents a new m e t h o d for image compression, using Tritree (TT) de-compositon. TT decomposition is similar to Quadtree (QT) decomposition, w h i c h has been largely used for image compression algorithms. However, w h i l e Q T w o r k s by s u b d i v i d i n g the image into progressively smaller square regions, TT decomposi-ton does i t for triangular regions. The goal is to segment the image into a set of triangular homogeneous regions, where the pixel values difference does not exceed a given threshold.
A tree is b u i l t to represent the decomposition. Each triangle w i l l be a node of the T T The initial triangle, called root, containing the w h o l e image. The final triangles, representing the compressed image, are the leaves.
Experimental results show the proposed m e t h o d to p e r f o r m better than the Q T decomposition, i n terms of reconstructed images and compression rate.
Conteudo
1 Caracterizacao do Problema 1
1.1 Introducao 1 1.2 Representacao Digital da Informa^ao Visual 2
1.3 Principios da Compressao de Imagens 4
1.4 O Problema 5 1.5 Objetivo do Trabalho e Organizac,ao do Texto 6
2 Revisao Bibliografica 1 : Classificacao e M e d i d a s A v a l i a t i v a s dos A l g o r i t
-mos de Compressao de Imagens D i g i t a l s 9 2.1 Classificacao dos A l g o r i t m o s de Compressao 9
2.1.1 Classificagao Segundo a Perda de Informacao 10 2.1.2 Classificacao Segundo o Tipo de Redundancia Eliminada . . . 11
2.1.3 Conclusao 15 2.2 Medidas de Avaliacao dos Algoritmos de Compressao de Imagens . 16
2.2.1 Medidas Avaliativas de Distorcao e de Q u a l i d a d e da
Recon-strucao 17 2.2.2 Medidas de Eficiencia da Compressao 22
2.2.3 M e d i d a de Complexidade do A l g o r i t m o 23
2.2.4 Entropia 23 2.2.5 Conclusao 24
3 Revisao Bibliografica 2: Abordagens mais C o m u n s e Padronizagao dos
M e t o d o s de Compressao 25 3.1 A s Abordagens mais Comuns dos Metodos de Compressao 25
3.1.1 Codificacao Preditiva 28 3.1.2 Codificacao por Transformada 30
3.1.3 Quantizacao Vetorial 3 5 3.1.4 Codificacao Multirresolucional/Multiescala 40
3.2 Padronizacao das N o r m a s de Compressao 46
3.2.1 I T U - R 6 0 1 48 3.2.2 I T U - T H.120 48 3.2.3 I T U - T H.261 49 3.2.4 I T U - T H.263 49 3.2.5 I T U - T H.263+ 50 3.2.6 ISO/JPEG 51 3.2.7 I S O / M P E G - 1 52 3.2.8 ISO/MPEG 2 o u ITU-T H.262 53 3.2.9 I S O / M P E G - 4 55 3.2.10 U m a breve Visao do Futuro dos Projetos de Padronizacao de
Codificacao 58 3.2.11 Conclusao 60 4 Tritree 61 4.1 Decomposicao Tritree 62 4.1.1 Arvores de pesquisa 62 4.1.2 Estruturas Tritree 64 4.1.3 Enquadrando a I m a g e m 67 4.1.4 Triangulacao 69 4.1.5 Teste de Homogeneidade 72 4.1.6 L i m i a r de Decisao 73 4.1.7 Equalizacao dos Vertices 74
4.2 A r q u i v o C o m p r i m i d o 75 4.2.1 Codificacao da Estrutura da Arvore 75
4.2.2 Codificacao Preditiva dos Vertices 76
4.3 Reconstrucao das Imagens 76 4.3.1 A b o r d a g e m H i b r i d a com wavelets 78
4.4 Conclusao 80
5 Resultados Experimentais 81 5.1 Equalizacao dos Vertices 86 5.2 Teste de Homogeneidade 91
5.3 L i m i a r Fixo x L i m i a r Variavel 96 5.4 Codificacao Preditiva dos Vertices 101 5.5 Codificacao da Estrutura da A r v o r e 104
5.5.1 Codificagao da estrutura da A r v o r e sem Utilizacao de Flag . . 105 5.5.2 Codificacao da estrutura da A r v o r e c o m Utilizacao de Flag . . 108
5.6 A b o r d a g e m H i b r i d a c o m Wavelets I l l 5.7 Analise de Fourier das Imagens Reconstruidas 112
5.8 Conclusao 119
6 Conclusoes, Contribuicoes e Sugestoes de Trabalhos Futuros 123
6.1 Conclusoes 123 6.2 Sugestoes de Trabalhos Futuros 125
Lista de Figuras
3.1 Ordenamento dos coeficientes da DCT, exemplificando a varredura
tridi-mensional em zig-zag, das baixas para as altas frequencias 34 3.2 Imagem qualquer dividida em quadrantes e subquadrantes, e sua respectiva
arvore quadtree 43 3.3 Maneiras de construcao de uma Quad-tree: a) top-down e b) bottom-up. . . 44
3.4 Seqiiencia composta a partir de objetos previamente disponiveis. . . . . 59
4.1 Exemplo de uma Arvore Binaria 63
4.2 Estrutura Tritree 64 4.3 Tritree: Estrutura de Dados 65
4.4 Tritree: Disposicao Inicial 68 4.5 Tritree: Retangulo Contendo um Triangulo de Dimensoes Exatas 70
4.6 Os tres pontos de vertice de um triangulo A, B e C, definindo u m piano e o
vetor normal a este piano 77 4.7 Imagem Lena de 512x512 com 1 nivel de decomposicao wavelet 79
5.1 Imagens Utilizadas nos Testes 83 5.2 Tritree x Quadtree - Tritree: Vertices nao Equalizados, Reconstrucao por
Inter-polacao Linear (IL) e Replicacao da Media (RM). Quadtree: Original 85 5.3 Tritree x Quadtree - Tritree: Vertices Equalizados, Reconstrucao por
Interpo-lacao Linear (IL) e Replicacao da Media (RM). Quadtree: Original 88 5.4 Tritree x Quadtree - Tritree: Teste de Homogeneidade pelo Desvio da
Me-dia, Reconstrucao por Interpolacao Linear (IL) e Replicacao da Media (RM).
Quadtree: Teste de Homogeneidade pelo Desvio da Media 90 5.5 Tritree x Quadtree - Tritree: Teste de Homogeneidade pelo Desvio Padrao,
Reconstrucao por Interpolacao Linear (IL) e Replicacao da Media (RM).
Quadtree: Teste de Homogeneidade pelo Desvio Padrao 94
5.6 Tritree: Comparacao entre os Diferentes Testes de Homogeneidade (Teste Original - OR, Teste pelo Desvio da Media - D M e Teste pelo Desvio Padrao - DP) e as Diferentes Formas de Reconstrucao (Interpolacao Linear - I L e
Replicacao da Media - RM) 95 5.7 Tritree x Quadtree - Tritree: Limiar Variavel (LV), Teste de Homogeneidade
Original, Reconstrucao por Interpolacao Linear (IL) e Replicacao da Media
(RM). Quadtree: Limiar Variavel (LV) e Teste de Homogeneidade Original. . 96 5.8 Tritree x Quadtree - Tritree: Limiar Variavel (LV), Teste de Homogeneidade
pelo Desvio da Media (DM), Interpolacao Linear (IL) e Replicacao da Media (RM). Quadtree: Limiar Variavel (LV), Teste de Homogeneidade pelo Desvio
da Media (DM) 102 5.9 Sinais Unidimensionas: O n d a Quadrada e O n d a Triangular. 112
5.10 Coeficientes da Serie de Fourier 113 5.11 Transformada de Fourier para a Imagem de u m Quadrado 114
5.12 Transformada de Fourier para a Imagem de u m Triangulo 115 5.13 Transformada de Fourier para a Imagem da Lena de Dimensoes 512x512116
5.14 Tritree: Transformada de Fourier da Lena de Dimensoes 512x512, com
L i m i a r 50, Teste de homogeneidade Original e Interpolacao Linear. . 117 5.15 Quadtree: Transformada de Fourier da Lena de Dimensoes 512x512,
com L i m i a r 50 e Teste de homogeneidade original 118
5.16 Erros n o D o m i n i o da Freqiiencia 121 5.17 Exemplos de Imagens Reconstruidas 122
Lista de Tabelas
2.1 Exemplo de uma codificacao de tamanho variavel 12
2.2 Notas d o teste M O S 18 2.3 M e d i d a s de Qualidade Objetiva 21
3.1 Principals caracteristicas das normas internacionais de codificacao de i m a g e m e video. Nota: Os services e as taxas referidos sao apenas os
mais significativos 57
5.1 Tritree: Vertices nao Equalizados e Reconstrucao por Interpolacao
Linear. 86 5.2 Tritree: Vertices nao Equalizados e Reconstrucao por Replicacao da
M e d i a - 87
5.3 Quadtree Original 87 5.4 Tritree: Reconstrucao por Replicacao da M e d i a 88
5.5 Tritree: Reconstrucao por Interpolacao Linear. 89 5.6 Tritree: Interpolacao Linear e Teste de Homogeneidade pelo Desvio
da M e d i a 91 5.7 Tritree: Replicacao da M e d i a e Teste de Homogeneidade pelo Desvio
da M e d i a 92 5.8 Quadtree: Teste de Homogeneidade pelo Desvio da M e d i a 92
5.9 Tritree: Interpolacao Linear e Teste de Homogeneidade pelo Desvio
Padrao 93 5.10 Tritree: Replicacao da M e d i a e Teste de Homogeneidade pelo Desvio
Padrao 93 5.11 Quadtree: Teste de Homogeneidade pelo Desvio Padrao 94
5.12 Tritree: Interpolacao Linear, Teste de Homogeneidade Original e L i m
-iar Variavel 97
5.13 Tritree: Replicacao da M e d i a , Teste de Homogeneidade Original e
L i m i a r Variavel 98 5.14 Quadtree: L i m i a r Variavel 99
5.15 Tritree: Interpolacao Linear, L i m i a r Variavel e Desvio da Media. . . . 99 5.16 Tritree: Replicacao da M e d i a , Teste de Homogeneidade pelo desvio
da M e d i a e L i m i a r Variavel 100 5.17 Quadtree: L i m i a r Variavel e Desvio da M e d i a 101
5.18 Tritree: Codificacao Preditiva e Interpolacao Linear. 103 5.19 Tritree: Codificacao Preditiva, Interpolacao Linear e L i m i a r Variavel. 103
5.20 Tritree: Codificacao da Estrurura da Arvore TT sem Flag, para L i m i a r Fixo 8, Teste de Homogeneidade Original, Interpolacao Linear, Taxa
A n t e r i o r de 1,3829 b p p e PSNR de 34,186 dB 106 5.21 Tritree: Codificacao da Estrutura da A r v o r e TT sem Flag, para L i m i a r
Fixo 20, Teste de Homogeneidade Original, Interpolacao Linear, Taxa
A n t e r i o r de 1,0027 b p p e PSNR de 33,123 dB 106 5.22 Tritree: Codificacao da Estrutura da A r v o r e TT sem Flag, para L i m i a r
Fixo 30, Teste de Homogeneidade Original, Interpolacao Linear, Taxa
A n t e r i o r de 0,7639 b p p e PSNR de 32,015 dB 107 5.23 Tritree: Codificacao da Estrutura da Arvore TT sem Flag, para L i m
-iar 40, Teste de Homogeneidade Original, Interpolacao Linear, Taxa
A n t e r i o r de 0,6981 b p p e PSNR de 30,830 dB 108 5.24 Tritree: Codificacao da Estrurura da Arvore TT sem Flag, para L i m
-iar 50, Teste de Homogeneidade Original, Interpolacao linear, Taxa
A n t e r i o r de 0,5731 b p p e PSNR de 29,600 dB 109 5.25 Tritree: Codificacao da Estrutura da Arvore TT com Flag, Teste de
Homogeneidade Original e Interpolacao Linear. 110 5.26 Tritree: Processamento c o m Wavelets com 1 nivel de Decomposicao e
PSNR A n t e r i o r de 30,830 dB 110 5.27 Coeficientes afcS para Ondas Quadrada e Triangular 114
5.28 Resultados Encontrados na Literatura 119
Capitulo 1
Caracteriza^ao do Problema
1.1 Introdu^ao
" U m a i m a g e m vale mais do que m i l palavras". Este axioma expressa a diferenca essencial entre nossa habilidade para perceber a informaeao linguistica e perceber a informaeao visual. Para u m a mesma mensagem, a representacao visual sempre tende a ser percebida de u m a maneira mais eficiente d o que a palavra escrita e a falada. Isto pode ser mais facilmente entendido quando visto de u m a perspectiva historica e evolucionaria. L i n g u a g e m e mais u m desenvolvimento instantaneo no curso da evolucao historica e e manifestada em somente u m a especie, a nossa. Por u m outro lado, a visao, de uma forma ou de outra, existe ha centenas de milhoes de anos, podendo ser encontrada em u m sem numero de organismos [1].
Ver, para nos, e, sem duvidas, u m a necessidade, pois " o u v i r " o m u n d o , "tocar" o m u n d o , " c h e i r a r " o m u n d o nao nos transmite tanta informaeao e de forma tao rapida, quanto " v e r " o m u n d o [2].
1.2 Representacao Digital da Informaeao V i s u a l 2
1.2 Representacao Digital da Informaeao Visual
Nas ultimas tres decadas o m u n d o testemunhou u m a grande evolucao tec-nologica e cientifica no campo das telecomunicacoes, computacao, e entretenimento (TV/cinema). A l e m disso, elementos que historicamente pertenciam a cada u m a dessas areas isoladamente, estao agora sendo introduzidos em outras areas. Por exemplo: computadores estao utilizando video, audio e capacidade de nicacao; v i d e o e interatividade estao sendo adicionados ao m u n d o das telecomu-nicacoes; interatividade esta chegando a T V e ao cinema. Todas estas areas, quase sempre fazendo ampla utilizacao de informaeao visual, pois, sem duvidas, esta e a nossa p r i n c i p a l fonte de obtencao de informaeao, por natureza mais rapida e com-pleta [3].
De fato, a troca, armazenamento e manipulacao de todos os tipos de informaeao tern tido u m a importancia crescente na sociedade moderna [4]. Partindo do ponto em que o sinal analogico tern u m a largura de banda m u i t o elevada (obviamente dependendo da qualidade pretendida e da resolucao espaeo-temporal utilizada), sua utilizacao e limitada e ja saturada. Para pensarmos e m desenvolver novos servicos que u t i l i z e m imagens, temos que pensar, primeiro, no desenvolvimento de metodologias eficientes de representacao da informaeao visual.
Esta integraeao de funcionalidades entre areas distintas, f o i possivel d e v i d o ao desenvolvimento conjugado de tecnologias e metodologias digitals, e m termos de processamento, transmissao e armazenamento de dados, com a metodologia de representacao de sinais audio-visuais. A partir da decada de 60, novas tecnicas e metodologias digitals f o r a m estudadas e desenvolvidas. Comeca a conquistar es-paeo a representacao digital de sinais de i m a g e m e video, o u seja, u m a i m a g e m o u seqiiencia de imagens analogicas (video) pode ter u m a representacao digital. A p e -sar d o nosso m u n d o ser b e m analogico, pois a maior parte das grandezas v a r i a m de m o d o continuo, e de longa data que conhecemos a possibilidade de representar qualquer sinal a partir de u m conjunto de suas amostras, devidamente espacadas
1.2 Representacao Digital da Inf ormacao Visual 3
[5], o que e conhecido como discretizagao do sinal.
U m sinal analogico pode ser convertido para a forma d i g i t a l atraves da com-binagao de tres o p e r a t e s basicas e seqiienciais: amostragem, quantizacao e cod-ificacao [6]. N a operacao de amostragem sao tomadas apenas amostras do sinal analogico, situadas e m instantes de tempo uniformemente espacados, caracteri-zando a sua discretizacao. N o processo de quantizacao, cada valor de amostra tornado e aproximado pelo n i v e l de cinza mais p r o x i m o , dentre u m conjunto finito de niveis discretos. N a etapa de codificacao cada n i v e l de quantizacao e represen-tado por u m a palavra-codigo, que consiste de u m a seqiiencia de digitos binarios (O's e l's), qualquer que seja a o r i g e m do sinal amostrado.
A simples transformacao do sinal analogico para a f o r m a digital, n o m i n i m o , dobra as exigencias e m termos de largura de banda. M e s m o assim, a digitalizacao do sinal de video trouxe melhorias de qualidade e possibilitou novas facilidades aos usuarios, principalmente em termos de interatividade. A digitalizacao permite o uso de metodos de analise e processamento digitals, que e l i m i n a m a informaeao redundante, associada a m e m o r i a o u a correlacao presente no sinal de imagem (con-forme sera explicado na Secao 2.1). Permite, tambem, a eliminacao de informaeao irrelevante, o u seja, informaeao a qual a visao h u m a n a e nao o u pouco sensivel, como, por exemplo, baixas freqiiencias e pequenas variagoes de tonalidades, dando preferencia a luminancia sobre a crominancia [7]. A ideia e ter-se u m a
represen-tagao digital da informaeao visual, que permita a recuperacao da original, o u de u m a aproximacao desta, com u m a reducao significativa de bits, ainda que as custas de uma degradagao objetiva, que pode ser o u nao detectavel subjetivamente [7].
A partir dos anos 70, a digitalizacao ja estava sendo utilizada em dados, voz, musica, fac-simile (FAX), fotografia e finalmente televisao. A m e d i d a que evoluiu a tecnologia digital - processadores, memorias, transmissao, comutacao, compressao - maior f o i sendo a pressao para substituir os velhos sistemas analogicos, cuja ca-pacidade de resistencia f o i d i m i n u i n d o a medida que as vantagens da digitalizacao (integragao de services, tolerancia a alguns erros, compressao, processamento) se
1.3 P r i n c i p i o s da Compressao de Imagens 4
tornaram mais evidentes e o seu custo f o i d i m i n u i n d o com a evolucao da fisica do estado solido [5].
1.3 Principios da Compressao de Imagens
Por compressao de dados entendemos que e a forma de codificar u m certo con-junto de informaeao, de maneira que o codigo gerado seja menor que o codigo
de origem, o u fonte. O u ainda, c o m p r i m i r u m a i m a g e m digital e o processo que permite reduzir a quantidade total de bits necessaria para representar a infor-maeao nela contida. O processo inverso chama-se descompressao, e, para tanto, e necessario utilizar u m descompressor. Como existem varios e diferentes algo-ritmos de compressao, ha que existir para cada compressor, u m descompressor compativel, estando muitas vezes os dois presentes n o mesmo programa. Por isso mesmo, ao longo deste trabalho, o termo compressor se referira ao par compres-sor/descompressor. Caso contrario, uma observacao sera feita.
Cada algoritmo possui u m conjunto de caracteristicas diferentes, apresentando tambem ganhos diferentes e m determinados tipos de dados. Desta forma, u m al-goritmo que tern u m b o m ganho em texto, pode nao ter u m b o m ganho para com-pressao de imagens, por exemplo.
Tecnicas de compressao de imagens tiveram u m a grande importancia na rev-olucao da representacao da informaeao visual, pois tornaram satisfatoriamente viavel a manipulacao, armazenamento e transmissao desta informaeao, principal-mente em grande quantidade.
Existem duas formas de compressao dependendo da informaeao retirada do codigo fonte da imagem: com perda ou irreversivel e sem perda o u reversivel. C o m -pressao sem perdas e possivel por que, de uma maneira geral, existe u m a quanti-dade significativa de informaeao redundante presente no codigo da imagem, con-forme pode ser visto na Seeao 2.1.2. Esta redundancia e proporcional ao montante
1.4 O Problema 5
de correlacao espacial entre os pixels vizinhos de u m a i m a g e m [8].
Metodos de compressao c o m perdas r e m o v e m informaeao redundante e infor-maeao v i s u a l irrelevante, de carater irreversivel, mas idealmente nao perceprivel a visao humana. estes metodos se caracterizam por p r o d u z i r e m imagens semelhantes as originais apenas visualmente, nao numericamente [8].
1.4 O Problema
De u m a maneira geral, pode-se afirmar que existem duas aplicagoes basicas para metodos de compressao de imagens: a transmissao e o armazenamento de imagens [9; 10; 11]. N o s dois casos a motivacao para se c o m p r i m i r a i m a g e m e a necessidade de reducao de custos, seja d i m i n u i c a o dos requisitos de armazenamento, o u u m a economia na ocupa<;ao dos meios (canais) de transmissao, o u simplesmente para agilizar a transmissao de dados. Isto e necessario, pois este tipo de informaeao tern se tornado cada vez mais utilizado. Entretanto, o seu v o l u m e de uso nao e acom-panhado na mesma proporcao pelo crescimento da capacidade dos dispositivos de armazenamento e tecnologias de telecomunicacao, sendo necessario, cada vez mais, o uso de tecnicas de compressao.
Para exemplificar a necessidade da compressao para transmissao, Wang [11] afirma que para se transmitir u m a i m a g e m digital, de tamanho 256x256 c o m 8 bits por pixel n u m canal a u m a taxa de 1200 bit/seg, demora-se cerca de 7,28 minutos.
C o m o exemplo da necessidade de compressao para armazenamento, podemos citar o que acontece c o m a Enciclopedia Britanica1: para representala na forma d i g -ital sao necessarios mais do que 25 gigabytes (25xl09 bytes) de dados [6].
E m aplicagoes para transmissao de imagens, as tecnicas para compressao op-erant em tempo-real e v a r i a m de acordo com a capacidade e a complexidade do
hard-lA Enciclopedia Britanica contem cerca de 25 m i l paginas. Uma unica pagina digitalizada, por
exemplo, a 300 pontos por polegada (dpi - dots per inch) e quantizada com dois niveis de cinza, ou seja, preto e branco, gera aproximadamente 8.000.000 bits (1.000.000 bytes) de dados.
1.5 Objetivo do Trabalho e Organizacao do Texto 6
ware em que vao operar. D e v i d o ao seu p r o p r i o objetivo, estes algoritmos sao mais simples. A s aplicacoes voltadas para armazenamento sao mais complexas pois tern a possibilidade de executar u m pre-processamento e/ou u m pos-processamento em
off-line nas imagens. C o n t u d o , os algoritmos de compressao d e v e m ser rapidos e eficientes, para m i n i m i z a r o tempo de execucao do processo de compressao.
Tecnicas de compressao de dados sao ainda utilizadas para o desenvolvimento de algoritmos mais rapidos, nos quais o numero de operacoes requeridas para i m -plementacao de u m determinado metodo e reduzido pois este passa a trabalhar diretamente c o m as informacoes c o m p r i m i d a s [9].
Reduzir a quantidade final de bits para representar u m a dada informaeao, tornou-se a questao central de u m campo de investigacao que a d q u i r i u importan-cia crescente desde o inicio dos anos 70, largamente conhecido p o r compressao o u codificacao de imagens e video [12]. A compressao de imagens desempenha u m importante papel em diversas aplicagoes, dentre as quais p o d e m ser citadas: video-conferencia, sensoriamento remoto (por exemplo, imagens de satelite para previsao do tempo), armazenamento de imagens medicas e documentos e m geral, transmis-sao de fac-simile (FAX), m u l t i m i d i a , redes digitals de servicos integrados (ISDN, Integrated Services Digital Networks), televisao de alta definicao (PiDTV, H i g h
Def-inition T V ) , armazenamento de impressoes digitals e transmissao de T V e imagens obtidas por satelite. N o campo militar podemos citar os veiculos remotamente p i -lotados.
1.5 Objetivo do Trabalho e Organizacao do Texto
U m n u m e r o incontavel e crescente de aplicacoes depende da manipulagao, ar-mazenamento e transmissao de imagens (por exemplo: internet o u albuns digitals), sejam elas em preto-e-branco, e m tons de cinza o u coloridas. Para que isso seja viavel, e desejavel que estas imagens estejam eficientemente comprimidas. Eis a
1.5 Objetivo do Trabalho e Organizacao do Texto 7
origem dos constantes esforcos despendidos em pesquisas nesta area.
Este trabalho aborda o problema de compressao de imagem, o u seja, o problema de reduzir a quantidade de bits necessarios para representar u m a determinada i m -agem, garantindo que sera possivel restabelece-la e m sua forma original (dentro de u m certo grau de fidelidade) sempre que preciso. Este problema e importante, porque u m a solucao razoavel para isto (ou seja, u m algoritmo de compressao de i m -agem eficiente) pode representar u m a economia consideravel e m termos de espaqo de armazenamento da i m a g e m e/ou banda de passagem de transmissao.
U m tipo bastante utilizado de tecnicas de compressao de imagens sao aquelas baseadas e m segmentacao o u decomposicao da i m a g e m original em regioes
ho-mogeneas, que p o d e m ser representadas por u m n u m e r o reduzido de bits. Den-tre as tecnicas de decomposicao ja desenvlvidas, destaca-se aquela conhecida como
"Quadtree", que tern sido utilizada e m varios metodos hibridos de ompressao de imagens descritos na literatura (Secao 3.1.4).
O objetivo deste trabalho e o desenvolvimento e implementacao de u m a nova metodologia de decomposicao de imagens reais bidimensionais, em tons de cinza, atraves da utilizacao de estruturas do tipo Tritree. Como base, f o i utilizado o tra-balho de W i l l e [13] para a divisao sucessiva da i m a g e m em regioes triangulares. Chega-se, assim, a u m conjunto de regioes que possuem os seus valores de pixels aproximadamente iguais, ditas regioes homogeneas. O estudo e desenvolvimento de metodos para a reconstrucao das imagens aqui comprimidas, e de formas de ar-mazenamento das informacoes necessarias para a descompressao, t a m b e m f o r a m pesquisados. Foram investigados tambem quais os possiveis criterios para decidir se u m triangulo deve ser novamente subdividido o u nao.
O metodo de Wille [13] f o i originalmente desenvolvido para a geracao de m a l -has de elementos finitos em duas o u tres dimensoes, nao estruturadas, para serem aplicadas na soluqao computacional de problemas aero e hidrodinamicos, na forma de sistemas de e q u a t e s diferenciais. Seu metodo, de u m a maneira resumida, en-quadra a i m a g e m original e m u m triangulo equilatero, e divide este elemento inicial
1.5 O b j e t i v o d o Trabalho e Organizacao do Texto 8 em 4 novos triangulos equilateros menores.
Neste trabalho e utilizado u m criterio para pesquisar se cada n o v o elemento deve ser novamente s u b d i v i d i d o o u nao (nao f o r a m utilizados criterios de h o m o -geneidade n o trabalho original de Wille). Para o caso de imagens tridimensionals o procedimento e analogo, sendo a i m a g e m d i v i d i d a e m tetraedros equilateros su-cessivamente menores. N a estrutura gerada, os triangulos o u os tetraedros f o r m a m u m a arvore de pesquisa chamada de Tritree (cujo nome f o i m a n t i d o ) . Cada ele-mento, o u triangulo, forma u m nodo da arvore. O elemento i n i t i a l , que contem a i m a g e m completa, e a raiz da arvore e suas folhas (nos terminals) sao os elementos que g u a r d a m a informaeao relevante da imagem c o m p r i m i d a , o u seja, a informaeao necessaria para a descompressao.
Resumindo, a meta essential desta decomposicao e descobrir e classificar regioes triangulares da imagem, de acordo com seu grau de homogeneidade (valores de pixels aproximadamente iguais). Estruturas do tipo Tritree sao parecidas c o m es-truturas Quadtree, que sao amplamente utilizadas p o r m u i t o s algoritmos de com-pressao e processamento de imagens. Existem diferenqas entre as duas estruturas e em como gerencia-las, mas a principal diferenqa deve-se ao fato de que na primeira estrutura, a Tritree, as regioes da imagem a classificar sao triangulares, enquanto que na segunda estrutura, a Quadtree, as regioes sao quadrangulares. A m b a s as estruturas serao explicadas c o m detalhes, a posteriori.
Este trabalho e descrito da seguinte forma: os Capitulos 2 e 3 fazem u m a revisao bibliografica sobre o tema compressao de imagens, sendo que n o p r i m e i r o se discute a classificacao dos algoritmos de compressao, enquanto que n o segundo se consid-eram as diferentes abordagens sobre os mesmos algoritmos. N o Capitulo 4 o metodo proposto e apresentado. Os resultados obtidos p o d e m ser vistos no Capitulo 5. Este texto se encerra c o m o Capitulo 6, que apresenta as contribuicoes esperadas e as conclusoes d o trabalho.
Capitulo 2
Revisao Bibliografica 1: Classificacao e
Medidas Avaliativas dos Algoritmos
de Compressao de Imagens Digitals
Este capitulo apresenta a primeira parte da revisao bibliografica feita como parte desta tese, para estabelecer u m a base conceitual apropriada aos entendimentos da compressao de imagens digitals.
2.1 Classificacao dos Algoritmos de Compressao
Os metodos de compressao de imagens desenvolvidos ate o presente, p o d e m ser analisados segundo dois enfoques, que correspondem a duas formas de classificacao dos mesmos. O primeiro enfoque esta relacionado ao fato do metodo produzir, o u nao perda de informaeao contida na imagem, o u seja, o metodo pode ser classificado como c o m o u sem perdas, sendo estas classes mutuamente excludentes.
A segunda categoria leva em consideracao quais os tipos de informaeao, dentre tres tipos identificados na literatura que o metodo elimina na imagem, para que
2.1 Classificacao dos Algoritmos de Compressao 10
seja feita a compressao, os quais p o d e m ocorrer isoladamente o u combinados. Sao eles: redundancia na codificacao, redundancia interpixel e informaeao psicovisual irrelevante. Historicamente, o problema da compressao sem perdas foi abordado primeiro [14]. Todas as classificaeoes serao explicadas nas proximas seqoes.
2.1.1 Classificacao Segundo a Perda de Informaeao
Segundo este enfoque, os metodos de compressao de imagens dividem-se e m dois grandes grupos: os sem perdas de informaeao, o u reversiveis, e os metodos com perdas, o u irreversiveis [8]. A l g o r i t m o s sem perdas sao caracterizados por eliminarem somente as informacoes redundantes, possibilitando, assim, a recon-strucao total da imagem original apos o processo de descompressao. Os algoritmos de compressao com perdas sao caracterizados por eliminarem, alem das i n -formacoes redundantes, as informaeoes que julgarem irrelevantes, possibilitando somente u m a reconstrucao aproximada da imagem original apos a descompressao.
Quanto a taxa de compressao alcancada por estas duas categorias de algoritmos, de uma maneira geral, pode-se afirmar que os algoritmos de compressao sem perdas so atingem modestas taxas de compressao, quando comparados com os algoritmos com perdas. Os algoritmos de compressao com perdas, conhecidos como algorit-mos "estado-da-arte", normalmente fornecem taxas de compressao de cerca de 30:1, mantendo u m a qualidade razoavel da reconstrucao, enquanto os algoritmos sem perdas atingem cerca de 3:1 o u menos. Consequentemente, pode-se afirmar que alta compressao e obtida a custa de degradacao na i m a g e m reconstruida.
E m geral, a qualidade da i m a g e m c o m p r i m i d a declina a medida que a taxa de compressao aumenta [15]. O grau de fidelidade da i m a g e m descomprimida, em relacao a i m a g e m original, depende fortemente da aplicacao/servico a que se des-tina a imagem c o m p r i m i d a e o grau de relevancia da informaeao descartada, como tambem dos requisitos de software e hardware disponiveis.
2.1 Classificacao dos Algoritmos de Compressao 11
e a i m a g e m original serao absolutamente identicas. Isto e u m importante requisito para alguns d o m i n i o s de aplicac;6es, como e o caso da medicina. Imagens medicas de altissima qualidade mostram informaeoes funcionais e estruturais detalhadas dos orgaos do corpo h u m a n o , possibilitando u m diagnostico preciso e confiavel. Nos Estados U n i d o s , as clinicas e hospitals que insistem e m utilizar algoritmos de compressao c o m perdas para armazenar suas imagens medicas, tern enfrentado pro-cessos na justica, seja por erros de diagnosticos ou pelo F D A1, questionando-os sobre a falta de testes e regulamentacao sobre a utilizacao de algoritmos de compressao com perdas para esta finalidade [15]. A falta de nitidez nestas imagens pode gerar diagnosticos erroneos.
O u t r o uso dos algoritmos de compressao de imagens sem perdas e nas imagens de satelite, onde eventuais perdas de informaeao p o d e m acarretar uma identificacao errada de u m foco de incendio, por exemplo. Tecnicas de compressao c o m perdas nao d e v e m t a m b e m ser utilizadas para compressao de qualquer outro tipo de dados quando u m unico b i t alterado nao e aceitavel, por exemplo, arquivos documentos e programas executaveis.
A maioria dos metodos de compressao sem perdas pode ser facilmente m o d i f i -cada para i n t r o d u z i r perdas, por exemplo, aumentando-se a quantizacao. A recip-roca, neste caso, nao e verdadeira, o u seja, os metodos de compressao com perdas, em geral, nao p o d e m ser modificados para que seja eliminada a perda de infor-maeao.
2.1.2 Classificacao Segundo o Tipo de Redundancia Eliminada
Sao identificados, na literatura, tres tipos de redundancias que p o d e m ser elimi-nadas para que seja feita a compressao de imagens, os quais p o d e m ocorrer isolados o u combinados. Sao eles: redundancia na codificacao, redundancia interpixel e i n -formaeao v i s u a l irelevante. Estes tres tipos encontram-se resumidos nas segoes que
2.1 Classificacao dos A l g o r i t m o s de Compressao 12
se seguem.
R e d u n d a n c i a na Codificacao
N o r m a l m e n t e , os valores de nivel de cinza de u m a i m a g e m sao representados por u m n u m e r o fixo de bits. Por exemplo, se para u m a determinada imagem so for possivel se reservar 8 bits para cada valor de n i v e l de cinza, isto implica que a i m a g e m podera no m a x i m o assumir 256 niveis de cinza.
Entretanto, analisando-se histogramas de imagens quaisquer, nao sera dificil no-tar que existem valores de nivel de cinza que aparecem mais na i m a g e m do que outros. Alias, existem valores que, apesar de pertencerem a gama de valores de nivel de cinza que a imagem pode assumir, nao aparecem na imagem.
Tabela 2.1: Exemplo de u m a codificacao de tamanho variavel
Valores Probabilidade Codigo 1 Codigo 2 Tamanho
0 0.19 - 000 11 2 1 0.25 001 01 2 2 0.21 010 10 2 3 0.16 011 001 3 4 0.08 100 0001 4 5 0.06 101 00001 5 6 0.03 110 000001 6 7 0.02 111 000000 6
C o m base nesta informaeao, foram desenvolvidas tecnicas que usam tamanho de codigo variavel para representar cada valor de nivel de cinza das imagens com-primidas. Obviamente, aos valores que com maior freqiiencia aparecem na imagem e atribuido u m codigo de menor tamanho, e vice-versa.
2.1 Classificacao dos A l g o r i t m o s de Compressao 13
Tomemos o exemplo de u m a imagem qualquer com apenas 8 niveis de cinza, cuja distribuicao e mostrada na coluna 2 da Tabela 2.1. A distribuicao e calculada pela freqiiencia relativa: o n u m e r o de vezes que u m determinado valor de nivel de cinza aparece na imagem d i v i d i d o pelo n u m e r o total de pixels na imagem. A primeira maneira que se poderia pensar de codificar esta imagem seria com u m codigo fixo de 3 bits, como aparece na coluna 3. N a coluna 4 aparece u m a forma alternativa de codificacao, desta vez com tamanho variavel, baseado na estatistica da fonte. Utilizando-se a forma alternativa para c o m p r i m i r a imagem do exemplo, o n u m e r o m e d i o B de bits requeridos para codificar a i m a g e m e reduzido de 3 para 2.7, segundo o calculo abaixo empregando a freqiiencia relativa:
B = 2 x 0.19 + 2 x 0.25 + 2 x 0.21 + 3 x 0.16 + 4 x 0.08 + 5 x 0.06 + 6 x 0.03 + 6 x 0.02 = 2.7
C o m o este tipo de eliminacao de redundancia so trabalha na forma como a i m -agem e codificada, nao ha perdas de informaeao, sendo totalmente reversivel (secao 2.2). Exemplos de algoritmos que e l i m i n a m este tipo de redundancia sao os ja con-sagrados algoritmos de codificacao de H u f f m a n e o algoritmo L Z W .
Redundancia I n t e r p i x e l
Redundancia interpixel tambem e conhecida como redundancia espacial, re-dundancia geometrica o u rere-dundancia interframe. Este tipo de rere-dundancia se car-acteriza pela correlacao existente entre pixels proximos e m u m a imagem, ou seja, o valor de u m determinado pixel pode ser razoavelmente previsto, considerando-se os valores de nivel de cinza de u m conjunto de seus vizinhos. Frequentemente, a diferen<;a entre eles e relativamente pequena.
Para reduzir a redundancia interpixel e m uma imagem, a matriz bidimensional de pixels normalmente utilizada para representar a imagem, deve ser transformada para u m formato mais eficiente (mas normalmente nao visual). Por exemplo, as diferen^as entre pixels adjacentes p o d e m ser utilizadas para representar a imagem.
2.1 Classificacao dos A l g o r i t m o s de Compressao 14
U m a operacao como esta e totalmente reversivel, pois os elementos da i m a g e m orig-inal p o d e m ser reconstruidos atraves da soma do valor do pixel presente com o do seu v i z i n h o . Considerando-se os valores abaixo como u m a linha qualquer de u m a i m a g e m ficticia,
149 148 149 147 140 136 128 128 a informaeao necessaria para a reconstrucao desta linha seria:
1 4 9 - 1 + 1 - 2 - 7 - 4 - 8
O armazenamento desta segunda linha de informaeao, obviamente, pode ser feito com m u i t o menos bits. Para se reduzir ainda mais o n u m e r o de bits necessarios para a reconstrucao da imagem, pode ser aplicado u m algoritmo que elimina a re-dundancia de codificacao (secao anterior).
A eliminacao da redundancia interpixel normalmente p r o d u z elevadas taxas de compressao em imagens binarias, o u seja, imagens e m preto e branco, pois ao i n -ves de armazenarmos as diferencas entre os pixels, pode-se armazenar a quantidade de 0's e l ' s que f o r m a m pequenas seqiiencias. Por exemplo, sendo a seqiiencia de numeros abaixo u m a linha de u m a imagem binaria:
0 0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0
a informaeao necessaria para sua reconstrucao seria:
(0,6) (1,5) (0,5) (1,3) (0,7)
O que tambem, para ser armazenado, necessita de m u i t o menos espago, p r i n -cipalmente considerando-se u m a imagem inteira, nao so u m a linha. Podemos citar como u m representante dos algoritmos que fazem uso desta abordagem o algoritmo D P C M (Secao 3.1.1).
2.1 Classificacao dos A l g o r i t m o s de Compressao 15
M u i t o da contribuicao visual de u m unico pixel de u m a i m a g e m e irrelevante, pois ele p o d e ser previsto com base nos seus vizinhos. A l e m disso, o olho h u m a n o nao responde com a mesma sensibilidade a toda informaeao visual. Certas infor-maeoes simplesmente tern menos importancia relativa do que outras, e m u m sis-tema de processamento visual n o r m a l . Este tipo de informaeao pode ser consider-ado irrelevante e pode ser eliminada sem empobrecimento significativo da quali-dade da percepcao da imagem. Suponhamos a linha abaixo, como sendo u m frag-mento de linha de u m a imagem ficticia de 256 niveis de cinza:
203 204 203 195 190 187 178 172 172 171 172
Q u a l observador h u m a n o perceberia as mudanqas sutis de valores de nivel de cinza de 203 para 204, por exemplo? Se essa informaeao (a diferenea) fosse perdida, m u i t o provavelmente a imagem ainda seria passivel de reconhecimento, o u seja, nao seria afetada significativamente a qualidade da i m a g e m reconstruida.
Eliminar a informaeao visual irrelevante, e fundamentalmente diferente das out-ras informaeoes eliminadas anteriormente, pois resulta e m perda de informaeao de carater irreversivel. Desde que a eliminaeao desta redundancia corresponde a per-das quantitativas de informaeao, este tipo de redundancia tambem costuma ser ref-erenciado como quantizaeao [6]. Esta terminologia se refere a aeao de mapear a grade de valores dos pixels de entrada e m u m limitado numero de valores de saida. Esta e u m a operaeao irreversivel, o u seja, alguma informaeao visual e perdida.
Que a eliminaeao deste tipo de informaeao acontece nao chega a ser u m a surpresa, pois a percepeao humana da informaeao contida e m u m a imagem, n o r m a l -mente nao envolve analise quantitativa de cada pixel da imagem. E m geral, u m observador procura por caracteristicas regionais e globais, como bordas e textura e mentalmente as combina para reconhecer o objeto [6; 16].
2.2 M e d i d a s de Avaliacao dos A l g o r i t m o s de Compressao de Imagens 16
Nesta secao f o r a m apresentadas as duas grandes classificacpes dos algoritmo de compressao. A p r i m e i r a considera a perda o u nao de informaeao resultante da com-pressao. A segunda classificacao se baseia no tipo de informaeao que os metodos de compressao p o d e m eliminar, que sao tres: redundancia na codificacao, redundancia interpixel e informaeao psicovisual irrelevante.
As melhores taxas de compressao sao atingidas pelos algoritmos com perdas, embora com alguma perda de qualidade da imagem reconstruida, que pode ser per-ceptivel o u nao. Os algoritmos que e l i m i n a m informaeao psicovisual irrelevante, o u seja, os que fazem quantizacao no momento da compressao, tambem alcangam m e l -hores taxas de compressao do que os metodos que e l i m i n a m so os outros tipos de redundancia. Por isso, a grande maioria dos metodos de compressao desenvolvidos que p o d e m ser encontrados na literatura, se preocupam e m eliminar a informaeao visual (fazem quantizacao) e, consequentemente, i n t r o d u z e m perdas.
2.2 Medidas de Avaliagao dos Algoritmos de
Com-pressao de Imagens
Para que o desempenho dos algoritmos de compressao de imagem possa ser cal-culado e analisado e, principalmente, para que os algoritmos desenvolvidos possam ser comparados entre si, existe u m a serie de medidas avaliativas padronizadas, u t i -lizadas pela literatura que trata do assunto. De u m a maneira geral, essas medidas objetivam avaliar a eficiencia da compressao, atraves da sua taxa de compressao e/ou taxa de bits p o r it pixel, b e m como a qualidade da i m a g e m reconstruida apos a compressao da i m a g e m digital, complexidade do algoritmo e a sua medida de entropia.
Os algoritmos de compressao de imagens com perdas, p r o d u z e m apenas aprox-ima<;6es da i m a g e m original, ou seja, existem diferencas (tambem chamadas de dis-torcoes o u artefatos) entre a imagem original e a imagem reconstruida. Para que
2.2 M e d i d a s de Avaliacao dos A l g o r i t m o s de Compressao de Imagens 17
os desempenhos destes algoritmos possam ser avaliados e ate mesmo comparados, estas diferengas devem ser medidas. U m a outra m e d i d a avaliativa e a qualidade da i m a g e m reconstruida e m relacao a original, sendo que esta e utilizada apenas para os metodos de compressao com perdas.
As medidas de eficiencia de compressao, de entropia e de complexidade sao utilizadas para ambos os tipos de metodos, com e sem perdas, sendo que o desem-penho dos metodos de compressao sem perdas e m e d i d o apenas por estes paramet-ros.
2.2.1 Medidas Avaliativas de Distorcao e de Qualidade da
Recon-strucao
A quantidade de distorcao presente na imagem reconstruida, influencia na qual-idade de sua percepcao. Esta qualqual-idade pode ser avaliada atraves de medidas ob-jetivas e subob-jetivas. As medidas obob-jetivas p o d e m ser executadas computacional-mente, atraves de comparacoes matematicas diretas entre a i m a g e m original e a reconstruida. As medidas subjetivas tambem baseiam-se e m comparacoes diretas entre a i m a g e m original e a reconstruida, so que realizadas por u m g r u p o de pes-soas que subjetivamente classificam a qualidade da imagem c o m p r i m i d a segundo u m a escala pre-determinada [17].
Todas as medidas objetivas sao discretas, bidimensionais, que p r o c u r a m explorar as diferen^as entre os pixels da imagem original e seus correspondentes na i m -agem reconstruida. E m outras palavras, as medidas de Distorcao e qualidade da reconstrucao procuram mensurar a similaridade entre duas imagens digitals, explo-rando as diferencas na distribuicao estatistica dos valores dos pixels [17].
2.2 M e d i d a s de Avaliacao dos A l g o r i t m o s de Compressao de Imagens 18
Avaliacoes subjetivas sao realizadas atraves de testes de visualizacao e sao baseadas nas opinioes i n d i v i d u a l s de cada pessoa participante do teste. As
me-didas subjetivas sao de dificil realizaqao, pois d e m a n d a m m u i t o tempo, u m grande n u m e r o de avaliadores (entre eles leigos, especialistas e possiveis usuarios do sis-tema de compressao), deslocamento dos avaliadores ate o laboratorio para a visual-izacao das imagens, disponibilidade destes laboratories e u m razoavel n u m e r o de imagens ja processadas antes da realizacao do teste.
A m e d i d a de qualidade subjetiva mais comumente utilizada para avaliacao dos algoritmos de compressao de imagens com perdas e o teste M O S (Mean O p i n i o n Score2 )[12]. Nesta m e d i d a , os avaliadores classificam a imagem analisada em u m a das cinco categorias (ou notas), como apresentado na p r i m e i r a coluna da Tabela 2.2. Cada nota esta associada a u m adjetivo qualificativo da i m a g e m e a u m a breve descricao da i m a g e m reconstruida (segunda e terceira colunas da Tabela 2.2, respec-tivamente), este teste e conhecido como escala de Likert.
Tabela 2.2: Notas do teste M O S
Notas Qualidade Subjetiva N i v e l de Distorcao
5 Excelente Imperceptivel
4 Boa Perceptivel mas nao incomoda
3 Razoavel Perceptivel e u m pouco incomodante 2 Pobre Incomoda mas ainda percebe-se a i m a g e m 1 Insatisfatoria Incomoda e nao percebe-se a i m a g e m
Sendo N o n u m e r o total de avaliadores e Rn a resposta do avaliador n, o teste
M O S e c o m p u t a d o pela media aritmetica simples das respostas assinaladas pelos avaliadores, como se segue:
1 A
MOS = — V Rn
T l = l
2.2 M e d i d a s de Avaliacao dos A l g o r i t m o s de Compressao de Imagens 19
U m a outra medida subjetiva de qualidade para avaliar imagens reconstruidas e o teste de preferencia. Neste, a comparacao e feita c o m relacao a u m a i m a g e m de referenda. Este teste utiliza u m a escala de graduacao c o m valores que v a r i a m de u m a cinco, onde cada valor corresponde a u m adjetivo do processo de comparacao [12]:
• 5 - A i m a g e m sob teste tern qualidade m u i t o superior a de referenda;
• 4 - A imagem sob teste tern qualidade u m pouco superior a de referenda;
• 3 - A i m a g e m sob teste tern a mesma qualidade da de referenda;
• 2 - A i m a g e m sob teste tern qualidade u m pouco inferior a de referenda;
• 1 - A i m a g e m sob teste tern qualidade m u i t o inferior a de referenda.
M e d i d a s Objetivas
A s medidas de qualidade objetivas sao mais utilizadas que as subjetivas para avaliacao dos algoritmos de compressao de imagens digitals, d e v i d o a varios fatores como os apresentados por M a d e i r o et. alii. [18], que sao aqui reproduzidos:
• Permitem avaliacao rapida;
• Sao mais facilmente implementadas e m u i t o menos dispendiosas e m tempo, relativamente as medidas subjetivas;
• Podem ser repetidas inumeras vezes durante a fase de desenvolvimento de u m algoritmo;
• Podem auxiliar mais facilmente o ajuste de parametros de algoritmos e ate mesmo servir como u m meio de deteccao de diferen^as sutis no desempenho dos algoritmos, possivelmente nao detectaveis por meio de avaliacao subje-tiva.
2.2 M e d i d a s de Avaliacao dos A l g o r i t m o s de Compressao de Imagens 20
N a Tabela 2.3 estao listadas as 11 principals medidas objetivas para avaliacao de desempenho de algoritmos de compressao c o m perdas, segundo Eskicioglu e Fischer [19]. Os valores dos pixels da imagem original sao representados na tabela por j) e os da i m a g e m reconstruida sao representados p o r R{i,j). Sendo L o n u m e r o de linhas da imagem e C o numero de colunas, o valor de i representa a z-esima linha (1 < i < L) e j representa a j-esima coluna (1 < j < C). N o calculo da m e d i d a PSNR, a variavel A representa o valor m a x i m o de nivel de cinza que os pixels da i m a g e m original p o d e m alcangar.
As medidas objetivas e as subjetivas devem apresentar u m a correlacao forte en-tre si, o u seja, as medidas objetivas de qualidade d e v e m apresentar u m conteudo subjetivo e viceversa: pequenas e grandes variaqoes de u m a m e d i d a devem i m -plicar e m pequenas e grandes variacoes na outra. Mas isso n e m sempre e ver-dadeiro, variando e m funcao da i m a g e m utilizada nos testes e dos algoritmos testa-dos.
Madeiro et. alii, faz em [18] u m a analise da correlacao entre as medidas objetivas que estao listadas na Tabela 2.3 e as medidas subjetivas, representadas pelo teste M O S (secao 2.2.1). Para tanto sao utilizados os resultados obtidos para imagens em nivel de cinza por dois algoritmos de compressao de imagens por quantizacao vetorial, o L B G e SSN-TV.
Os resultados obtidos naquele trabalho i n d i c a m que algumas medidas realmente tern problemas quanto a fidelidade. Por exemplo, as medidas AD, SC, NK, CQ e
MD nao demonstraram ser m u i t o confiaveis para avaliacao de tecnicas, pois o u apresentam baixa correlacao c o m as respostas dos avaliadores, o u o sinal dos co-eficientes de correlacao m u d a . A s outras medidas sao mais confiaveis pois elas al-canqam altos niveis de correlacao com os resultados da m e d i d a subjetiva obtida pelo teste MOS.
O trabalho de Madeiro et. alii. [18] conclui ainda que deve-se ter m u i t o cuidado com algumas medidas, por exemplo a NK, pois elas p o d e m levar a conclusoes i n -corretas se nao forem propriamente interpretadas, quando e feita a comparacao da
2.2 M e d i d a s de Avaliacao dos A l g o r i t m o s de Compressao de Imagens 21
Tabela 2.3: Medidas de Qualidade Objetiva
Medidas F o r m u l a Diferenca M e d i a (Average Difference) LC Conteudo Estrutural (Structural Content) q r £f= 1£y=i[/(M)]2 Correlacao Cruzada N o r m a l i z a d a ( N o r m a l i z e d Cross-Correlation) Qualidade de Correlacao (Correlation Quality) Diferenca M a x i m a ( M a x i m u m Difference) M£> = M a x | / ( i , i ) - R(i,j)\ Fidelidade da Imagem (Image Fidelity) rp -j E f = i E ^ i [ / ( M ' ) - « ( i j ) ]2 E f . i E ? - i l / ( i j ) l2] Erro M e d i o Quadratico (Mean Square Error) Relacao Sinal-Ruido de pico (Peak Signal-to-Noise Ratio)
P S J V f l - l O l q g u I j ^ f ] N o r m a Lp , _ E f - i E ^ i i / « j ) - « « j ) r n _ i o o tp - L C ,p - i . A ^ Erro Absoluto N o r m a l i z d o ( N o r m a l i z e d Absolute Error) Erro M e d i o Quadratico N o r m a l i z a d o ( N o r m a l i z e d M e a n Square Error)
2.2 M e d i d a s de Avaliagao dos A l g o r i t m o s de Compressao de Imagens 22
performance de diferentes algoritmos de compressao de imagens.
2.2.2 Medidas de Eficiencia da Compressao
A eficiencia da compressao dos algoritmos c o m o u sem perdas pode ser me-dida e m termos de taxa de compressao o u e m taxa de bits p o r p i x e l (bpp) [ 1 ; 20; 21]. A taxa de compressao pode ser entendida como a taxa que expressa a diferenca de " t a m a n h o " entre a imagem original e a imagem c o m p r i m i d a . Este tamanho da imagem pode ter algumas interpretacoes dependendo do proposito e da i m p l e m e n -tacao do algoritmo, mas em geral e m e d i d o em termos de n u m e r o de pixels o u de bytes.
A taxa de bits por pixel TB e calculada como a media d o n u m e r o de bits requeri-dos por pixel para codificar a i m a g e m c o m p r i m i d a [ l ] , o u ainda [21]:
^ _ numero de bits necessarios para codificar a i m a g e m numero de pixels na i m a g e m c o m p r i m i d a
A taxa de compressao TC e a relacao entre o tamanho da i m a g e m original e o tamanho do arquivo compactado, determinado por:
^ _ tamanho do arquivo o r i g i n a l tamanho do arquivo compactado
Tomemos como exemplo u m a imagem de dimensoes 256 x 256 (linha x coluna), codificada originalmente com 8 bits por pixel, o u u m byte por pixel. Esta imagem requer 256 x 256 = 65536 bytes o u pixels, o u 65536 x 8 = 524288 bits, quando armazenada da forma original (nao comprimida). Supondo que apos a execucao de a l g u m algoritmo de compressao seja necessario o armazenamento de apenas 32768 pixels, entao a taxa de compressao e calculada como 65536/32768 = 2.0, dizemos que a taxa de compressao foi de 2 : 1 (dois para u m ) . Desde que a imagem reconstruida ainda tenha as mesmas dimensoes da imagem original, 256 x 256 = 65536 pixels, o
2.2 M e d i d a s de Avaliacao dos A l g o r i t m o s de Compressao de Imagens 23
arquivo da i m a g e m c o m p r i m i d a necessita de 32768 x 8/65536 = 4 bits por pixel, na media. Entao a taxa de bits por pixel e de 4.
A taxa de compressao e a taxa de bits por pixel sao inversamente proporcionais. Sendo b o n u m e r o de bits p o r pixel necessario para codificar a i m a g e m original,
TC a taxa de compressao e TB a taxa de bits por pixel, a equacao abaixo pode ser calculada:
b = TC x TB (2.1)
2.2.3 Medida de Complexidade do Algoritmo
A complexidade de u m algoritmo para qualquer finalidade e o esforco computa-cional requerido para se realizar todas as etapas do algoritmo, no nosso caso, a com-pressao e descomcom-pressao das imagens [1]. Os processos de comcom-pressao e descom-pressao p o d e m ser medidos pelo numero de o p e r a t e s aritmeticas (flops) por pixel necessarias para que seja totalmente executado.
A complexidade esta intimamente associada a velocidade de execucao do algo-ritmo. A velocidade de u m algoritmo de qualquer proposito e funcao da sua com-plexidade e de sua implementacao. Esta medida e u m fator m u i t o importante, e ate mesmo decisivo, quando estao envolvidas aplicacpes de compressao e descom-pressao de imagens em tempo-real, onde a velocidade e u m a caracteristica crucial.
2.2.4 Entropia
Shannon i n t r o d u z i u o conceito de entropia como sendo a m e d i d a da media da informaeao contida em u m a fonte [ 1 ; 9]. Supondo u m a i m a g e m I cuja escala de
2.2 M e d i d a s de Avaliacao dos A l g o r i t m o s de Compressao de Imagens 24
valores de n i v e l de cinza varia de 0 ate 255, o u seja, u m a i m a g e m que tern ate A = 256 valores de n i v e l de cinza. Sendo pt a probabilidade de u m pixel de I tenha o
valor i. O conteudo da informaeao da imagem I - entropia - e dado por:
A
H ( I ) = -Y
JP
ilog
2p
l(2.2)
i = i
A u n i d a d e de entropia e bits por pixel.
2.2.5 Conclusao
Apesar de termos presente na literatura varias medidas avaliativas de algoritmos de compressao, poucas sao efetivamente utilizadas. A s medidas mais comumente encontradas nos artigos que tratam do assunto sao as medidas objetivas PSNR e MSE. As medidas subjetivas sao mais empregadas e m metodos de objetivo especi-fico, o u quando os futuros usuarios do metodo tern facil acesso aqueles que o de-senvolveram.
Capitulo 3
Revisao Bibliografica 2: Abordagens
mais Comuns e Padronizacao dos
Metodos de Compressao
Neste Capitulo encontra-se a segunda parte da revisao bibliografica feita como parte desta tese, para que a orientanda tivesse u m conhecimento mais aprofundado da area de pesquisa: Compressao de Imagens.
3.1 As Abordagens mais Comuns dos Metodos de
Compressao
O estudo de metodos de compressao de imagens tern sido u m a area ativa de pesquisa desde o surgimento das tecnicas de processamento digital de sinais. Desde que imagens p o d e m ser entendidas como u m sinal 2 D (bidimensional) com as var-iaveis independentes sendo as coordenadas espaciais 2D (linha x coluna), muitas tecnicas de compressao digital para sinais unidimensionais p o d e m ser estendidas para imagens c o m relativa facilidade [1].
3.1 A s A b o r d a g e n s mais C o m u n s dos M e t o d o s de Compressao 26
M u i t a s das abordagens encontradas na literatura que tratam de compressao de imagens [6; 15; 9; 1 ; 22; 23; 24; 16], p o d e m ser classificadas e m u m a das catego-rias maiores apresentadas abaixo. Alternativamente, u m a combinacao de algumas dessas tecnicas p o d e m ser utilizadas por u m mesmo metodo, o que e chamado de abordagem hibrida. Entre os autores da area nao existe u m consenso quanto a clas-sificacao de alguns metodos, por apresentarem caracteristicas de mais de u m a abor-dagem. E o caso d o metodo das transformadas wavelet que pode ser encontrado na literatura tanto classificado como u m metodo de codificacao por transformada, quanto p o r codificacao multirresolucional.
Portanto, as classes mais gerais sao:
• Codificacao Preditiva;
• Codificacao p o r Transformada;
• Quantizacao Vetorial;
• Codificacao Multirresolucional/Multiescala;
• A b o r d a g e m H i b r i d a .
A s duas primeiras abordagens (codificacao preditiva e por transformada) sao as mais tradicionais, pois foram as primeiras desenvolvidas, sendo tambem chamadas de "Tecnicas de Compressao de Primeira Geracao [6; 9; 22; 16]". U m a caracteristica destas tecnicas e o fato de nao analizarem a informaeao contida na propria imagem como u m todo para realizar a compressao, elas sao baseadas na informaeao contida nos pixels, o u seja, informaeao local.
A s demais tecnicas, tambem chamadas de "Tecnicas de Compressao de Imagens de Segunda Geracao", caracterizam-se por identificar as caracteristicas da imagem como u m todo e utilizar estas caracteristicas para alcanqar a compressao. Todas as tecnicas da segunda geracao incorporam propriedades do sistema visual h u m a n o
3.1 A s Abordagens mais C o m u n s dos M e t o d o s de Compressao 27
( H V S1) na sua estrategia de codificacao para atingir altas taxas de compressao, en-quanto ainda m a n t e m u m a qualidade aceitavel na i m a g e m reconstruida [16].
M u i t o esforcp f o i feito para identificar o que o observador h u m a n o considera v i -sualmente mais importante para a caracterizacao de u m a imagem. U m a conclusao geral f o i que o nosso sistema visual normalmente descreve a imagem e m termos de seus contornos e suas texturas [22]. C o m base nesta informaeao, a maioria dos meto-dos desta geracao procura preservar a informaeao de borda, separando-a da infor-maeao de textura, podendo ainda codifica-las separadamente. E m outras palavras, esses metodos identificam na i m a g e m as regioes de significancia e insignificancia visual, podendo aplicar tecnicas de codificacao apropriada para cada area.
Constantemente sao desenvolvidos novos metodos de compressao de imagens com o u sem perdas, a grande maioria se enquadra e m u m a das grandes abordagens listadas anteriormente. Pode ser que venha a ser desenvolvido u m n o v o metodo de compressao que nao se enquadre e m nenhuma dessas e, provavelmente n u m futuro nao m u i t o distante, com a propagacao desta " n o v a " abordagem utilizada, e consequente desenvolvimento de novos metodos que fagam uso desta abordagem, pode ate ser criada u m a nova classificacao.
C o n t u d o , estes sao conceitos m u i t o novos e por isso mesmo ainda nao consoli-dados. C o m isso e c o m u m encontrarmos interpretaqoes diferentes para os mesmos conceitos. Por exemplo, existem autores que classificam as transformadas wavelet como u m metodo de primeira geracao, o u seja, codificacao por transformada [25; 26], outros ja as classificam como u m metodo de segunda geracao, como codifi-cacao multirresolucional [15; 16]. Existem tambem discrepancias quanto ao nome dos metodos. H a metodos com conceitos m u i t o parecidos e nomes diferentes, como exemplo podemos citar a codificacao multirresolucional [16; 20; 21; 27] que tambem e conhecida como multiescala [16], codificacao por sub-bandas o u p i r a m i d a l [16; 11; 21; 27; 28].
U m resumo sobre cada uma das abordagens citadas sera dado nas segoes que se
3.1 A s A b o r d a g e n s mais C o m u n s dos Metodos de Compressao 28
seguem, b e m como exemplos dos metodos desenvolvidos mais utilizados que usam essas abordagens.
3.1.1 Codificacao Preditiva
Esta abordagem tern como principal caracteristica a simplicidade. N o r m a l m e n t e , imagens de cenas reais exibem u m alto grau de correlacao entre seus pixels vizinhos, o que e conhecido na literatura como redundancia interpixel. Este alto grau de cor-relacao i m p l i c a e m u m alto grau.de redundancia e m cada linha de informaeao [1]. Se esta redundancia for removida pelo descorrelacionamento dos dados, isto por si so ja representaria u m a compressao de dados. Os metodos que fazem uso desta abor-dagem e x p l o r a m justamente a correlacao dos dados da i m a g e m a ser c o m p r i m i d a , o u seja, quanto mais os vizinhos da imagem forem correlacionados, mais eficiente sera a compressao.
A ideia basica das tecnicas de codificacao preditiva e gerar u m vetor de variaveis aleatorias nao correlacionadas,-de u m a imagem, pela utilizacao de uma transfor-mac,ao [9]. A estrutura da transformacao e definida pela utilizacao de u m modelo apropriado da imagem, como a diferen<;a entre o nivel de cinza da imagem e o nivel de cinza p r e d i t o pelo modelo. Estas diferen^as nao sao correlacionadas c o m a i m -agem original e p o d e m ser representadas por m u i t o menos bits. C o m as diferencas e os parametros do modelo, a i m a g e m pode ser reconstruida.
U m a das maiores representantes deste tipo de abordagem e a tecnica D P C M descrita a seguir.
D P C M
U m dos mais antigos metodos de codificacao preditiva, o D P C M (Differential Pulse-Code M o d u l a t i o n ) tern sido extensivamente estudado desde seu desenvolvi-mento. Foi m u i t o utilizado para transmissao de sinais de i m a g e m e video digitals
3.1 A s A b o r d a g e n s mais C o m u n s dos Metodos de Compressao 29
[23]. Este metodo e baseado na eliminaeao da redundancia interpixel, pois extrai e codifica somente a nova informaeao de cada pixel. Esta nova informaeao de cada pixel e definida como a diferenga entre o pixel atual e o valor predito de cada pixel [61
O p r i n c i p a l componente de u m metodo D P C M e o preditor [9], que e escolhido no inicio d o funcionamento do metodo, podendo ser o p r i m e i r o pixel da imagem, o de posicao (0,0). Entao a diferenca (chamado de erro de predicao d o pixel) entre o preditor e o p r o x i m o pixel e calculada e sera este valor que sera transmitido o u armazenado. Para a reconstrucao da imagem, o valor de n i v e l de cinza de u m pixel sera o seu erro de predicao somado ao preditor. U m preditor pode ser atualizado ao longo da execu^ao do metodo para u m a mesma imagem, p o r exemplo, sempre que o erro de prediqao ultrapassar u m certo limite conhecido a p r i o r i , o que evita o acumulo d o erro.
O problema principal deste metodo e a escolha do preditor. U m a possivel abor-dagem para tal e utilizar u m modelo estatistico dos dados para derivar u m a funqao que relacione os pixels vizinhos dentro de u m a janela como o explicado por D o n n y e H a y k i n e m [1]. Estes mesmos autores ainda sugerem u m a outra maneira de escolher o preditor, u t i l i z a n d o redes neurais.
U m p r e d i t o r baseado n u m a soma linear de pesos de seus vizinhos e relativa-mente facil de se projetar utilizando caracteristicas estatisticas da imagem. Contudo, se u m m o d e l o nao-linear for mais apropriado para u m a imagem, o uso de predi-tor linear ira claramente resultar n u m a solucao sub-otima. Infelizmente, o projeto de preditores nao-lineares e geralmente nao tratavel matematicamente, como sao os preditores lineares. A utilizacao, entao, de redes neurais para projetar predi-tores nao-lineares resulta em excelentes resultados, como pode ser visto em D o n n y e H a y k i n [ l ] .
A tecnica D P C M tern sido m u i t o utilizado para compressao de imagens medicas sem perdas o u em combinacao com outros metodos de compressao que e l i m i n a m as informaeoes psicovisuais irrelevantes [15].