Codificação de Imagens em Sub-Bandas Usando Técnicas de Busca Rápida

(1)

1

Aldebaro Klautau atualmente é professor visitante do Dep. Eng. Elétrica da Universidade Federal do Pará - UFPa.

2

Marcus Lamar atualmente é professor auxiliar do Dep. Eng. Elétrica da Universidade Federal do Paraná - UFPR.

Codificação de Imagens em Sub-Bandas Usando Técnicas de Busca Rápida

A LDEBARO K LAUTAU 1

, M ARCUS V INICIUS L AMAR 2 , J OSÉ C ARLOS M. B ERMUDEZ E R UI S EARA

Laboratório de Instrumentação Eletrônica - LINSE Departamento de Engenharia Elétrica - UFSC C.P.476 - 88010-970 - Florianópolis - SC - Brasil

Fax: 55-482-31-9770 Tel.: 0482-319643 e-mail: a.klautau@ieee.org

RESUMO

Neste trabalho avaliamos a aplicação de métodos de busca rápida a estruturas de codificação de imagens que empregam quantização vetorial (QV). A codificação de imagens em sub-bandas, associada à QV intra-banda e inter-bandas, tem fornecido bons resultados para baixas taxas de bits com razoável complexidade computacional [4]. Propomos a utilização de métodos de busca rápida na QV intra-banda, o que permite reduzir ainda mais o custo computacional. Resultados de simulações atestam a boa qualidade da codificação com uma redução de complexidade da ordem de 90% quando comparada à da técnica da referência [4].

ABSTRACT

This work evaluates the fast search neighbor algorithms(FSNA) applied to image encoder with vector quantization (VQ). The image coding in sub-bands, associates at QV intra-band and inter-bands has provided good results at low bit-rate with reasonable computational complexity, as has been shown in [4]. In this paper we propose the use of FSNA in these encoders that provide a considerable reduction of computational complexity. The simulation results confirm the good coding quality with a complexity reduction close to 90% when compared with[4].

I - INTRODUÇÃO

A quantização vetorial (QV) é uma técnica de compressão de dados muito eficiente [1]. Atualmente, a utilização da QV em codificação de imagens encontra-se bastante difundida. Outra estratégia muito utilizada em esquemas de codificação de imagens é a decomposição do espectro de freqüências da imagem em sub-bandas, seguida de sua codificação [2]. O uso conjunto da QV e da codificação em sub-bandas tem sido objeto de diversos estudos [3], [4].

Neste trabalho utilizamos a decomposição em sub-bandas, seguindo uma abordagem semelhante à utilizada em [2], [3] e [4]. Realizamos a decomposição do espectro de freqüências da imagem em 16 sub-bandas uniformes. Para a codificação das sub-bandas utilizamos o esquema proposto em [4].

Nosso principal objetivo é a redução da complexidade computacional a partir da utilização de métodos de busca rápida (MBR) da melhor palavra-código (“codeword”). O emprego de MBR em codificação de imagens foi abordado recentemente em [7]. Todavia, os três métodos apresentados em [7] são apenas parte de uma vasta gama de MBR atualmente disponíveis [8-14]. Mostraremos que alguns destes MBR apresentam vantagens em relação aos métodos utilizados em [7].

Huang et al. [7] utilizaram a QV espacial.

Todavia, o método de QV espacial utilizado em [7]

introduz indesejáveis efeitos de blocagem [4]. Assim, avaliaremos a utilização dos MBR no contexto da QV das sub-bandas da imagem, segundo a técnica proposta em [4].

Na seção II apresentaremos o esquema de decomposição em sub-bandas e a estratégia de QV (intra- banda e inter-bandas) utilizada. Na seção III reuniremos os principais MBR que se encontram dispersos na literatura e apresentaremos uma breve discussão acerca dos mesmos. Assim, objetivamos alcançar uma visão mais unificada dos MBR. Na seção IV serão apresentadas as medidas objetivas utilizadas na avaliação de desempenho dos MBR. Na seção V serão apresentados os resultados da aplicação de MBR à QV das sub-bandas. A seção VI é dedicada às conclusões deste trabalho.

II - CODIFICAÇÃO DAS SUB-BANDAS Nesta seção descreveremos o sistema básico de codificação de imagens em sub-bandas. Este sistema é composto por duas etapas distintas: a decomposição em sub-bandas e a quantização vetorial. Descreveremos apenas as estruturas dos quantizadores vetoriais, postergando-se a discussão dos algoritmos de busca rápida para a próxima seção.

O espectro de freqüências da imagem é

decomposto em 16 sub-bandas uniformes, como

apresentado em [2]. Para isto, utilizamos o mesmo banco

de filtros FIR espelhados em quadratura empregado em

[2], [3] e [4] (identificado como filtro 32D em [5]). Para

uma imagem de 256x256 pixeis, por exemplo, obtém-se

16 sub-imagens de 64x64 pixeis, correspondendo a uma

sub-imagem para cada sub-banda. Para este exemplo, a

imagem poderia ser representada por 64x64 vetores de

dimensão 16, onde cada sub-banda contribui com uma

amostra do vetor. Esta é a representação usada em [3],

(2)

onde os autores realizam a QV direta destes vetores de dimensão K=16. Neste trabalho, estaremos adotando a estratégia proposta em [4], que codifica de forma diferenciada as amostras correspondentes à sub-banda que contém as componentes de freqüências mais baixas (sub-banda dominante).

A sub-banda dominante tem suas amostras codificadas vetorialmente a partir de blocos de 2x2 pixeis cada (QV intra-banda [4]). As amostras das 15 sub- bandas restantes são reunidas em vetores de dimensão K=15 (QV inter-bandas [4]) e codificadas vetorialmente de forma independente da codificação da sub-banda dominante. De acordo com os resultados apresentados em [4], este esquema de codificação conduz a uma menor complexidade computacional quando comparado à QV inter-bandas direta das 16 sub-bandas usada em [3].

Neste trabalho, utilizaremos as taxas de bits de 0,5 bits/pixel e 0,63 bits/pixel, seguindo a alocação de bits sugerida em [4]. Para a taxa de 0,5 bits/pixel alocaremos 4 bits/pixel para a sub-banda dominante e 4/15 ↵ 0,27 bits/pixel para as sub-bandas restantes. Para a taxa de 0,63 bits/pixel alocaremos 5 bits/pixel para a sub- banda dominante e 5/15↵0,33 bits/pixel para as sub- bandas restantes. De acordo com o proposto em [4], foi empregada a QV multi-estágio [6] (dois estágios) na codificação da sub-banda dominante. Para a taxa de 0,5 bits/pixel, a sub-banda dominante é codificada em dois estágios, onde cada estágio emprega um dicionário de códigos (“codebook”) com N=256 palavras-código de dimensão K=4. Para as 15 sub-bandas restantes, utilizou- se um dicionário com N=16 e K=15. Para a taxa de 0,63 bits/pixel, o primeiro estágio utiliza o mesmo dicionário usado para a taxa de 0,5 bits/pixel, enquanto que o segundo estágio utiliza um dicionário com N=4096 e K=4, e para as 15 sub-bandas restantes utilizou-se um dicionário com N=32 e K=15.

III - MÉTODOS DE BUSCA RÁPIDA Uma das formas de reduzir a complexidade computacional da QV é a utilização de estruturas como a multi-estágio [6]. Outra alternativa é a utilização de MBR. A utilização destes métodos em esquemas de QV de imagens ainda não está difundida amplamente, mas os mesmos são objetos de grande interesse atualmente [7- 14].

Denominamos de MBR, os algoritmos que têm por finalidade reduzir o número de operações na etapa de determinação da melhor palavra-código.

O cálculo da distância parcial [13] é um dos métodos de busca rápida mais simples. Este método pode ser utilizado quando a medida de distorção é obtida acumulando-se parcelas não-negativas, como no cálculo do erro quadrático, por exemplo. A distância parcial consiste em descartar o cálculo da distorção de uma dada palavra-código, tão logo esta distorção ultrapasse a menor distorção d

_min

calculada até aquele momento.

Existem outros MBR muito mais elaborados do que o cálculo da distância parcial. Dentre estes, os mais explorados atualmente são os baseados na desigualdade triangular [7-12] e na árvore K-d [14].

Desigualdade Triangular:

Os métodos baseados na desigualdade triangular [7-12] podem ser aplicados quando a medida de distorção utilizada obedece a esta desigualdade. Estes métodos usam a menor distorção dmin calculada até aquele momento, para descartar o cálculo da distorção para algumas palavras-código. Supondo que já se tenha calculado a distância dmin=d(x,yi) entre o vetor x e a palavra-código yi, a desigualdade triangular indica que uma outra palavra-código yj só pode vir a apresentar uma distorção d(x,yj)<dmin caso d(yi,yj)≤2.dmin. A Fig. 1 ilustra este princípio. Pode-se descartar o cálculo de d(x,yj) no caso de d(yi,yj)>2.dmin. Para isto deve-se ter calculado e armazenado o valor de d(yi,yj) em uma etapa de pré-processamento.

yi

x yj

2*d(x,yi)

Fig. 1 - Princípio da desigualdade triangular O algoritmo AESA [8] consiste na aplicação da desigualdade triangular. Uma vez projetado um dicionário de N palavras-código, o algoritmo AESA baseia-se em um pré-processamento que consiste no cálculo das N(N-1)/2 distâncias entre as palavras-código.

Estas distâncias são armazenadas sob forma de tabela.

Basicamente, este é o mesmo princípio do algoritmo I apresentado em [7]. Seguindo esta mesma estratégia, Orchad propõe em [9] uma modificação que permite a redução da tabela de distâncias.

Uma forma alternativa de implementação da desigualdade triangular baseia-se no conceito de pontos de âncora (pontos do espaço K-dimensional) [10], [11].

Estes dois trabalhos consistem em um aperfeiçoamento do método apresentado em [12]. Armazenam-se em uma tabela, as distâncias das palavras-código aos pontos de âncora, ao invés das distâncias entre as palavras-código.

Assim, a memória necessária para o armazenamento da estrutura de dados dos métodos que usam G pontos de âncora é da ordem de G.N, ao invés de N

²

, como para o algoritmo AESA [8]. O número de pontos de âncora e suas localizações exibem uma certa flexibilidade nas suas determinações. Em [10] e [11] são propostos critérios para a determinação do número de pontos de âncora e suas respectivas localizações.

Árvore K-dimensional:

Outro método que apresenta uma boa potencialidade é o que utiliza o conceito de árvore K-dimensional [14], [15]. Cada nó da árvore K-dimensional (K-d) divide o espaço ℜk em duas regiões através de um hiperplano ortogonal a um dos K eixos cartesianos. Este hiperplano H é representado por H={x

∈ ℜk / x j=h } e define duas regiões ℜ L e ℜ R [14]. Para

representar H necessita-se de apenas dois valores: j e h. O

valor de j determina qual será o eixo ortogonal ao

hiperplano H. O valor de h corresponde à interseção de H

com o eixo j. Qualquer ponto (vetor x) no espaço ℜ k

(3)

pode ser localizado em relação a H com uma simples comparação escalar, x(j) ≤ h, onde x(j) é a j-ésima componente do vetor x.

Assim, a árvore K-d de profundidade d secciona o espaço ℜk em 2d regiões retangulares disjuntas (folhas) e permite identificar a folha contendo um dado vetor x em apenas d comparações escalares.

Uma vez identificada a folha, é realizada uma busca exaustiva entre as palavras-código que estão contidas nesta folha.

O princípio da busca conservativa [15] em árvore K-d é apresentado na Fig. 2. Dado um dicionário e definida uma medida de distorção, o espaço é dividido em regiões conhecidas como partições de Voronoi [15]

(Fig. 2a). Cada palavra-código possui sua correspondente partição de Voronoi. Qualquer vetor que pertença a esta partição será representado pela respectiva palavra-código.

Dado um vetor x a ser quantizado, verificamos inicialmente de que lado do hiperplano separador encontra-se x. Em seguida, buscamos seu vizinho mais próximo desprezando-se as palavras-código correspondentes às partições que tenham interseção nula com a região a qual pertence x. A Fig. 2(b) ilustra este procedimento. Ao determinarmos que o vetor x está na região hachurada, podemos descartar da busca as partições A e D. As regiões correspondentes aos dois ramos da árvore inferiores a este nó serão, então, formadas pelos conjuntos de partições {A,B,C,D} e {B,C,E}, respectivamente. Este processo se repete até que se atinja uma folha, onde realiza-se, então, uma busca exaustiva entre as palavras-codigo que compõem esta folha.

(a) (b)

Fig. 2. (a) Partições de Voronoi, (b) Separação em duas regiões aravés de um hiperplano.

Alguns dos métodos citados serão avaliados na seção V, no contexto da QV de imagens em sub-bandas.

A próxima seção dedica-se ao estabelecimento das medidas objetivas de desempenho que serão utilizadas neste trabalho.

IV - MEDIDAS DE DESEMPENHO

Alguns trabalhos [11], avaliam os MBR a partir do número de distorções efetivamente calculadas.

Considerando a codificação (busca da melhor palavra-código) de toda uma seqüência de teste, chamaremos de DI

_mín

ao menor número de distorções efetivamente calculadas na codificação de um vetor. Os números máximo e médio de distorções calculadas serão chamados de DI

_máx

e DI

_méd

, respectivamente. Esta forma

de avaliação é frágil pois não considera a complexidade computacional do método. Assim, utilizaremos também outras figuras de mérito.

A complexidade computacional associada à implementação de um quantizador vetorial depende da memória requerida e do número de operações necessárias à codificação. Na avaliação desta complexidade é útil contarmos com uma só medida que englobe estes dois aspectos. Esta medida seria dependente do compromisso entre a utilização de um processador mais poderoso e um maior dispêndio com memória para armazenamento.

Aqui, foi adotada a estratégia utilizada em [17], que define uma medida de complexidade (C) como:

C = MD/5 + ME/20 + OP (1) onde MD é a memória dinâmica utilizada, ME corresponde à memória estática e OP é o valor total de operações, consistindo de uma soma ponderada das operações aritméticas envolvidas. O peso associado a cada tipo de operação é apresentado em [17]. Por exemplo, a operação de multiplicação tem peso 1, enquanto a divisão tem peso 18.

Podemos ainda, avaliar os MBR a partir da estatística média das operações necessárias à codificação de um vetor (O

_méd

) ou do número máximo (pior caso) destas operações (O

_máx

). Dependendo da aplicação, um destes dois parâmetros terá maior importância. Em sistemas para operação em tempo real, o parâmetro O

_máx

tem grande importância, pois o processador utilizado deve ser capaz de atender ao pior caso. A partir de O

_máx

e O

_méd

obtemos C

_máx

e C

_méd

através da Eq. (1).

Ressaltamos que o custo computacional correspondente às etapas de pré-processamento dos MBR não será avaliado, pois estaremos interessados no processo de codificação propriamente dito.

Como medida objetiva de desempenho na codificação das imagens utilizamos também, a razão sinal/ruído de pico (RSRP) em dB, dada por:

RSRP 10 log 255 / 1

M (P P )

2

i i

2 i 1

M

= ⋅  −





=



∑ (2) onde M é o número total de pixeis da imagem e P

_i

e P

_i

são os valores dos pixeis das imagens original e reconstruída, respectivamente.

V - RESULTADOS

As simulações foram realizadas usando-se imagens monocromáticas de 256x256 pixeis, com 8 bits/pixel para os níveis de cinza. Para o projeto dos dicionários foi utilizado o algoritmo LBG [16]. Foram usadas cinco imagens para compor a seqüência de treinamento, são elas: “Peppers”, “Airport”,

“Airplane”, “Tiffany” e “Sailboat”. O desempenho dos MBR foi avaliado a partir da seqüência de teste constituída da imagem “Lenna”.

Avaliaremos a aplicação dos MBR para três

dicionários diferentes: o primeiro dicionário é o

correspondente ao primeiro estágio da QV. Este

dicionário com N=256 palavras-código é comum às duas

taxas utilizadas (0,5 bits/pixel e 0,63 bits/pixel) e será

denominado de DIC_1_256. O dicionário com N=256

palavras-código referente ao segundo estágio do sistema

(4)

com taxa de 0,5 bits/pixel será chamado DIC_2_256. O dicionário com N=4096 palavras-código (segundo estágio para a taxa de 0,63 bits/pixel) será chamado DIC_2_4096. Avaliaremos os MBR apenas na codificação da sub-banda dominante (QV intra-banda).

Os dicionários com N=16 e N=32 com K=15, respectivos à QV inter-bandas, serão pesquisados através de busca exaustiva. o

Inicialmente, apresentaremos s resultados obtidos com o uso da árvore K-d. Para isso, devemos salientar alguns aspectos de seu projeto. Para projetar a árvore K-d utilizamos o algoritmo GOC (“Generalized Optimization Criterion”), proposto em [14]. Este algoritmo exige uma etapa de estimativa dos limites das projeções nos eixos cartesianos das partições de Voronoi [14], [15]. Esta etapa é muito importante, pois uma estimativa precária destes limites torna a codificação através da árvore K-d passível de erros, ou seja, a palavra-código encontrada pode não ser a correta.

Basicamente, estes limites podem ser determinados analiticamente, a partir de técnicas de geometria computacional, ou através do Método de Monte Carlo [14]. A determinação analítica destes limites apresenta algumas dificuldades [15]. Neste trabalho foi utilizado o Método de Monte Carlo.

O Método de Monte Carlo baseia-se na codificação de um grande número de vetores. Estes vetores podem ser a própria seqüência de treinamento, conforme proposto em [14]. Todavia, em nossas simulações, a seqüência de treinamento não foi suficiente para determinar os limites com precisão. Outra alternativa é a construção “artificial” de vetores formando uma grade regular no espaço K-d. Em ambos os casos (usando-se a seqüência de treinamento ou a grade), o aumento do número de vetores torna a estimativa dos limites mais precisa, e conseqüentemente, diminui o erro de codificação. A vantagem do uso da grade é o maior controle na precisão do método.

O projeto das árvores K-d respectivas ao dicionários DIC_1_256 e DIC_2_256 baseou-se em grades com 100.000.000 vetores. Desta forma, obtivemos precisão suficiente na estimativa dos limites e alcançamos uma codificação sem erros. O preço pago foi o custo computacional, equivalente a dias de CPU de uma estação de trabalho SUN Sparc10. Assim, não pudemos utilizar uma grade com essa precisão para o dicionário DIC_2_4096, devido à grande complexidade computacional envolvida. A árvore projetada para o DIC_2_4096 foi baseada na própria seqüência de treinamento (20.480 vetores).

Desta forma, na codificação à taxa de 0,5 bits/pixel, a busca através da árvore K-d não acarreta em

erros de codificação. Para a taxa de 0,63 bits/pixel, os erros na busca do DIC_2_4096 acarretaram em uma degradação na RSRP de 0,3 dB, em média.

Devemos ainda, escolher o nível de profundidade da árvore K-d. A Tabela 1 apresenta o desempenho de diversos níveis da árvore K-d para o DIC_1_256. O nível 0 corresponde à busca exaustiva.

Observa-se que neste caso, a partir do nível 6, a diminuição do número de operações O não compensa o correspondente aumento da memória necessária. As árvores respectivas aos dicionários DIC_2_256 e DIC_2_4096 apresentaram desempenho semelhante ao apresentado na Tabela 1. Assim, escolhemos o nível 6 também para estas árvores.

Apresentaremos a seguir os resultados referentes aos métodos baseados na desigualdade triangular, comparando-os aos obtidos com as árvores K-d com 6 níveis de profundidade.

As Tabelas 2, 3 e 4 correspondem aos

resultados obtidos para os dicionários DIC_1_256, DIC_2_256 e DIC_2_4096, respectivamente. Nestas tabelas, são mostrados os resultados obtidos com o algoritmo AESA [8], com o algoritmo II proposto por Huang et al. [7] (dos três métodos apresentados em [7]

escolheu-se o algoritmo II devido à sua melhor eficiência no compromisso memória versus complexidade) e com o algoritmo baseado em pontos de âncora proposto por Bakamidis [11]. Para o método de Bakamidis, utilizamos um ponto de âncora (G=1) nas Tabelas 2 e 3; e G=3 na Tabela 4. A localização destes pontos de âncora segue o proposto em [11]. Para fins de comparação, constam também nestas tabelas os resultados obtidos com o uso da árvore K-d, da distância parcial [13], além da própria busca exaustiva.

Tabela 1 - Desempenho dos diversos níveis da árvore K-d respectiva ao DIC_1_ 256

Nível DImín DImáx DIméd ME MD Omáx Oméd Cmáx Cméd

0 256 256 256,0 1024 4 2560 2560,0 2612,0 2612,0

1 169 171 170,0 1368 4 1714 1704,0 1783,2 1773,2

2 123 125 123,7 1529 4 1258 1245,5 1335,2 1322,7

3 92 99 94,9 1805 4 1002 960,7 1093,0 1051,8

4 71 82 76,1 2287 4 836 776,6 951,1 891,8

5 55 67 61,3 3081 4 690 633,4 844,8 788,3

6 43 59 51,3 4495 4 614 536,6 839,5 762,2

7 33 52 43,6 6985 4 548 463,9 898,0 813,9

8 28 47 37,8 11457 4 502 409,6 1075,6 983,3

(5)

Não foi possível realizarmos a simulação referente ao algoritmo AESA na Tabela 4 devido à grande quantidade de memória necessária para o armazenamento da tabela (32 Mbytes).

Os três dicionários utilizados possuem características diferentes e permitem observar a influência destas no desempenho dos MBR. Os dicionários DIC_2_256 e DIC_2_4096 (correspondentes ao segundo estágio da estrutura de codificação multi-estágio) apresentam um espalhamento menor das suas palavras- código no espaço K-d do que o dicionário DIC_1_256.

Devido a esta característica a maioria dos MBR são mais eficientes na codificação do DIC_1_256. O algoritmo II de Huang et al. [7] baseia-se nas energias das palavras- código. Este algoritmo é eficiente quando as palavras-

código estão situadas em um único hiperquadrante. Este é o caso do DIC_1_256, onde todas as componentes assumem valores de 0 a 255, o que não ocorre nos outros dois dicionários.

De forma geral, observa-se um desempenho superior da árvore K-d, principalmente no que se refere ao pior caso. Já comentamos que a árvore K-d referente à Tabela 4 ocasionalmente conduz a palavras-código incorretas. Todavia, a degradação é pequena, podendo ser avaliada através da Fig. 3. A Fig. 3a apresenta a imagem

“Lenna” original. A Fig. 3b mostra a reconstrução à taxa de 0,63 bits/pixel pelo esquema de codificação da referência [4]. O resultado obtido incorporando-se a busca em árvore K-d (Tabelas 2 e 4) à QV da sub-banda dominante é apresentado na Fig. 3c. Neste caso, a Tabela 2 - Complexidade dos MBR para o dicionário DIC_1_256

MBR DImín DImáx DIméd ME MD Omáx Oméd Cmáx Cméd

Busca Exaustiva 256 256 256,0 1024 4 2560 2560,0 2612,0 2612,0

Dist. Parcial [13] 256 256 256,0 1024 4 2488 1318,2 2540,0 1370,2

Huang [7] 1 166 36,1 1280 7 3595 1985,3 3660,4 2050,7

AESA [8] 1 244 27,2 33664 5 2949 781,2 4633,2 2465,4

Bakamidis [11] (G=1) 2 204 44,5 1541 259 3210 817,0 3338,8 945,8

Árvore K-d [14] (d=6) 43 59 51,3 4495 4 614 536,6 839,5 762,2

Tabela 3 - Complexidade dos MBR para o dicionário DIC_2_256

MBR DImín DImáx DIméd ME MD Omáx Oméd Cmáx Cméd

Busca Exaustiva 256 256 256,0 1024 4 2560 2560,0 2612,0 2612,0

Dist. Parcial [13] 256 256 256,0 1024 4 3724 1685,1 3776,0 1737,1

Huang [7] 7 256 136,4 1280 7 4794 3178,9 4859,4 3244,3

AESA [8] 3 256 71,8 33664 5 3069 1222,8 4753,2 2907,0

Bakamidis [11] (G=1) 2 255 171,2 1541 259 3975 2717,9 4103,8 2846,7

Árvore K-d [14] (d=6) 45 87 58,7 4972 4 894 611,2 1143,4 860,6

Tabela 4 - Complexidade dos MBR para o dicionário DIC_2_4096

MBR DImín DImáx DIméd ME MD Omáx Oméd Cmáx Cméd

Busca Exaustiva 4096 4096 4096,0 16384 4 40960 40960,0 41780,0 41780,0

Dist. Parcial [13] 4096 4096 4096,0 16384 4 54368 21628,8 55188,0 22448,8

Huang [7] 47 4096 2175,4 35840 7 67383 46989,1 69176,4 48782,5

AESA [8] - - - - 5 - - - -

Bakamidis [11] (G=3) 1 4094 1190,9 40973 4105 92954 38179,4 95823,6 41049,0

Árvore K-d [14] (d=6) 76 491 273,3 34636 4 4934 2757,1 6666,6 4489,7

(a) (b) (c)

Fig. 3. Codificação à taxa de 0,63 bits/pixel: (a) original, (b) método da ref. [4], (c) método da ref. [4] + árvore K-d.

(6)

incorporação do MBR leva a uma redução de complexidade da ordem de 90% e degradação de 0.3 dB na RSRP. Ressaltamos que esta degradação deve-se à imprecisão no projeto da árvore K-d (DIC_2_4096) e não ocorreria para a taxa de 0,5 bits/pixel, por exemplo.

Não incorporamos aos MBR, o ganho advindo do cálculo da distância parcial [13]. O uso da distância parcial depende apenas da medida de distorção. Neste caso, poderíamos incorporá-la facilmente a qualquer um dos MBR, diminuindo a complexidade destes métodos em cerca de 50%.

VI - CONCLUSÕES

Apresentamos uma avaliação de diversos métodos de busca rápida aplicados à codificação de imagens em sub-bandas. Estes métodos podem reduzir substancialmente a complexidade computacional do processo de codificação. Alguns dos MBR apresentados mostraram-se superiores aos utilizados em [7].

A escolha do MBR adequado depende basicamente da aplicação em questão. O processador, a memória disponível, as características do dicionário e a importância do pior caso são fatores que devem ser considerados. Caso a quantidade de memória não seja um fator limitante o algoritmo AESA [8] é uma boa escolha devido à simplicidade de implementação. Porém, em sistemas para operação em tempo real, a importância do pior caso nos leva a crer que a árvore K-d seja a melhor alternativa.

Devemos notar que a árvore K-d pode incorrer em erro na codificação, caso os limites das projeções das partições de Voronoi não tenham sido determinados com a precisão necessária [15]. Esta precisão pode ser alcançada através do uso de uma grade. Todavia, a complexidade computacional da etapa de pré-processamento tende a ser muito grande.

Neste trabalho, dedicamo-nos à codificação de imagens em sub-bandas, alcançando redução de complexidade de até 90% em relação ao esquema de codificação proposto em [4]. Porém, os MBR são perfeitamente aplicáveis a qualquer sistema que use QV e uma medida de distorção adequada (erro quadrático, por exemplo). Outras aplicações seriam na classificação de imagens, reconhecimento de padrões, codificação de voz, etc.

REFERÊNCIAS

[1] R. Gray, "Vector Quantization", IEEE ASSP Magazine. 1:4-29, Abr. 1984

[2] J. Woods & S. O'Neil, "Subband Coding of Images", IEEE Trans. on ASSP. 34(5):1278-88, Out.

1986.

[3] P. Westerink, D. Boekee, J. Biemond & J. Woods,

"Subband Coding of Images Using Vector Quantization", IEEE Trans. on Comm. 36(6):713-19, Jun. 1988.

[4] L. Rila e A.Alcaim, "Aplicação de Quantização Vetorial Intra-Banda e Inter-Bandas à Codificação de Imagens", Anais do XI SBT, pp. 665-70, 1993.

[5] J. Johnston, "A Filter Family Designed for Use in Quadrature Mirror Filter Banks", Proc. ICASSP, pp. 291- 4, 1980.

[6] B. Juang and A. Gray Jr., "Multiple Stage Vector Quantizationfor Speech Coding", Proc. ICASSP, pp. 597- 600, 1982.

[7] C. Huang, Q. Bi, G. Stiles & R. Harris, "Fast Full Search Equivalent Encoding Algoritms for image Compression Using Vector Quantization", IEEE Trans.

on Image Processing. l(3):413-16, Jul. 1992.

[8] E. Vidal, H. Rulot, F. Casacuberta & J. Benedi,

"On the Use of a Metric-Space Search Algorithm (AESA) for Fast DTW-Based Recognition of Isolated Words", IEEE Trans. on ASSP. 36(5): 651-60, Mai. 1988.

[9] M. Orchard, "A Fast Nearest-Neighbor Search Algorithm", Proc. ICASSP, pp. 2297-300, 1991.

[10] V. Ramasubramanian & K. Paliwal, "An Eficient Approximation-Elimination Algorithm for Fast Nearest- Neighbor Search", Proc. ICASSP, pp. I.89-I.92, 1992.

[11] S. Bakamidis, "An Exact Fast Nearest Neighbor Identification Technique", Proc. ICASSP, pp. V658-61, 1993.

[12] I. Sethi, "A Fast Algorithm for Recognizing Nearest Neighbors", IEEE Trans. on Systems, man, and Cybernetics. 11(3):245-48, Mar. 1981.

[13] C. Bei, & R. Gray, "An Improvement of the Minimum Distortion Encoding Algorithm for Vector Quantization", IEEE Trans on Comm. 33(10), Out. 1985.

[14] V. Ramasubramanian & K. Paliwal, "Fast K-Dimensional Tree Algorithms for Nearest Neighbor Search with Application to Vector Quantization Encoding", IEEE Trans. on Signal Processing, 40(3), Mar. 1992.

[15] A. Klautau Jr., "Codificação CELP com Quantização Vetorial do Filtro LPC Utilizando Busca Rápida em Árvore K-d", Dissertação de Mestrado, UFSC, Nov. 1993.

[16] Y. Linde, A. Buzo & R. Gray, "An Algorithm for Vector Quantization Design", IEEE Trans. on Comm.

28:84-95, Jan. 1980.

[17] J. B. de Marca, "An LSF Quantizer for the North-

American Half-Rate Speech Coder", IEEE Trans. on

Vehicular Technology, 1993.