Imagem Digital 1. Imagem Digital

(1)

Imagem Digital

Depois da cor, o segundo elemento fundamental da Computação Gráfica é a Imagem Digital. Mas, antes de discutirmos a versão digital, vamos conceituar melhor o que entendemos por imagem. No sentido comum, imagem é uma representação gráfica de objetos que nos cercam ou que criamos. No contexto deste capítulo, a imagem que nos interessa é aquela produzida por computador que se assemelha a uma foto – ou seja, é uma região retangular do espaço na qual em cada ponto percebemos uma cor ou uma intensidade de cinza.

Por questão de simplicidade, vamos inicialmente tratar do modelo das fotos monocromáticas ou, como se diz comumente, fotos em preto e branco. A Fig. 3.1 (a) mostra uma foto de um passarinho num poste com uma linha marcada. O valor da intensidade de cinza, medida de 0 a 255, ao longo desta linha está indicado na Fig. 3.1(b).

0 50 100 150 200 250 0 100 200 300 400 500 600 (a) (b)

Fig. 3.1 – Valor da intensidade de cinza ao longo de uma linha da foto.

Se considerarmos que, para cada valor no interior do retângulo da foto, temos uma intensidade de cinza de 0 a 255, podemos, abstratamente, pensar em uma imagem monocromática como sendo uma função do R2 em R ou uma superfície no R3, como ilustra a Fig. 3.2.

u

v L

L(u,v)

(2)

Se a foto for colorida, não podemos medir a cor por apenas um número real, sendo necessários mais valores. Uma maneira simples de evoluirmos o modelo monocromático descrito acima consiste em considerar, em vez de uma, três funções distintas: uma para cada canal RGB. A Fig. 3.3 ilustra esta decomposição, na qual para cada canal o valor da intensidade é convertido numa escala de preto (zero) para branco (255).

RGB R (Vermelho)

G (Verde) B (Azul)

Fig. 3.3 – Decomposição de uma imagem colorida em três canais: RGB.

Naturalmente, também podemos pensar na imagem colorida como sendo uma função que atribui a cada ponto do domínio retangular um ponto no espaço de cores. Como visto no capítulo anterior, este espaço pode ser RGB, RGBA, CMY, CMYK, etc. A Fig. 3.4 ilustra esta idéia para o espaço RGB.

R G

B

u v

Fig. 3.4 – Imagem colorida como um mapeamento do R2 em R3.

A conveniência de escolhermos este ou aquele modelo para imagens coloridas depende da aplicação e é, de certa forma, uma decisão arbitrária.

(3)

Aquisição de imagens

A natureza de uma imagem digital pode ser melhor compreendida se analisamos o seu processo de aquisição. Numa máquina fotográfica digital, um sistema de lentes projeta a cena 3D no plano correspondente ao filme. Por enquanto, vamos desconsiderar o processo de projeção para estudar os passos fundamentais que se seguem: amostragem,

quantização e codificação.

Antes de discutirmos o processo de aquisição de uma imagem que trata de um domínio bidimensional, é interessante consideramos primeiro o estudo de uma função f(x) genérica que passe pelos mesmos processos de amostragem e quantização, como ilustra a Fig. 3.5. O processo de amostragem consiste em dividir o domínio (eixo x) em uma partição indicada pelas marcas na figura. Dentro de cada intervalo escolhemos um valor para representar a função naquele trecho. Isto pode ser tanto o valor da função naquele ponto quanto outro valor que leve em conta o comportamento da função no trecho todo, como uma altura média, por exemplo.

x função original f(x) amostra 0 1 2 3 4 5 6 x função original f(x) amostra 0 1 2 3 4 5 6 (a) amostragem 0 1 2 3 4 5 6 x função original amostra quantizada f(x)              (b) quantização

Fig. 3.5 – Amostragem e quantização de uma função f(x).

Após a amostragem temos a quantização. O valor amostrado pode ser adquirido como um tipo ponto flutuante ou inteiro longo, que requerem mais bits do que podemos dispor. Para

(4)

reduzir o tamanho da representação do número na memória do computador, dividimos o eixo y em classes e escolhemos um representante para cada classe. No exemplo da Fig. 3.5, o eixo é particionado uniformemente com um intervalo de 1.0. Valores no intervalo (0.5, 1.5], por exemplo, são representados como 1. Assim, a função amostrada e quantizada pode ser representada através do vetor (3, 4, 5, 5, 4, 2, 2, 3, 5, 5, 4, 2). Este vetor representa, dentro das aproximações do nosso modelo, os infinitos pontos da função original.

Para armazenar cada um dos valores quantificados como um tipo float de 4 bytes precisamos de 52 bytes. Podemos também codificar esta mesma informação com 4 bytes para indicar o tamanho do intervalo uniforme utilizado para quantização, 1.0, e armazenar o número do intervalo em que cada amostra quantizada está (3, 4, 5, 5, 4, 2, 2, 3, 5, 5, 4, 2). Este último vetor pode ser do tipo char em C, que consome apenas um byte por valor e o total de memória necessária seria 17 bytes, incluindo os quatro que definem o intervalo. Ou seja, neste caso a codificação reduziu razoavelmente a memória necessária sem nenhuma perda adicional de informação. Se admitirmos que o intervalo seja sempre 1.0 podemos omitir esta informação. Mais ainda, quando admitimos algum tipo de perda, a redução pode ser bem maior, como veremos na quantização de imagens.

O processo de aquisição de uma imagem não difere fundamentalmente do exemplo da função f(x). A Fig. 3.5 ilustra as etapas de amostragem, quantização e codificação de uma imagem em tons de cinza.

Amostragem

A etapa de amostragem corresponde a definir uma cor para cada retângulo correspondente a um pixel. Como possivelmente a cor varia dentro da área do pixel, a cor uniforme escolhida deve gerar uma aproximação da percepção de cor que a variação original produzia.

amostragem

Imagem de tons contínuos 55 55 55 55 55 55 55 55 20 22 23 45 55 55 55 55 10 09 11 55 55 55 55 43 42 70 55 55 55 55 28 76 22 55 55 55 55 55 55 5555 55 55 55 5555 5555 5555 5555 5555 5555 55 55 2020 2222 2323 4545 5555 5555 55 55 5555 1010 0909 1111 5555 5555 55 55 5555 4343 4242 7070 5555 5555 55 55 5555 2828 7676 2222 5555 5555 55 55 5555 5555 5555 55555555 5555 64x54 64x54 - 16 cores

codificação

Imagem amostrada Imagem amostrada e quantizada 5*55, 1*55, 1*20, 1*22, ….

quantização

Imagem amostrada, quantizada e codificada

(5)

A Fig. 3.6, extraída de uma tela do Adobe PhotoShop™, ilustra os parâmetros de resolução espacial oriundos deste processo de amostragem. Devemos notar que, além da resolução medida em número de pixels na largura (width) e na altura (height), a imagem pode ter um tamanho de impressão que define uma resolução em pixels/polegada ou em

pixels/milímetro. Os monitores de computadores geralmente trabalham na faixa de 75 pixels/polegada e as impressoras geralmente trabalham com mais de 300 pixels/polegada.

A imagem dos lírios da Fig. 3.6, por exemplo, tem uma boa resolução para aparecer no seu tamanho normal em um monitor mas não usaria todo o potencial de uma impressora, a menos que ela fosse exibida num tamanho menor.

Fig. 3.6 – Resolução especial de uma imagem no Adobe PhotoShop™.

Outro aspecto interessante na tela de diálogo é a caixa de diálogo que pergunta qual o método para redefinir a resolução da imagem: mais próximo, bilinear ou bicúbico. Esta escolha se refere ao fato de que, para mudar o número de pixels tanto na largura quanto na altura, precisamos amostrar a imagem. Para ilustrar o que está envolvido nesta re-amostragem, consideremos novamente a função f(x) da Fig. 3.5 da forma ilustrada na Fig. 3.7, onde as linhas verticais correspondem à nova discretização espacial. Precisamos saber que valores devemos atribuir a cada um destes novos intervalos. Note que estes intervalos correspondem aos pixels no caso das imagens.

x f(x)              função reconstruída pelo vizinho mais próximo função reconstruída por interpolação linear função original 0 1 2 3 4 5 6

(6)

x f(x)              função reconstruída pelo vizinho mais próximo função reconstruída por interpolação linear função original 0 1 2 3 4 5 6 (b) redução de resolução.

Fig. 3.7 – Reconstrução e re-amostragem de f(x) em diferentes resoluções.

Dois critérios geométricos simples podem ser usados para estimar o valor da amostra num novo intervalo: (a) o valor da função num ponto do intervalo, ou (b) um valor médio ao longo dele. Se a função for linear no intervalo todo, a interpolação no meio do intervalo é equivalente à altura média. Note, entretanto, que, apesar de termos mantido o gráfico da função original na Fig. 3.7, ela não é mais conhecida nesta etapa. Para fazermos as estimativas dispomos apenas dos valores amostrados quantizados (marcados com um  nas figuras).

Para qualquer um dos critérios geométricos enunciados acima, precisamos reconstruir uma aproximação para a função original a partir das amostras quantizadas. Na Fig. 3.7 apresentamos duas hipóteses: valor mais próximo e interpolação linear. A interpolação cúbica não está mostrada para não sobrecarregar a figura. Ela apenas permitiria uma aproximação mais suave que a linear. A janela do Adobe PhotoShop™ se refere às duas últimas interpolações como bilinear e bicúbica, uma vez que as interpolações no pixel são feitas simultaneamente nas direções x e y.

Se examinarmos as reconstruções da função f(x), vemos que elas são pouco satisfatórias, incorrendo em grandes erros quando f(x) varia muito. Este fato advém da amostragem pobre em pontos nesta região de grande variação. A Fig. 3.8 ilustra uma função seno amostrada com uma amostragem ruim e outra boa. Para capturar corretamente as oscilações de freqüência  de uma função, Nyquist estabeleceu que o intervalo de

amostragem deve ser menor que 1/(2) . Funções amostradas em intervalos maiores que este valor, conhecido como limite de Nyquist, não podem ser adequadamente reconstruídas a partir apenas das amostras.

x f(x)

(7)

x f(x)

(b) freqüência de amostragem boa.

Fig. 4.7 – Amostragens uniformes da função seno.

Um último ponto a destacar na questão da re-amostragem da função f(x) é que, quando o intervalo de amostragem é reduzido (aumento da resolução espacial), os novos valores podem ser calculados por interpolação dos valores antigos. Quando o intervalo é aumentado, reduzindo a resolução espacial, precisamos combinar os valores dos intervalos antigos para estimar um novo valor. Ou seja: quando aumentamos a resolução, interpolamos; quando reduzimos, temos que fazer uma média ponderada. A estratégia de utilizar o valor mais próximo é a que mais induz a erros mas é a mais eficiente, por isso é comumente utilizada em animações de jogos, onde a qualidade é um fator secundário face à eficiência.

A Fig. 3.8 ilustra a redução e o aumento do número de pixels do personagem Papa-Léguas da Hanna-Barbera™ em três resoluções. Primeiramente, as imagens de baixa resolução são obtidas a partir da imagem de resolução mais alta com reduções de 50%. Depois aumentamos a resolução para voltar a resoluções mais altas. As mudanças de resolução do lado inferior esquerdo da figura utilizam interpolação bicúbica e as do lado superior direito utilizam o valor mais próximo. Dois pontos são importantes de destacar. O primeiro é que, ao reduzirmos a resolução espacial de uma imagem, perdemos informações e conseqüentemente não temos como voltar à imagem original. Uma maneira simples de observarmos isto é contando o número de pixels. O segundo ponto é que nem sempre a interpolação bicúbica produz resultados significativamente melhores. Esta é uma imagem típica de desenho animado, na qual as cores não variam suavemente. A interpolação bicúbica é melhor quando, ao interpolarmos com suavidade, reconstruímos melhor a função original, o que não é o caso para esta imagem em particular. A imagem do Papa-Léguas é descontínua e a imposição de continuidade não melhora muito o processo de reconstrução, podendo inclusive atrapalhar.

312194 15697 7848 312194 312192 7849 15697 312194 312194 bicúbica mais próximo

(8)

Quantização

Após o processo de amostragem, temos um conjunto finito de valores de tons de cinza (ou cores), mas estes valores podem estar na forma analógica ou representados por números em ponto flutuante com muitos bits. Portanto, o segundo processo importante na aquisição de uma imagem é a quantização. Este processo inicialmente seleciona um conjunto de tons (geralmente 256) para os valores de intensidade de cinza (ou de cada canal de cor RGB). A seguir, cada tom de cinza (ou cada intensidade de cada canal de cor) é trocado pelo seu representante no conjunto escolhido. Assim, por exemplo, podemos representar cada pixel de uma imagem monocromática com um byte e cada pixel de uma imagem colorida com três bytes (RGB).

Por questões de alinhamento de palavras na memória, diversas placas de vídeo armazenam os 3 bytes de cor em uma palavra de 32 bits (long int). Alguns programas também complementam os canais RGB com um canal chamado Alfa, resultando em uma informação de 32 bits, RGBA. Este canal é geralmente associado à transparência do pixel e é utilizado para controlar a sobreposição de duas imagens, como será descrito posteriormente.

Cores com 24 ou 32 bits são chamadas de true color porque normalmente se entende que 224, ou 16 milhões de cores, são suficientes para representar os tons mais sutis que monitores e impressoras atuais são capazes de reproduzir. É interessante notarmos que um ser humano normal só é capaz de distinguir 400 mil cores diferentes de todo o espectro de cores visíveis, ou seja, menos que 219. O número de cores que um ser humano normal é capaz de distinguir na tela de um monitor depende de cada equipamento, mas é certamente bem menor que 400 mil. Em função disto, as placas gráficas costumam oferecer uma opção, chamada hi color, que armazena as cores em uma palavra de 2 bytes (short int, em C) utilizando 15 ou 16 bits e reproduzindo 32 ou 65 mil cores, respectivamente. Quando as placas utilizam 15 bits, cada canal R, G ou B utiliza 5 bits que reproduzem 32 tons daquela cor. Quando as placas utilizam 16 bits, é comum estender a representação do canal verde para 6 bits ou 64 tons1.

O número de cores atualmente entendido como o mínimo para representar razoavelmente uma imagem complexa é 256. Nas placas de vídeo de 256 cores, cada pixel é representado por um byte e o significado de cada byte depende de uma tabela de cores. Ou seja, ao invés de armazenar a cor, este sistema armazena um índice de uma tabela. A cor é encontrada na linha correspondente da tabela de cores, como ilustra a Fig. 3.9. Note que a memória que armazena os índices de imagem de 800600 pixels possui 64 mil bytes e a tabela de cores apenas 768 bytes. A tabela de cores é também denominada palheta de cores (em inglês “color table”, “look up table” ou “LUT”). Um ponto importante a destacar nestas imagens é que, se mudarmos a resolução espacial e quisermos utilizar uma reconstrução bilinear ou bicúbica, a nova cor gerada possivelmente não estará na palheta de cores.

1

O olho humano é mais sensível ao verde que aos outros canais, como está apresentado no capítulo sobre cores.

(9)

0 0 0 B G R 0 0 0 B G R Tabela de cores Memória gráfica

Fig. 3.9 – Esquema de representação de cores numa imagem indexada.

O problema da quantização admite soluções simples ou complexas. Para aprofundarmos um pouco mais este assunto, vamos tratar da redução do número de cores de uma imagem

true color para uma imagem indexada. A Fig. 3.10 mostra a janela de diálogo do Jasc Paint

Shop Pro™ para esta redução. Nesta janela, o usuário deve fazer duas escolhas básicas para definir o método de quantização a ser adotado: como a palheta deve ser determinada e como as cores dos pixels devem ser substituídas.

Vamos examinar primeiramente os métodos de escolha da palheta de cores. O diálogo da Fig. 3.10 oferece três opções: palheta determinada por um algoritmo baseado no corte mediano, palheta determinada por um algoritmo baseado na octree e o uso de uma palheta fixa, que é mais segura para uso na Web.

Fig. 3.10 – Algoritmos de redução de cores no Jasc Paint Shop Pro™.

A principal diferença entre as três opções de palhetas está na questão de usarmos uma palheta fixa para todas as imagens ou se o algoritmo deve calcular, para cada imagem, qual a palheta de cores que melhor se adapte a ela.

Quando escolhemos a quantização uniforme ou uma palheta de cores fixa, o problema é razoavelmente simples. Para decidirmos qual cor da palheta (ri, gi, bi) melhor representa uma determinada cor (r, g, b) da imagem basta calcularmos a distância dessa tonalidade a cada uma das cores da palheta e escolher a menor. A distância neste caso pode ser simplesmente a distância euclidiana no espaço RGB:

2 2 2 ) ( ) ( ) (r r_i g g_i b b_i d       (3.1)

(10)

Quanto, entretanto, deixamos em aberto a escolha das cores da palheta de modo a minimizar os erros da quantização, os algoritmos se tornam bastante mais complexos. Os algoritmos baseados no corte mediano e na octree pertencem a esta classe de palhetas adaptativas. A Fig. 3.11 ilustra a diferença de resultado que podemos obter com o algoritmo de corte mediano e de palheta fixa. Note que a imagem do avião fica muito mais deteriorada com a utilização da palheta fixa que a imagem dos lírios aquáticos. Isto ocorre porque as cores da imagem do avião têm muitos tons de azul e as palhetas fixas contêm amostras de todo o espectro de cores.

Fig. 3.11 – Alguns resultados dos algoritmos de quantização.

A idéia geral do algoritmo de corte mediano é que cada cor da palheta represente o mesmo número de cores da imagem original. A forma de implementá-lo consiste em dividir recursivamente as caixas envolventes das cores da imagem no espaço RGB na sua maior dimensão, de forma que cada sub-retângulo contenha o mesmo número de cores. O algoritmo abaixo descreve este procedimento:

 Comece calculando a caixa envolvente alinhada com os eixos que melhor ajuste os pontos no espaço RGB que representam as cores da imagem. Quando dois pixels da imagem têm a mesma cor, então dois pontos estão na mesma posição.

 Repita para cada nova caixa gerada:

o Ordene os pontos que representam as cores de acordo com o eixo correspondente à maior dimensão da caixa;

o Separe os pontos em dois grupos no ponto mediano. Ou seja, de cada lado do plano de corte, haverá aproximadamente o mesmo número de pontos.

 Até que o número de caixas corresponda à quantização de cores (256, por exemplo).  Para cada caixa, calcule a cor correspondente ao seu centróide e atribua esta cor a todos

os pixels que estão dentro dela.

(11)

Fig. 3.12 – Passos do algoritmo de corte mediano.

Uma questão subentendida no resultado dos processos de amostragem e quantização é o armazenamento dos valores dos pixels na memória do computador. Os pixels de uma imagem estão dispostos segundo um arranjo bi-dimensional e a memória do computador é entendida como linear. Este problema também aparece quando queremos armazenar uma matriz e a solução adotada pela linguagem C é bem parecida com um dos métodos mais utilizados em imagens.

Uma solução consiste em armazenar inicialmente todos os valores da primeira linha, seguidos pelos valores da segunda e assim por diante até a última linha. A memória das placas gráficas geralmente segue a ordem de varredura dos monitores que é de cima para baixo e assim o primeiro pixel a ser armazenado é o superior esquerdo e o último o inferior da direita. A fig. 3.13a ilustra este endereçamento para uma imagem em RGB. O endereço na memória dos bytes correspondentes ao RGB do pixel (x,y) também está mostrado na figura. A fig. 3.13b mostra uma das formas de armazenamento de uma imagem no formato TARGA. Este formato armazena, além das componentes RGB, a componente alfa (A) que serve para definir a opacidade do pixel. É claro que estes dois modelos não são únicos, existem muitas outras maneiras de se organizar a informação de cores de uma imagem: a imagem pode ser armazenada em três vetores (um para cada componente RGB); cada cor pode ser colocada em um long int (32 bits), etc...

00 01 02 03 04 05 06 07 08 0910 11 0 1 2 ... 13 12 14 w-1 15 16 17 18 ... x y Pixel (x,y)

unsigned char *rgb_vector; … offset=3*(w*y+x); red = rgb_vector[offset]; green = rgb_vector[offset+1]; blue = rgb_vector[offset+2]; 0 1 2 h-1 3 ... (a) formato PPM b g r a b g r a b g r a b 0 1 … ... a r g w-1 x

unsigned char *bgra_vector; … offset=4*(w*y+x); blue = bgra_vector[offset]; green = bgra_vector[offset+1]; red = bgra_vector[offset+2]; alpha = bgra_vector[offset+3]; 0 1 2 h-1 3 Pixel (x,y)

(b) um dos formatos TARGA Fig. 3.13 – Dois modos de armazenamento de uma imagem.

(12)

Codificação

A codificação de uma imagem estabelece quais cadeias de bits representam uma determinada cor, mais precisamente estabelece os bits que representam os níveis dos tons de cinza ou dos canais RGB. Como nas placas gráficas e na memória principal utilizamos uma codificação de tamanho fixo, isto é, todos os tons de cinza são armazenados com o mesmo número de bits, a etapa de codificação é intimamente ligada à etapa de quantização. Ou seja, a quantização de um canal em 256 tons variando de 0 a 255 implica na codificação do unsigned char da linguagem C.

Na memória secundária, os requisitos de velocidade de armazenamento ou leitura são muito menores do que na memória principal, por isso os formatos como GIF e JPEG utilizam codificações mais demoradas que resultam em arquivos de imagens menores. Estas codificações mais eficientes em espaço são de tamanho variável, ou seja, cada tom de cinza, por exemplo, pode ser codificado com um número diferente de bits. A Tab. 3.1 ilustra esta idéia para uma imagem 100100 quantizada em oito tons de cinza. A segunda coluna da tabela mostra quantos pixels tem um determinado tom.

Tamanho fixo Huffman

tons # pixels código tam. # bits código tam. # bits

0 1900 000 3 5700 00 2 3800 1/7 2500 001 3 7500 10 2 5000 2/7 2100 010 3 6300 01 2 4200 3/7 1600 011 3 4800 110 3 4800 4/7 800 100 3 2400 1110 4 3200 5/7 600 101 3 1800 11111 5 3000 6/7 300 110 3 900 111101 6 1800 1 200 111 3 600 111100 6 1200 TOTAL 30000 TOTAL 27000

Tab. 3.1 – Codificações de uma imagem 100100 com oito tons de cinza.

As colunas 3 e 6 da Tab. 3.1 correspondem, respectivamente, à codificação dos tons de acordo com um código de tamanho fixo e o código de Huffman, que será explicado a seguir. Note que nenhum código de Huffman é prefixo de outro, o que permite uma decodificação sem ambigüidades. As colunas 3 e 7 apresentam o tamanho em bits dos códigos e as colunas 5 e 8 os números de bits necessários para armazenar aquele tom. Apesar deste exemplo ter apresentado uma redução modesta, de 10%, note que a codificação de Huffman é mais compacta. Reduções de 60% são comuns em imagens reais com tons muito preponderantes. Um ponto importante a destacar nesta codificação é que ela é feita sem perda de informação, ou seja, a imagem armazenada pode ser restaurada na memória principal sem nenhuma diferença.

A codificação de Huffman é feita com base numa árvore binária na qual as folhas são os tons e, o código, o caminho para se chegar da raiz até elas, como ilustra a Fig. 3.14 para o exemplo da Tab. 3.1.

(13)

1 0 11 10 01 00 111 110 1111 11₁₀ 1111 1 11₁₁ 0 1111 01 1111₀₀ 00 01 10 110 1110 11111 111100 111101 n0 n1 n2 n3 n4 n5 n6 6/7 1 5/7 4/7 3/7 0 2/7 1/7 1 0 11 10 01 00 111 110 1111 11₁₀ 1111 1 11₁₁ 0 1111 01 1111₀₀ 00 01 10 110 1110 11111 111100 111101 n0 n1 n2 n3 n4 n5 n6 6/7 1 5/7 4/7 3/7 0 2/7 1/7

Fig. 3.14 – Árvore de Huffman.

A idéia básica para construir esta árvore consiste em colocar os tons mais freqüentes perto da raiz e os tons menos freqüentes mais distantes. O algoritmo de construção da árvore de Huffman para isto pode ser descrito da seguinte maneira:

 Comece criando uma tabela dos tons e do número de vezes que eles aparecem na imagem (colunas 1 e 2 da Tab. 3.1).

 Repita até que a tabela não tenha mais nenhuma linha:

o Ordene a tabela de forma decrescente segundo o número de vezes que os tons aparecem na imagem;

o Combine as duas últimas linhas da tabela (tons menos freqüentes) em uma única linha, somando o número de ocorrências dos tons combinados;

o Armazene cada combinação como sendo um nó de uma árvore binária cujos filhos são as linhas combinadas.

 Numere cada folha da árvore de acordo com o caminho para se chegar da folha até ele (Fig. 3.14).

A Fig. 3.15 procura ilustrar os passos deste algoritmo.

200 1 300 6/7 600 5/7 800 4/7 1600 3/7 1900 0 2100 2/7 2500 1/7 200 1 300 6/7 600 5/7 800 4/7 1600 3/7 1900 0 2100 2/7 2500 1/7 500 n0 600 5/7 800 4/7 1600 3/7 1900 0 2100 2/7 2500 1/7 500 n0 600 5/7 800 4/7 1600 3/7 1900 0 2100 2/7 2500 1/7 n0 6/7 1 500 n0 600 5/7 800 4/7 1600 3/7 1900 0 2100 2/7 2500 1/7 500 n0 600 5/7 800 4/7 1600 3/7 1900 0 2100 2/7 2500 1/7 n0 6/7 1 800 4/7 1100 n1 1600 3/7 1900 0 2100 2/7 2500 1/7 800 4/7 1100 n1 1600 3/7 1900 0 2100 2/7 2500 1/7 5/7 n1

(14)

800 4/7 1100 n1 1600 3/7 1900 0 2100 2/7 2500 1/7 800 4/7 1100 n1 1600 3/7 1900 0 2100 2/7 2500 1/7 1600 3/7 1900 n2 1900 0 2100 2/7 2500 1/7 1600 3/7 1900 n2 1900 0 2100 2/7 2500 1/7 n0 6/7 1 5/7 n1 4/7 n2 n0 6/7 1 5/7 n1 4/7 n2 1600 3/7 1900 n2 1900 0 2100 2/7 2500 1/7 1600 3/7 1900 n2 1900 0 2100 2/7 2500 1/7 n3 3500 1900 0 2100 2/7 2500 1/7 3500 n3 1900 0 2100 2/7 2500 1/7 n0 6/7 1 5/7 n1 4/7 n2 3/7 n3 n0 6/7 1 5/7 n1 4/7 n2 3/7 n3 n0 6/7 1 5/7 n1 4/7 n2 3500 n3 1900 0 2100 2/7 2500 1/7 3500 n3 1900 0 2100 2/7 2500 1/7 3/7 n3 4000 n4 3500 n3 2500 1/7 4000 n4 3500 n3 2500 1/7 n4 2/7 0 n0 6/7 1 5/7 n1 4/7 n2 3/7 n3 6000 n5 4000 n4 6000 n5 4000 n4 _n4 2/7 0 4000 n4 3500 n3 2500 1/7 4000 n4 3500 n3 2500 1/7 n5 1/7 n6

Fig. 3.15 – Passos da construção da árvore de Huffman.

A codificação de Huffman é apresentada aqui como um exemplo simples de codificação com cadeias de bits de tamanho variável. Existem várias outras codificações que podem ser estudadas nas bibliografia de Teoria da Informação.

Processamento de Imagens

É comum utilizarmos programas do tipo do Adobe Photoshop™ e do Jasc Paint Shop Pro™ para melhorar a qualidade de fotos digitais. Esta seção procura ilustrar os algoritmos envolvidos neste tipo de processamento.

Correção gama

Consideremos, por exemplo, a imagem de um jogo de futebol ilustrada na Fig. 3.16 (a). Como a imagem está muito clara, podemos, por exemplo, utilizar um processo chamado de

correção gama, que substitui o valor da luminosidade de cada pixel por outro obtida por:



L

L (3.2)

Se tomarmos o valor =0.42, obteremos o resultado indicado na Fig. 4.18(b). A Fig. 3.16(c) mostra um diálogo do Jasc Paint Shop Pro™ relativa a esta correção gama.

(15)

(a) imagem clara. (b) imagem transformada.

(c) diálogo do Jasc Paint Shop Pro.

Fig, 3.16 – Mudança da luminosidade de cada pixel.

Uma característica que permite um melhor entendimento da distribuição de tons numa imagem digital é o seu histograma. O histograma de uma imagem é uma função que, para cada valor possível de cor, associa o número de pixels em que ela ocorre ou a sua freqüência na imagem. A Fig. 3.17 mostra os histogramas das imagens (a) e (b) da Fig. 3.16. A média, o desvio padrão e a mediana dos valores destes histogramas estão mostrados na Tab. 3.1. A transformação gama com um valor de  < 1.0 tende a reduzir a intensidade luminosa, enquanto as transformações com valores maiores que 1.0 fazem o inverso, ou seja, tornam a imagem mais clara. Note também a natureza não linear da transformação gama, que afeta mais os valores próximos de zero.

(16)

Fig. 3.17 – Histogramas das imagens da Fig. 3.16. Média Desvio Padrão Mediana Imagem clara 212 19 212 Imagem transformada 166 33 164

Tab. 3.1 – Valores característicos dos histogramas da Fig. 3.17.

A correção gama é uma das transformações que atuam sobre o valor de cada um dos pixels individualmente. Outras correções que servem para ajustar o brilho e o contraste também modificam os valores dos pixels transformando o histograma da imagem.

Eliminação de ruídos

Para reduzir ruído, existem procedimentos que procuram atenuar as variações localizadas. Para ilustrar esta idéia considere a função da Fig. 3.18. Se substituirmos cada valor fi do interior do domínio por uma média ponderada do tipo:

4 2 1 1      i i i i f f f h (3.3)

obteremos a função hi também mostrada na Fig. 3.18. Note como após a aplicação da equação (3.3) a função se torna mais suave. Esta propriedade é geral nestas transformações que substituem o valor local por uma média ponderada da vizinhança. Os valores de máximos são naturalmente reduzidos, uma vez que fazem média com valores menores que eles. O mesmo raciocínio se aplica para explicar o aumento dos valores de mínimos.

f h

(17)

Fig. 3.18 – Suavização de função.

Uma maneira de sistematizar esta operação consiste em redefinir a equação (3.3) como:



    1 0 ) ( n k k i k i g f h (3.4) onde:                   1 0 1 4 / 1 0 4 / 2 1 4 / 1 1 0 l se l se l se l se l se g_l (3.5)

Se considerarmos as funções f e g contínuas, a equação (3.4) seria:



      t t dt t f x t g x h( ) ( ) ( ) (3.6)

que é a convolução da função f com o a função g. Como, neste caso, a função g elimina as variações de maior freqüência da função f, ela é também designada de “filtro passa-baixa”. É comum utilizarmos filtros passa-baixa baseados na função de distribuição de Gauss:

2 2 2 2 1 ) (    x e x G   (3.7)

onde  é o desvio padrão da distribuição. O gráfico desta função está ilustrado na Fig. 3.19.

0.1 0.2 0.3

-4 -3 -2 -1 0 1 2 3 4

Fig. 3.19 – Gaussiana de média 0 e desvio padrão 1.

Esta função tem duas propriedades importantes para um filtro: é simétrica e a integral dela em todo o domínio é 1.0.

Voltando à notação discreta, temos que a função g pode ser representada pela matriz:



1₄



4 2 4

1 (3.8)

entendendo que o ponto central 2/4 é o peso da amostra no local em que está sendo computada a função suavizada e os valores à direita e à esquerda da matriz correspondem a

(18)

amostras à direita e à esquerda da função, respectivamente. Esta forma permite generalizar estas convoluções discretas, bastando para isto definir a matriz a ela associada.

Note que (3.8) é uma forma discreta da distribuição gaussiana. Outras formas, de maior precisão, seriam:



1 4 6 4 1



16 1 _(3.9) ou



1 6 15 20 15 6 1



64 1 _(3.10)

No caso de uma imagem, a função g é bidimensional e a matriz é geralmente quadrada. A escolha desta matriz depende do efeito desejado na imagem. Para suavização, podemos adotar a distribuição de Gauss no plano:

2 2 2 2

2

1 )

,

(





y x

e

y

x

G

 



(3.10)

cuja imagem para  = 1 e média zero está ilustrada na Fig. 3.20.

0.1 0.2 0.3 0.4 0.1 0.2 0.3 0.4

Fig. 3.20 – Gaussiana com media (0,0) e =1. Formas discretas desta função podem ser escritas como:

(3.11) ou           1 2 1 2 4 2 1 2 1 16 1

(19)

                1 4 7 4 1 4 16 26 16 4 7 26 41 26 7 4 16 26 16 4 1 4 7 4 1 273 1 (3.12)

A suavização pode ser útil para retirarmos ruídos de uma imagem. Como, geralmente, o ruído tem uma média zero (tanto adiciona quanto subtrai), a média ponderada tende a reduzir mais o ruído que a informação da imagem. Note que, em contrapartida à diminuição do ruído, temos uma perda em nitidez, de modo que este processamento pode ser bom para um dada imagem e ruim para outras. Se aplicarmos a suavização à imagem da Fig. 3.21(a) obtemos a melhora mostrada na imagem da Fig. 3.21(b).

(a) (b)

Fig. 3.21 – Filtragem com a Gaussiana.

Realce de bordas e arestas

Para destacar bordas e arestas de uma imagem geralmente utilizamos operadores que procuram avaliar taxas de variação da intensidade luminosa. O cálculo de taxas de variação se faz com o uso de derivadas da função de luminosidade. Como numa imagem não dispomos da expressão analítica destas funções, mas sim de valores amostrados em intervalos iguais, os cálculos de derivadas seguem as aproximações de diferenças finitas. Para ilustrar como estas aproximações são obtidas, considere a série de Taylor de uma função f(x): ) ( ) ( 2 ) ( ) ( ) ( ) ( ) ( " 3 2 ' x O x f x x f x x f x x f         (3.13)

Com x=1, f(x)=fi e f(x+x)=fi+1 e a expressão (3.13) pode ser escrita como:

i i i i f f f f ₁ ' " 2 1     (3.14)

(20)

i i i i f f f f ₁ ' " 2 1     (3.15)

A Fig. 3,22 ilustra estes valores discretos.

f(x)

x

f

_i-1

f

i

f

i+1 i+1 i i-1

f(x)

x

f

_i-1

f

i

f

i+1 i+1 i i-1

Fig. 3.22 – Cálculo de derivada por diferenças finitas.

Subtraindo a equação (3.15) da equação (3.14) podemos avaliar a derivada em xi como sendo: 2 / ) ( ₁ ₁ '     i i i f f f (3.16)

Se somarmos as equações (3.14) e (3.15) podemos obter a seguinte aproximação para a segunda: ) 2 ( 1 1 "        i i i i f f f f (3.17)

Como uma imagem é uma função de duas variáveis as derivadas mais comumente utilizadas no realce de arestas são o gradiente e o laplaciano. Dada uma função f(x,y) a expressão analítica do gradiente de f no ponto (x,y) é da dada por:

                y f x f y x f( , ) (3.18)

Na grade regular este gradiente pode ser estimado através de duas aplicações do operador (3.16), uma para x e outra para y:









_



_



_                       2 / 2 / 2 / ) , ( ) , ( 2 / ) , ( ) , ( ) , ( ) 1 ( ) 1 ( ) 1 ( ) 1 ( 1 1 1 1 j i j i j i j i j i j i j i j i j i ij f f f f y x f y x f y x f y x f y x f f (3.19)

A magnitude deste vetor estima a taxa de variação de f no ponto (x,y) e é, pode ser escrita como:



 



2 ) 1 ( ) 1 ( 2 ) 1 ( ) 1 ( 2 1 ₎         fij f i j f i j fi j fi j (3.20)

Os algoritmos se baseiam em comparações deste valor de magnitude nos diversos pixels. Como o que interessa são os valores relativos e não absolutos, para reduzir o esforço computacional é comum estimar esta taxa de variação abandonando os quadrados, as raízes e o fator ½. Assim a estimativa de taxa de variação pode ser feita por:

(21)

) 1 ( ) 1 ( ) 1 ( ) 1 (        f_ij f_i _j f_i _j f_i _j f_i _j (3.21)

Uma outra medida de taxa de variação importante é o Laplaciano, que analiticamente se escreve como sendo:

2 2 2 2 2 ) , ( y f x f y x f        (3.22)

A equação (3.17) nos permite escrever a fórmula de diferenças finitas para o Laplaciano como sendo: ) ( 4 ( 1) ( 1) ( 1) ( 1) 2           fij fij f i j f i j fi j fi j (3.23)

Uma forma simples de escrever este fórmula, consiste em fornecer, em uma matriz, os coeficientes dos pixels, ou seja:

              0 1 0 1 4 1 0 1 0 (3.24)

O elemento central da matriz corresponde ao pixel ij e os demais elementos aos seus vizinhos correspondentes.

Para exemplificar os algoritmos de realce de arestas, considere a fig. 3.23 onde na parte inferior está mostrada uma imagem bem simples que é composta apenas de três faixas de cinza. A função f(x), também mostrada na figura, representa os valores dos pixels ao longo do eixo que está sobre as faixas, acrescidos de um certo ruído sempre presente nas imagens reais. Como a faixa mais clara tem maior intensidade luminosa o valor da função f(x) é mais alto. Na borda entre o cinza escuro e o cinza claro temos uma variação alta num intervalo pequeno, ou seja uma taxa de variação grande.

f(x)

|f '(x)|

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

|f ''(x)|

Fig. 3.23 – Detecção de bordas. Nesta figura o valor do módulo da derivada de f(x) é estimado por:

2 / ) ( 1 1 '     i i i f f f (3.25)

(22)

                     0 ) 2 ( 0 0 ) 2 ( 2 1 1 1 1 1 1 '' i i i i i i i i i i f f f se f f f se f f f f (3.26)

Note na fig. 3.23 que o gráfico das derivadas tem um valor quase nulo nas regiões homogêneas e um valor alto na posição do pixel da borda.

A fig. 3.24 ilustra um exemplo do uso dos operadores para destacar as arestas de uma a imagem do prédio ilustrado na fig. 3.24a. As fig. 3.24b e 3.24c mostram resultado da aplicação do gradiente e do laplaciano, respectivamente, após a aplicação de uma correção gama. Note nestes resultados que as regiões de maior taxa de variação estão representadas por um valor mais preto, ou seja, de menor intensidade luminosa. Isto ocorre porque as cores nas figuras b e c estão invertidas, ou seja, para cada pixel a intensidade do canal de luminosidade foi transformada por:

L

L 255 (3.27)

transformando preto em branco e claro em escuro. O resultado “preto sobre branco” gasta menos tinta na impressão e fica melhor visualmente.

(a) foto (c) gradiente (d) laplaciano

Fig. 3.24 – Gradiente e laplaciano no uso de detecção de arestas.

A fig. 3.25 ilustra o processo de realce dos pixels que estão sobre as linhas de campo no sistema JuizVirtual2. Este processo de aplicar o filtro Gaussiano antes do Laplaciano é tão comum que os operadores combinados recebem o nome de “LoG”. Note que nesta figura a imagem colorida é transformada em preto e branco através do operador de luminosidade:

B G R L0.30 0.59 0.11 2 http://www.visgraf.impa.br\juizvirtual

(23)

          1 2 1 2 4 2 1 2 1 16 1 filtro gaussiano               0 1 0 1 4 1 0 1 0 filtro laplaciano L L 255 B G R L0.30 0.59 0.11

Fig. 2.25 – Um exemplo de aplicação do filtro LoG.

Transformações e composição

A fig. 2.26 mostra três imagens: um circo, o personagem Papa-Léguas da Hanna-Barbera™ e, o circo com o Papa Léguas em frente. Este aplicação simples apresenta dois problemas interessantes: transformação e composição de imagens. A imagem do personagem precisa ser reduzida e colocada sobre outra.

(a) (b) (c)

Fig. 2.26 – Composição de imagens com redução.

Transformações de imagens

O tamanho de uma imagem está intimamente ligado sua resolução. Se queremos que o Papa Léguas seja reduzido em 20% para ser colocado sobre a imagem do circo, precisamos na realidade de uma outra imagem do personagem com uma resolução menor. Ao invés de termos uma imagem 320×200 precisamos de outra reduzida com a resolução 256×180. Em

(24)

uma outra situação poderíamos ter o problema de ampliação e não de redução. O problema de ampliação e redução da resolução de uma imagem já foram discutido na seção de amostragem deste capítulo.

Ao animarmos um personagem ou objeto sobre uma imagem de fundo poderíamos ter outras transformações que representassem o movimento. Conceitualmente os algoritmos de transformação geométrica (ou warping) de uma imagem são simples:

1. Para cada pixel da imagem transformada.

1.1. Utilizando a transformação inversa, determine a região da imagem original correspondente a este pixel.

1.2. Determine a cor que melhor representa as cores contidas nesta região.

A fig. 2.27 mostra a região do passo 1.1 para duas transformações: uma de ampliação e outra de redução. Como mencionado na seção de amostragem, quando aumentamos a resolução de uma imagem caímos num problema de interpolação. Quando reduzimos temos um problema de taxa de amostragem. Se a imagem tem uma freqüência muito alta a redução pode causar um sério problema de aliasing.

12×8 36×24 36×24 ampliação ampliação 3×2 3×2 redução redução

Fig. 2.27 – Regiões associadas na imagem original e na transformada.

A fig. 2.28 mostra o resultado da amplificação de um passarinho por três métodos de interpolação: vizinho mais próximo, bi-linear e bi-cúbica.

(25)

(b) vizinho mais próximo (300×340) (b) bi-linear (300×340) (b) bi-cúbica (300×340) Fig. 2.28 – Resultados de diferentes interpolações.

Na imagem desta figura a interpolação pelo vizinho mais próximo não produziu resultados ruins. Este algoritmo pode ser implementado de maneira bastante simples:

Image imageResize(Image img0, int w1, int h1)

{

Image img1 = imageCreate(w1,h1);

int w0=imageGetWidth(img0);

int h0=imageGetHeight(img0);

int x0,y0,x1,y1;

unsigned char r,g,b,a;

for (y1=0;y1<h1;y1++) for (x1=0;x1<w1;x1++) { x0=ROUND((w0-1)*x1/(w1-1)); y0=ROUND((h0-1)*y1/(h1-1)); imageGetPixel(img0,x0,y0,&r,&g,&b,&a); imageSetPixel(img1,x1,y1,r,g,b,a); } return img1; }

Nesta função a macro ROUND faz o arredondamento e é definida por:

#define ROUND(_) (int)floor( (_) + 0.5 )

A fig. 2.29 mostra um exemplo onde a redução da imagem introduz um efeito de alias. Isto porque as linhas introduzem freqüências muito altas na imagem e a re-amostragem não consegue capturar estas variações. Uma das maneiras de tratarmos deste efeito de alias consiste em reduzir as freqüências mais altas através de um filtro antes de re-amostrar. Um exemplo desta estratégia está mostrado na figura. Se aplicamos um filtro Gaussiano, eliminando as freqüências mais altas, e depois aplicamos o algoritmo de redução baseado no vizinho mais próximo o resultado final é bem melhor que se aplicamos o algoritmo de redução diretamente.

(26)

256×256

150×150

100×100

Gauss

Fig. 2.29 – Alias na redução da resolução.

É importante notarmos que geralmente as imagens normais não têm freqüências tão altas quanto as mostradas na fig. 2.29. Os resultados do algoritmo de ampliação e redução são normalmente bem melhores, como ilustra a fig. 2.30.

300×225

200×150

100×100

Fig. 2.30 – Caso geral da redução de resolução.

Além da translação e da escala, a rotação também é uma transformação importante. Os algoritmos para a rotação também seguem o esquema enunciado acima, com otimizações particulares para cada caso.

Os algoritmos de transformações geométricas das imagens têm que satisfazer os seguintes requisitos:

1) Translação por zero tem que ser a identidade;

2) Seqüência de translações deve produzir o mesmo efeito que uma composta da origem ao destino;

3) Escalar por um fator , maior que 1, e depois escalar por 1/ deve produzir a identidade;

4) Rotação por uma seqüência de ângulos que totalizem 360o deve produzir a identidade. O requisito 3, exige que uma ampliação seguida de redução correspondente produza a identidade. Isto é, a imagem volte a ter a mesma informação de cor. O requisito não fala da ordem inversa, redução seguida de ampliação. Neste caso não teríamos como reproduzir a identidade. Isto porque depois de uma redução, perdemos parte das informações que tínhamos sobre a imagem e uma posterior ampliação não tem como recuperar esta perda.

(27)

Uma discussão mais detalhada dos algoritmos de transformação de imagens foge aos objetivos introdutórios deste capitulo e pode ser encontrada nos bons livros sobre Processamento de Imagem que tenham um enfoque de algoritmos.

De qualquer forma, a animação de um personagem sobre uma imagem de fundo pode ser mais bem feita se preparamos com antecedência uma seqüência de quadros que correspondam à animação desejada. A imagem mostrada na fig. 3.31 ilustra 812 de posições do pequeno índio. Se os quadros de uma linha são apresentados em uma seqüência rápida temos a impressão de movimento do tipo caminhar. Os 8 quadros de cada coluna correspondem à animação do personagem se virando em torno da vertical.

Fig. 2.31 – Imagem com a animação de um personagem.

Composição de imagens

Existem muitas maneiras de compor duas ou mais imagens de forma a produzir uma imagem final com conteúdo de cada uma delas. Vamos abordar aqui apenas as três formas mais usadas de sobreposição de imagens: código de cores (color key), máscara de bits e canal alfa. Na sobreposição de imagens uma imagem, chamada “origem”, é colocada sobre outra, denominada “destino”.

A técnica de código de cores é muito simples e consiste em definir uma das cores da imagem origem cor como sendo transparente. No pequeno índio da fig. 2.31 a cor azul (0,0,255) faz este papel. Notem que nenhum pixel do personagem pode ter este valor sob pena do personagem ficar “vazado”. A função imageCombineColorKey, mostrada a seguir,

faz esta composição.

void imageCombineColorKey(Image origem, Image destino, int x0, int y0, unsigned char rt, unsigned char gt, unsigned char bt)

(28)

{

int x,y;

for (y=0; y<imageGetHeight(origem); y++) for (x=0; x<imageGetWidth(origem); x++) { unsigned char r,g,b; imageGetPixel(origem,x,y,&r,&g,&b,NULL); if ((r!=rt)||(g!=gt)&&(b!=bt)) imageSetPixel(destino,x0+x,y0+y,r,g,b,0); } }

Esta técnica funciona melhor quando a imagem origem é indexada, ou seja, suas cores são obtidas a partir de um índice de uma tabela. Assim, podemos distinguir a cor transparente pelo índice e não pelo valor RGB. Além de mais preciso esta escolha permite que, por exemplo, o personagem tenha na sua definição um azul (0,0,255), basta que esta cor seja correspondente a um outro índice da tabela de cores.

A técnica de máscara de bits utiliza uma outra imagem de mesmas dimensões contendo a chave para decidir se um pixel da origem deve ou não ser colocado na imagem destino. Assim, por exemplo, a máscara em preto na fig. 2.32 indica quais os pixels da imagem do Papa Léguas deve ser colocado na imagem destino. No OpenGLTM esta técnica corresponde ao uso do “stencil buffer”.

0

1 AND

Fig. 2.32 – Uso de máscara para controlar a transparências de regiões da imagem origem.

Finalmente a composição com o canal alfa é uma técnica bastante flexível que permite uma série de efeitos. Nesta técnica, cada pixel da imagem tem, além das componentes RGB, uma informação sobre um valor chamado de alfa. No nosso caso este alfa representa a opacidade ou a transparência do pixel. A cor do pixel da imagem destino, (rdst, gdst, bdst, 255adst), depois que o pixel da imagem origem, (rsrc, gsrc, bsrc, 255asrc), for colocado sobre ela pode ser dada por:

) 1 ( _src dst dst src src dst r r r      (3.28a) ) 1 ( _src dst dst src src dst g g g      (3.28b) ) 1 ( _src dst dst src src dst b b b      (3.28c)

(29)

) 1 ( _src dst src dst        (3.28c) onde: 255 / a  

Podemos entender esta equação imaginando que a imagem origem é um vidro colorido. A cor em cada ponto é a cor do vidro mais a cor do que está atrás reduzida pelo fator (1- asrc) que representa a transparência do vidro. A opacidade resultante também segue este raciocínio. É a opacidade do vidro mais a opacidade do que está atrás reduzida pela quantidade de luz que atravessa.

Note que, se o valor de alfa for 0 (transparente) então o pixel da imagem destino não é alterado. Se o valor for 1 (opaco) então a cor do pixel da imagem origem substitui completamente a cor correspondente da imagem destino. Num caso intermediário temos uma mistura das duas cores.

Note também que, seguindo este raciocínio, as componentes RGB da cor de um pixel são calculadas multiplicando-se as componentes armazenadas RGB originais pelo fator alfa. Assim um pixel de componentes (255, 255, 0, 127) é o amarelo RGB=(127, 127, 0) e não o RGB=(255, 255, 0).

Existe uma opção um pouco mais eficiente para compor pixels em RGBA onde os canais RGB já armazenam as cores multiplicadas pelo canal alfa. Neste caso o valor de cada uma das componentes R, G ou B é necessariamente menor ou igual a componente A. Como os valores já estão multiplicados a equação (3.28) pode ser escrita por:

) 1 ( _src dst src dst r r r    (3.29a) ) 1 ( _src dst src dst g g g    (3.29b) ) 1 ( _src dst src dst b b b    (3.29c) ) 1 ( _src dst src dst        (3.29d)

O operador das equações (3.28) e (3.29) é chamado de over porque a imagem origem é colocada sobre a imagem destino. Existem outras combinações possíveis. Poderíamos, por exemplo, ter a imagem origem sendo colocado por trás da imagem destino. Neste caso a equação correspondente as componentes RGB já forem pré-multiplicadas seria dada por:

) 1 ( _dst src dst dst r r r    (3.30a) ) 1 ( dst src dst dst g g g    (3.30b) ) 1 ( dst src dst dst b b b    (3.30c) ) 1 ( dst src dst dst        (3.30d)

(30)

Bibliografia do capítulo

1.

Foley, J. D., Van Dam, A., Feiner, S. K., e Huhes, J. F., Computer

Graphics: Principles and Practices, (Systems Programming), 2nd

edition in C, Addison-Wesley, 1995, ISBN 0-201-84840-6.

2.

Gomes, J.M. e Velho, L., Image Processing for Computer Graphics,

Springer, 1997, ISBN 0-387-94854-6

3. Gonzalez, R.C., and Woods, R.E, Digital Image Processing, Addison-Wesley, 1992.

4. Baxes, G. A., Digital Image Processing: principles and applications, John Wiley & Sons, New York, 1994, ISBN 0-471-00949-0

Exercícos resolvidos

1) Escreva uma função para contar o número de cores distintas de uma imagem cujo protótio é:

unsigned int imgCountColors(Image * img, float tol);

onde img é um ponteiro para a estrutura da imagem utilizada no T1 e copiada na última página e tol é a tolerância admitida nas componentes de duas cores para que elas sejam entendidas como sendo a mesma.

Obs.: Você deve incluir na resposta todas as funções auxiliares que não forem da biblioteca padrão do C.

Resp.:

static int comparaCor(const void * p1, const void * p2) {

int *c1 = (int *) p1; /* aponta para o byte red da cor 1 */ int *c2 = (int *) p2; /* aponta para o byte red da cor 2 */ /* compara o canal vermelho */

if (*c1 < *c2) return -1; if (*c1 > *c2) return 1;

/* compara o canal verde, uma vez que o vermelho e' igual */ c1++; c2++;

if (*c1 < *c2) return -1; if (*c1 > *c2) return 1;

/* compara o canal azul, uma vez que o vermelho e o azul sao iguais */ c1++; c2++; if (*c1 < *c2) return -1; if (*c1 > *c2) return 1; /* sao iguais */ return 0; }

(31)

unsigned int imgCountColor(Image * img, float tol) {

unsigned int numCor = 1; int w = imgGetWidth(img); int h = imgGetHeight(img); float* buf=imgGetRGBData(img);

int *vet=(int*) malloc(3*w*h*sizeof(int)); int i;

/* copia o buffer da imagem no vetor de floats fazendo

uma quantizacao para (1/tol) tons de cada componente de cor */ for (i=0;i<3*w*h;i++)

vet[i] = (int)(buf[i]/tol+0.5); /* ordena o vetor */

qsort(vet,w*h,3*sizeof(int),comparaCor); /* conta o numero de cores diferentes */ for (i=3; i<3*w*h; i+=3)

if (comparaCor(&vet[i-3],&vet[i])!=0) numCor++; free(vet);

return numCor; }

2) Considere uma imagem em tons de cinza representada pela matriz abaixo. Calcule o valor do pixel correspondente ao de valor 28 (destacado na matriz) na imagem resultante desta suavizada pelo filtro Gaussiano 3×3 mostrado na folha de fórmulas.

 

            30 20 22 10 26 8 16 10 24 28 12 15 21 20 20 20 Resp.:



 







20.18 16 323 21 26 16 20 24 8 12 20 2 28 4 16 1             v

3) (2.5 ptos.) Dada a imagem 6×6 em 5 tons de cinza mostrada abaixo, pede-se o seu histograma (desenhe na figura) e a probabilidade de, escolhendo-se um pixel aleatoriamente, ele ser de tom 1.

(32)

                    4 2 1 0 3 2 0 2 1 0 3 1 0 1 3 3 2 2 1 1 1 1 4 0 3 3 3 2 4 3 0 1 2 1 4 0

Resp.: (em azul sobre o gráfico)

tom h 1 2 3 4 6 5 7 8 9 10 1 2 3 4 6 5 7 8 9 10 0 1 2 3 4 Probabilidade: 28% 36 10   p

4) (2.5 ptos.) A uma imagem 6×6 mostrada abaixo, ilustra os dois tipos de ruídos mais comuns nas imagens capturadas. Pergunta-se que tipo de ruído são eles e que tipo de processo se utiliza para reduzi-los? De um exemplo de aplicação para cada um deles.

                    21 19 20 19 20 21 20 19 20 22 20 18 19 18 22 21 19 20 21 19 20 18 20 22 18 20 255 19 18 20 20 18 20 21 20 19 Resp.:

A imagem apresenta um ruído branco (pequenas variações oscilatórias com média zero) e um pixel com ruído impulsivo, tipo “sal e pimenta” (o que tem valor 255). A maneira de reduzir os ruídos seria aplicarmos filtros.

Um filtro apropriado para o ruído branco é o filtro Gaussiano. Para o pixel de valor 18 no canto superior esquerdo da imagem o filtro Gaussiano 3×3 o transformaria para:

(33)



19 2 20 21 2 20 4 18 2 19 22 2 20 18



19.375 19 16 1                 v

se aproximando mais do valor 20.

Um filtro para atenuar o ruído impulsivo é o filtro de mediana. O pixel com valor 255 submetido a este filtro numa janela 3×3 se transforma em 20 pelo algoritmo.

Vizinhos em ordem = (18, 18, 19, 19, 20, 20, 21, 255). Mediana = 19.5

5) Considere uma imagem em tons de cinza representada pela matriz abaixo:

 

            30 20 22 10 26 8 16 10 54 40 18 15 50 45 20 20

Determine qual o valor do pixel indicado na figura, atualmente de valor 16, depois de passarmos o filtro de Sobel, para acharmos arestas na imagem.

Resp.: 75 . 7 4 31 4 20 10 16 20 40 15 20 1 0 10 1 8 2 0 10 2 40 1 0 15 1 4 1 _      _  __                     _x 25 . 4 4 17 4 20 44 10 40 36 15 20 1 22 2 10 1 0 0 0 40 1 18 2 15 1 4 1 _      _ _                     y Novo valor = 7.7524.252 8.839

(34)

Exercícios 1. Dada função ) 8 / cos( 2 . 0 ) ( 3 ) (x sen x x f    

qual o maior intervalo de amostragem x de forma a podermos reconstruí-la

corretamente?

2. Explique 3 métodos de codificação de um vetor de valores inteiros de 0 a 255. 3. Que problemas ocorrem nos algoritmos para aumentar e reduzir o tamanho de uma

imagem quando eles percorrem os pixels da imagem origem e não os da imagem destino?

4. Considere uma imagem em tons de cinza representada pela matriz abaixo:

            30 20 22 10 26 8 16 10 24 28 18 15 21 20 20 20

Sem modificar os pixels da borda, calcule a matriz que representa a imagem: a) Suavizada pelo filtro Gaussiano (3.11).

b) Filtrada pelo filtro de Sobel horizontal. 5. Explique o que é resolução espacial de uma imagem.

6. O que é quantização e quando este processo ocorre na aquisição de uma imagem digital?

7. Explique os processos de reconstrução e amostragem que ocorrem quando mudamos a resolução espacial de uma imagem.

8. Que tipo de codificação de cores existe no formato BMP? 9. Explique 3 métodos para combinar duas imagens.

10. Explique quais são os 3 tipos de redundâncias que normalmente existem numa imagem. Cite pelo menos 1 algoritmo para reduzir cada uma destas redundâncias. 11. Explique o que é Run-Length Encoding.