INTRODUÇÃO AO PROCESSAMENTO DIGITAL DE IMAGEM

(1)

INTRODUÇÃO AO PROCESSAMENTO DIGITAL DE IMAGEM

Uma imagem digital é uma função multidimensional de coordenadas espaciais f(x,y) de um objecto/elemento, onde x, y e o valor de f são valores discretos. f(x,y) pode representar intensidade, cor, ou outro valor (ex. grandeza física).

Processamento de imagem

 Processos de baixo nível (entradas e saídas são imagens): redução de ruído, melhoria de contraste, “sharpening”, etc.

 Processos de médio nível (entradas são imagens, saídas são características extraídas das imagens): segmentação em objectos, descrição de objectos, classificação

 Processos de alto-nível: extrair significado do conjunto de objectos reconhecidos (análise de imagem), desempenhar funções cognitivas associadas com a visão

Espectro electromagnético

Raios gama: medicina nuclear, astronomia …

Raios-X: diagnóstico médico, indústria, astronomia …

Ultravioleta: litografia, inspecção industrial, microscopia, laser, imagiologia biológica … Visível: microscopia, astronomia, indústria, controlo remoto, controlo de qualidade … Infravermelho: controlo de qualidade …

Microondas: cartografia…

Ondas rádio: MRI

Outras modalidades (não electromagnético): ultra-som, microscopia electrónica SEM, imagens virtuais …

(2)

PROCESSOS DE FORMAÇÃO DE IMAGEM

Técnicas de obtenção de imagens simples:

Para ter uma fotografia é necessário: um objecto; luz (fotões) que, no caso de imagens internas, devem ser fotões penetrantes; um modo de registar a imagem (bloquear os fotões).

Autoradiografia: Utilizado em investigação para determinar a biodistribução de radiofármacos em secções de tecido em que o tecido alvo emite fotões ou positrões. Pode-se usar autoradiografia com filme (filme em contacto com o corpo) ou digital.

Câmara Pinhole: Os fotões vindos do objecto são bloqueados por uma barreira que só tem um pequeno orifício (abertura), o que permite diminuir efeitos de esborratamento. A primeira câmara deste género é já do tempo de Aristóteles (câmara escura). Ao diminuir a abertura consegue-se uma imagem mais focada. No entanto, a partir de certa altura, a luminosidade é demasiado baixa ou podem começar a surgir efeitos de difracção da luz. O pinhole pode ser usado em SPECT. A imagem fica invertida e pode ficar ampliada ou redizida (depende da posição do objecto). Esta técnica permite elevadas resoluções para pequenos objectos. É ainda possível combinar mais do que um pinhole e depois reconstruir a imagem.

Técnicas por reconstrução a partir de múltiplas imagens / projecções Coded Aperture Imaging: Existe uma máscara entre o objecto e a câmara com buracos aleatórios. É como se tivéssemos vários pinholes com distribuição aleatória. A imagem final é reconstruída sabendo a posição dos buracos. Esta técnica permite a obtenção de imagens focadas sem lentes, pelo que a imagem formada é tolerante a falhas nos sensores individuais.

Super-resolução: São usadas várias imagens de baixa resolução de um objecto tiradas de posições ligeiramente diferentes. Sabendo o deslocamento que cada imagem tem em relação às outras, é possível criar uma imagem final que resulta da combinação das anteriores e tem muito maior resolução.

Compressive sensing: Uma lente foca a imagem em milhares de pequenos espelhos que mudam rapidamente entre duas direcções. Metade desses espelhos são direccionados a um sensor de imagem que codifica digitalmente a imagem e a reconstrói.

Tomografia: CT (Computed Tomography): são emitidos raios-X que atravessam o paciente e um detector regista a atenuação dos raios-X ao longo de cada projecção.

Imagiologia de Medicina Nuclear: A fonte de luz está dentro do objecto.

 Câmara Gama: Grande cristal de NaI(Tl) com colimador, acoplado a um array de tubos fotomultiplicadores que convertem luz de cintilação em impulsos eléctricos.

 SPECT: um fotão gama é emitido num decaimento e é registado numa câmara cintiladora rotativa com cristais NaI(Tl) e criam-se projecções.

 PET: a aniquilação de um e⁺ com um e^- dá origem a 2 fotões de 511 KeV e direcções opostas que são colimados electronicamente (os 2 anteriores que eram colimação física).

(3)

TIPOS DE IMAGENS DIGITAIS

Imagem digital: uma imagem que foi discretizada tanto nas coordenadas espaciais (amostragem) como no valor associado f (quantização). Consiste em 2 conjuntos: conjunto de pontos; conjunto de valores de f. As coordenadas espaciais podem ou não ser uniformemente espaçadas. Um elemento da imagem (x, a(x)) é chamado um pixel, onde x é a posição do pixel e a(x) é o seu valor.

Tipos de imagens

Imagens binárias ou preto e branco: cada pixel contém um bit: 1 é branco e 0 é preto.

Imagem de intensidade ou monocromática: cada pixel representa a intensidade de luz. Normalmente representa em escala de cinzentos.

Imagens a cores ou RGB: cada pixel contém um vector representando as três componentes: vermelho (R), verde (G) e azul (B).

Imagens indexadas (pseudo-cor): cada pixel tem um índice que aponta para uma tabela de cor

Nota: algumas imagens podem ter unidades, como é o caso do CT que tem unidades de Hounsfield (representam o coeficiente de atenuação linear do material).

Algoritmos de análise de imagem

Segmentação: permite delimitar objectos (2D ou 3D) numa imagem;

Reconhecimento e seguimento de objectos: são reconhecidas certas estruturas e pode-se seguir o seu movimento. Por exemplo, seguir uma pessoa a andar. Outro exemplo é identificar o movimento do coração quando bate (contracção/distensão);

Síntese de texturas: é possível pegar numa certa imagem e repetir partes desta. Por exemplo, criar uma imagem de uma multidão a partir de um pequeno grupo de pessoas;

Fusão de imagens: pegam-se em duas imagens distintas e fundem-se, criando uma imagem final com partes das duas imagens iniciais;

Inpainting: alterar parte de uma imagem, recolorindo-a. Por exemplo, os ecrãs verdes da TV.

Redimensionar uma imagem tendo em conta o conteúdo: ao expandir uma imagem, nem todas as zonas são expandidas da mesma forma: por exemplo o céu, o mar, terra podem ser expandidos, mas pessoas não, pois iria notar-se no final;

Registo de imagens médicas: aplicar transformações lineares e rotação para comparar duas imagens do mesmo objecto (ex: as duas imagens da retina da última aula prática);

Fusão de imagens médicas: por exemplo fundir uma imagem de CT e de MRI;

Stereo Reconstruction/Imagens panorâmicas: reconstruir uma estrutura 3D através da combinação de imagens de ângulos diferentes;

Visualização 3D: televisão 3D;

Visualização volumétrica: hologramas;

(4)

EVOLUÇÃO DOS SISTEMAS DE IMAGEM BIOMÉDICA

A imagem médica evoluiu bastante nos últimos 30 anos. Por um lado, pelo melhoramento da resolução dos sensores e, por outro, pelo melhoramento de algoritmos que hoje permitem a reconstrução das imagens com menor ruído e até com segmentação das estruturas de interesse. Isto deveu-se também à melhor compreensão dos fenómenos físicos subjacentes às técnicas, o que permitiu criar algoritmos mais robustos que sejam capazes de tratar muito do ruído intrínseco às técnicas. Tudo isto permitiu um melhor detalhe das observações anatómicas e funcionais feitas pelas técnicas de imagiologia.

Além disso, um novo conceito surgiu: a multimodalidade. Esta permite juntar informação sobre a função (PET) a informação sobre a anatomia (CT), pelo que se obtêm imagens mais úteis do que qualquer uma das técnicas isoladamente. Podem ser combinados sistemas PET/CT, SPECT/CT ou PET/MRI.

A escolha da técnica a usar depende muito da resolução temporal e espacial que se pretende alcançar. Assim, técnicas como o EEG permitem resoluções temporais muito pequenas (10^-3 s) mas resoluções espaciais grandes (30 mm), enquanto o MRI permite resoluções espaciais pequenas (2 mm) mas resoluções temporais grandes (10³ s). Outras têm resoluções espaciais e temporais mais intermédias (como o PET e o fMRI). Portanto, a escolha da técnica depende não só da informação que se pretende obter (funcional/anatómica), mas também das resoluções espaciais e temporais desejadas.

Actualmente, a fluorescência in-vivo e a bioluminescência estão a ter grande importância na descoberta dos sistemas biológicos (particularmente ao nível da descoberta de doenças), embora exista a dificuldade de lidar com a dependência das propriedades ópticas do tecido para reconstruir modelos 3D. O esforço está a ser feito no sentido de arranjar métodos de reconstrução que permitam a reconstrução volumétrica das imagens para localizar e quantificar correctamente os agentes de contraste e proteínas usadas. Isto poderá ser importante para a redução do custo e melhoria da resolução espacial e temporal de técnicas como PET.

A adição de agentes de contraste permite já reconstruir sistemas biológicos em 3D, como o caso da angiografia com CT ou da tractografia com MRI. A ecografia 4D também já começa a surgir. Existem já técnicas de impressão 3D de estruturas usadas para estudar tumores antes da operação, por exemplo.

(5)

CÂMARAS, SENSORES E MOVIMENTO

Lentes

Uma lente tem o objectivo de focar uma imagem sobre um filme. Existe uma distância para a qual os objectos estão focados, enquanto que fora dessa distância aparecem como um círculo de confusão.

O Olho

O olho humano é uma câmara. Dele fazem parte a íris (anel colorido com músculos radiais) e a pupila (abertura por onde entra a luz e que é controlada pela dilatação/contracção da íris). O “filme” onde se foca a imagem é, no caso do olho, os cones e os bastonetes (células fotoreceptoras da retina).

A flexibilidade do olho humano advém da capacidade de controlar a curvatura da lente (através da tensão das fibras musculares). A lente fica plana e fina para focar objectos distantes e o contrário acontece para focar objectos próximos. Absorve cerca de 8% no visível e absorve mais no infravermelho e no ultravioleta Em condições normais, a imagem é formada na retina.

A córnea é o tecido transparente e resistente que cobre a parte anterior do olho, atrás da qual se encontra a esclera. A coróide contém uma rede de vasos sanguíneos que são a principal fonte de nutrição do olho.

A retina é membrana mais interna, que ocupa a parte posterior no olho onde incide a luz. Contém os receptores de luz (cones e bastonetes) que fazem a transdução da luz em impulsos eléctricos que posteriormente são interpretados no cérebro. Existem 6 a 7 milhões de cones em cada olho que são sensíveis à cor e responsáveis pela visão fotópica. Cada cone está ligado a uma célula nervosa, permitindo resolver detalhes muito finos. Os músculos rodam o olho de modo a que a imagem do objecto de interesse incida na fóvea – a parte central da retina. Existem cerca de 75 a 150 milhões de bastonetes em cada olho. Vários bastonetes estão ligados a uma célula nervosa, pelo que têm menor capacidade de distinção de detalhes. Não estão envolvidos na visão de cor e são mais sensíveis a baixos níveis de iluminação (visão escotópica). O ponto cego é a região onde emerge o nervo óptico e não há receptores.

A distribuição de receptores é simétrica em torno da fóvea (à excepção do ponto cego). No caso do Homem, a luz tem de atravessar a rede de nervos e vasos para chegar aos fotoreceptores (já no polvo, os receptores estão à frente).

Existem vários tipos de olhos no mundo animal. Olhos simples: lente positiva (homem, vertebrados), espelho côncavo (crustáceos) e pinhole (moluscos). Existem também olhos compostos (como nos insectos ou alguns crustáceos) que podem ser de aposição (independentes um do outro) ou de composição (cooperam para formar a imagem).

(6)

A gama de intensidades a que o olho humano se adapta é enorme. No entanto, esta gama não é simultânea, é adaptativa, ou seja, a adaptação à luminosidade faz-se entre dois valores e perde-se tudo o que está acima ou abaixo. Quanto maior for a luminosidade, melhor é a capacidade de perceber alteração de luminosidasde.

A luz pode ser dividida em dois grupos: acromática e cromática. A luz acromática é captada pelos bastonetes e tem somente uma característica: intensidade. A luz cromática pode ser descrita pela radiância ou potência (energia total que flui por unidade de tempo a partir da fonte de luz – unid: watt), luminância (dá uma medida da quantidade de luz percepcionada pelo observador – unid: lumen) e brilho (caracteriza subjectivamente a percepção de luz, descreve a sensação da cor incluindo a noção acromática de intensidade).

Sensores

O sensor pode consistir de um sensor único, uma linha de sensores ou um array (bidimensional) de sensores. Para fazer o scan de um objecto 3D com um sensor simples, é necessário combinar o deslocamento e a rotação do sensor (ex: primeiro CT). Num sensor linearm, o deslocamento já não é necessário (ex: 3ª geração de CT).

Em SPECT, podemos ter 1, 2 (opostas ou em L), 3 (em triângulo) ou 4 (um quadrado) cabeças de detecção.

Os colimadores podem ser de orifícios paralelos (os mais simples, sem ampliação e com uma resolução espacial que piora à medida que a distância da fonte ao colimador aumenta), convergentes/divergentes (onde existe um compromisso entre a resolução e o tamanho do campo de visão) ou de “slant hole” (como em SPECT).

(7)

IMAGEM DIGITAL: CARACTERIZAÇÃO, AMOSTRAGEM, QUANTIZAÇÃO

Caracterização

O sistema H é linear se for: aditivo (H(f+g)=H(f)+H(g) ) e homogéneo (H(a x f)=a x H(f) ).

Point Spread Function (PSF) é a resposta de um sistema a um impulso unitário de Dirac. Em 2D é a resposta do sistema quando o objecto é um ponto.

A imagem de um objecto num sistema de imagem é a convolução do sistema pela PSF.

A resolução espacial de um sistema de imagem é a largura a meia-altura (FWHM) de uma gaussiana correspondente à função de resposta do aparelho: dois picos são distinguíveis quando a distância entre eles for maior que a FWHM.

Resolução de pixel é dada em linhas/mm, nº de pixels por unidade de comprimento, nº de pixels, dimensão dos pixels, nº total de pixels…

A Modulation Transfer Function (MTF) é a transformada de Fourier da PSF.

Representa a atenuação que o sistema de imagem provoca em cada componente de frequência da imagem.

Contraste tem várias definições. O contraste de um objecto sobreposto (foreground) a um fundo (background)pode ser: (para unidades normalizadas),

(se não estiverem normalizadas), (recipientes separados).

Amostragem

Frequência de Nyquist: O período de amostragem deve ser no máximo metade do mínimo período da imagem (ou de um sinal qualquer). A frequência de amostragem deve ser pelo menos o dobro da máxima frequência do sinal. A sub-amostragem é um processo irreversível que leva à perda de detalhe da imagem.

Teorema de amostragem de Shannon: se uma função é amostrada a uma taxa igual ou superior ao dobro da sua máxima frequência, é possível recuperar completamente a função original a partir das suas amostras. Se não se obedecer a este teorema, ocorre aliasing.

Com a excepção de funções periódicas (e se amostra um número inteiro de períodos), não se consegue satisfazer o teorema da amostragem na prática. Isto porque os dados

(8)

amostrados são de duração finita e a conversão numa duração limitada corresponde a uma multiplicação por uma função “porta” (=1 num dado intervalo e 0 fora dele). Assim, as componentes de frequência estendem-se até ao infinito e a função deixa de ter largura de banda limitada  viola condição do teorema da amostragem.

Para reduzir o aliasing, amostra-se o sinal com uma taxa de amostragem maior para obedecer ao teorema da amostragem e filtra-se o sinal por forma a fazer desaparecer as frequências acima da frequência de Nyquist.

Transformada de Fourier: Funções cuja área sob a curva é finita podem ser representadas em termos de uma combinação linear de senos e co-senos de várias frequências. Funções com largura de banda finita (“bandlimited”) têm a frequência mais elevada finita.

Quantização

Quantização da imagem: discretização dos valores reais (contínuos) do objecto num número limitado de níveis.

Resolução de cor/ profundidade de cor: nº de cores ou níveis de cinzento ou nº de bits representando cada valor do pixel. O nº de cores ou níveis de cinzento N é dado por: N=2^b onde b é 2 o nº de bits

Resolução de níveis de cinzentos (gray levels): menor variação de nível de cinzento que é possível discernir numa imagem (dois níveis de cinzento muito próximos conseguem distinguir-se se a sua diferença de nível de cinzento for maior do que a resolução). Se se usar um número insuficiente de níveis de cinzento, aparecem contornos visíveis em áreas de variação lenta de níveis de cinzento – falsos contorno.

Imagens de “baixa resolução” (com poucos pixeis) produzem pixelização, enquanto imagens com poucos níveis de cinzento produzem contornos falsos. Variando o nº de pixéis ou os níveis de cinzento podem obter-se curvas de isopreferência: correspondem a imagens de igual qualidade subjectiva.

Ampliação: Primeiro criam-se novas coordenadas espaciais (pixéis em novas posições) e depois atribuem-se os níveis de cinzento a esses pixéis. Essa atribuição pode ser feita por interpolação do vizinho mais próximo ou interpolação bilinear (usam-se os 4 vizinhos mais próximos), embora outros possam ser usados.

Redução: análogo à ampliação, mas a replicação de pixéis é substituída pela eliminação de linhas/colunas. Usa-se também as interpolações do vizinho mais próximo ou bilinear. Para reduzir artefactos de aliasing, pode-se alisar (“blur”) a imagem antes.

A ampliação pode ser vista como uma operação de sobreamostragem e a redução como subamostragem. A principal diferença entre ampliar/reduzir e amostrar e quantizar uma imagem original é que a ampliação/redução é aplicada sobre uma imagem digital.

(9)

MELHORIA DE IMAGEM NO DOMÍNIO ESPACIAL

Vizinhança entre pixéis

A vizinhança de um pixel pode conter os seus 4 vizinhos (N4), os 4 vizinhos das diagonais (ND) ou então os 8 vizinhos (N8). No caso de um pixel da fronteira, alguns destes vizinhos podem não estar contidos na imagem.

Conectividade

2 pixéis vizinhos estão ligados se os seus níveis de cinzento obedecerem a um dado critério de semelhança, ou seja, se ambos tem valores pertencentes a um conjunto V. Ex: Se V={1}, então dois pixéis vizinho estão ligados se ambos tiverem o valor 1.

Seja S um subconjunto de pixéis da imagem. Dois pixéis estão ligados em S se existe um caminho entre eles consistindo apenas de pixéis em S. Para qualquer pixel de S, o conjunto de pixéis que estão ligados em S é um componente ligado de S. Se S só tem um componente ligado, S é um conjunto ligado. R é uma região se R for um conjunto ligado. A sua fronteira ou contorno é a região de pixéis de R que tem pelo menos um vizinho não pertencente a R.

Há vários tipos de conectividade: conectividade-4 (usam-se apenas os 4 vizinhos principais), conectividade -8 (todos os 8 vizinhos) e conectividade –m.

Adjacência

Dois pixéis são adjacentes se estiverem ligados entre si. Dois subconjuntos S1 e S2 estão adjacentes de um pixel de S1 estiver adjacente a um pixel de S2. Há vários tipos de adjacência: adjacência-4

(usam-se apenas os 4 vizinhos principais), adjacência-8 (todos os 8 vizinhos) e adjacência-m (q é vizinho-4 de p, ou então q pertence aos vizinhos-D de p, mas a intersecção dos vizinhos-4 de p e de q não podem ser do conjunto).

Caminhos

Um caminho de um pixel p a um pixel q é uma sequência de pixéis distintos e adjacentes. Existem caminhos caminho-4, caminho -8 e caminho -m dependendo do tipo de adjacência.

Distância

A distância é um valor sempre positivo, ou nulo se .

Distância-4: . Se , então p e q são vizinhos-4.

Distância-8: . Se , então p e q são vizinhos-8.

Distância-m: As distâncias D4 e D8 entre p e q são independentes de quaisquer caminhos que existam entre os pontos porque estas distâncias envolvem apenas as coordenadas dos pontos (independentemente de haver um percurso entre eles). No entanto, para a conectividade-m o valor da distância (comprimento do caminho) entre dois pixéis depende dos valores ao longo do caminho e dos valores dos pixéis vizinhos.

(10)

Operações morfológicas Dilação

Esta operação é normalmente conhecido como “preenchimento”, “expansão” ou

“crescimento” e é usado para preencher “buracos” de tamanho igual ou inferior ao do elemento estrutural (strel). De uma maneira simples, se a estutura apanhar imagem em algum pixel, toda a estrutura é preenchida.

Em imagens binárias (0 ou 1), a dilatação é similar à convolução. Aplica-se um elemento estrutural à imagem e, se o pixel da imagem for não-nulo, então todos os pixéis do elemento são preenchidos (operação semelhante ao OR).

Erosão

Se ao aplicar o elemento estrutural, todos os pixéis da imagem dentro do elemento forem não nulos, o resultado é 1 e não se altera a imagem. Se um dos pixéis dentro do elemento estrutural for nulo, então o resultado da operação é 0 e então o pixel da imagem é posto a 0. De uma maneira simples, se o elemento da estrutura contiver imagem e fundo, assume-se que está na fronteira e erode (apaga) a linha de fronteira.

Open e Close

O opening de uma imagem é definido como , ou seja, aplica-se uma erosão e depois uma dilatação. O closing é definido como , ou seja, aplica-se uma dilatação e depois uma erosão. Isto permite eliminar certos detalhes menores do que o elemento estrutural sem ter distorções da geometria global da imagm. Por exemplo, ao usar o opening com um disco a uma imagem, alisa os contornos e quebra pequenos istmos (ligações finas entre objectos); já o closing alisa contornos e funde pequenas quebras e preenche pequenos buracos.

Melhoria de imagem

Processar a imagem de modo a que o resultado seja mais adequado do que a imagem original para uma aplicação específica. Consistem em aplicar um operador a uma vizinhança da imagem original (sub-imagem) de modo a obter outra imagem com melhores características.

A vizinhança pode ser 1x1 e temos uma transformação de níveis de cinzento ou técnicas de processamento de ponto, como melhoria de contraste, thresholding, negativo de uma imagem … Podemos ter transformações lineares (identidade ou negativo), logarítmicas ( ou ) ou de potências ( ).

Se a vizinhança é NxN, temos a aplicação de uma janela/kernel/template/máscara usados, por exemplo, em filtros.

(11)

Histograma de uma imagem

O histograma de uma imagem digital com níveis de cinzento de 0 a L-1 é uma função h(rk)=nk onde rk é o nível de cinzento k e nk é o número de pixéis da imagem com esse nível de cinzento. Num histograma normalizado, a soma de todas as componentes é 1.

O histograma é usado para melhoria de imagem (contraste), infomação estatistic,a compressão e segmentação.

A forma do histograma da imagem dá informação sobre na possibilidade de melhorar o contraste de uma imagem. Por exemplo, se o histograma estiver centrado em valores mais baixos (altos), a imagem é mais escura (clara); se o histograma for “estreito”, a imagem tem baixo contraste; já se o histograma for uniforme e ocupar toda a gama de cinzentos, temos um bom contraste e gama dinâmica.

O processamento que se pode fazer com o histograma é: equalização do histograma (torna-o mais uniforme, usando a função de distribuição cumulativa), especificação do histograma (para realçar certas zonas), ou melhoria local (aplicam-se alterações na vizinhança de um ponto).

Média global: é uma medida da intensidade global (nível médio de cinzento).

Variância global: medida de contraste global.

Existem ainda a média e variância locais numa vizinhança que indicam a intensidade e contraste local, respectivamente. É possível fazer melhorias de contraste e de intensidade apenas em algumas zonas da imagem, tendo como base estas variáveis locais.

Operadores lógicos e aritméticos

Os operadores lógicos AND, OR e NOR são bastante úteis para a aplicação de máscaras. À esquerda temos a aplicação de uma máscara com o operador AND e à direita OR.

Operadores aritméticos + - são bastante úteis para adição ou subtracção de imagens.

Os operadores : (multiplicação pelo inverso) e * são mais usados em máscaras. Da subtração de imagens podem resultar pixéis negativos. Para obter pixéis positivos e em que toda a gama dinâmica seja usada, soma-se o valor min e multiplica-se por 255/max.

Para reduzir o ruído de uma imagem, também se pode fazer a média da soma de várias imagens. Isto é especialmente útil para o caso de ruído de média zero e não correlacionado.

(12)

Operações com máscaras ou janelas

A utilização de valores de pixéis vizinhos tem importância na filtragem de imagens. O procedimento é o seguinte: move-se o centro da janela para o local pretendido, multiplica-se ponto a ponto os valores da subimagem pelos da janela, coloca-se o resultado na posição correspondente da nova imagem e repete-se o processo para todos os pixéis.

Passa-baixo

Filtros passa-baixo (smoothing) são usados para reduzir ruído, esbater falsos contornos (criados por níveis insuficientes de cinzento) ou para fazer “desaparecer” objectos menores que um certo tamanho – thresholding. Contudo, têm o problema de esbater os contornos.

Os filtros de média móvel podem ter todos os coeficientes da janela iguais, e temos um filtro de média simples, ou ter coeficientes diferentes, e é um filtro de média ponderada.

Order-statistic filters são filtros que ordenam os pixéis da vizinhança por ordem e depois escolhe-se um desses valores para o pixel central. Um exemplo é o filtro de mediana que escolhe para o valor do pixel central o valor intermédio dos vizinhos. São filtros bons para a redução do ruído salt-and-pepper, ao forçar pontos com valores muito diferentes a ficarem com valores semelhantes. Têm a vantagem de conservar melhor os contornos do que os filtros de média. Podem-se usar outros percentis além da mediana (percentil 50).

Passa-alto

Filtros passa-alto (sharpening) são filtros de diferenciação e são usados para realçar contornos e descontinuidades (como ruído), fazendo desaparecer zonas com variações lentas.

Exemplos são: a 1ª derivada, usada para extracção de contornos (produz contornos mais grossos); 2ª derivada, usada para melhoria de imagem pois realça mais os pequenos pormenores. Estes filtros têm em geral coeficientes positivos no centro e negativos na periferia. A soma dos coeficientes é nula (em zonas de intensidade constante o seu resultado é 0). Pode ser necessário um rescaling para ajustar valores negativos.

O gradiente é um operador não isotrópico (depende da direcção das descontinuidades) dado por

. Podemos obter a sua magnitude calculando o seu módulo. Uma implementação fácil do gradiente é e . O operador de Roberts aproxima e . Já o operador Sobel faz

.

O Laplaciano (2ª derivada) é um filtro isotrópico (independente da direcção das descontinuidades). Existem duas definições ou . Pode apenas ter em conta os 4 vizinhos, ou então os 8.

Unsharp maskinhg é obter uma imagem filtrada passa-alto à custa da subtração de uma imagem suavizada da imagem original: . De maneira genérica, podemos ter uma filtragem high-boost de dois modos:

ou . Uma outra forma de filtragem high- boost é .

(13)

MELHORIA DE IMAGEM NO DOMÍNIO DAS FREQUÊNCIAS

Qualquer função que se repete periodicamente pode ser expressa como uma soma de senos e/ou co-senos de diferentes frequências (que são harmónicos de uma frequência fundamental), multiplicados por diferentes coeficientes (série de Fourier). Funções não periódicas com área debaixo da curva finita também podem ser representadas por um integral de senos/co-senos multiplicados por uma função peso (transformada de Fourier).

Computacionalmente, faz-se uso da FFT (Fast Fourier Transform).

O par de transformadas para 1 e 2 dimensões é, respectivamente:

A Transformada de Fourier de uma função real é complexa, utilizando-se para isso coordenadas polares: . Assim sendo, . A amplitude é dada por e a fase por

. A potência é dada por .

A duas dimensões, a DTFT fica:

e

A amostragem da função contínua faz-se segundo uma grelha 2D (espaçamento e ). Assim,

e

.

Propriedades

É comum recentrar a TF: e fica em e .

O valor da transformada em é

significa o valor médio de cinzento da imagem.

Simetrias:

(14)

A transformada de Fourier é linear: a transformada de Fourier de uma soma de funções é igual à soma das respectivas Transformadas de Fourier.

Translação: Uma multiplicação no espaço por uma exponencial, equivale a um deslocamento na frequência: . Um deslocamento no espaço, equivale a uma multiplicação por uma exponencial na frequência:

. Um deslocamento em não afecta a amplitude da T.F.

Scaling:

. Quando se alarga a função no domínio do espaço, comprime-se no domínio da frequência e vice-versa.

Rotação: rodando por um ângulo α, roda pelo mesmo ângulo α e vice- versa.

Periodicidade e simetria conjugada: A DTFT e a sua inversa são ambas periódicas. Mas basta ter um período da DTFT para reconstruir . E basta um período de para construir .

Se é real, a exibe simetria conjugada: , pelo que .

Para se obter uma TF correcta e uma reconstrução coerente, deve-se amostrar um número inteiro de períodos.

Separabilidade: A TF 2D de uma imagem pode obter-se fazendo primeiro a TF 1D de cada linha e depois aplicando ao resultado a TF 1D para cada coluna (também se pode fazer pela ordem inversa, primeiro colunas e depois linhas).

Convolução: .

Função composta:

Teorema de Parceval: A energia total do sinal é igual no domínio dos tempos e no domínio das frequências (a área debaixo das curvas é igual):

. Fast Fourier Transform (FFT): . Envolve menos cálculos, logo é computacionalmente mais rápida.

Algumas funções

Impulso de Dirac:

Degrau:

Co-seno:

Rectangular de altura 1 e largura 1

(15)

Amostragem

O processo de amostragem de um sinal pode ser visto como a multiplicação do sinal analógico por uma função pente. Pelo teorema da convolução, tal multiplicação no espaço dos tempos corresponde à convolução das transformadas de Fourier dos dois sinais, ou seja, a uma função pente convoluída pela transformada de Fourier do sinal analógico. Se o sinal não for amostrado com uma frequência de amostragem suficientemente alta (pelo menos igual a duas vezes a frequência máxima contida no sinal=frequência de Nyquist), ocorre aliasing.

Deve-se fazer um padding com zeros para que o resultado da transformação de Fourier seja correcto. Se não se fizer padding, a transformada de Fourier assume uma repetição periódica do sinal amostrado, pelo que poderá ocorrer aliasing. Fazendo um padding com zeros, estamos a aumentar o tamanho da amostra e já não ocorre aliasing.

O padding pode também ser usado para melhorar imagens: calcula-se a transformada de Fourier e depois faz-se um padding aumentando assim o tamanho da imagem. Depois calcula-se a transformada de Fourier inversa e temos uma imagem interpolada.

FILTROS

Média nula

Para forçar a média (valor DC) de uma imagem a ser nula, basta fazer F(0,0)=0 e aplicar a transformada inversa. Este é um caso especial de um filtro notch.

Aplicar um filtro a uma imagem no domínio da frequência equivale a multiplicar a transformada de Fourier da imagem pela transformada de Fourier do filtro: G(u,v) = H(u,v)F(u,v)

Passa-baixo

Filtro ideal (ILPF)

Onde D(u,v) é a distância do ponto ao centro do filtro (frequência (0,0) e D0 é a distância radial de corte. Todas as frequências dentro do circulo passam sem atenuação e todas as frequências fora do circulo são atenuadas. α é percentagem da potência total (PT) dentro do círculo do filtro.

Como a transformada de Fourier do filtro ideal é uma gaussiana, aparece um ringing no domínio espacial (imagem à direita).

(16)

Filtro Butterworth (BLPF)

Este filtro não apresenta uma descontinuidade na frequência de cutoff, como acontece no filtro ideal (a atenuação das frequências faz-se de forma gradual). Define-se a frequência de cutoff, quando H(u, v) se reduz a uma certa fracção do seu valor máximo (normalmente 50%).

A ordem do filtro é dada por n. à medida que a ordem aumenta, o filtro aproxima-se do ideal e o ringing torna-se notório.

Filtro Gaussiano (GLPF)

A frequência de corte é definida como sendo σ. A transformada inversa de uma gaussiana é também uma gaussiana.

Passa-alto

Sharpening: obtém-se processando a imagem usando um filtro passa-alto, que atenua as baixas frequências sem perturbar muito as altas frequências. Tal como fizemos com os filtros passa-baixo, consideramos apenas os filtros sem desfasamento de fase, que são simétricos radialmente.

Filtros passa-alto obtêm-se dos filtros passa-baixo fazendo . Ideal, Butterworth e Gaussiano

As expressões do filtro ideal (IHPF), Butterworth (BHPF) e Gaussiano (GHPF) são:

Laplaciano

Em Fourier, o laplaciano é , pelo que .

O high boost é a junção do resultado de um filtro passa-alto com a imagem original.

Em Fourier, esta implementação pode-se fazer do seguinte modo:

. Podem-se dar valores diferentes à componente da imagem e do filtro passa-alto para enfatizar ainda mais a altas frequências.

(17)

RECONSTRUÇÃO

Tomografia

Tomografia é uma radiografia na qual uma imagem de um plano pré-determinado do corpo ou de um objecto é obtido pela rotação do detector e da fonte de radiação de tal forma que pontos fora do plano fiquem desfocados.

Câmara de cintilação é um cristal de grandes dimensões com um colimador acoplado a um array de tubos fotomultiplicadores. A lógica de Anger consiste em determinar o ponto de interacção a partir dos sinais dos vários fotomultiplicadores que “viram” a cintilação.

Tomografia de transmissão CT – Tomografia Computorizada

A tomografia computorizada (CT) foi desenvolvida em 1970 por Godfrey Hounsfield e Allen Cormck. Consiste num feixe fino de raio-X que se desloca ao longo de uma secção do corpo do paciente e é registado não em filme, mas com detectores de radiação na forma de impulsos eléctricos. Os dados de muitas direcções são integrados computacionalmente que determina a densidade do tecido em centenas de pontos com base na absorção da radiação.

Os valores da densidade são apresentados em escalas de intensidade de cinzento.

Um feixe colimado de fotões monoenergéticos incide com intensidade inicial e, ao atravessar um meio de coeficiente de atenuação linear e espessura , emerge com intensidade . Na prática, de cada projecção apenas se sabe o valor total de ( ). Só a partir de todas as projecções se obtém o para cada ponto. O logaritmo natural do número de contagens é proporcional a .

A transformada de Radon é o integral de caminho desde a fonte até ao detector de cada projecção (cada direcção). As projecções podem ser paralelas ou em leque.

Tomografia de emissão

SPECT: PET:

SPECT – Single Photon Emission Computed Tomography

Apenas um fotão gama é detectado em cada evento. O número de contagens é proporcional a , não considerando a atenuação da radiação.

PET – Positron Emission Tomography

Existe um núcleo instável que emite um positrão. Que depois se aniquila com um electrão e dá origem a 2 fotões de 511 KeV emitidos simultaneamente em direcções opostas.

Cada LOR (Line of Response – direcção dos fotões) é depois organizada em projecções.

(18)

A aquisição de dados pode ser feita no modo 2D (com septos, espécie de colimadores) ou modo 3D (sem septos). No modo 3D não há septos, logo são aceites mais fotões, com ângulos de incidência maiores, aumentando a sensibilidade da câmara. Este aumento de sensibilidade não é uniforme, aumenta linearmente dos planos da periferia para os planos centrais. Apesar do nome modo 2D, este fornece imagens tridimensionais tal como o modo 3D. O modo 3D detecta os planos detectados pelo modo 2D mais os planos oblíquos que são filtrados pelo modo 2D.

Reconstrução analítica 2D Tomografia de plano focal

É a técnica mais simples (retroprojecção directa dos dados). A imagem da fonte fica focada apenas no plano que a contém (resolução espacial é má fora do plano da fonte).

Existem técnicas de reconstrução analíticas e iterativas. Os métodos analíticos são rápidos, simples e de comportamento linear e previsível. No entanto, são pouco flexiveis e as propriedades da imagem não estão optimizadas (ruído, resolução). Os métodos iterativos têm como vantagem modelizar de forma precisa o processo de formação da imagem (como o ruído) e permite o uso de restrições à priori (não-negatividade, limites do objecto) e correcções podem ser incluídas no processo (atenuação). No entanto, têm a desvantagem de serem lentos e imprevisíveis.

A reconstrução em PET pretende determinar a concentração de traçador radioactivo no objecto, f(x,y), partindo das projecções p(xr,f) fornecidas pela câmara. Se forem aplicadas correcções aos dados que compensem os efeitos de atenuação e dispersão, então as projecções p(xr,f) correspondem aos integrais de linha da distribuição de actividade ao longo do objecto.

Cada LOR corresponde a um ponto no sinograma. O nome sinograma deriva do facto de uma fonte pontual ser representada como uma sinusóide de amplitude igual à distância radial. O conjunto das projecções na mesma direcção corresponde a uma linha no sinograma.

(19)

Um dos métodos mais usados para reconstruir a imagem é o Filtered Back Projection (retroprojecção das projecções filtradas). Uma intensidade que apareça em cada projecção é assumida como sendo distribuída por todo o caminho. Ao conjugar várias projecções, consegue-se reconstruir o objecto:

Vários filtros podem ser usados: filtros rampa e janelas de apodização (Hamming e Hanning), tal como mostra a figura acima (direita) mostra.

O método de Fourier, consiste em levar as projecções para o espaço das frequências.

Cada projecção no espaço corresponde a uma recta na frequência. Usando a soma das projecções constrói-se uma transformada de Fourier completa 2D. Para calcular a transformada nos pontos não contidos nas projecções, usa-se interpolação. No final, inverte- se a transformada de Fourier e ficamos com a imagem no espaço.

Reconstruções iterativas como o Algebraic Reconstruction Technique (ART) pegam na soma das atenuações ao longo de uma direcção e distribuem-na equalitativamente ao longo do caminho. Depois vai a outra direcção e compara os valores calculados com os medidos.

Caso seja necessário, altera equalitativamente os valores para se ajustarem à nova projecção.

Depois segue para outra projecção e assim sucessivamente. A expressão geral é

, onde y é o pixel da imagem, é a projecção medida, é a projecção calculada, é o peso de para e N é o número de pixéis ao longo da projecção.

O Maximum Likelihood Expectation Maximization (MLEM) e o Ordered Subsets Expectation Maximization (OSEM) são semelhantes ao ART, mas usa o quociente entre a estimative e os valores, em vez de ser a soma.

(20)

Reconstrução 3D

Pode-se usar um modo de reconstrução 2D, em que cada plano bidimensional é reconstruído de forma independente e depois empilham-se os diferentes planos para formar uma imagem 3D. Outra alternativa é usar o modo de reconstrução 3D, em que os dados das projecções têm 4-dimensões (projecções 2D para diferentes ângulos azimutais e polares). A reconstrução 2D é muito mais rápida.

Ruído

A estatística de contagem de eventos obedece a uma distribuição estatística de Poisson. O ruído pode ser reduzido à custa da resolução de imagem utilizando uma janela de apodização no filtro de rampa (algoritmo FBP) e regulando a frequência de corte.

(21)

RESTAURO DE IMAGEM

A degradação de uma imagem pode ser modelizada através de uma função de degradação H que, juntamente com um termo aditivo de ruído , opera uma imagem de entrada para produzir uma imagem degradada . Se H for linear e invariante no espaço, a imagem degradada é dada por: . Dado e sabendo alguma coisa sobre a função de degradação H e sobre o ruído , é possível obter uma estimativa (restauro) da imagem original: .

A principal fonte de ruído em imagens digitais vem da digitalização e/ou transmissão.

Os sensores são afectados por luminosidade, temperatura …

Com a excepção do ruído periódico, assume-se que o ruído é independente das coordenadas espaciais e que é não correlacionado com a imagem. Esta situação não ocorre em técnicas de imagem que se baseiam na contagem de eventos, como em Medicina Nuclear.

Ruído Gaussiano

Ruído caracterizado por uma média e uma variância .

Ruído de Rayleigh

Ruído caracterizado por uma média e uma variância .

Ruído de Erlang (Gamma)

Ruído caracterizado por uma média e uma variância

Ruído Exponencial

Ruído caracterizado por uma média e uma variância

Corresponde ao caso especial de Erlang para b=1.

Ruído Uniforme

(22)

Ruído caracterizado por uma média

e uma variância

Ruído de Impulso (“sal-e-pimenta”)

Ruído bipolar.

Restauro na presença de ruído apenas

Quando o ruído é desconhecido, não se pode subtrair à imagem. Neste caso, a melhor solução é usar uma filtragem. Além dos já referidos, podemos usar: filtro de média aritmética, filtro de média geométrica, filtro de média harmónica, filtro de média contra-harmónica.

Filtro de média aritmética: é uma máscara (boxcar average) de convolução com valores todos iguais. O ruído é reduzido à custa do esborratamento da imagem.

Filtro de média geométrica: filtro que calcula a média geométrica:

. A imagem perde menos detalhes do que na média aritmética.

Filtro de média harmónico: Funciona bem com o ruído do tipo “sal” mas falha com o tipo “pimenta”. Funciona também bem para outros ruídos, como o gaussiano.

Filtro de média contra-harmónico: Filtro bom para o ruído sal-e-pimenta.

, onde Q é a ordem do filtro.

Segmentação da imagem

Ligação de arestas e detecção de contornos

Idealmente, devem devolver-se apenas descontinuidades de intensidade dos pixéis das fronteiras entre regiões. No entanto, na prática, o ruído e iluminação uniforme originam quebras na imagem. Para resolver isto, normalmente aplicam-se técnicas de ligação e detecção de contornos.

Este processamento pode ser local, em que se usam os pixéis numa pequena vizinhança (3x3, 5x5) e se ligam os pontos semelhantes para ter uma fronteira/aresta/contorno de pixéis com propriedades semelhantes. Estas técnicas fazem uso da magnitude e direcção do vector gradiente para reconhecer pixéis com propriedades semelhantes.

(23)

O processamento pode também ser global, em que se identificam pontos das arestas como pertencendo a uma mesma curva de determinada forma (em geral, uma recta). Para tal, usa-se a transformada de Hough, que transforma uma recta no espaço num ponto no plano ab (onde a é o declive da recta e b a ordenada na origem). O declive e a ordenada na origem de todas as rectas que passem por um ponto do espaço dão origem a uma única recta no plano ab. Por seu lado, quando duas rectas no plano ab se intersectarem, isso indica que esses pontos pertencem à mesma recta no espaço (pois têm os mesmos valores de a e b). E é assim que se identificam pontos correspondentes ao mesmo contorno.