Redução de dimensionalidade utilizando entropia condicional média: aplicações em filtragem de imagens e em reconhecimento de texturas

(1)

Redução de dimensionalidade utilizando entropia condicional média: aplicações

em filtragem de imagens e em reconhecimento de texturas

David C. Martins-Jr, Roberto M. Cesar-Jr., Junior Barrera

USP–Universidade de S˜ao Paulo

IME–Instituto de Matem´atica e Estat´ıstica

Rua do Mat˜ao, 1010 - Cidade Universit´aria

CEP: 05508-090, S˜ao Paulo, SP, Brasil

{davidjr,cesar,jb}@ime.usp.br

Resumo

A redução de dimensionalidade é um problema muito importante em reconhecimento de padrões, podendo ser formulada como um problema de otimização. Dentre as técnicas de redução de dimensionalidade, a de seleção de caracter´ısticas foi nosso principal foco. Para tratar casos mais genéricos, este trabalho propõe uma função critério, baseada em princ´ıpios de teoria estat´ıstica como entro-pia e informação mútua, a ser embutida nos algoritmos de seleção de caracter´ısticas. A proposta dessa abordagem é possibilitar a classificação dos dados em duas ou mais classes, levando em conta um pequeno subespaço de carac-ter´ısticas. Resultados de filtragem de imagens e de reco-nhecimento de texturas corroboram a técnica introduzida.

1. Introduc¸˜ao

A área de reconhecimento de padrões visa resolver proble-mas de classificação de objetos ou padrões em um número de categorias ou classes [1]. Um sistema de reconhecimento de padrões tem como finalidade associar um padrão desco-nhecido a uma classe com base em medidas definidas so-bre um espaço de caracter´ısticas. Em diversas aplicações, a dimensão do espaço de caracter´ısticas dos objetos tende a ser relativamente grande, tornando a tarefa de classificação bastante complexa e sujeita a erros. Deve-se a esse fato a importância do estudo do problema de redução de dimensi-onalidade em reconhecimento de padrões.

A redução de dimensionalidade é um problema genérico no qual se deseja identificar um subespaço suficientemente reduzido de caracter´ısticas que seja capaz de representar qualquer padrão conhecido de acordo com um determinado critério. Existem diversas abordagens para tratar este pro-blema, dentre as quais o enfoque foi sobre seleção de carac-ter´ısticas.

A seleção de caracter´ısticas pode ser aplicada em várias situações onde verifica-se um grande espaço de caracter´ısticas e deseja-se selecionar um subespaço

adequado. Aplicac¸˜oes em processamento de

ima-gens figuram entre elas, tendo sido os principais al-vos de nosso estudo. A dissertac¸˜ao de mestrado [2],

dispon´ıvel em http://www.vision.ime.usp.br/

˜davidjr/mestrado/dissertacao.pdf, prop˜oe

uma função critério para seleção de caracter´ısticas base-ada em conceitos de teoria da informação, tendo centrali-zado os esforços sobre projeto de W-operadores em análise e processamento de imagens. O critério desenvolvido foi aplicado com sucesso para seleção de caracter´ısticas nesse problema.

Este artigo é dividido do seguinte modo. A Seção 2 apre-senta uma visão geral sobre a área de reconhecimento de padrões, bem como a importância da redução de dimensi-onalidade nesse contexto. A Seção 3 formula o problema de seleção de caracter´ısticas, fazendo uma s´ıntese dos prin-cipais algoritmos e funções critério que buscam resolvê-lo. A Seção 4 apresenta a noção de entropia condicional e a forma com que esse conceito foi utilizado neste trabalho como função critério para seleção de caracter´ısticas. Re-sultados dessa abordagem através de experimentos com da-dos simulada-dos e de processamento de imagens (filtragem de imagens ruidosas e reconhecimento de texturas) são discu-tidos na Seção 5. Este texto é finalizado com uma breve conclusão encontrada na Seção 6.

2. Reconhecimento de padr˜oes

Atribuir um rótulo a um determinado objeto ou padrão é o objetivo final de reconhecimento de padrões. Inicialmente, temos os objetos do mundo real, sendo desejado particioná-los em classes com base em suas respectivas caracter´ısticas. Objetos que partilham alguma relação particular entre si são

(2)

pertencentes `a mesma classe, ou seja, possuem um mesmo

r´otulo.

Há diversas abordagens para se realizar reconhecimento de padrões. Dentre elas, este trabalho se encaixa justa-mente na abordagem estat´ıstica, em que cada padrão é representado por um vetor aleatório de n caracter´ısticas

X = (X1, X2, ..., Xn) [1]. Cada padr˜ao observado xi =

(x1, x2, ..., xn) ´e uma amostra de X.

Um sistema de reconhecimento estat´ıstico de padr˜oes ´e composto principalmente pelos seguintes subsistemas [3, 4]:

• sistema de aquisição dos dados, através de sensores ou

cˆameras, por exemplo;

• sistema de pr´e-processamento, para eliminar ru´ıdos e

normalizar os dados;

• extrator de caracter´ısticas, que cria um vetor de

carac-ter´ısticas `a partir dos dados obtidos;

• sistema de reduc¸˜ao de dimensionalidade, onde se

ana-lisa o conjunto de caracter´ısticas e devolve um outro conjunto contendo apenas algumas das caracter´ısticas mais importantes, ou uma combinac¸˜ao de algumas de-las;

• classificador, que toma uma certa decis˜ao ap´os a

an´alise de um determinado padr˜ao.

Dado um conjunto de amostras de treinamento, o obje-tivo principal em reconhecimento de padrões é o de projetar um classificador que infira um determindado rótulo a um novo padrão a partir desse conjunto com a menor margem de erro poss´ıvel. Se cada uma dessas amostras do conjunto de treinamento já possu´ır um rótulo associado conhecido, trata-se de classificação supervisionada. Existe também a

classificação não-supervisionada na qual as amostras não

possuem rótulo conhecido a priori [5]. Nossa pesquisa tem se concentrado no primeiro tipo de classificação.

Dimensionalidade ´e o termo atribu´ıdo ao n´umero de

ca-racter´ısticas utilizadas na representação de padrões de ob-jetos, ou seja, à dimensão do vetor X. Reduzir a dimensi-onalidade significa selecionar um subespaço do espaço de caracter´ısticas para representar os padrões. A redução de dimensionalidade faz-se necessária para evitar o problema

da dimensionalidade [4].

O problema da dimensionalidade ou comportamento da “curva em U” [4] é um fenômeno em que o número de amostras de treinamento exigido para que um classificador tenha um desempenho satisfatório é dado por uma função exponencial da dimensão do espaço de caracter´ısticas. Este é o principal motivo pelo qual a realização de redução de dimensionalidade se faz importante em problemas de classificação nos quais os padrões medidos possuem um

n´umero elevado de atributos e apenas um n´umero limitado de amostras de treinamento.

A Figura 1 ilustra o problema da “curva em U”. Con-sidere um n´umero de amostras de treinamento fixo. Para dimens˜oes entre zero e m1, adicionar caracter´ısticas

im-plica melhores resultados de classificação, pois o número de caracter´ısticas nessa região é insuficiente para separar as classes. Entre m1 e m2, a adição de caracter´ısticas não

diminui significativamente a taxa de erro do classificador, implicando que as caracter´ısticas mais importantes j´a foram inseridas at´e o ponto m1. O problema da dimensionalidade

ocorre de fato na região posterior a m2onde a adição de

ca-racter´ısticas piora o desempenho do classificador devido ao número insuficiente de amostras em relação ao número de caracter´ısticas.

Figura 1. Gr áfico da taxa de erro em funç ão da dimen-sionalidade com n úmero fixo de amostras ilustrando o pro-blema da “curva em U”.

Existem basicamente duas abordagens para se efetuar redução de dimensionalidade: fusão (ou extração) de ca-racter´ısticas e seleção de caca-racter´ısticas [6]. Os algoritmos de fusão de caracter´ısticas criam novas caracter´ısticas a par-tir de transformações ou combinações do conjunto original. Já os métodos de seleção buscam selecionar o melhor sub-conjunto de caracter´ısticas de acordo com um algoritmo de busca orientado por uma função critério.

3. Selec¸˜ao de caracter´ısticas

Seja X = (X1, X2, ..., Xn) um vetor aleat´orio denominado

vetor de caracter´ısticas. Seja Y uma vari´avel aleat´oria

de-nominada classe ou r´otulo. Classificar um padr˜ao x =

(x1, x2, ..., xn), isto é, uma amostra de X, é associar a ele um rótulo y ∈ {0, 1, ..., c}. Em reconhecimento de padrões por classificação supervisionada, dado um conjunto de amostras de treinamento T onde cada amostra é repre-sentada pelo par (x, y), deseja-se obter um bom classifica-dor representado por uma função ψ tal que ψ(x) = y.

Selecionar caracter´ısticas significa tentar descobrir um subconjunto Z do conjunto potˆencia P(I) (conjunto de to-dos os poss´ıveis subconjuntos de I = {1, 2, ..., n}), em que

(3)

I ´e o conjunto de ´ındices do espac¸o total de caracter´ısticas,

tal que XZ seja um bom subespac¸o representante de X. Por exemplo, se Z = {1, 3, 5}, ent˜ao XZ = X{1,3,5} =

{X1, X3, X5}.

Após a seleção de caracter´ısticas, projeta-se um classifi-cador ψ baseado em XZtal que ψ(xZ) = y.

Como se pode ver, seleção de caracter´ısticas é um pro-blema de otimização que, dado um conjunto de n carac-ter´ısticas, objetiva selecionar um subconjunto de tamanho d (d ≤ n) que otimiza uma determinada função critério. Ou seja, este problema é resolvido selecionando-se Z∗⊆ I de

acordo com a seguinte equac¸˜ao (1).

Z∗: F(XZ∗) = min_Z⊆I{F(X_Z)}, (1)

na qual F (·) denota a função critério. Dependendo da função critério, pode ser conveniente maximizá-la ao invés de minimizá-la.

´

E importante notar que a exploração de todos os ele-mentos de P(I) solucionaria o problema, mas isto é im-praticável em geral. Portanto, a seleção de caracter´ısticas engloba duas partes fundamentais: um algoritmo de busca e uma função critério.

Existem heur´ısticas de busca que tentam obter um con-junto sub-ótimo explorando um espaço de busca muito me-nor do que o espaço inteiro das combinações. As mais conhecidas e utilizadas são as seguintes (todas elas são heur´ısticas determin´ısticas de solução única):

• Melhores Caracter´ısticas Individuais [1, 7]: a mais

simples de todas;

• Busca Seq¨uencial para Frente (SFS - Sequential

Forward Search) [1, 7]: simples, eficiente e em

ge-ral apresenta resultados melhores que a heur´ıstica an-terior;

• Busca Seq¨uencial para Frente Generalizada (GSFS

-Generalized Sequential Forward Search) [1, 8]: como

a anterior, permitindo também adição de subconjuntos de caracter´ısticas de tamanho fixo;

• Mais l - menos r (PTA - Plus l - Take Away r): tenta

amenizar o efeito nesting1[1, 8];

• Busca Seq¨uencial Flutuante para Frente (SFFS -

Se-quential Floating Forward Search) [1, 9]: melhor

custo-benef´ıcio (eficiente com resultados muito bons);

• Busca Seq¨uencial Flutuante Adaptativa para Frente

(ASFFS - Adaptative Sequential Floating Forward

Se-arch) [8]: resultados um pouco melhores que o da

heur´ıstica anterior, por´em muito mais lentos.

1_{Efeito nesting: nem sempre as melhores caracter´ısticas individuais}

formam bons subespaços de caracter´ısticas quando combinadas entre si. Além disso, é poss´ıvel que caracter´ısticas ruins isoladamente formem bons subespaços quando combinadas.

Todos os algoritmos com a denominação “Forward” ou “para frente” possuem uma versão análoga que retira ao invés de adicionar elementos (“Backward” - para trás).

Com relação às funções critério, uma bastante utilizada é o erro do classificador. Quando não se sabe a distribuição dos dados, utiliza-se os padrões de treinamento e de teste no espaço determinado pelo conjunto de caracter´ısticas para avaliar o desempenho de um classificador [6]. Quanto me-nor o erro, melhor é o conjunto de caracter´ısticas. Mas deve-se tomar o cuidado de não estimar a probabilidade do erro do classificador após a seleção de caracter´ısticas com base no conjunto de treinamento e de testes utilizado no pro-cesso de seleção. Caso contrário, o classificador será ajus-tado especificamente para o conjunto de padrões utilizado em seu projeto, e a estimativa da probabilidade de erro será muito otimista.

Existe também uma classe de funções critério baseada em distância entre classes. Dentre as principais, temos [1, 6]:

• Distˆancia entre os centr´oides das classes: para

cal-cular essa medida, basta determinar os centr´oides das classes e medir a distˆancia entre eles.

• Distˆancia entre vizinhos mais pr´oximos, mais

distan-tes e média: no cálculo dessas distâncias, devemos

considerar, respectivamente, o m´ınimo, o máximo ou a média das distâncias entre os padrões de treinamento de duas classes diferentes.

• Distˆancia baseada em matrizes de espalhamento:

uti-lizam medidas de separabilidade baseadas em an´alise de discriminantes.

• Distˆancia de Mahalanobis: utilizada para medir a

distˆancia entre classes de padr˜oes.

• Distˆancia de Bhattacharyya e divergˆencia: baseia-se

nas funções densidade de probabilidade das classes, de forma que a distância espacial entre os conjuntos não seja considerada, mas sim a diferença entre a forma deles.

• Distâncias nebulosas: medidas que utilizam informações obtidas a partir da fuzzyficação en-tre conjuntos (transformação dos conjuntos de treinamento em conjuntos nebulosos), como os supor-tes dos conjuntos e os coeficiensupor-tes de pertinência dos padrões [10, 11].

A maior parte das funções critério baseadas em distância tendem a privilegiar caracter´ısticas que deixem as classes linearmente separáveis (Figura 2-a). Porém, existem ca-sos nos quais um subespaço de caracter´ısticas é conside-rado um bom sepaconside-rador, mesmo que ele não deixe as clas-ses linearmente separáveis. Exemplos disso estão ilustra-dos nas Figuras 2-b e 2-c. Um outro problema é que tais

(4)

critérios ficam restritos apenas a encontrar subespaços de caracter´ısticas que separam duas classes, embora na maior parte dos problemas de reconhecimento de padrões, existam mais de duas classes poss´ıveis.

(a) (b) (c)

Figura 2. (a) classes linearmente separ ´aveis; (b) classes c ˆoncavas entre si; (c) classes envolventes.

Para contornar esses problemas, propomos um critério para seleção de caracter´ısticas que não se baseia na geo-metria dos pontos formados pelos padrões no espaço, mas sim no grau de informação que um determinado subespaço de caracter´ısticas fornece com relação ao comportamento da variável de classe, independente do número de valores distintos que esta variável possa assumir. Esse critério é baseado em princ´ıpios de teoria estat´ıstica como entropia e

informação mútua. Tal critério distingue bons subespaços

de caracter´ısticas de acordo com a distribuição de probabili-dades condicionais entre suas instâncias e as classes, sendo independente do erro do classificador.

4. Seleção de caracter´ısticas por análise da

en-tropia condicional

Seja xZ uma amostra de XZ e Y uma variável aleatória representando o conjunto de rótulos. O interesse está em descobrir alguma maneira de medir quantitativamente a predição do comportamento de Y com base em xZ. Se Y for fortemente predito por xZentão, dado xZ, pode-se in-ferir o valor de Y com alta probabilidade de acerto. A res-posta a esta questão é encontrada na teoria da informação formulada por Claude Shannon [12].

O conceito de entropia (entropia de Shannon) é o de uma medida de informação calculada pelas probabilidades de ocorrência de eventos individuais ou combinados [13]. Sejam X e Y variáveis aleatórias e P a função probabili-dade. Formalmente, a entropia de X é definida como:

H(X) = −X

x∈X

P (x)logP (x) (2) A entropia conjunta de X e Y ´e definida como:

H(X, Y ) = −X

x∈X

X

y∈Y

P (x, y)logP (x, y) (3) E a entropia condicional de Y dado X:

H(Y |X) = −X

x∈X

X

y∈Y

P (y|x)logP (y|x) (4) Observação 1: caso a probabilidade P (·) seja nula, por convenção adota-se log0 = 0 para o cálculo da entropia H. Observação 2: todas as definições de entropia (Equações 2, 3 e 4) aplicam-se também para X sendo um vetor aleatório (X).

Informação mútua, M , (também conhecida como ganho de informação [14]) é definida como uma soma das

entro-pias individuais menos a entropia conjunta, sendo uma me-dida de correlação entre duas variáveis X e Y [13]. A entro-pia condicional H(Y |X) é a diferença da entroentro-pia conjunta

H(X, Y ) com relação à entropia individual H(X). Então: M (X, Y ) = H(X)+H(Y )−H(X, Y ) = H(Y )−H(Y |X)

(5) pois H(Y |X) = H(X, Y ) − H(X) [14].

A idéia central é encontrar o subespaço XZ de carac-ter´ısticas que maximiza a informação mútua média de to-das as poss´ıveis instâncias xZi, 1 ≤ i ≤ m com relação

a Y , sendo m o número de instâncias poss´ıveis de XZ. Em outras palavras, maximizar a informação mútua média neste caso é equivalente a encontrar o subespaço de carac-ter´ısticas que realiza a melhor predição do rótulo ou classe de um determinado padrão pertencente às amostras de trei-namento. Isto porque a Equação 5 pode ser interpretada do seguinte modo. Caso X consiga organizar adequadamente a informação sobre Y (H(Y |X) baixo), mesmo que Y te-nha um comportamento muito caótico (H(Y ) alto), então a informação obtida de Y através de X será bastante valiosa (M (X, Y ) alto).

Como os valores de Y são fixos para um determinado conjunto de treinamento, H(Y ) terá sempre o mesmo valor para qualquer conjunto XZ. Portanto, dada esta constatação e a Equação 5, quanto menor a informação mútua, maior a entropia condicional. Isto implica que a entropia condici-onal H(Y |XZ = xZi) é suficiente para avaliar

quantitati-vamente a informação de Y condicionada a uma poss´ıvel instância xZi de XZ. Com base na Equação 4, temos que a

fórmula de H(Y |XZ= xZi) é dada pela seguinte equação:

H(Y |XZ= xZi) = −

c

X

y=1

P (y|xZi)logP (y|xZi) (6)

em que c ´e o n´umero de classes de Y .

A motivação para o estudo da entropia como função critério para seleção de caracter´ısticas surge da capacidade que esse conceito estat´ıstico possui de medir o grau de aleatoriedade (ou de incerteza) de variáveis individuais ou combinadas. Dada a distribuição de XZ, quanto menor o

(5)

grau de aleatoriedade de Y condicionado aos valores de

XZ, mais informac¸˜ao teremos sobre o comportamento de

Y quando tomamos como referˆencia os valores de XZ. Um caso extremo ´e quando Y for totalmente determinado por

XZ, tendo grau de aleatoriedade nula, ou seja, a entropia condicional H(Y |XZ) neste caso ´e nula.

Para dar uma idéia sobre o potencial da entropia como critério para seleção de caracter´ısticas, considere o gráfico onde os rótulos Y são representados pela abscissa e a pro-babilidade de um padrão ser rotulado como Y = y dada a ocorrência da instância xZi representada pela ordenada

(Figura 3). Se ele apresentar um pico saliente (massa de probabilidades bem concentrada), isso significa que a entro-pia condicional H(Y |xZi) ´e pequena, isto ´e, xZi prediz os

rótulos de Y com boa confiança. Por outro lado, se o gráfico apresenta-se achatado (massa de probabilidades bem dis-tribu´ıda), a entropia H(Y |xZi) é alta, significando que xZi

não prediz Y . Portanto, a entropia condicional pode ser usada como um critério bastante apropriado para realizar seleção de caracter´ısticas.

Figura 3.(a) Baixa entropia; (b) Alta entropia.

Enfim, para decidir se XZprediz Y , basta calcular a en-tropia condicional m´edia de todas as poss´ıveis instˆancias

xZ1, xZ2, ..., xZm ponderada pelo n´umero de ocorrˆencias

de cada uma das instˆancias no conjunto de treinamento. A isto, denominamos entropia condicional m´edia de Y dado

XZ(denotado E[H(Y |XZ)]) definida pela Equac¸˜ao 7:

E[H(Y |XZ)] = m X i=1 H(Y |xZi) · oi t (7)

em que oi é o número de ocorrências da instância xZi no

conjunto de treinamento, t é o número de amostras do con-junto de treinamento e m é o número de instâncias poss´ıveis de XZ. O valor de m é dado por pd, em que p é o número de valores discretos que cada caracter´ıstica pode assumir, e

d é a dimensão de XZ(número de caracter´ısticas). A equação anterior funciona bem para os casos nos quais todas as poss´ıveis instâncias de XZ são observadas

pelo menos uma vez no conjunto de treinamento. Para os casos em que nem todas as instâncias são observa-das, é necessário um refinamento da fórmula para adequá-los. Subespaços de caracter´ısticas que possuem muitas instâncias não observadas no conjunto de treinamento são indesejados pois, caso essas instâncias apareçam nas amos-tras do conjunto de teste, um classificador baseado em tal subespaço acaba sendo forçado a inferir uma classe qual-quer a essas instâncias sem nenhum conhecimento a priori. Com a finalidade de amenizar esse problema, supo-nha que XZi seja uma instância não observada de XZ.

Como este ´e um caso indesejado, podemos atribuir en-tropia m´axima a H(Y |XZi). Para isso, basta fazer

com que P (Y |XZi) tenha distribuic¸˜ao uniforme, ou seja,

P (y|XZi) = 1/c para todo y ∈ Y = {1, 2, ..., c}. Como

espera-se que essas instâncias sejam raras nas amostras de teste se o conjunto de treinamento for adequado, parece uma boa idéia fazer com que suas entropias entrem com peso m´ınimo no cômputo da entropia condicional média. So-mando uma constante α > 0 ao número de ocorrências de cada uma das poss´ıveis instâncias, garante-se que o menor peso será dado a essas instâncias não observadas. Assim, a fórmula da entropia condicional média, que também leva em conta as instâncias não observadas, pode ser definida pela Equação 8. Utilizamos α = 1 em todos os experimen-tos realizados. E[H(Y |XZ)] = m X i=1 H(Y |xZi) · (oi+ α) αm + t (8)

em que H(Y |xZi) = −log(1/c) caso xZi n˜ao tenha sido

observado no conjunto de treinamento (entropia máxima). Então o problema é resolvido selecionando-se Z∗ ⊆ I

de acordo com a seguinte equac¸˜ao (9):

Z∗_{: H(Y |X}

Z∗) = min_Z⊆I{E[H(Y |X_Z)]} (9)

em que I = {1, 2, ..., n} (conjunto de ´ındices do espaço to-tal de n caracter´ısticas) e E[H(Y |XZ)] é dada pela equação 8.

Portanto, a exploração de todos os poss´ıveis subconjun-tos de I solucionaria o problema, mas isto é impraticável em geral. Para uma s´ıntese dos algoritmos determin´ısticos de solução única mais conhecidos e utilizados, e que podem ser aplicados na prática, ver Seção 3.

5. Experimentos e resultados

Realizamos experimentos utilizando entropia condicional média para seleção de caracter´ısticas em dados sintéticos e dois problemas de processamento de imagens: filtragem de imagens ruidosas e reconhecimento de texturas. Ambos

(6)

os problemas de processamento de imagens foram tratados atrav´es de projeto autom´atico de W-operadores [15, 16, 17].

5.1. Dados sint´eticos

Com relação aos dados sintéticos, estudamos o comporta-mento da curva formada pelo valor da entropia condicio-nal média em função da dimensão do subespaço de carac-ter´ısticas com um número fixo de amostras de treinamento. Fixando-se α = 1, observamos empiricamente que essa função critério forma uma “curva em U” (Figura 4) e que a dimensão em que ocorre o menor valor da entropia condi-cional média nunca supera o logaritmo do número de amos-tras de treinamento (Dmin ≤ logpt). Portanto, o espaço de busca utilizando esse critério fica bastante reduzido. Além disso, esse critério reflete bem o problema da dimensionali-dade, já que não adianta percorrer subespaços de dimensão muito grande devido ao número insuficiente de amostras de treinamento para estimar corretamente as probabilidades condicionais para cada uma das instâncias poss´ıveis desses subespaços. 1 2 3 4 5 6 7 8 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 d E[H(Y|X d )]

Figura 4. Gr áfico t´ıpico deE[H(Y |XZ)]em funç ão da di-mensionalidade deXZ. Neste exemplo, cada caracter´ıstica

pode assumir 3 valores poss´ıveis e foram usadas 81 (34₎

amostras de treinamento, sendo que a dimens ˜ao 4 (log381)

foi o ponto de m´ınimo da curva em U.

Uma outra caracter´ıstica importante da entropia con-dicional média é que ela não leva em conta a geome-tria do conjunto de pontos formada no espaço das carac-ter´ısticas. A entropia baseia-se apenas na informação que um subespaço considerado fornece sobre os rótulos. Por exemplo, seja um espaço de duas caracter´ısticas (x1, x2)

em {0, 1, 2} × {0, 1, 2} e Y ∈ {0, 1} a variável de clas-ses. A Figura 5 mostra três exemplos nos quais a entropia condicional média é zero ((x1, x2) contém informação

to-tal sobre Y ), embora apenas a Figura 5(a) seja linearmente separ´avel.

Mostramos através desses exemplos que a entropia não privilegia apenas subespaços linearmente separáveis, sendo um critério mais geral para seleção de caracter´ısticas.

(a) (b) (c)

Figura 5. Exemplos de espaços em queE[H(Y |X)] = 0. Os s´ımbolos “c´ırculo” e “×” indicam as amostras das suas respectivas classes. (a) grupos linearmente separ áveis; (b) grupos c ôncavos; (c) grupos envolventes.

5.2. Projeto de W-operadores

A metodologia proposta foi aplicada para estimar um W-operador de espaço restrito dos dados de treinamento [15, 16, 17]. Um W-operador é uma transformação de ima-gem localmente definida e invariante por translação [18]. A idéia é estimar uma sub-janela ótima W∗que maximiza a informação sobre a distribuição conjunta desconhecida de uma dada janela W e dos dados de treinamento dispon´ıveis das formas obtidas de W .

Para explorar o conceito de entropia, as posições da janela W que projetam a sua forma são tomadas como variáveis (caracter´ısticas) que compõem um vetor aleatório

X. Ent˜ao, construir W pode ser visto como um problema

de seleção de caracter´ısticas que usa E[H(Y |XZ)] como uma função critério. A Figura 6 ilustra esse conceito, mos-trando duas formas poss´ıveis para W . Nesta figura, as ca-racter´ısticas selecionadas XZ são indicadas como células pretas, ou seja, 5 caracter´ısticas foram selecionadas em 6-a enquanto 13 foram selecionadas em 6-b.

Figura 6.Janelas com (a) 5 caracter´ısticas e (b) 13 carac-ter´ısticas.

O conjunto de treinamento é obtido através de pares de imagens ideal/observada, nas quais os vetores de carac-ter´ısticas (padrões) são obtidos através de translações de uma janela de dimensões fixas sobre as imagens observadas e seus respectivos rótulos são obtidos através do pixel cen-tral da janela na imagem ideal correspondente. A Figura 7 ilustra o processo de obtenção de uma amostra.

Aplicamos nossa abordagem para construção de W-operadores em dois problemas de processamento de ima-gens: filtragem de imagens ruidosas binárias e reconheci-mento de texturas em imagens n´ıveis de cinza.

(7)

Figura 7. Obtenç ão de uma amostra de treinamento para construç ão de um W-operador.

5.2.1. Filtragem de imagens ruidosas

A aplicação da entropia condicional média para projetar W-operadores foi cuidadosamente analisada em diversos expe-rimentos de filtragem de imagens binárias [15, 17]. Ru´ıdo sal e pimenta foi adicionado às imagens binárias, e W-operadores para filtrar essas imagens ruidosas foram gera-dos usando a metodologia proposta.

O ru´ıdo sal e pimenta é usualmente tratado em proces-samento de imagens pelo filtro da mediana. Comparamos os resultados dessa técnica tradicional com a técnica de construção de W-operadores usando o algoritmo SFS de seleção de caracter´ısticas com a função critério proposta (entropia condicional média) definida pela Equação 8. A performance da técnica proposta se mostrou superior, prin-cipalmente nos casos em que as imagens apresentam formas bem finas. Considere as imagens das Figuras 8(a) e 8(b) como sendo a imagem ideal e um exemplo de imagem rui-dosa respectivamente. A Figura 8(c) mostra o resultado da aplicação da mediana, enquanto a Figura 8(d) mostra o re-sultado da aplicação da nossa técnica (erro absoluto médio (MAE) 10 vezes inferior ao do filtro da mediana).

Para melhorar os resultados, pode-se aplicar a ima-gem resultado como entrada para o mesmo W-operador já constru´ıdo (retroalimentação). Após a aplicação da retroalimentação, o resultado é melhorado, mesmo nos ca-sos em que as imagens apresentam muitas estruturas finas. Já a aplicação da mediana com retroalimentação não me-lhora significativamente, chegando a piorar o resultado nos casos em que as imagens apresentam muitas estruturas fi-nas.

5.2.2. Reconhecimento de texturas

Aplicamos o nosso método proposto de construção de W-operadores também no contexto de reconhecimento de

tex-turas [16, 17]. A imagem da Figura 9 representa uma composic¸˜ao de 9 texturas com 256 n´ıveis de cinza (c = 9 e

k = 256). As texturas desta imagem serviram como entrada

para compor o conjunto de treinamento sobre o qual o W-operador será constru´ıdo. Uma janela de dimensões fixas é transladada em cada pixel selecionado, coletando o vetor de caracter´ısticas observado e seu respectivo rótulo (textura). Cada um desses vetores é quantizado para evitar restrições excessivas no espaço dos W-operadores que podem ser es-timados adequadamente. Dado um grau de quantização

k0 _{< k, o menor e o maior n´ıvel de cinza observados no} vetor de caracter´ısticas considerado formam um intervalo que é dividido em k0intervalos de mesmo tamanho. Esses intervalos são usados para fazer a quantização do vetor de caracter´ısticas em questão. Assim, o vetor quantizado junto com seu rótulo formam uma amostra de treinamento.

Figura 9.Imagem com 9 texturas e 256 n´ıveis de cinza;

O algoritmo de seleção de caracter´ısticas usado para se-lecionar os pontos da janela foi o SFFS, sendo que a função critério utilizada para orientá-lo foi a entropia condicional média como definida na Equação 7.

Analisamos o erro MAE obtido pela aplicação de nossa técnica sobre a imagem da Figura 9 para diferentes graus de quantização k0 (2, 4 e 8) e número de amostras dis-tintos (10%, 20% e 40% dos pixels de cada textura esco-lhidos ao acaso). Em todos os casos, cada região corres-pondente a uma das texturas recebeu o rótulo correto com maioria significativa. A Figura 10 mostra um histograma de classificação dos pixels das nove regiões consideradas, usando k0 = 8 e 40% da imagem para formar o conjunto

de treinamento. Esses histogramas n˜ao levam em conta os r´otulos indefinidos.

Para remover os rótulos indefinidos e melhorar a segmentação final de texturas, propomos um passo de pós-processamento que aplica um filtro de moda2 diversas ve-zes, uma vez para cada uma das seguintes dimensões de

2_{classificador que translada uma janela sobre todos os pixels da imagem}

(8)

(a) (b)

(c) (d)

Figura 8. (a) Imagem ideal; (b) Imagem com 3% de ru´ıdo sal e pimenta; (c) Resultado final ap ós aplicaç ão do filtro da mediana com uma janela3 × 3(janelas maiores levaram a resultados piores); (d) Resultado final ap ós aplicaç ão do nosso m étodo, utilizando uma imagem ruidosa para compor o conjunto de treinamento para definir a janela e treinar o W-operador sob a janela obtida. É importante reparar que o m étodo proposto preserva melhor as estruturas finas da imagem do que o filtro da mediana.

janela nessa mesma ordem: 15 × 15, 13 × 13, 11 × 11, 9

× 9, 7 × 7, 5 × 5 e 3 × 3. Assumindo que h´a mais r´otulos

corretos do que incorretos (ver Figura 10), este passo ajuda a eliminar erros.

A Figura 11 apresenta a segmentação final de texturas sobre a imagem da Figura 9 para quatro pares distintos (k0, amostras de treinamento em % de pixels). Resultados ob-tidos da aplicação desse método sobre as texturas da Fi-gura 9 após 10 execuções para cada par considerado (k0, amostras de treinamento em % de pixels) são sumarizados na Tabela 1. Um resultado obtido sobre o mosaico da Fi-gura 12(a) usando 40% dos pixels das texturas da FiFi-gura 9 para projetar o W-operador é ilustrado na Figura 12(c), mos-trando que nosso método é adequado para segmentação de pequenas texturas. A Figura 12(b) mostra sua correspon-dente rotulação ideal.

6. Conclus˜ao

Neste texto, foi apresentada uma função critério para seleção de caracter´ısticas adequada para separar duas ou mais classes distintas e que não privilegia subespaços line-armente separáveis. Ela baseia-se nas entropias condicio-nais da variável classe dadas as instâncias de um subespaço de caracter´ısticas. O fator α na nossa formulação da equação da entropia condicional média (Equação 8) como forma de atribuir pesos às instâncias não observadas é de fundamental importância para evitar erros de estimação que se comete ao selecionar subespaços com dimensão muito grande através de conjuntos de treinamento relativamente pequenos. Sem esse fator, o aumento da dimensão sem-pre leva a menores entropias condicionais, dessem-prezando a “curva em U” t´ıpica do problema da dimensionalidade.

(9)

1 2 3 4 5 6 7 8 9 0 0.5 1 textures frequency 1 2 3 4 5 6 7 8 9 0 0.5 1 textures frequency 1 2 3 4 5 6 7 8 9 0 0.5 1 textures frequency 1 2 3 4 5 6 7 8 9 0 0.5 1 textures frequency 1 2 3 4 5 6 7 8 9 0 0.5 1 textures frequency 1 2 3 4 5 6 7 8 9 0 0.5 1 textures frequency 1 2 3 4 5 6 7 8 9 0 0.5 1 textures frequency 1 2 3 4 5 6 7 8 9 0 0.5 1 textures frequency 1 2 3 4 5 6 7 8 9 0 0.5 1 textures frequency

Figura 10. Histogramas de freq ü ência dos r ótulos ap ós a classificaç ão realizada pelo W-operador para cada regi ão da Figura 9 (40% dos pixels usados para formar o conjunto de treinamento;k0_{= 8}

). As texturas s ão numeradas de 1 a 9 e os histogramas est ão dispostos em ordem de varredura por esses n úmeros.

(a) (b) (c) (d)

Figura 11. Resultados finais ap ós a aplicaç ão dos filtros de moda. (a)k0 _{= 2}

, 10% dos pixels formando o conjunto de treinamento, MAE = 0.1005; (b)k0 _{= 2}

, 20% dos pixels formando o conjunto de treinamento, MAE = 0.0375; (c)k0₌

4, 20% dos pixels formando o conjunto de treinamento, MAE = 0.0092; (d)k0 _{= 8}

, 40% dos pixels formando o conjunto de treinamento, MAE = 0.0036.

(a) (b) (c)

Figura 12.(a) Mosaico de texturas obtidas da Figura 9; (b) Rotulac¸ ˜ao ideal; (c) Resultado final usandok0 _{= 8}

e 40% dos pixels das texturas da Figura 9 formando o conjunto de treinamento (MAE = 0.0213).

Um problema em aberto que se originou deste trabalho

Tabela 1. Média, desvio padrão, m´ınimo e máximo para os erros MAE após 10 execuções para crescente número de amostras (% de pixels) e crescente n´ıvel de quantização k0.

Amostras de treinamento 10% 20% 40% média 0.0899 0.0345 0.0151 ±d. p. ±0.0099 ±0.0049 ±0.0019 k0_{= 2} min 0.0723 0.0281 0.0121 max 0.1020 0.0420 0.0182 média 0.0711 0.0097 0.0087 ±d. p. ±0.0082 ±0.0008 ±0.0010 k0_{= 4} min 0.0628 0.0085 0.0071 max 0.0859 0.0110 0.0100 média 0.0270 0.0176 0.0038 ±d. p. ±0.0033 ±0.0019 ±0.0003 k0_{= 8} min 0.0197 0.0157 0.0033 max 0.0308 0.0218 0.0043

´e como estimar corretamente o valor de α. Embora o valor

α = 1 tenha sido adotado pelos nossos experimentos com

resultados satisfat´orios, estimar o valor de α, talvez com base no tamanho do conjunto de treinamento, pode resultar em subespac¸os ainda melhores.

Estudar o valor da entropia condicional média também é outro desafio para descobrir se um subespaço de carac-ter´ısticas selecionado realmente é um bom preditor dos rótulos. E fato que, fixado α, o subespaço de carac-´ ter´ısticas selecionado será o melhor preditor dentre todos os subespaços, caso o algoritmo de busca tenha testado todas as combinações poss´ıveis. O problema é que exis-tem situações nas quais não existe um subespaço de carac-ter´ısticas que seja um bom preditor dos rótulos. No pro-blema de identificar redes de regulação gênica, por exem-plo, resolver esta questão é fundamental pois pode ser que existam genes cujas expressões não sejam influenciadas por nenhum outro gene (nós disjuntos da rede).

As aplicações abordadas na dissertação de mestrado [2] foram bastante diversificadas, abrangendo duas áreas da computação: bioinformática e processamento de imagens. A função critério proposta para seleção de caracter´ısticas vem atendendo satisfatoriamente as exigências de cada área. Isto comprova a generalidade do método proposto. As pes-quisas que vinham sendo feitas utilizando a abordagem pro-posta tanto na área de bioinformática como em processa-mento de imagens estão em andaprocessa-mento. Além disso, es-tamos desenvolvendo um algoritmo “branch and bound” de seleção de caracter´ısticas que explora a propriedade da “curva em U” formada pelos valores das entropias condi-cionais médias em função da dimensão das caracter´ısticas. O objetivo desse algoritmo é atingir o subespaço de ca-racter´ısticas com solução ótima utilizando muito menos

(10)

esforc¸o computacional do que a busca exaustiva.

Além das contribuições citadas aqui, dez publicações foram originadas deste trabalho, incluindo [15, 16, 17, 19, 20, 21], dois resumos submetidos para o Internatio-nal Conference on Bioinformatics and ComputatioInternatio-nal Bi-ology (ICoBiCoBi) 2003, e dois resumos submetidos para o AB3C X-meeting. Uma dessas publicações [20] rece-beu o prêmio de melhor apresentação no Fifth Internatio-nal Conference for the Critical Assessment of Microarray

Data Analysis (CAMDA 2004 -http://www.camda.

duke.edu/camda04) levando à publicação posterior de

um artigo completo [21].

Agradecimentos

Os autores agradecem à FAPESP (99/12765-2, 01/ 09401-0, 02/04611-0 e 04/03967-0), CNPq (300722/98-2, 52.1097/01-0 e 468413/00-6) e CAPES pelo apoio finan-ceiro. Este trabalho foi parcialmente financiado pelo pro-cesso 1 D43 TW07015-01 do National Institutes of He-alth, USA. Agradecemos também a Daniel O. Dantas pela sua idéia complementar com relação ao pós-processamento usado no reconhecimento de texturas (filtro de moda apli-cado mais de uma vez).

7. Referˆencias

[1] S. Theodoridis and K. Koutroumbas. Pattern Recognition. Academic Press, NY, 1999.

[2] D. C. Martins-Jr. Redução de dimensionalidade utilizando entropia condicional média aplicada a problemas de bioin-formática e processamento de imagens. Master’s thesis, Instituto de Matemática e Estat´ıstica - Universidade de São Paulo, Rua do Matão, 1010, 2004.

[3] R. O. Duda, P. E. Hart, and D. Stork. Pattern Classification. John Wiley & Sons, NY, 2000.

[4] A. K. Jain, P. W. Duin, and J. Mao. Statistical pattern re-cognition: A review. IEEE Transactions on Pattern Analysis

and Machine Intelligence, 22(1):4–37, January 2000.

[5] S. Watanabe. Pattern Recognition: Human and Mechanical. Wiley, 1985.

[6] T. E. Campos. Técnicas de seleção de caracter´ısticas com aplicações em reconhecimento de faces. Master’s thesis, Instituto de Matemática e Estat´ıstica - Universidade de São Paulo, Rua do Matão, 1010, May 2001.

[7] A. K. Jain and D. Zongker. Feature-selection: Evaluation, application, and small sample performance. IEEE Trans. on

Pattern Analysis and Machine Intelligence, 19(2):152–157,

February 1997.

[8] P. Somol, P. Pudil, J. Novovicov´a, and P. Pacl´ık. Adaptive floating search methods in feature selection. Pattern

Recog-nition Letters, 20:1157–1163, 1999.

[9] P. Pudil, J. Novovicov´a, and J. Kittler. Floating search methods in feature selection. Pattern Recognition Letters, 15:1119–1125, 1994.

[10] I. Bloch. On fuzzy distances and their use in image proces-sing under imprecision. Pattern Recognition, 11(32):1873– 1895, 1999.

[11] T. E. Campos, I. Bloch, and R. M. Cesar-Jr. Feature selection based on fuzzy distances between clusters: First results on simulated data. In Lecture Notes in Computer Science, Rio de Janeiro, Brasil, Mar. 2001. Springer-Verlag Press. [12] C. E. Shannon. A mathematical theory of communication.

Bell System Technical Journal, 27:379–423, 623–656, July,

October 1948.

[13] C. E. Shannon and Warren Weaver. The mathematical theory

of communication. Univ. of Illinois Press, 1963.

[14] M. A. Hall and L. A. Smith. Feature selection for machine learning: Comparing a correlation-based filter approach to the wrapper. In Proc. FLAIRS Conference, pages 235–239. AAAI Press, 1999.

[15] D. C. Martins-Jr, R. M. Cesar-Jr, and J. Barrera. W-operator window design by maximization of training data informa-tion. In Proceedings of XVII Brazilian Symposium on

Com-puter Graphics and Image Processing (SIBGRAPI), pages

162–169. IEEE Computer Society Press, October 2004. [16] D. C. Martins-Jr, R. M. Cesar-Jr, and J. Barrera. Automatic

window design for gray-scale image processing based on en-tropy minimization. In Manuel Lazo Cortes and Alberto San-feliu, editors, X Iberoamerican Congress on Pattern

Recog-nition, Lecture Notes in Computer Science. Springer-Verlag,

2005. (in press).

[17] D. C. Martins-Jr, R. M. Cesar-Jr, and J. Barrera. W-operator window design by minimization of mean conditional en-tropy. Pattern Analysis & Applications, 2005. submitted. [18] J. Barrera, R. Terada, R. Hirata-Jr., and N. S. T. Hirata.

Au-tomatic programming of morphological machines by PAC learning. Fundamenta Informaticae, pages 229–258, 2000. [19] J. Barrera, R. M. Cesar-Jr., D. O. Dantas, D. C. Martins Jr.,

and N. W. Trepode. From microarray images to biological knowledge. In Proceedings of the Second Brazilian

Sympo-sium on Mathematical and Computational Biology,http:

//www.biomat.org/sbbmc/index.html, 2002.

e-papers.

[20] J. Barrera, R. M. Cesar-Jr, D. C. Martins-Jr, R. Z. N. Vencio, E. F. Merino, M. M. Yamamoto, F. G. Leonardi, C. A. B. Pe-reira, and H. A. del Portillo. A new annotation tool for ma-laria based on inference of probabilistic genetic networks. In

Proc. Fifth International Conference for the Critical Assess-ment of Microarray Data Analysis, Durham, 2004.

[21] J. Barrera, R. M. Cesar-Jr, D. C. Martins-Jr, R. Z. N. Vencio, E. F. Merino, M. M. Yamamoto, F. G. Leonardi, C. A. B. Pereira, and H. A. del Portillo. Constructing probabilistic genetic networks of Plasmodium falciparum from dynami-cal expression signals of the intraerythrocytic development cycle. In J. S. Shoemaker and S. M. Lin, editors, Methods

of Microarray Data Analysis V. Simon, Springer, 2005. (in