• Nenhum resultado encontrado

3. F UNÇÕES DE D ISTÂNCIA E M ÉTODOS C OMPARATIVOS

3.8. Métodos Comparativos

3.8.3. Redução da Dimensionalidade

Cada imagem pode ser representada, através de seus n atributos, em um espaço n- dimensional, possibilitando, assim, a indexação da base de imagens por meio de estruturas de indexação multidimensionais ou métricas.

Porém, freqüentemente o número de atributos é elevado o suficiente para gerar problemas de desempenho que podem levar à inviabilidade do sistema. Isso ocorre porque: (a) o método comparativo utilizado pode envolver a manipulação de valores de atributos de forma cruzada, gerando um custo quadrático para o cálculo da função de distância; (b) a maioria dos métodos de indexação multidimensional demandam espaço de memória e/ou tempo que crescem exponencialmente.

Existe uma série de técnicas, propostas e testadas, para efetuar redução na dimensionalidade de um conjunto de atributos. Em [Kom, F. '01] algumas destas técnicas são discutidas.

Redução da dimensionalidade usando a dimensão fractal

Em [Traina-Jr, C. '00b] é proposto um método onde a redução da dimensionalidade se faz através da investigação da inter-dependência entre os atributos, que por sua vez é determinada utilizando-se a teoria de fractais. O método consiste em se inserir os atributos em um conjunto de verificação, um de cada vez e, a cada inserção, calcula-se o valor da "dimensão fractal" do conjunto. Quando um atributo inserido é dependente de outro que já faz parte do conjunto, o valor da dimensão fractal não se altera (ou sofre alteração desprezível), e, dessa forma, esse atributo pode ser desconsiderado na assinatura, reduzindo-se assim a dimensionalidade da mesma. Baseando-se nesse raciocínio, em [Souza, E. P. M. '02] é apresentado o algoritmo que implementa a técnica FD-ASE (Attribute Significance Estimator

based on the Fractal Dimension), que será descrita a seguir.

A existência de atributos correlatos em conjuntos de dados de alta dimensão é muito comum, o que leva ao uso de abordagens para redução da dimensionalidade baseada na eliminação de atributos dependentes. FD-ASE encontra um subconjunto de atributos independentes para um determinado conjunto de dados, além de identificar grupos de atributos correlatos. A técnica é baseada no conceito de dimensão intrínseca D de um conjunto de dados, isto é, a dimensionalidade do objeto, independente da dimensão do espaço onde o mesmo encontra-se inserido.

A idéia fundamental que suporta a descoberta de atributos correlatos consiste em calcular a dimensão intrínseca de seqüências incrementais (Si) de atributos, definidas por

inclusões incrementais de atributos, e usar a diferença entre valores de D de seqüências consecutivas para identificar a existência ou ausência de correlações entre atributos. Em outras palavras, considerando um conjunto de dados A={a1, a2, … aE} composto de E

atributos e uma seqüência de atributos Si ⊂ A, tem-seque D(Si) denota a dimensão intrínseca

do conjunto de dados, levando-se em conta apenas os atributos em Si. Um atributo ak ∈ (A -

Si) está de alguma forma correlacionado a pelo menos um atributo de Si se a adição de ak a Si

não causa uma mudança significativa em D(Si). Os atributos específicos aos quais ak está

correlacionado são descobertos por meio da comparação dos valores de D(Si ∪ ak) e D(Si ∪ ak

- ai), ∀ ai ∈ Si, de forma que uma alta diferença significa que o atributo ai não está

correlacionado a nenhum atributo em Si. Um valor limite, por exemplo, de 0.1 é usado para

determinar a significância de uma alteração no valor de D, ou seja, mudanças abaixo do limite não são consideradas significativas. Como regra, consideram-se limites baixos para identificar correlações fortes, tais como as lineares, enquanto limites mais altos são usados para identificar correlações fracas, tais como as não polinomiais.

Redução da dimensionalidade usando técnicas de mineração de dados

As técnicas de mineração de dados, ao executar tarefas tais como associação, classificação ou agrupamento, implicitamente acabam por determinar conjuntos de atributos que são relevantes para a discriminação entre os objetos manipulados. Esse processo pode ser usado para se descartar atributos pouco influentes, reduzindo, assim, a dimensionalidade do conjunto. A seguir são descritos dois algoritmos que podem ser utilizados com esse objetivo: um algoritmo clássico de classificação - o gerador de árvores de decisão C4.5, e um novo algoritmo gerador de regras de associação baseado em técnicas estatísticas – o StARMiner. C4.5. Indução de árvores de decisão [Quinlan, J. R. '86] é um processo de aprendizado de máquina no qual uma classificação pode ser obtida a partir de um conjunto de dados, por meio da geração de um conjunto de regras que pode ser visualizado na forma de uma estrutura de árvore [Russel, S. J. '03].

Dentre os diversos métodos existentes para a construção de classificadores, a indução de árvores de decisão apresenta diversas vantagens, tais como esforço computacional reduzido, simplicidade na interpretação de regras e seleção automática de atributos relevantes, quando

comparada, por exemplo, com redes neurais [Cabena, P. '97]. O processo de indução exige a execução de um número de passos de iteração sobre o conjunto de dados de treinamento.

O algoritmo C4.5 permite que se trabalhe com atributos contínuos ou discretos e apresenta melhor desempenho e precisão do que outros algoritmos similares [Kohavi, R. '97]. StARMiner. Mineração de regras de associação é uma tarefa que tem sido exaustivamente explorada nas últimas décadas. O algoritmo StARMiner (Statistical Association Rule Miner), apresentado em [Ribeiro, M. X. '05a], estende as técnicas estatísticas de mineração de regras apresentadas em [Aumann, Y. '99] para descobrir padrões em imagens. Uma regra possui o formato x Ai e é identificada apenas se as seguintes condições são satisfeitas:

O comportamento do atributo Ai em imagens da categoria x dever ser diferente do

seu comportamento em imagens de outras categorias;

O atributo Ai deve apresentar um comportamento uniforme em imagens da

categoria x.

Estas condições são implementadas no StARMiner, incorporando restrições do processo de mineração. Seja T uma base de dados de imagens médicas, x uma categoria de imagens, Tx⊂ T , o

subconjunto de imagens pertencentes à categoria x e Ai um atributo. As restrições de interesse

implementadas no StARMiner são as seguintes: 1) |AvgAi(Tx) – AvgAi(T-Tx)| ≥ mindif

onde: AvgAi(Z) é a média aritmética de valores de Ai no subconjunto Z de imagens;

mindif é o parâmetro de entrada que indica a mínima diferença permitida entre a

média de Ai nas imagens da categoria x e a média de Ai nas imagens restantes da

base de dados.

2) Teste de hipótese. A hipótese H0 deve ser rejeitada com confiança igual ou maior que

minconf em favor da hipótese H1.

com: H0: AvgAi(Tx) = AvgAi(T-Tx)

H1: AvgAi(Tx) ≠ AvgAi(T-Tx)

onde: minconf é o parâmetro de entrada que indica a confiança mínima para rejeitar a hipótese H0.

3) σAi(Tx) ≤ maxstd

onde: σAi(Tx) é o desvio-padrão dos valores do atributo Ai no subconjunto de imagens

maxstd é o parâmetro de entrada que indica o máximo desvio-padrão de valores

de Ai permitidos nas imagens da categoria x.

O uso do algoritmo StARMiner para encontrar regras de associação em um conjunto de imagens permite determinar um conjunto de atributos com alto poder de discriminação, desde que os atributos possuam um padrão de comportamento específico e uniforme nas imagens de uma dada categoria. Os atributos que apresentam comportamento uniforme para todas as imagens da base de dados, independentemente da categoria, não contribuem para a discriminação de categorias e devem ser descartados.