2 Seleção de características

(1)

2.1

Introdução

Na maioria das aplicações reais de classificação, previsão, aproximação e otimização, as bases de dados contêm um grande número de caraterísticas, muitas delas introduzidas para obter uma melhor representação do problema, tais como, por exemplo, nome, identidade, endereço, etc. Entretanto, na maioria dos casos, grande parte destas caraterísticas são irrelevantes e/ou redundantes. Deste modo, um problema comum nestas aplicações reais é a seleção das características.

A seleção de características se refere a um processo no qual um espaço de dados é transformado em um espaço de características, de menor dimensão, mas que ainda retenha a maior parte da informação intrínseca dos dados; em outras palavras, o conjunto de dados sofre uma redução de dimensionalidade. Os métodos de seleção de características tratam exatamente da escolha, dentre todos os atributos da base de dados, daqueles mais relevantes do ponto de vista da informação [MARD79], [DASH97].

2.2

Tipos de métodos de seleção de características

Existem inúmeras técnicas [BACK01], [SANT97], [JANG96], [GOLD89], [KOZA92] para a tarefa de seleção de variáveis, sendo estas categorizadas como

métodos dependentes do modelo (“Model Based”) e métodos independentes do modelo (“Model-Free”) [BACK01]. Dentre os métodos dependentes do modelo

podem-se mencionar técnicas baseadas em redes neurais, em modelos

(2)

fuzzy e em algoritmos genéticos. No caso dos métodos independentes do modelo há métodos estatísticos, Análise de Componentes Principais, Correlação e Entropia. Cada tipo de técnica tem suas próprias características, apresentando vantagens e desvantagens.

2.1.1

Métodos Dependentes do Modelo (Model-based)

A terminologia significa que métodos baseados no modelo implementam um modelo completo de predição/classificação/aproximação só com a finalidade de selecionar as variáveis de entradas para serem aplicadas posteriormente em outro modelo.

Os métodos dependentes do modelo tipicamente envolvem: selecionar um modelo, escolher as entradas a usar, otimizar parâmetros e calcular alguma função de custo. As entradas são trocadas e o processo é repetido. Uma métrica é geralmente usada para escolher as entradas que geraram menor erro e que, consequentemente, serão usadas no problema.

A Figura 2.1 resume este tipo de método.

(3)

Figura 2.1 Seleção de características dependentes do modelo.

Existem diversas técnicas categorizadas como Model Based, algumas clássicas e outros mais recentes. A seguir são descritas, de maneira concisa, algumas técnicas deste tipo.

2.2.1.1

Método Baseado no Modelo ANFIS

Este método escolhe as entradas baseado na possibilidade destas conduzirem a um ótimo desempenho do modelo ANFIS mostrado na Figura 2.2.a Esse método utiliza uma configuração do modelo ANFIS [JANG93], [JANG94] com duas entradas divididas em 4 conjuntos fuzzy cada (particionamento fuzzy

grid fixo). Deste modo, conforme pode ser observado na Figura 2.2.a, o espaço de

entrada é dividido em 16 partições.

(4)

T T T T T T T T ∑ Ai Aj . . . . T T T T T T T T ∑ Ai Aj T T T T T T T T ∑ T T T T T T T T T T T T T T T T T T T T T T T T ∑ Ai Aj . . . .

Figura 2.2.a Sistema ANFIS simplificado Figura 2.2.b Particionamento (2 entradas) para seleção de características respectivo. ANFIS.

Utilizando como entradas atributos da base de dados escolhidos dois a dois, treina-se o sistema, durante um certo número de ciclos especificado, e, em seguida, calcula-se o erro de classificação para esses dois atributos. Em seguida, escolhe-se um novo par de atributos, treina-se o sistema pelo mesmo número de ciclos, até que todas as configurações de pares de entrada tenham sido testadas. Posteriormente, as duplas de entradas são listadas em ordem crescente do valor do erro, selecionando-se as entradas de menor erro.

Este algoritmo de seleção de características foi utilizado nos modelos NFHQ – Neuro-Fuzzy Hierárquico Quadtree - e no NFHB - Neuro-Fuzzy Hierárquico Binary Space Partitioning, desenvolvidos por [SOUZ99].

2.2.1.2 Determinação Automática de Relevância (ARD)

A Determinação Automática de Relevância (Automatic Relevance

Determination/ARD) é um subproduto do processo de treinamento das redes

neurais Bayesianas, inspiradas na estatística Bayesiana, a qual faz uso de

(5)

densidades de probabilidade ao invés de freqüências. Um modelo em particular é considerado para as densidades de probabilidade dos dados e dos pesos sinápticos da rede, e utiliza-se a regra de Bayes para inferir o conjunto ótimo de pesos, através do método da aproximação Gaussiana [BISH95] (dados os valores disponíveis das variáveis).

O método ARD é baseado nos hiperparâmetros α que definem os espalhamentos das densidades de probabilidade dos pesos da rede [BISH95], [MACK95].

Os pesos correspondentes a cada variável de entrada i têm um

hiperparâmetro distinto αi. De acordo com [PINH96], os pesos associados com

valores grandes de αi têm uma maior tendência de decair a zero, indicando assim

pouca relevância desta variável de entrada para a inferência.

Esta técnica aumenta a robustez da rede treinada, uma vez que variáveis de entrada mal comportadas terão naturalmente um impacto menor no modelo de inferência, sendo possível incluir inicialmente um grande número de variáveis com pouco risco de overfitting, pois os pesos associados com as variáveis menos relevantes irão tender a zero. Portanto o método ARD remove as variáveis com menores relevâncias.

A relevância da variável de entrada i é definida por:

( )

_             × = _∑ = k j j i i r 1 1 1 100 % α α , Equação 2.1

isto é, a soma das relevâncias de todas as variáveis de entrada é igual a 100%. O procedimento para seleção de variáveis por ARD consiste em inicialmente treinar uma rede neural com todas as variáveis de entrada usando o método Bayesiano. Após o treinamento, as variáveis de entrada são ordenadas pelas relevâncias, e

(6)

aquelas com relevâncias menores que 1% são excluídas. O processo é repetido até que nenhuma variável seja eliminada (isto é, todas as variáveis restantes tenham relevância maior que 1%), ou até que o conjunto de variáveis atinja um tamanho pré-determinado; isto faz com que o ARD seja um método computacionalmente custoso.

2.2.1.3

Seleção de Características por Algoritmos Genéticos

Os algoritmos genéticos são uma classe de técnica de busca heurística aleatória que oferecem uma metodologia de busca da solução próxima da ótima para o problema de escolha das variáveis de entrada. Esta técnica é interessante quando a busca exaustiva torna-se impraticável.

A técnica de seleção de características por algoritmos genéticos envolve a atribuição de um valor real de peso para cada característica, o qual corresponde à sua relevância ou importância na tarefa de inferência. Restringindo o peso a um valor binário, o problema se reduz à seleção de um subconjunto relevante de características.

Seja µ(S) a medida de desempenho usada para avaliar um subconjunto de características S com respeito a um critério de importância. Logo, a seleção de características é essencialmente um problema de otimização que envolve a busca, no espaço de possíveis subconjuntos de características, de soluções que maximizem a precisão no teste do modelo de inferência, isto é, que identifiquem a solução ótima ou perto da ótima com respeito a µ.

Um exemplo desta técnica de seleção de características é o modelo desenvolvido por [YANG98], onde cada indivíduo é representado por um vetor

(7)

binário de dimensão m, sendo m o número total de características disponíveis (Figura 2.3).

Figura 2.3 Cromossoma com m genes para a seleção de variáveis.

No cromossoma da Figura 2.3 o valor 1 significa que a correspondente característica deve ser escolhida e o valor 0 indica que ela deve ser descartada. A avaliação de cada indivíduo é determinada treinando-se uma rede neural com o subconjunto de características determinado pelo cromossoma. A seleção de variáveis através de algoritmos genéticos é efetiva na busca global rápida de grandes espaços de soluções em difíceis problemas de otimização. Além disso podem facilmente fazer uso de multicritérios de seleção de características; neste caso o multicritério a ser otimizado pode incluir aproximação na inferência, medição de custo e risco de cada característica selecionada. Entretanto, esta técnica é computacionalmente custosa, já que a seleção de características por AG envolve rodar o AG para várias gerações. Em cada geração a avaliação de um indivíduo (subconjunto de características) implica treinar o correspondente modelo de inferência e calcular o desempenho; esta avaliação é efetuada para cada um dos indivíduos da população.

2.2.2

Métodos Independentes do Modelo (Model-free)

Os métodos independentes do modelo são baseados na execução de testes estatísticos entre os subconjuntos das variáveis de entrada e as saídas desejadas do modelo. A idéia consiste em desenvolver um algoritmo para a seleção de entradas

(8)

que não seja baseada num modelo particular. A Figura 2.4 resume este tipo de método.

Figura 2.4 Seleção de características independentes do modelo.

Um bom exemplo é apresentado em [BONN94] onde as entradas mais relevantes são achadas pela estimação da informação mútua entre as variáveis de entrada e saída desejada. Este método necessita de uma estimação numérica das densidades conjunta e marginal; uma medida da informação mútua é obtida calculando-se a distância de Kullback-Leibler das densidades estimadas.

Existem diversas técnicas categorizadas como Model Free, algumas clássicas e outras mais recentes. A seguir são apresentadas algumas.

2.2.2.1 Análise de Componentes Principais - PCA

PCA é um dos métodos estatísticos de Análise Multivariada para redução de dados de Sistemas [MARD79], [KASP92]. PCA projeta dados de um espaço

(9)

multidimensional em um espaço de menor dimensão, cuja base é ortonormal. As componentes principais atravessam o espaço dimensional de mais baixa variabilidade. Por conseguinte, um pequeno número de componentes principais das variáveis originais pode ser usado para explicar as maiores fontes de variabilidade nos dados. PCA é um algoritmo multivariável que consegue tratar a grande dimensionalidade e colinearidade presentes nos dados por meio da projeção da informação em um espaço de menor dimensão, definido por um

número L de variáveis latentes ortogonais entre si (p1, p2, ..., pL). Os vetores pi

também são chamados de vetores de loading. Um novo conjunto de vetores

coluna de dimensão m (v1, v2, ..., vL), chamados vetores de score, correspondem às

projeções das variáveis de entrada Xn nos vetores de loading, e resumem a

informação contida no conjunto original de dados, na maioria dos casos sem significado físico. As novas variáveis (scores) tem a única propriedade de não ter correlação.

PCA é um método ideal para a análise de bases de dados multivariáveis grandes, com alta correlação ou co-linearidade e medida de ruído. Pode ser usado para a identificação de variáveis que sejam associadas a um aumento da variabilidade no conjunto de dados, para a identificação de um subconjunto de dados com uma diferente estrutura de correlação da maioria dos dados, e para a identificação do número de fenômenos independentes que conduz à variabilidade do conjunto de dados.

PCA modela um conjunto de dados através de suas componentes ortogonais ou principais, que são combinações lineares das variáveis originais. Assim não se conservam as variáveis originais após a seleção, o que prejudica a interpretabilidade de regras explicativas que utilizem essas componentes. Deste modo, este método não é adequado para ser utilizado nos Modelos NFHB.

(10)

2.2.2.2

Análise de Componentes Independentes

O conceito de análise de componentes independentes (ICA) pode ser definido como a maximização do grau de independência estatística entre as variáveis resultantes desta análise, utilizando funções de contraste aproximadas pela extensão de Edgeworth da divergência de Kullback-Leibler.

Em contraste com a análise de componentes principais (PCA), que assegura que as componentes resultantes estejam sem correlação, o ICA impõe um critério muito mais forte, onde a informação mútua entre as componentes resultantes deve ser zero.

ICA pode ser visto como uma extensão da Análise de Componentes Principais. Enquanto PCA pode apenas impor independência até a segunda ordem, restringindo os vetores de direção a serem ortogonais, ICA impõe independência estatística sobre as componentes resultantes deste método e não tem restrição de ortogonalidade. Na prática, uma implementação algorítmica de ICA pode apenas buscar as componentes ‘tão estatisticamente independentes quanto possível’ [HAYK01].

Portanto, ICA estima a informação mútua entre sinais e ajusta uma matriz estimada de separação W para obter as componentes resultantes que sejam maximamente independentes [BACK99-1], [BACK99-2], [CICH99]. Por conseguinte, um pequeno número destas novas componentes independentes das variáveis originais pode ser usado para explicar o fenômeno.

ICA permite derivar um algoritmo de seleção de variáveis independentes do modelo baseado em um teste de dependência estatística. A estratégia é aplicar

(11)

ICA para estimar a independência das entradas e então derivar um teste estatístico para determinar o subconjunto desejado de variáveis de entrada [CICH99].

ICA modela um conjunto de dados através de suas componentes independentes, as quais são combinações das variáveis originais. Estas não são conservadas após a análise, o que, da mesma forma que no caso de PCA, prejudica a interpretação de regras nos Modelos NFHB.

2.2.2.3

Correlação Cruzada

Esta técnica indica quais variáveis de entrada são as mais relacionadas a uma determinada variável de saída. A correlação cruzada pode ser usada para analisar séries temporais, investigando a relação dependente no tempo entre variáveis, ou na área de controle de processos para avaliar processos dinâmicos. O coeficiente de correlação cruzada r no tempo k*∆t entre duas séries temporais f e

g é definido pela Equação 2.2.

2 1 2 1 1 ) ) * ( ( * ) ) * ( ( ) * ) (( ( * ) ) * ( (

∑

= = = = = = − ∆ − ∆ − ∆ + − ∆ ∑ N i i N i i N i i g t i g f t i f g t k i g f t i f Equação 2.2

onde f e g são os valores médios das séries f e g, respectivamente.

Ambas as séries temporais consistem de N amostras com um período ∆t. Os valores médios das séries temporais f e g são definidos pelas Equações 2.3 e 2.4.

∑

= = ∆ = i N i t i f N f 1 ) * ( * 1 Equação 2.3

∑

= = ∆ = i N i t i g N g 1 ) * ( * 1 Equação 2.4

(12)

O máximo valor de r é 1 quando ambos sinais são idênticos, enquanto o valor mínimo –1 ocorre quando os sinais mostram tendência a uma completa oposição . Quando os sinais não são correlacionados r = 0. Em outras palavras, o coeficiente de correlação cruzada é uma medida de similaridade entre os dois sinais. Na prática se diz que são sinais correlacionados quando o coeficiente de correlação cruzada máximo é maior do que 0,71. Isto significa que o coeficiente de correlação quadrado é 0,5, o que implica que 50% ou mais de ambos os sinais estão correlacionados (as variações dos sinais se agregam).

A análise da correlação cruzada, apesar de ser uma técnica estatística de grande alcance, restringe-se à análise univariada e não é capaz de identificar interações lineares multivariáveis dentro das entradas. Maiores detalhes podem ser encontrados em [SANT97] e [AOYA97].

2.2.2.4

Método da Entropia

Esta técnica é baseada no conceito da medida de entropia representando a “aleatoriedade” dentro de uma base de dados [BLUR96]. O estabelecimento de uma ordem ou estruturação dentro da base de dados diminui a medida da aletoriedade ou entropia. Assim, por exemplo, no caso de uma base de dados totalmente estruturada e ordenada, onde todos os registros correspondem a uma mesma classe, este conjunto tem um valor de entropia mínimo (zero). No caso oposto, onde se tem uma base de dados com padrões uniformemente distribuídos em cada classe (p. ex: 50% classe 1, 50% classe 2), a entropia possui valor máximo (1). No caso de um conjunto de registros onde vários elementos pertencem a uma mesma classe, o valor da entropia associado a este conjunto será um valor entre 0 e 1, de acordo com a “aleatoriedade” da base de dados.

O Método de seleção de características da entropia permite selecionar a

(13)

característica que melhor subdivide uma base de dados em dois subconjuntos de mínima entropia. O atributo escolhido para dividir a base de dados em dois subconjuntos é denominado “descritor”. O descritor que consegue subdividir melhor as classes contidas na base de dados é o mais interessante [LANA00].

A medida usada para escolher os atributos que proporcionam um maior ganho de informação é [LANA00] :

) , ( ) ( ) , (X P E P E X P Ganho = − Equação 2.5

Onde: E(P) = valor da entropia associada à base de dados com distribuição de

classes P= (p1, p2, .., pn), onde pk é Probabilidade da classe k.

E(X,P) = valor da entropia associada ao atributo de entrada X.

Esta medida de ganho representa a diferença entre a informação necessária para identificar um elemento do número total de registros da base de dados P e a informação necessária para identificar um elemento do número total de registros após a obtenção do atributo X. Maior informação sobre esta técnica pode ser encontrada em [LANA00].

2.3 Resumo

Neste capítulo foram abordados os métodos estatísticos e os métodos que utilizam o paradigma de inteligência computacional, tais como: algoritmos genéticos, redes neurais e modelos híbridos neuro-fuzzy. Foram descritas também as limitações dos sistemas existentes.

O próximo capítulo introduz os modelos neuro-fuzzy hierárquicos NFHB original [SOUZ99], NFHB-Class [GONÇ01], NFHB Mamdani [BEZE02].