3 KNOWLEDGE DISCOVERY IN DATABASES (KDD)
3.2 GEOMETRIC DATA ANALYSIS (GDA)
3.2.1 ANÁLISE DE COMPONENTES PRINCIPAIS
Embora as origens de técnicas estatísticas sejam frequentemente difíceis de serem traçadas, é geralmente aceito que as primeiras descrições da técnica hoje conhecida como Análise de Componentes Principais (em inglês, Principal Component Analysis ou, simplesmente, PCA) tenham sido dadas por Pearson (1901) apud Jolliffe (2002) e Hotelling (1933) apud Jolliffe (2002).
O principal propósito do PCA é reduzir a dimensionalidade de um conjunto de dados formado por variáveis interrelacionadas, conservando ao máximo a variação presente nos dados. Isto é alcançado através de uma transformação para um novo conjunto de variáveis não correlacionadas, denominadas “componentes principais” (em inglês, principal component, abreviado como PC), ordenadas das que retêm a maior parte para as que retêm a menor parte da variação presente em todas as variáveis originais. O cálculo dos PC se resume à resolução do problema de autovalores e autovetores de uma matriz simétrica definida positiva (Jolliffe, 2002).
7 O termo Geometric Data Analysis foi sugerido pela primeira vez em 1996 por Patrick Suppes (Stanford University)
Usualmente, seleciona-se um subconjunto dos PCs (pela ordem) de modo a melhor representar o conjunto de dados original, porém com menos dimensões do que o mesmo. A técnica é particularmente útil se o número de PCs selecionados for consideravelmente menor que o número de variáveis originais (alta redução de dimensionalidade).
Embora a aplicação do PCA como técnica de redução de dimensionalidade seja provavelmente sua aplicação mais prevalente, ele possui muitas outras utilidades e formas de aplicação. O presente trabalho apresenta o PCA como ferramenta de GDA para tratamento de dados com a finalidade de melhorar (e viabilizar) a classificação de padrões. O PCA neste caso funciona mais como uma ferramenta da etapa de transformação do KDD do que como uma técnica de redução de dimensionalidade por si só (embora o problema, na maioria das vezes, tenha suas dimensões reduzidas ao final do processo).
O PCA, bem como o MCA (a outra técnica de GDA abordada neste trabalho, e detalhada na seção 3.2.3), evitam problemas associados a multilcolinearidade (variáveis altamente correlacionadas umas com as outras) entre os atributos de predição. Os PCs resultantes da aplicação do método, por não serem correlacionados entre si, passam a ser usados como preditores no lugar dos atributos originais. Além disso, espera-se que o uso destes novos atributos aumente o desempenho dos classificadores.
3.2.1.1 DEFINIÇÃO DE PRINCIPAL COMPONENT (PC)
Suponha que seja um vetor de variáveis aleatórias, e que as variâncias das variáveis aleatórias e a estrutura das covariâncias ou correlações entre as variáveis sejam significativas.
Ao invés de observar as variâncias e todas as 1 correlações ou covariâncias, o PCA observa as “novas” variáveis que preservam a maior parte da informação fornecida pelas variâncias e correlações ou covariâncias.
Apesar do PCA não ignorar as covariâncias e correlações, ele dá prioridade às variâncias.
O primeiro passo é observar a função linear dos elementos de que tenham variância máxima, conforme a equação (3.11):
⋯ ∑ (3.11)
onde é um vetor de constantes: , , … , .
Em seguida, observe a função linear , não correlacionada com , que tenha variância máxima, e assim por diante, até que no k-ésimo estágio a função linear seja encontrada com a variância máxima e não correlacionada com , , … , . Desta forma, a k-ésima “nova” variável, , é definida como o k-ésimo PC.
É possível encontrar até PCs, mas se espera que a maior parte da variação em possa ser explicada por PCs, onde . A Figura 3.8 ilustra a redução de complexidade alcançada pela transformação das variáveis originais em PCs por meio de um caso simples (onde 2), mas possível de ser visualizado num plano bidimensional.
Figura 3.8 – Dados e , variáveis correlacionadas.
A Figura 3.8 mostra os dados correlacionados das variáveis e . Há uma considerável variação para as duas variáveis, embora uma variação um pouco maior na direção de do que de .
Após a transformação das variáveis originais e nos PCs e , obtém-se o gráfico da Figura 3.9. Nota-se neste gráfico uma grande variação na direção de , bem maior que a pequena variação na direção de . Além disso, observa-se que os PCs são não correlacionados, pois as “novas”
variáveis são ortogonais entre si.
Figura 3.9 – PCs e , variáveis correlacionadas.
Genericamente, se um conjunto de variáveis tiverem correlações substanciais entre si, então os primeiros PCs representam a maior parte da variação das variáveis originais. Por outro lado, os últimos PCs identificam direções com pouca variação, isto é, relações quase constantes entre as variáveis originais.
3.2.1.2 DETERMINAÇÃO DOS PCs
Seja a matriz de covariância conhecida do vetor das variáveis aleatórias , onde seus elementos , são as covariâncias entre o i-ésimo e o j-ésimo elementos de para e a variância do j-ésimo elemento de para
.
Assim, para 1,2, … , , o k-ésimo PC é dado por onde é um autovetor da matriz de covariância correspondente ao k-ésimo maior autovalor . Além disso, se for definido como um vetor unitário . 1 , então var( ) = , ou seja, a variância de será o próprio autovalor .
3.2.1.3 SELEÇÃO DOS PCs (GRÁFICO “SCREE”)
Desenvolvido por Cattell (1966) apud Ledesma e Mora (2007), o gráfico
“Scree” é uma das formas de se determinar um subconjunto de PCs que represente adequadamente a variação total dos dados originais. A técnica consiste em observar um gráfico das variâncias de todos os PCs obtidos e decidir qual o valor de para o qual as encostas das linhas que conectam os pontos são “íngremes” à esquerda de , e “não íngremes” à direita de .
Conforme ilustrado na Figura 3.10, este valor de , que define um
“cotovelo” no gráfico, é então tomado como sendo o número de PCs a serem mantidos. Seu nome (scree, em português “talude”) deriva da semelhança da forma típica deste gráfico com o acúmulo de cascalho ao pé da encosta de uma montanha. Embora antiga e subjetiva, esta técnica é ainda bastante utilizada por ser empírica, intuitivamente plausível e funcionar bem na prática.
Por estes motivos, o presente trabalho utiliza o gráfico scree para escolha do subconjunto de PCs obtidos.
Figura 3.10 – Exemplo de gráfico scree com e .