6.1 DEFINIÇÃO DE COMPONENTES PRINCIPAIS Descrita por Karl Pearson (1901)
Descrição de métodos computacionais práticos Hotelling (1993)
Objetivo: Tomar p variáveis X1, X2,... , Xp e encontrar combinações lineares destas para
produzir índices Z1, Z2,...,Zp que sejam não correlacionados na ordem de sua
importância e que descreva toda a variação dos dados.
A falta de correlação significa que os índices estão medindo diferentes “dimensões” dos dados
A ordem é tal que Var(Z1)≥Var(Z2) ≥...≥Var(Zp)
Os índices Zi são também variáveis e são os Componentes Principais (CP)
Na ACP, espera-se que a maioria das últimas variâncias seja baixa, de modo que grande parte da explicação de variabilidade das variáveis originais se concentre em poucos componentes Zi, resumindo assim o espaço dimensão variável.
Desvantagens:
- Ao reduzir o número de variáveis, há perda da informação de variabilidade das variáveis originais. Mas que a parte explicada seja o padrão de resposta e a outra parte o ruído, ou seja, erro de medida e redundância.
- A ACP nem sempre funciona! (às vezes mesmo com a redução ainda continua grande) É o caso de variáveis originais pouco correlacionadas, com o caso extremo da S=I, os componentes principais são as próprias variáveis originais.
Ex. da Tabela 1.1 em p=5 medidas altamente correlacionadas do corpo de n=49 pardocas temos: var(Z1)=3,62, [var(Z2)=0,53, var(Z3)=0,39, var(Z4)=0,30 e
var(Z5)=0,16]. O primeiro componente é visivelmente o mais importante para
representar a variação total das 49 pardocas! Com as variáveis Xi padronizadas, temos:
Z1=0,45X1+0,46X2+0,45X3+0,47X4+0,40X5,
expressando um índice de tamanho! (e não de forma).
6.2 PROCEDIMENTO PARA UMA ANÁLISE DE COMPONENTES PRINCIPAIS 1. Parte-se de um conjunto de n indivíduos e p variáveis
2. O primeiro CP é:
Z1=a11X1+a12X2+...+a1pXp,
sob à condição:
a112+a122+...+a1p2=1
Assim, a Var(Z1) é a máxima possível dada esta restrição em a1j. A restrição é importante,
pois caso contrário, a Var(Z1) poderia ser aumentada, aumentando qualquer a1j.
3. O segundo CP é:
Z2=a21X1+a22X2+...+a2pXp,
sob à condição:
a212+a222+...+a2p2=1
com máxima Var(Z2) e também à condição de que a correlação entre Z1 e Z2 seja zero!
4. O terceiro CP é:
Z3=a31X1+a32X2+...+a3pXp,
sob à condição:
com máxima Var(Z3) e também à condição de que a correlação entre (Z1 e Z3) e (Z2 e Z3)
sejam nulas! E assim por diante até o máximo de p componentes. Procedimento de cálculo:
1. Parte-se da matriz de covariâncias C ou R definidas na Seção 2.7
2. Calcula-se os p autovalores (λ1, λ2,...,λ p) e os p autovetores (a1, a2,..., ap) de C ou R
3. As Var(Zi)= λi, todas positivas ou nulas e as constantes aij, definidoras da combinação
linear dos CP são os elementos dos correspondentes autovetores escalonados de modo que ai12+ai22+...+aip2=1.
Propriedade:
λ1+λ2+...+λ p= traço(C) = c11+c22+...+cpp.
4. Descarte os componentes que expliquem pouco da variação total dos dados, Ficando com poucos CP, mas que expliquem muito (80-90%) da variação total.
Exemplo 6.1 MEDIDAS DO CORPO DE PARDOCAS Procedimento:
1. Padronizar as variáveis para média o e variância 1. Isso equivale a usar a matriz R. Omitir esse passo significaria que as variáveis X1 e X2 tenderiam a dominar os CP.
2. Cálculo da matriz de correlações R.
Tabela 6.1 Correlações entre as p=5 medidas do corpo de n=49 pardocas calculadas da Tabela 1.1
X1 X2 X3 X4 X5
X1, comprimento total 1
X2, extensão alar 0,735 1
X3, comprimento do bico e cabeça 0,662 0,674 1
X4, comprimento do úmero 0,645 0,769 0,763 1
X5, comprimento da quilha do esterno 0,605 0,529 0,526 0,607 1
3. Os autovalores e autovetores de R:
Tabela 6.3 Os autovalores e autovetores suas porcentagens simples e acumuladas da matriz de correlação para p=5 medidas em n=49 pardocas
Autovetores (coeficientes para os componentes principais) Componente Autovalor % % Acu. X1 X2 X3 X4 X5 1 λ1=3,616 72,3 72,3 0,452 0,462 0,451 0,471 0,398 2 λ2=0,532 10,6 82,9 -0,051 0,300 0,325 0,185 -0,877 3 λ3=0,386 7,7 90,6 0,691 0,341 -0,455 -0,411 -0,179 4 λ4=0,302 6,0 96,6 -0,420 0,548 -0,606 0,388 0,069 5 λ5=0,165 3,3 100 0,374 -0,530 -0,343 0,652 -0,192 Total 5 Interpretação dos CP:
CP1, (Z1): índice dos tamanhos das pardocas e explica 72% da variância total.
CP2, (Z2): representa uma diferença de forma entre as pardocas e explica 10,6% da
4. VALORES DOS COMPONENTES PRINCIPAIS Valores para o 1º pássaro X1 X2 X3 X4 X5 Original 156 245 31,6 18,5 20,5 Transformados (156-157,98)/3,654 =-0,542 (245-241,327)/5,068 =0,725 (31,6-31,459)/0,795 =0,177 (18,5-18,469)/0,564 =0,055 (20,5-20,827)/0,991 =-0,330 Do 1º CP (Z1) z1=0,452×(-0,542)+0,462×0,725+0,451×0,177+0,471×0,055+0,398×(-0,330) =0,064 Do 2º CP (Z2) z2=-0,051×(-0,542)+0,300×0,725+0,325×0,177+0,185×0,055-0,877×(-0,330) =0,602 ????????
Figura 6.1 Representação de 49 pardocas contra valores para os dois primeiros componentes principais, CP1 e CP2 (o = sobreviventes, • = não-sobrevivente).
Obs.: Nota-se que os pássaros com valores extremos para o 1º CP não sobreviveram. Isso é sugestivo também para o 2º CP.
Obs.: Os valores dos autovetores podem sair com sinais trocados em alguns pacotes computacionais. Isso não é um erro! Ele continua medindo exatamente o mesmo aspecto dos dados, mas na direção oposta. Continua sendo uma base do espaço de vetores.
Exemplo 6.2 EMPREGO NOS PAÍSES EUROPEUS Procedimento:
1. Padronizar as variáveis para média o e variância 1 2. Calcular a matriz R
3.
Tabela 6.5 Matriz de correlações R para porcentagens de empregados em nove grupos industriais em 30 países na Europa, calculados dos dados da Tabela 1.5
AGR MIN FAB FEA CON SER FIN SSP TC
AGR 1 MIN 0,316 1 FAB -0,254 -0,672 1 FEA -0,382 -0,387 0,388 1 CON -0,349 -0,129 -0,034 0,165 1 SER -0,605 -0,407 -0,033 0,155 0,473 1 FIN -0,176 -0,248 -0,274 0,094 -0,018 0,379 1 SSP -0,811 -0,316 0,050 0,238 0,072 0,388 0,166 1 TC -0,487 0,045 0,243 0,105 -0,055 -0,085 -0,391 0,475 1 Obs.; Os valores nessa matriz não são particularmente altos! Muitos CP são necessários
4. Cálculo dos autovalores e autovetores de R.
Tabela 6.2.1 Os autovalores e autovetores suas porcentagens simples e acumuladas da matriz de correlação para p=9 medidas em n=30 países
Obs.:
- O último autovalor é zero porque a soma das nove variáveis é constante (100%) - O componente principal correspondente tem valor zero para todos os países e portanto tem sua variância nula.
- Outro critério para selecionar números de componentes: # de autovalores maiores do que 1.
- Interpretação dos CP:
Z1 é um contraste entre os números engajados em AGR (agricultura, florestal e pesca)
MIN (mineração e exploração de pedreiras) versus os números engajados em outras ocupações.
Z2 é o contraste entre os números para MAN (fabricação) e TC (transporte e comunicação)
com os números em CON (construção), SER (indústrias e serviços) e FIN (finança) ????????
Figura 6.2 Países europeus representados contra os primeiros dois componentes principais para variáveis de emprego.
Interpretação:
- Muitas das democracias do leste estão agrupadas com valores levemente negativos para Z1 e Z2.
- Gibraltar e Albânia se destacam como tendo padrão de empregos bastante distinto. - Os países restantes caem em uma banda variando da primeira Iugoslávia (Z1=-1,2,
Z2=2,2) à Turquia (Z1=3,2, Z2=-0,3)
- Lembre-se da possibilidade da troca dos sinais pelos pacotes computacionais! EXERCÍCIOS
1. A Tabela 6.6 mostra seis medidas sobre cada uma das 25 taças de cerâmica escavadas de lugares pré-históricos na Tailândia, com a Figura 6.3 ilustrando a forma típica e a natureza das medidas. A principal questão de interesse para estes dados diz respeito a similaridade e diferenças entre as taças, com questões:
a) É possível apresentar os dados graficamente para mostrar como as taças são relacionadas, e se sim, há qualquer agrupamento óbvio de taças similares? b) Existem taças que sejam particularmente incomuns?
Componente Autovalor % % Acu.
AGR MIN FAB FEA CON SER FIN SSP TC
1 λ1=3,112 34,6 34,6 0,51 0,37 -0,25 -0,31 -0,22 -0,38 -0,13 -0,42 -0,21 2 λ2=1,809 20,1 54,7 -0,02 0,00 0,43 0,11 -0,24 -0,41 -0,55 0,05 0,52 3 λ3=1,496 16,6 71,3 4 λ4=1,063 11,8 83,1 5 λ5=0,710 7,9 6 λ6=0,311 3,5 7 λ7=0,293 3,3 8 λ8=0,204 2,3 9 λ9=0,000 0,0
Execute uma análise de componentes principais e veja se os valores dos componentes principais ajudam a responder essas questões.
Tabela 6.6 Medidas (p=6) tomadas sobre n=25 taças pré-históricas da Tailândia (cm) Taças X1 X2 X3 X4 X5 X6
1 13 21 23 14 7 8 ... ... ... ... ... ... ... 25 12 19 27 18 5 12 ???????
Figura 6.3 Medidas feitas em taças de cerâmica da Tail6andia Obs.;
- Procure por diferenças de forma e de tamanho. Taças com quase a mesma forma, mas com tamanhos muito diferentes podem ser similares.
- Para remover os efeitos de tamanho, pode-se dividir as medidas de um vaso pela altura total do corpo ou da taça.
- Alternativamente, pode-se expressar as medidas de uma taça como uma proporção da soma de todas as medidas da taça.
- Essas padronizações de variáveis mostrarão taças similares em forma, mas com diferentes tamanhos.
2. a Tabela 6.7 mostra estimativas do consumo médio de proteínas de diferentes fontes de alimentos para os habitantes de 25 países europeus, Weber (1973). Use a análise de componentes principais para investigar o relacionamento entre os países com base nestas variáveis.
Tabela 6.7 Consumo de proteína (g por pessoa por dia) em 25 países europeus País CV CB O L P CE CA GNSO FV Total
Albânia 10 1 1 9 0,0 42 1 6 2 72 ... ... ... .. ... ... ... ... ... ... ... Iugoslávia 4 5 1 10 1,0 56 3 6 3 89