• Nenhum resultado encontrado

MEM CAP6

N/A
N/A
Protected

Academic year: 2021

Share "MEM CAP6"

Copied!
5
0
0

Texto

(1)

6.1 DEFINIÇÃO DE COMPONENTES PRINCIPAIS Descrita por Karl Pearson (1901)

Descrição de métodos computacionais práticos Hotelling (1993)

Objetivo: Tomar p variáveis X1, X2,... , Xp e encontrar combinações lineares destas para

produzir índices Z1, Z2,...,Zp que sejam não correlacionados na ordem de sua

importância e que descreva toda a variação dos dados.

A falta de correlação significa que os índices estão medindo diferentes “dimensões” dos dados

A ordem é tal que Var(Z1)≥Var(Z2) ≥...≥Var(Zp)

Os índices Zi são também variáveis e são os Componentes Principais (CP)

Na ACP, espera-se que a maioria das últimas variâncias seja baixa, de modo que grande parte da explicação de variabilidade das variáveis originais se concentre em poucos componentes Zi, resumindo assim o espaço dimensão variável.

Desvantagens:

- Ao reduzir o número de variáveis, há perda da informação de variabilidade das variáveis originais. Mas que a parte explicada seja o padrão de resposta e a outra parte o ruído, ou seja, erro de medida e redundância.

- A ACP nem sempre funciona! (às vezes mesmo com a redução ainda continua grande) É o caso de variáveis originais pouco correlacionadas, com o caso extremo da S=I, os componentes principais são as próprias variáveis originais.

Ex. da Tabela 1.1 em p=5 medidas altamente correlacionadas do corpo de n=49 pardocas temos: var(Z1)=3,62, [var(Z2)=0,53, var(Z3)=0,39, var(Z4)=0,30 e

var(Z5)=0,16]. O primeiro componente é visivelmente o mais importante para

representar a variação total das 49 pardocas! Com as variáveis Xi padronizadas, temos:

Z1=0,45X1+0,46X2+0,45X3+0,47X4+0,40X5,

expressando um índice de tamanho! (e não de forma).

6.2 PROCEDIMENTO PARA UMA ANÁLISE DE COMPONENTES PRINCIPAIS 1. Parte-se de um conjunto de n indivíduos e p variáveis

2. O primeiro CP é:

Z1=a11X1+a12X2+...+a1pXp,

sob à condição:

a112+a122+...+a1p2=1

Assim, a Var(Z1) é a máxima possível dada esta restrição em a1j. A restrição é importante,

pois caso contrário, a Var(Z1) poderia ser aumentada, aumentando qualquer a1j.

3. O segundo CP é:

Z2=a21X1+a22X2+...+a2pXp,

sob à condição:

a212+a222+...+a2p2=1

com máxima Var(Z2) e também à condição de que a correlação entre Z1 e Z2 seja zero!

4. O terceiro CP é:

Z3=a31X1+a32X2+...+a3pXp,

sob à condição:

(2)

com máxima Var(Z3) e também à condição de que a correlação entre (Z1 e Z3) e (Z2 e Z3)

sejam nulas! E assim por diante até o máximo de p componentes. Procedimento de cálculo:

1. Parte-se da matriz de covariâncias C ou R definidas na Seção 2.7

2. Calcula-se os p autovalores (λ1, λ2,...,λ p) e os p autovetores (a1, a2,..., ap) de C ou R

3. As Var(Zi)= λi, todas positivas ou nulas e as constantes aij, definidoras da combinação

linear dos CP são os elementos dos correspondentes autovetores escalonados de modo que ai12+ai22+...+aip2=1.

Propriedade:

λ1+λ2+...+λ p= traço(C) = c11+c22+...+cpp.

4. Descarte os componentes que expliquem pouco da variação total dos dados, Ficando com poucos CP, mas que expliquem muito (80-90%) da variação total.

Exemplo 6.1 MEDIDAS DO CORPO DE PARDOCAS Procedimento:

1. Padronizar as variáveis para média o e variância 1. Isso equivale a usar a matriz R. Omitir esse passo significaria que as variáveis X1 e X2 tenderiam a dominar os CP.

2. Cálculo da matriz de correlações R.

Tabela 6.1 Correlações entre as p=5 medidas do corpo de n=49 pardocas calculadas da Tabela 1.1

X1 X2 X3 X4 X5

X1, comprimento total 1

X2, extensão alar 0,735 1

X3, comprimento do bico e cabeça 0,662 0,674 1

X4, comprimento do úmero 0,645 0,769 0,763 1

X5, comprimento da quilha do esterno 0,605 0,529 0,526 0,607 1

3. Os autovalores e autovetores de R:

Tabela 6.3 Os autovalores e autovetores suas porcentagens simples e acumuladas da matriz de correlação para p=5 medidas em n=49 pardocas

Autovetores (coeficientes para os componentes principais) Componente Autovalor % % Acu. X1 X2 X3 X4 X5 1 λ1=3,616 72,3 72,3 0,452 0,462 0,451 0,471 0,398 2 λ2=0,532 10,6 82,9 -0,051 0,300 0,325 0,185 -0,877 3 λ3=0,386 7,7 90,6 0,691 0,341 -0,455 -0,411 -0,179 4 λ4=0,302 6,0 96,6 -0,420 0,548 -0,606 0,388 0,069 5 λ5=0,165 3,3 100 0,374 -0,530 -0,343 0,652 -0,192 Total 5 Interpretação dos CP:

CP1, (Z1): índice dos tamanhos das pardocas e explica 72% da variância total.

CP2, (Z2): representa uma diferença de forma entre as pardocas e explica 10,6% da

(3)

4. VALORES DOS COMPONENTES PRINCIPAIS Valores para o 1º pássaro X1 X2 X3 X4 X5 Original 156 245 31,6 18,5 20,5 Transformados (156-157,98)/3,654 =-0,542 (245-241,327)/5,068 =0,725 (31,6-31,459)/0,795 =0,177 (18,5-18,469)/0,564 =0,055 (20,5-20,827)/0,991 =-0,330 Do 1º CP (Z1) z1=0,452×(-0,542)+0,462×0,725+0,451×0,177+0,471×0,055+0,398×(-0,330) =0,064 Do 2º CP (Z2) z2=-0,051×(-0,542)+0,300×0,725+0,325×0,177+0,185×0,055-0,877×(-0,330) =0,602 ????????

Figura 6.1 Representação de 49 pardocas contra valores para os dois primeiros componentes principais, CP1 e CP2 (o = sobreviventes, • = não-sobrevivente).

Obs.: Nota-se que os pássaros com valores extremos para o 1º CP não sobreviveram. Isso é sugestivo também para o 2º CP.

Obs.: Os valores dos autovetores podem sair com sinais trocados em alguns pacotes computacionais. Isso não é um erro! Ele continua medindo exatamente o mesmo aspecto dos dados, mas na direção oposta. Continua sendo uma base do espaço de vetores.

Exemplo 6.2 EMPREGO NOS PAÍSES EUROPEUS Procedimento:

1. Padronizar as variáveis para média o e variância 1 2. Calcular a matriz R

3.

Tabela 6.5 Matriz de correlações R para porcentagens de empregados em nove grupos industriais em 30 países na Europa, calculados dos dados da Tabela 1.5

AGR MIN FAB FEA CON SER FIN SSP TC

AGR 1 MIN 0,316 1 FAB -0,254 -0,672 1 FEA -0,382 -0,387 0,388 1 CON -0,349 -0,129 -0,034 0,165 1 SER -0,605 -0,407 -0,033 0,155 0,473 1 FIN -0,176 -0,248 -0,274 0,094 -0,018 0,379 1 SSP -0,811 -0,316 0,050 0,238 0,072 0,388 0,166 1 TC -0,487 0,045 0,243 0,105 -0,055 -0,085 -0,391 0,475 1 Obs.; Os valores nessa matriz não são particularmente altos! Muitos CP são necessários

4. Cálculo dos autovalores e autovetores de R.

Tabela 6.2.1 Os autovalores e autovetores suas porcentagens simples e acumuladas da matriz de correlação para p=9 medidas em n=30 países

(4)

Obs.:

- O último autovalor é zero porque a soma das nove variáveis é constante (100%) - O componente principal correspondente tem valor zero para todos os países e portanto tem sua variância nula.

- Outro critério para selecionar números de componentes: # de autovalores maiores do que 1.

- Interpretação dos CP:

Z1 é um contraste entre os números engajados em AGR (agricultura, florestal e pesca)

MIN (mineração e exploração de pedreiras) versus os números engajados em outras ocupações.

Z2 é o contraste entre os números para MAN (fabricação) e TC (transporte e comunicação)

com os números em CON (construção), SER (indústrias e serviços) e FIN (finança) ????????

Figura 6.2 Países europeus representados contra os primeiros dois componentes principais para variáveis de emprego.

Interpretação:

- Muitas das democracias do leste estão agrupadas com valores levemente negativos para Z1 e Z2.

- Gibraltar e Albânia se destacam como tendo padrão de empregos bastante distinto. - Os países restantes caem em uma banda variando da primeira Iugoslávia (Z1=-1,2,

Z2=2,2) à Turquia (Z1=3,2, Z2=-0,3)

- Lembre-se da possibilidade da troca dos sinais pelos pacotes computacionais! EXERCÍCIOS

1. A Tabela 6.6 mostra seis medidas sobre cada uma das 25 taças de cerâmica escavadas de lugares pré-históricos na Tailândia, com a Figura 6.3 ilustrando a forma típica e a natureza das medidas. A principal questão de interesse para estes dados diz respeito a similaridade e diferenças entre as taças, com questões:

a) É possível apresentar os dados graficamente para mostrar como as taças são relacionadas, e se sim, há qualquer agrupamento óbvio de taças similares? b) Existem taças que sejam particularmente incomuns?

Componente Autovalor % % Acu.

AGR MIN FAB FEA CON SER FIN SSP TC

1 λ1=3,112 34,6 34,6 0,51 0,37 -0,25 -0,31 -0,22 -0,38 -0,13 -0,42 -0,21 2 λ2=1,809 20,1 54,7 -0,02 0,00 0,43 0,11 -0,24 -0,41 -0,55 0,05 0,52 3 λ3=1,496 16,6 71,3 4 λ4=1,063 11,8 83,1 5 λ5=0,710 7,9 6 λ6=0,311 3,5 7 λ7=0,293 3,3 8 λ8=0,204 2,3 9 λ9=0,000 0,0

(5)

Execute uma análise de componentes principais e veja se os valores dos componentes principais ajudam a responder essas questões.

Tabela 6.6 Medidas (p=6) tomadas sobre n=25 taças pré-históricas da Tailândia (cm) Taças X1 X2 X3 X4 X5 X6

1 13 21 23 14 7 8 ... ... ... ... ... ... ... 25 12 19 27 18 5 12 ???????

Figura 6.3 Medidas feitas em taças de cerâmica da Tail6andia Obs.;

- Procure por diferenças de forma e de tamanho. Taças com quase a mesma forma, mas com tamanhos muito diferentes podem ser similares.

- Para remover os efeitos de tamanho, pode-se dividir as medidas de um vaso pela altura total do corpo ou da taça.

- Alternativamente, pode-se expressar as medidas de uma taça como uma proporção da soma de todas as medidas da taça.

- Essas padronizações de variáveis mostrarão taças similares em forma, mas com diferentes tamanhos.

2. a Tabela 6.7 mostra estimativas do consumo médio de proteínas de diferentes fontes de alimentos para os habitantes de 25 países europeus, Weber (1973). Use a análise de componentes principais para investigar o relacionamento entre os países com base nestas variáveis.

Tabela 6.7 Consumo de proteína (g por pessoa por dia) em 25 países europeus País CV CB O L P CE CA GNSO FV Total

Albânia 10 1 1 9 0,0 42 1 6 2 72 ... ... ... .. ... ... ... ... ... ... ... Iugoslávia 4 5 1 10 1,0 56 3 6 3 89

Referências

Documentos relacionados

Tendo como objetivo investigar uma experiência compartilhada de formação continuada, em um espaço educativo não formal, envolvendo professores de Ciências e de outras disciplinas,

pelo poderoso rei Kaya Maghan Cissé, que com isso acaba expandindo seu reino transformando-o no Império do Gana, onde se estabelece como seu primeiro imperador.

As pontas de contato retas e retificadas em paralelo ajustam o micrômetro mais rápida e precisamente do que as pontas de contato esféricas encontradas em micrômetros disponíveis

Código Descrição Atributo Saldo Anterior D/C Débito Crédito Saldo Final D/C. Este demonstrativo apresenta os dados consolidados da(s)

estabilidade dos mercados, não estar apto a efetuar, dentro do prazo máximo estabelecido no Regulamento, pagamentos relativos a resgates de cotas, em decorrência do grande volume

Assim, o presente trabalho surgiu com o objetivo de analisar e refletir sobre como o uso de novas tecnologias, em especial o data show, no ensino de Geografia nos dias atuais

Coordenador de Mesa Redonda Kleydson Andrade - Uso de Sistema de Informação para Pesquisa Clínica e Operacional. 13:30

Porta do Motor Porta do Motor 36 Pinos 36 Pinos Porta do OEM Porta do OEM 89 Pinos 89 Pinos Porta do Atuador Porta do Atuador 16 Pinos 16 Pinos Conector "A" Conector