Universidade de S˜ao Paulo
Escola Superior de Agricultura “Luiz de Queiroz”
Departamento de Ciˆencias Exatas
An´
alise de correla¸
c˜
ao canˆ
onica
Kuang Hongyu
Prof. Dr. Carlos Tadeu dos Santos Dias
An´alise de correla¸c˜ao canˆonica
Generalizando um an´alise de Regress˜ao M´ultipla
Ideia
An´alise de correla¸c˜ao canˆonica pode ser pensada como uma gene-raliza¸c˜ao de regress˜ao m´ultipla que permite v´arias vari´aveis Y de-pendentes serem relacionadas a v´arias vari´aveis X explanat´orias.
An´alise de correla¸c˜ao canˆonica Objetivo
Objetivo
An´alise de correla¸c˜ao canˆonica Exemplo
Exemplo
Hotelling (1936) descreveu uma an´alise de correla¸c˜ao canˆonica pela primeira vez. Este exemplo envolveu os resultados de testes para velocidade de leitura (X1), potˆencia de leitura (X2), velocidade aritm´etica (Y1) e potˆencia aritm´etica (Y2), para n= 140 crian¸cas da 7a s´erie
An´alise de correla¸c˜ao canˆonica Exemplo
Abordagem de uma an´alise de correla¸c˜ao canˆonica: Procurar uma combina¸c˜ao linear de X1 eX2
U =a1X1+a2X2
E uma combina¸c˜ao linear deY1eY2
V =b1Y1+b2Y2
Que tenha a m´axima correla¸c˜ao (U,V) poss´ıvel
An´alise de correla¸c˜ao canˆonica Exemplo
Observa¸c˜ao: Em ACP, maximiza-se a variˆancia e em ACC, maximiza-se a correla¸c˜ao
Resultados:
Com as vari´aveisX1,X2,Y1eY2padronizadas para ter variˆancias unit´arias, Hotelling encontrou as melhores escolhas:
U =−2,78X1+ 2,27X2
E
V =−2,44Y1+ 1,00Y2
An´alise de correla¸c˜ao canˆonica Interpreta¸c˜ao
Interpreta¸c˜ao:
U mede a diferen¸ca entre velocidade e potˆencia de leitura. V mede a diferen¸ca entre velocidade e potˆencia aritm´etica
Crian¸cas com uma grande diferen¸ca entreX1 eX2 tendem a ter grande diferen¸ca entre Y1 e Y2. ´E este aspecto de leitura e arit-m´etica que mostra a maior correla¸c˜ao
An´alise de correla¸c˜ao canˆonica Interpreta¸c˜ao
H. HOTELLING 1935-1936 Trata da correla¸c˜ao entre uma com-bina¸c˜ao linear de vari´aveis de um grupo pX(1)1 e a combina¸c˜ao
An´alise de correla¸c˜ao canˆonica Interpreta¸c˜ao
(p+q)Σ(p+q)=
pΣ11p pΣ12q qΣ21p qΣ22q
An´alise de correla¸c˜ao canˆonica Problema
Problema
An´alise de correla¸c˜ao canˆonica Solu¸c˜ao
Solu¸c˜ao
Resumir a associa¸c˜ao entrepX(1)1 eqX(2)1 em poucas covariˆancias
(ou correla¸c˜oes). Ou seja, procura-se resumir o espa¸co de parˆametros.
An´alise de correla¸c˜ao canˆonica Solu¸c˜ao
Solu¸c˜ao
Assim,
V ar(U) =a′Cov(X(1))a=a′Σ 11a
e
V ar(V) =b′Cov(X(2))b=b′Σ 22b
e,
Cov(U,V) =Cov(a′X(1)
,b′X(2)) =a′Cov(X(1)
An´alise de correla¸c˜ao canˆonica Solu¸c˜ao
Solu¸c˜ao
Procuramos por coeficientes dos vetoresaebtais que
Cov(U,V) = √ a′Σ12b a′Σ11a√b′Σ22b, seja m´axima.
Em suma: max
a,b Corr(U,V) Sujeito `as restri¸c˜oes:
a′Σ 11a= 1
b′Σ 22b= 1
An´alise de correla¸c˜ao canˆonica Solu¸c˜ao
Solu¸c˜ao
Os vetores ai eak, bj e bl produzem combina¸c˜oes lineares n˜ao correlacionadas
An´alise de correla¸c˜ao canˆonica Resultado
Resultado 1.1
Sejam os coeficientes dos vetores pa1 e qb1 que formam as
com-bina¸c˜oes lineares (assumindop≤q)
U=a′X(1)
e V=b′X(2)
Ent˜ao,max
a,b Corr(U,V) =ρ ∗ 1
atingido pela combina¸c˜ao (primeiro par de vari´aveis canˆonicas)
U1=e′1Σ− 1/2 11
| {z } a′
1
X(1) e V1=f1′Σ− 1/2 22
| {z } b′
1
An´alise de correla¸c˜ao canˆonica Resultado
Resultado 1.1
O k-´esimo par de vari´aveis canˆonicas, k = 2,3, . . . , p maxi-mizaCorr(Uk,Vk) =ρ∗k, entre aquelas combina¸c˜oes n˜ao correla-cionadas com as (k−1) vari´aveis canˆonicas precedentes.
Aqui, ρ∗2
1 ≥ ρ∗
2
2 ≥ . . . ≥ ρ∗ 2
p , s˜ao os autovalores de Σ−111/2Σ12Σ−221Σ21Σ−111/2ee1,e2, . . . ,eps˜ao os associados autove-tores (p x 1).
As quantidades ρ∗2 1 , ρ∗
2 2 , . . . , ρ∗
2
p s˜ao tamb´em os p maiores au-tovalores da matriz Σ−221/2Σ21Σ11−1Σ12Σ−221/2 com
correspon-dentes autovetores f1,f2, . . . ,fq. Cada fi ´e proporcional a Σ−221/2Σ21Σ−111/2ei
| {z } ai
An´alise de correla¸c˜ao canˆonica
PROPRIEDADES DAS VARI ´AVEIS CAN ˆONICAS
PROPRIEDADES DAS VARI ´
AVEIS CAN ˆ
ONICAS
V ar(Uk) =V ar(Vk) = 1
Cov(Uk, Ul) =Corr(Uk, Ul) = 0, k6=l
Cov(Vk, Vl) =Corr(Vk, Vl) = 0, k6=l
Cov(Uk, Vl) =Corr(Uk, Vl) = 0, k6=l
para k, l= 1,2, . . . p
An´alise de correla¸c˜ao canˆonica
RELAC¸ ˜AO ENTRE OS COEFICIENTES
RELAC
¸ ˜
AO ENTRE OS COEFICIENTES
Se ak′ ´e o vetor de coeficientes para ak-´esima vari´avel canˆonica, originadas de X(1), ent˜aoak′V111/2 ´e o vetor de coeficientes para
ak-´esima vari´avel canˆonica constru´ıda das vari´aveis padronizadas Z(1), em que:
V111/2= diag{√σii}= diag{
q
An´alise de correla¸c˜ao canˆonica
RELAC¸ ˜AO ENTRE OS COEFICIENTES
RELAC
¸ ˜
AO ENTRE OS COEFICIENTES
Similarmente, bk′V122/2 ´e o vetor de coeficientes para a k
-´esima vari´avel canˆonica constru´ıda do conjunto de vari´aveis padronizadasZ(2), com:
V122/2= diag{√σii}= diag{
q
An´alise de correla¸c˜ao canˆonica EXEMPLO
EXEMPLO (pg.593, 4
aedi¸c˜ao J-W): suponha
p
=
q
= 2 e os
vetores aleat´
orios:
Z(1)=
Z(1)1
Z(1)2
e Z(2)=
Z(2)1
Z(2)2
SejaZ=
Z(1) Z(2) e
Cov(Z)=
ρ11 ρ12
ρ21 ρ22
=
1 0,4 0,5 0,6 0,4 1 0,3 0,4 0,5 0,3 1 0,2 0,6 0,4 0,2 1
An´alise de correla¸c˜ao canˆonica EXEMPLO
RELAC
¸ ˜
AO ENTRE OS COEFICIENTES
Ent˜ao,
ρ−111/2=
1,0681 −0,2229 −0,2229 1,0681
e ρ−1 22 =
1,0417 −0,2083 −0,2083 1,0417
Nota: Da DVS deρ11=UΛV′=⇒ρ− 1/2
11 =UΛ−1/2V′,
e
ρ−111/2ρ12ρ−221ρ21ρ− 1/2
11 =
0,4371 0,2178 0,2178 0,1096
e seus autovaloresρ∗2
1 eρ∗22 s˜ao obtidos `a partir da equa¸c˜ao
An´alise de correla¸c˜ao canˆonica EXEMPLO
RELAC
¸ ˜
AO ENTRE OS COEFICIENTES
0,4371−λ 0,2178 0,2178 0,1096−λ
= 0
(0,4371−λ)(0,1096−λ)−(0,2178)2= 0
λ2−0,5467λ+ 0,0005 = 0
ρ∗2
1 = 0,5458 e ρ∗22= 0,0009
O autovetore1vem da equa¸c˜ao caracter´ıstica: Ae1=λ1e1. Assim, de
0,4371 0,2178 0,2178 0,1096
An´alise de correla¸c˜ao canˆonica EXEMPLO
RELAC
¸ ˜
AO ENTRE OS COEFICIENTES
obtemos,
e1=
0,8947 0,4466
e a1=ρ−111/2e1=
0,8561 0,2776
Mas,f1∝ρ−221/2ρ21ρ− 1/2 11 e1
| {z }
a1
e b1∝ρ−221/2f1
Consequentemente,
b1∝ρ−221ρ21a1=
0,3959 0,2292 0,5209 0,3542
0,8561 0,2776
An´alise de correla¸c˜ao canˆonica EXEMPLO
RELAC
¸ ˜
AO ENTRE OS COEFICIENTES
b1∝
0,4026 0,5443
Mas,b1 deve ser aquele que Var(V1) = Var(b1′)Z(2)=b1′ρ22b1= 1.
O vetor [0,4026 0,5443] (proporcional ab1′) fornece:
[0,4026 0,5443]
1 0,2 0,2 1
0,4026 0,5443
= 0,5460
Usando√0,5460 = 0,0,7389, temos:
b1= 1
0,7389
0,4026 0,5443
=
0,5448 0,7366
An´alise de correla¸c˜ao canˆonica EXEMPLO
RELAC
¸ ˜
AO ENTRE OS COEFICIENTES
Assim,U1=a′
1Z(1)= 0,8561Z (1)
1 + 0,2776Z (1) 2
V1=b1′Z(2)= 0,5448Z(2)1 + 0,7366Z (2) 2
e ρ∗ 1=
p
ρ∗ 1=
p
0,5458 = 0,7387
“Esta ´e a maior correla¸c˜ao poss´ıvel entre todas as combina¸c˜oes lineares das vari´aveis dos conjuntosZ(1) e Z(2)”.
Por outro lado,ρ∗ 2=
√0
,0009 = 0,03.
An´alise de correla¸c˜ao canˆonica Exemplo 1.3
Exemplo 1.3 Distribui¸c˜ao de uma borboleta
Os dados na Tabela 1.3 podem ser usados para ilustrar o procedi-mento para uma an´alise de correla¸c˜ao canˆonica. Um estudo de 16 colˆonias de borboletasEuphydryas edithana Calif´ornia e em Oregon
An´alise de correla¸c˜ao canˆonica Exemplo 1.3
Exemplo 1.3 Distribui¸c˜ao de uma borboleta
Quaisquer relacionamentos significantes entre as vari´aveis ambi-entais e gen´eticas s˜ao interessantes porque eles podem indicar a adapta¸c˜ao deE.edithaao ambiente local