Escola Superior de Agricultura
“Luiz de Queiroz”-ESALQ/USP –
Piracicaba
IX ENCONTRO REGIONAL DE
MATEMÁTICA APLICADA E
COMPUTACIONAL – ERMAC
X SEMANA DE MATEMÁTICA
UFU - Uberlândia
Carlos Tadeu dos Santos Dias
Prof. Titular do LCE/ESALQ
REPRESENTAÇÃO GRÁFICA
DE UMA MATRIZ DE DADOS
MULTIVARIADA
: BIPLOT:
Dim 1 Dim 2
INTRODUÇÃO:
BIPLOT: é uma técnica
multivariada proposta por
Gabriel (1971)
• OBJETIVO: realizar uma representação
gráfica aproximada em baixa dimensão
de uma matriz de dados Y
n×ptal que
permita visualizar em um plano as
relações e inter-relações entre linhas e
colunas de Y.
• Y é expressa como o produto
de duas matrizes (Y=GH) que
contém as chamadas marcas
linhas e colunas, que são os
elementos considerados na
representação gráfica.
• A Fatoração é realizada por:
a) Decomposição em valores
singulares (DVS) de Y
b) Métodos Biplot do ponto de
vista dos Modelos Bilineares.
•Biplots clássicos: Propostos por
Gabriel (1971, 1981) e são:
a)
Biplot JK ou RMP (Row Metric Preserving)
b)
Biplot GH ou CMP (Column Metric Preserving)
c)
Biplot SYM ou SQRT
d) Biplot HJ, proposto por Galindo (1985, 1986) –
guarda estreita relação com análise de
• Biplot Generalizado: permite considerar
distintas métricas para linhas e colunas da
matriz de dados, Vicente-Villardon (1992).
• Biplot não lineares: definem trajetórias não
lineares para representar as variáveis (Gower &
Harding (1988), e Gower (1992)).
• Biplot de interpolação e predição: outra
forma de ver os Biplot definidos por Gabriel
(1971). Gower & Hand (1996).
• Finalidade das aplicações:
a) Descritiva
b) Diagnose de Modelos –
Gollob (1968) e Mandel (1969),
definem os biplot bilineares
• Característica => Para cada técnica
multivariada há um biplot correspondente:
a) Análise de Componentes Principais ACP)
b) Análise de Correspondência (AC)
c) Análise Discriminante Canônica (ADC)
d) Escalonamento Métrico
Multidimensional (MDS)
e) Análise de Redundância (AR)
f) Análise de Correlação Canônica (ACC)
g) Análise de Variância Multivariada
FUNDAMEMENTAÇÃO TEÓRICA:
• DVS de Y
n×pde posto r, com r ≤ p ≤ n: Y=
nU
pΛ
pV
t pem que:
U: é a matriz ortogonal de autovetores de YY
tV: é a matriz ortogonal de autovetores de Y
tY
Λ :
é a matriz diagonal de valores singulares de Y
tY ou YY
tcom λ
1≥ λ
2≥...≥ λ
r≥ λ
r+1=...= λ
n=0
A exibição biplot é o gráfico de marcas linhas G e marcas
colunas H em que:
G=U
(k)Λ
(k)
H=V
(k)Λ
1-(k)
O valor de k determina a dimensão da aproximação
(tipicamente k=2) e especifica o parâmetro α (0≤ α ≤1) que
determina se a ênfase é colocada sobre as linhas ou
colunas de Y.
Λt
(k)
α)
(1
(k)
α
(k)
k
t
ˆ
GH
U
Λ
Λ
V
Y
(
)
t
(k)
(k)
k
Λ
V
U
(
)
A matriz Y é então aproximada por:
Os Gráficos das coordenadas associadas a G
superimpostos sobre as coordenadas associadas a H
formam a exibição biplot.
Os valores de α comumente usados são:
α=1 →
biplot JK ou RMP, útil para interpretar matriz de distância.α=0 →
biplot GH ou CMP, útil para interpretar matriz de variância ou correlaçãoα=1/2 →
biplot SYM ou SQRT, útil para interpretar interação de dois fatores experimentais, como nos modelos AMMIAgora, considere a i-ésima linha de G; e a
i-ésima coluna de H
t;
h
1h
2h
p
g
g
g
Y
t t 2 t 1ˆ
n p nNo caso α=1/2 temos
1g
it 2
u
1iλ
1u
2iλ
2
(i=1,2,...,n) et
v
1iλ
1v
2iλ
2
(j=1,2,...,p) 2 1h
j
t ig
ih
O biplot consiste em plotar os (n+p) vetores
(i=1,2,...,n) e (j=1,2,...,p) em um plano.
Cada elemento y
ijde Y é representado como o
produto interno por:
= Krzanowski (2000) t i
g
t
j
h
j t ih
g
j j i j i PL
L
h h gh
g
t /
i j P i j i P j j i L L ou L L g h g h g h h g / / tL
g
i
L
h
j
cos(
α
ij
)
Exemplo ilustrativo Yan e Kang (2003)
t 2 1 4 3 3 2 0 4 3 1 3 3 3 4 12 12 8 9 6 10 15 12 6 6 9 20 ˆ H G Y E2 E3 G3 G4 E1 G1 G2Figura 1. Biplot que mostra as matrizes G e H e produto interno de seus vetores Macro para o Excel, Lipkovich e Smith (2002)
5
3
4
2
2
1
g
L
2
2
4
2
4
,
4721
1
h
L
8944
,
0
4721
,
4
5
20
L
L
)
cos(
1 1 1 t 1 11
h gh
g
(26,5
˚)20
)
4721
,
4
)(
8944
,
0
)(
5
(
)
cos(
yˆ
1 111
ij
L
g
L
h
APLICAÇÕES PADRÃO DO BIPLOT
a) ANÁLISE DE COMPONENTES PRINCIPAIS
(ACP)
Inicialmente os dados são transformados e então a
DVS é aplicada obtendo-se:
• ACP da matriz de covariância, se as colunas
de Y são centradas
• ACP da matriz de correlação se as colunas de
Y são padronizadas
• ACP da interação de dupla entrada se as
linhas e colunas de Y são centradas
• Análise de Coordenadas principais de
similaridade se linhas e colunas forem
centradas e se juntamente os dados
transformados contiverem produtos
cruzados de matrizes.
b) ANÁLISE DE CORRESPONDÊNCIA (AC)
Caso de tabelas de contingências com freqüências. Primeiro os
dados são transformados em:
j i j i ij ij
y
y
/y
y
y
y
z
em que:
y
ij:
é o valor da i-ésima linha e j-ésima coluna
y
i●: é o total para a i-ésima linha
y
●j: é o total para a j-ésima coluna
y
●●: é o total para todos os dados
Nota
1: Todos os totais de linha (y
i●) e colunas (y
●j) devem
ser maiores do que zero. Caso ocorram, deve-se eliminar
as linhas e/ou as colunas correspondentes
Nota
2: A variável z
ijé proporcional à raiz quadrada das
contribuições de células para a estatística
χ
2de Pearson
que testa as independências das classificações de linhas
e colunas
Nota
3: Usando a DVS da matriz Z=[z
ij] uma análise de
componentes clássica é realizada e as coordenadas no
biplot são:
a
(1)
i
,
a
i
(2)
u
i
(1)
λ
1
/
y
i
,
u
i
(2)
λ
2
/
y
i
b
(1)
j
,
a
(2)
j
u
(1)
j
λ
1
/
y
j
,
u
(2)
j
λ
2
/
y
j
para marcas linha
para marcas colunas
Nota4: esta escala não preserva o produto interno, uma vez
que
λ
i, i=1,2 aparecem em ambas as marcas. Para
preservar, deve-se usar as padronizações RPM, CPM e
SYM, Gower e Hand (1996)
Nota5: Caso os yij representem distâncias dij para uma matriz subjacente X, os dados transformados serão os elementos da matriz produto interno centrada:
Exemplo: ) ( ) ( zij xi x t xi x UA5 UA4 UA3 UA2 UA1 E3 E2 E1 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 Amostra sEspécies
Figura 3. Biplot para análise de correspondência de três espécies em cinco amostras, Ludwig e Reynolds (1998)
UA1 UA2 UA3 UA4 UA5 E1 2 5 5 3 0 E2 0 3 4 2 1 E3 2 0 1 0 2
UA1 UA2 UA3 UA4 UA5
E1 2 5 5 3 0
E2 0 3 4 2 1
c) ESCALONAMENTO MULTIDIMENSIONAL (MDS)
Inicialmente os dados yij são transformados para: e então a transformação duplo centrada é aplicada:
Figura 4. Biplot para o escalonamento multidimensional de uma matriz de distâncias Euclidianas para quatro objetos, Manly (2005) 2 ij ij
0.5y
z
z
ijz
iz
jz
ij *z
E a DVS dessa matriz Z* produzirá a Análise de Coordenadas Principais. Os valores no gráfico são as coordenadas principais, (v1λ1, v2λ2) em que os λ’s são as raízes quadradas dos autovalores e v são os autovetores de Z*.
A B C D
A 0 6 6 2,5
B 6 0 9,5 7,8 C 6 9,5 0 3,5 D 2,5 7,8 3,5 0
d)
ANÁLISE DISCRIMINANTE CANÔNICA (ADC)
Aqui se tem além dos identificadores de linhas, a
variável identificadora de Grupo.
Primeiro é conduzida uma MONOVA e obtidas as
matrizes E e H.
Então é obtida a matriz V de autovetores de E
-1H.
As primeiras 2 colunas de V (coeficientes da
função discriminante) são usadas como as
coordenadas para as marcas colunas e (Y- )V
(escores canônicos) pode ser usado como as
coordenadas para as marcas linhas do biplot.
Nota: é útil construir coordenadas para médias de grupos e por no mesmo gráfico observações e médias de grupos.
e)
ANÁLISE DE CORRESPONDÊNCIA
CANÔNICA (ACC)
É uma técnica multivariada similar à análise de
redundância (RDA) baseada na DVS do ajuste
do apropriadamente transformado y’s
regredidos sobre as colunas da matriz X
padronizada. Legendre e Legendre, (1999).
Aplicação típica quando Y contém os dados de
abundância (locais em linhas e espécies em
colunas), e X contém alguns dados de níveis
ambientais dos locais
Primeiro os dados são transformados para Y* e
X* em que
e j i j i ij * ij y y /y y y y y wj j ij * s x x xij As colunas de X* são centradas e padronizadas usando médias de colunas e desvio padrão (swj), ponderado pelo total de linha dividido pelo total geral da matriz de abundância Y, isto é,
r 1 i i ij j x y /y x
r 1 i i 2 j ij wj (x -x ) y /y s e r é o número de linhas.Seja Xw= , isto é, as linhas de X* são ponderadas pelos totais de linhas de Y, os elementos da diagonal da matriz R. Então ,
onde B é a matriz de coeficientes de regressão obtidos por aplicar a regressão OLS multivariada para Y* e Xw e
, * 2 / 1 X R B X Yˆ w * ) ( * *) ( B tw w 1 tw os padronizad s x' os Somente 1/2 *t 1 *tRX X R Y X X X Y X
E os valores ajustados são obtidos por aplicar os coeficientes de regressão aos Xw ponderados.
Assim,
Em que
É a matriz de projeção baseada nos X’s padronizados e ponderados. A DVS é aplicada à matriz de valores ajustada para produzir O resultado contém as coordenadas reescaladas para as linhas de Y (locais), colunas de Y (espécies) e colunas de X (variáveis
ambientais) como segue:
* Coordenadas de locais (no espaço de Y): U*=Y*VΛ-1
* Coordenadas de locais ajustados (no espaço de X): Uf*=R-1/2U
*
ˆ
w
Y
H
Y
t w w t w w wX
X
X
X
H
(
)
1 Yˆ Yˆ UΛΛtCoordenadas de espécies:
V*=C
-1/2V, em que C é a matriz diagonal cujos
elementos são os totais colunas de Y.
Nota1: O biplot pode ser construído pareando
qualquer uma das duas U* ou U
fcom V*, usando
qualquer uma das opções (JK, GH ou SYM). O
padrão é o biplot GH o qual deve pós-multiplicar
V* pela diagonal da matriz Λ (V* Λ).
Nota2: As variáveis X podem ser colocadas no
gráfico, resultando em um triplot. Coordenadas
para as variáveis X são das correlações
ponderadas com os escores de locais ajustados.
Ter Braak (1996) ou Legendre e Legendre (1998)
f) ANÁLISE DE REDUNDÂNCIA (RDA)
•Utiliza Y e X. É baseada em uma DVS dos ajustes de
Y* centrados, regredidos sobre as colunas da matriz
X* centradas.
•Uma aplicação típica é quando Y contém logs de
dados de abundância (locais por espécies), e X
contém alguns dados de níveis ambientais por
locais.
* Inicialmente os dados são transformados em Y* e
X* (centrada ou centrada e padronizada). Então os
valores ajustados para a regressão multivariada são
calculados, em que B é a matriz dos coeficientes de
regressão de Y* sobre X* obtida por aplicar a
isto é:
B
(
X
*tX
*)
1X
*tY
*A DVS é então aplicada à matriz de valores ajustados
•Como resultado tem-se as coordenadas reescaladas para as linhas
de Y (locais), colunas de Y (espécies) e colunas de X (variáveis ambientais)
•Coordenadas de locais (no espaço de Y) são dados por U*=Y*V-1Λ
•Coordenadas de locais ajustadas (no espaço de X) são dados por U •Coordenadas de espécies são dados por V
•Qualquer uma das duas U* ou U podem ser pareadas com V para
formar o biplot. O padrão é o biplot JK (RPM) o qual pós-multiplica U* ou U pela matriz diagonal Λ de valores singulares (U*Λ ou UΛ)
•Nota: As variáveis X podem ser colocadas simultaneamente com
locais e espécies no mesmo biplot, constituindo um triplot.
Coordenadas para as variáveis X são formadas à partir de suas
correlações com os escores de locais U ajustados (Ter Braak, 1994).
t
V
ˆ UΛ
g) ANÁLISE DE CORRELAÇÃO CANÔNICA
(ACC)
• Os dados consistem de dois conjuntos de
variáveis Y e X para os mesmos objetos
•As variáveis em ambos os conjuntos são
centradas e padronizadas
•A ACC é baseada nos autovalores e autovetores
do produto de matrizes de correlações
XY 1 XX YX 1 YY
R
R
R
R
O biplot para
correlação
canônica utiliza a DVS
da matriz de correlação entre os conjuntos Y e
X como
t
BC
R
YX
em que:
B é formada de correlações inter-conjuntos entre Y e
as variáveis canônicas do conjunto X (correlações
estruturais).
C é formada de coeficientes canônicos padronizados
(pesos canônicos) do conjunto X (Ter Braak, 1990).
Exemplo:
PROB: Problema Estudado; ESD: Extrato seco desengordurado LACT: Lactose; GORD: gordura PROT: Proteína
Figura 6. Biplot PCA para ocorrência de proteína instável e sua relação com manejo de vacas em rebanhos da região sudeste
P r i n c i p a l C o mp o n e n t B i p l o t S t d V a r i a b l e P R O B E S D L a c t P r o t G o r d B i p l o t A x i s R e f L i n e
REFERÊNCIAS
Gabriel, K.R. (1971) The biplot-graphic display of matrices with application to principal component analysis. Biometrika 58, 453-467.
Keflens, Paula de Oliveira (2010) O Biplot na análise fatorial multivariada, Dissertação de Mestrado ESALQ/USP, 102p.
Krzanowski, W.J. (2000) Principles of Multivariate Analysis. A user’s perspective. OXFORD UNIVERSITY PRESS. 586p.
Manly, B.F.J. (2005) Multivariate statistical methods, a primer, Chapman & Hall/CRC
Smith, E.P. and Lipkovich, I. Biplot and Singular Value Decomposition Macros for Excel
Souza, Édila Cristina de (2010) Os métodos biplot e escalonamento
multidimensional nos delineamentos experimentais, Tese, ESALQ, 134 p.
Ter Braak, C.J.F (1986) Canonical correspondence analysis: A new eigenvector technique for multivariate direct gradient analysis, Ecology 67:5, 1167-1179.
Yan, W. and Kang, M. (2003) GGE Biplot Analysis, A Graphical Tool for Breeders, Geneticists, and Agronomists. CRC PRESS 271p. ctsdias@esalq.usp.br http://www.lce.esalq.usp.br/tadeu.html