BIPLOT

(1)

Escola Superior de Agricultura

“Luiz de Queiroz”-ESALQ/USP –

Piracicaba

IX ENCONTRO REGIONAL DE

MATEMÁTICA APLICADA E

COMPUTACIONAL – ERMAC

X SEMANA DE MATEMÁTICA

UFU - Uberlândia

Carlos Tadeu dos Santos Dias

Prof. Titular do LCE/ESALQ

(2)

REPRESENTAÇÃO GRÁFICA

DE UMA MATRIZ DE DADOS

MULTIVARIADA

: BIPLOT:

(3)

Dim 1 Dim 2

(4)

INTRODUÇÃO:

BIPLOT: é uma técnica

multivariada proposta por

Gabriel (1971)

• OBJETIVO: realizar uma representação

gráfica aproximada em baixa dimensão

de uma matriz de dados Y

n×p

tal que

permita visualizar em um plano as

relações e inter-relações entre linhas e

colunas de Y.

(5)

• Y é expressa como o produto

de duas matrizes (Y=GH) que

contém as chamadas marcas

linhas e colunas, que são os

elementos considerados na

representação gráfica.

(6)

• A Fatoração é realizada por:

a) Decomposição em valores

singulares (DVS) de Y

b) Métodos Biplot do ponto de

vista dos Modelos Bilineares.

(7)

•Biplots clássicos: Propostos por

Gabriel (1971, 1981) e são:

a)

Biplot JK ou RMP (Row Metric Preserving)

b)

Biplot GH ou CMP (Column Metric Preserving)

c)

Biplot SYM ou SQRT

d) Biplot HJ, proposto por Galindo (1985, 1986) –

guarda estreita relação com análise de

(8)

• Biplot Generalizado: permite considerar

distintas métricas para linhas e colunas da

matriz de dados, Vicente-Villardon (1992).

• Biplot não lineares: definem trajetórias não

lineares para representar as variáveis (Gower &

Harding (1988), e Gower (1992)).

• Biplot de interpolação e predição: outra

forma de ver os Biplot definidos por Gabriel

(1971). Gower & Hand (1996).

(9)

• Finalidade das aplicações:

a) Descritiva

b) Diagnose de Modelos –

Gollob (1968) e Mandel (1969),

definem os biplot bilineares

(10)

• Característica => Para cada técnica

multivariada há um biplot correspondente:

a) Análise de Componentes Principais ACP)

b) Análise de Correspondência (AC)

c) Análise Discriminante Canônica (ADC)

d) Escalonamento Métrico

Multidimensional (MDS)

e) Análise de Redundância (AR)

f) Análise de Correlação Canônica (ACC)

g) Análise de Variância Multivariada

(11)

FUNDAMEMENTAÇÃO TEÓRICA:

• DVS de Y

_n×p

de posto r, com r ≤ p ≤ n: Y=

_n

U

_p

Λ

_p

V

t p

em que:

U: é a matriz ortogonal de autovetores de YY

t

V: é a matriz ortogonal de autovetores de Y

t

Y

Λ :

é a matriz diagonal de valores singulares de Y

t

Y ou YY

t

com λ

₁

≥ λ

₂

≥...≥ λ

_r

≥ λ

_r+1

=...= λ

_n

=0

A exibição biplot é o gráfico de marcas linhas G e marcas

colunas H em que:

G=U

_(k)

Λ



(k)

H=V

_(k)

Λ

1-

(k)

O valor de k determina a dimensão da aproximação

(tipicamente k=2) e especifica o parâmetro α (0≤ α ≤1) que

determina se a ênfase é colocada sobre as linhas ou

colunas de Y.

Λ

(12)

t

(k)

α)

(1

(k)

α

(k)

k

t

ˆ

_GH

_U

_Λ

_V

Y



₍

₎



t

(k)

k

Λ

V

U

₍

₎



A matriz Y é então aproximada por:

Os Gráficos das coordenadas associadas a G

superimpostos sobre as coordenadas associadas a H

formam a exibição biplot.

Os valores de α comumente usados são:

α=1 →

biplot JK ou RMP, útil para interpretar matriz de distância.

α=0 →

biplot GH ou CMP, útil para interpretar matriz de variância ou correlação

α=1/2 →

biplot SYM ou SQRT, útil para interpretar interação de dois fatores experimentais, como nos modelos AMMI

(13)

Agora, considere a i-ésima linha de G; e a

i-ésima coluna de H

t

;



h

1

h

2

h

p



g

Y

_

















t t 2 t 1

ˆ

n p n

No caso α=1/2 temos

₁

g

it ₂





u

1i

λ

1

u

2i

λ

2



(i=1,2,...,n) e

t



v

1i

λ

1

v

2i

λ

2



(j=1,2,...,p) 2 1

h

j



t i

g

i

h

(14)

O biplot consiste em plotar os (n+p) vetores

(i=1,2,...,n) e (j=1,2,...,p) em um plano.

Cada elemento y

_ij

de Y é representado como o

produto interno por:

= Krzanowski (2000) t i

g

t

j

h

j t i

h

g

j j i j i P

_L

L

h h g

h

g

t /



         i j P i j i P j j i L L ou L L g h g h g h h g / / t

L

g

_i

L

h

_j

cos(

α

ij

)

(15)

Exemplo ilustrativo Yan e Kang (2003)

               t 2 1 4 3 3 2 0 4 3 1 3 3 3 4 12 12 8 9 6 10 15 12 6 6 9 20 ˆ H G Y                                         E2 E3 G3 G4 E1 G1 G2

Figura 1. Biplot que mostra as matrizes G e H e produto interno de seus vetores Macro para o Excel, Lipkovich e Smith (2002)

(16)

5

3

4

2

1







g

L

₂

2 ₄

_,

₄₇₂₁

1







h

L

8944

,

0 4721

,

4

5

20 L

L

)

cos(

1 1 1 t 1 11



_



h g

h

g



(

26,5

˚)

20 )

4721

,

4 )(

8944

,

0 )(

5 (

)

cos(

yˆ

1 1

11 ij





L

_g



L

_h

(17)

APLICAÇÕES PADRÃO DO BIPLOT

a) ANÁLISE DE COMPONENTES PRINCIPAIS

(ACP)

Inicialmente os dados são transformados e então a

DVS é aplicada obtendo-se:

• ACP da matriz de covariância, se as colunas

de Y são centradas

• ACP da matriz de correlação se as colunas de

Y são padronizadas

• ACP da interação de dupla entrada se as

linhas e colunas de Y são centradas

• Análise de Coordenadas principais de

similaridade se linhas e colunas forem

centradas e se juntamente os dados

transformados contiverem produtos

cruzados de matrizes.

(18)

(19)

b) ANÁLISE DE CORRESPONDÊNCIA (AC)

Caso de tabelas de contingências com freqüências. Primeiro os

dados são transformados em:

j i j i ij ij

y

/y

y

z

     





em que:

y

_ij

:

é o valor da i-ésima linha e j-ésima coluna

y

_i●

: é o total para a i-ésima linha

y

_●j

: é o total para a j-ésima coluna

y

_●●

: é o total para todos os dados

Nota

₁

: Todos os totais de linha (y

_i●

) e colunas (y

_●j

) devem

ser maiores do que zero. Caso ocorram, deve-se eliminar

as linhas e/ou as colunas correspondentes

(20)

Nota

₂

: A variável z

_ij

é proporcional à raiz quadrada das

contribuições de células para a estatística

χ

2

de Pearson

que testa as independências das classificações de linhas

e colunas

Nota

₃

: Usando a DVS da matriz Z=[z

_ij

] uma análise de

componentes clássica é realizada e as coordenadas no

biplot são:



a

(1)

_i

,

a

_i

(2)

 



u

_i

(1)

λ

1 /

y

i



,

u

_i

(2)

λ

2 /

y

i







b

(1)

_j

,

a

(2)

_j

 



u

(1)

_j

λ

1 /

y

j



,

u

(2)

_j

λ

2 /

y

j





para marcas linha

para marcas colunas

Nota4: esta escala não preserva o produto interno, uma vez

que

λ

_i

, i=1,2 aparecem em ambas as marcas. Para

preservar, deve-se usar as padronizações RPM, CPM e

SYM, Gower e Hand (1996)

(21)

Nota5: Caso os y_ij representem distâncias d_ij para uma matriz subjacente X, os dados transformados serão os elementos da matriz produto interno centrada:

Exemplo: ) ( ) ( z_ij  x_i  x t x_i  x UA5 UA4 UA3 UA2 UA1 E3 E2 E1 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 Amostra sEspécies

Figura 3. Biplot para análise de correspondência de três espécies em cinco amostras, Ludwig e Reynolds (1998)

UA1 UA2 UA3 UA4 UA5 E1 2 5 5 3 0 E2 0 3 4 2 1 E3 2 0 1 0 2

UA1 UA2 UA3 UA4 UA5

E1 2 5 5 3 0

E2 0 3 4 2 1

(22)

c) ESCALONAMENTO MULTIDIMENSIONAL (MDS)

Inicialmente os dados y_ij são transformados para: e então a transformação duplo centrada é aplicada:

Figura 4. Biplot para o escalonamento multidimensional de uma matriz de distâncias Euclidianas para quatro objetos, Manly (2005) 2 ij ij

0.5y

z





   









z

_ij

z

_i

z

_j

z

ij *

z

E a DVS dessa matriz Z* produzirá a Análise de Coordenadas Principais. Os valores no gráfico são as coordenadas principais, (v₁λ₁, v₂λ₂) em que os λ’s são as raízes quadradas dos autovalores e v são os autovetores de Z*.

A B C D

A 0 6 6 2,5

B 6 0 9,5 7,8 C 6 9,5 0 3,5 D 2,5 7,8 3,5 0

(23)

d)

ANÁLISE DISCRIMINANTE CANÔNICA (ADC)

Aqui se tem além dos identificadores de linhas, a

variável identificadora de Grupo.

Primeiro é conduzida uma MONOVA e obtidas as

matrizes E e H.

Então é obtida a matriz V de autovetores de E

-1

H. As primeiras 2 colunas de V (coeficientes da

função discriminante) são usadas como as

coordenadas para as marcas colunas e (Y- )V

(escores canônicos) pode ser usado como as

coordenadas para as marcas linhas do biplot.

Nota: é útil construir coordenadas para médias de grupos e por no mesmo gráfico observações e médias de grupos.

(24)

e)

ANÁLISE DE CORRESPONDÊNCIA

CANÔNICA (ACC)

É uma técnica multivariada similar à análise de

redundância (RDA) baseada na DVS do ajuste

do apropriadamente transformado y’s

regredidos sobre as colunas da matriz X

padronizada. Legendre e Legendre, (1999).

Aplicação típica quando Y contém os dados de

abundância (locais em linhas e espécies em

colunas), e X contém alguns dados de níveis

ambientais dos locais

(25)

**Primeiro os dados são transformados para Y* e**

**X* em que**

e j i j i ij * ij y y /y y y y y         wj j ij * s x x x_ij  

As colunas de X* são centradas e padronizadas usando médias de colunas e desvio padrão (s_wj), ponderado pelo total de linha dividido pelo total geral da matriz de abundância Y, isto é,



    r 1 i i ij j x y /y x

_

    r 1 i i 2 j ij wj (x -x ) y /y s e r é o número de linhas.

Seja X_w= , isto é, as linhas de X* são ponderadas pelos totais de linhas de Y, os elementos da diagonal da matriz R. Então ,

onde B é a matriz de coeficientes de regressão obtidos por aplicar a regressão OLS multivariada para Y* e X_w e

, * 2 / 1 _X R B X Yˆ  _w * ) ( * *) ( B t_w _w 1 t_w os padronizad s x' os Somente 1/2 *t 1 *t_RX _X _R _Y _X _X _X _Y X             

(26)

E os valores ajustados são obtidos por aplicar os coeficientes de regressão aos X_w ponderados.

Assim,

Em que

É a matriz de projeção baseada nos X’s padronizados e ponderados. A DVS é aplicada à matriz de valores ajustada para produzir O resultado contém as coordenadas reescaladas para as linhas de Y (locais), colunas de Y (espécies) e colunas de X (variáveis

ambientais) como segue:

* Coordenadas de locais (no espaço de Y): U*=Y*VΛ-1

* Coordenadas de locais ajustados (no espaço de X): U_f*=R-1/2_U

*

ˆ

w

Y

H

Y



t w w t w w w

X

H



(

)

1 Yˆ _Y_ˆ _ _UΛΛt

(27)

Coordenadas de espécies:

**V*=C**

-1/2

V, em que C é a matriz diagonal cujos

elementos são os totais colunas de Y.

Nota1: O biplot pode ser construído pareando

**qualquer uma das duas U* ou U**

_f

**com V*, usando**

qualquer uma das opções (JK, GH ou SYM). O

padrão é o biplot GH o qual deve pós-multiplicar

**V* pela diagonal da matriz Λ (V* Λ).**

Nota2: As variáveis X podem ser colocadas no

gráfico, resultando em um triplot. Coordenadas

para as variáveis X são das correlações

ponderadas com os escores de locais ajustados.

Ter Braak (1996) ou Legendre e Legendre (1998)

(28)

f) ANÁLISE DE REDUNDÂNCIA (RDA)

•Utiliza Y e X. É baseada em uma DVS dos ajustes de

**Y* centrados, regredidos sobre as colunas da matriz**

**X* centradas.**

•Uma aplicação típica é quando Y contém logs de

dados de abundância (locais por espécies), e X

contém alguns dados de níveis ambientais por

locais.

* Inicialmente os dados são transformados em Y* e

**X* (centrada ou centrada e padronizada). Então os**

valores ajustados para a regressão multivariada são

calculados, em que B é a matriz dos coeficientes de

**regressão de Y* sobre X* obtida por aplicar a**

(29)

isto é:

B



(

X

*t

X

*

)

1

X

*t

Y

*

A DVS é então aplicada à matriz de valores ajustados

•Como resultado tem-se as coordenadas reescaladas para as linhas

de Y (locais), colunas de Y (espécies) e colunas de X (variáveis ambientais)

•Coordenadas de locais (no espaço de Y) são dados por U*=Y*V-1_Λ

•Coordenadas de locais ajustadas (no espaço de X) são dados por U •Coordenadas de espécies são dados por V

•Qualquer uma das duas U* ou U podem ser pareadas com V para

formar o biplot. O padrão é o biplot JK (RPM) o qual pós-multiplica U* ou U pela matriz diagonal Λ de valores singulares (U*Λ ou UΛ)

•Nota: As variáveis X podem ser colocadas simultaneamente com

locais e espécies no mesmo biplot, constituindo um triplot.

Coordenadas para as variáveis X são formadas à partir de suas

correlações com os escores de locais U ajustados (Ter Braak, 1994).

t

V

ˆ _UΛ

(30)

g) ANÁLISE DE CORRELAÇÃO CANÔNICA

(ACC)

• Os dados consistem de dois conjuntos de

variáveis Y e X para os mesmos objetos

•As variáveis em ambos os conjuntos são

centradas e padronizadas

•A ACC é baseada nos autovalores e autovetores

do produto de matrizes de correlações

XY 1 XX YX 1 YY

R

 

(31)



O biplot para

correlação

canônica utiliza a DVS

da matriz de correlação entre os conjuntos Y e

X como

t

BC

R

_YX



em que:

B é formada de correlações inter-conjuntos entre Y e

as variáveis canônicas do conjunto X (correlações

estruturais).

C é formada de coeficientes canônicos padronizados

(pesos canônicos) do conjunto X (Ter Braak, 1990).

(32)

Exemplo:

(33)

PROB: Problema Estudado; ESD: Extrato seco desengordurado LACT: Lactose; GORD: gordura PROT: Proteína

Figura 6. Biplot PCA para ocorrência de proteína instável e sua relação com manejo de vacas em rebanhos da região sudeste

P r i n c i p a l C o mp o n e n t B i p l o t S t d V a r i a b l e P R O B E S D L a c t P r o t G o r d B i p l o t A x i s R e f L i n e

(34)

REFERÊNCIAS

Gabriel, K.R. (1971) The biplot-graphic display of matrices with application to principal component analysis. Biometrika 58, 453-467.

Keflens, Paula de Oliveira (2010) O Biplot na análise fatorial multivariada, Dissertação de Mestrado ESALQ/USP, 102p.

Krzanowski, W.J. (2000) Principles of Multivariate Analysis. A user’s perspective. OXFORD UNIVERSITY PRESS. 586p.

Manly, B.F.J. (2005) Multivariate statistical methods, a primer, Chapman & Hall/CRC

Smith, E.P. and Lipkovich, I. Biplot and Singular Value Decomposition Macros for Excel

Souza, Édila Cristina de (2010) Os métodos biplot e escalonamento

multidimensional nos delineamentos experimentais, Tese, ESALQ, 134 p.

Ter Braak, C.J.F (1986) Canonical correspondence analysis: A new eigenvector technique for multivariate direct gradient analysis, Ecology 67:5, 1167-1179.

Yan, W. and Kang, M. (2003) GGE Biplot Analysis, A Graphical Tool for Breeders, Geneticists, and Agronomists. CRC PRESS 271p. ctsdias@esalq.usp.br http://www.lce.esalq.usp.br/tadeu.html