• Nenhum resultado encontrado

Análise Discriminante

N/A
N/A
Protected

Academic year: 2021

Share "Análise Discriminante"

Copied!
76
0
0

Texto

(1)

MAE 0330

ANÁLISE MULTIVARIADA DE DADOS

Análise Discriminante

Júlia M Pavan Soler pavan@ime.usp.br

2° Sem/2016

(2)

Análise Multivariada de Dados

Objetivos:

Discriminação: obter funcões das variáveis que discriminem as observações em

“g” grupos  função discriminante.

Classificação: Obter funções das variáveis que permitam classificar novas observações em um de “g” grupos.

ANÁLISE DISCRIMINANTE

Unidades Amostrais 1 2 j p

1 Y111 Y112 Y11j Y11p

2 Y121 Y122 Y12j Y12p

n1 Y1n11 Y1n12 Y1n1j Y1n1p

1 Y211 Y212 Y21j Y21p

2 Y221 Y222 Y22j Y22p

n2 Y2n21 Y2n22 Y2n2j Y2n2p

Variáveis

G1

G2

Ynx(p+1)

n=n1+n2

(3)

Análise Discriminante

Populações: P1 e P2 Variáveis Objetivo

Instituições Com ou Sem problemas

5 indicadores financeiros

Análise de Risco Auditoria

Clientes Bons ou Ruins Sócio-econômicas, escolaridade, …

Concessão de crédito a clientes Genótipos dos pacientes

(aa, Aa, AA)

Biométricas,

resistência, produção

Identificação de fenótipos importantes

Dê exemplos de situações com mais de 2 grupos.

(4)

Análise Discriminante

Grupo log(AHF ativ) log(AHF antig) Grupo log(AHF ativ) log(AHF antig)

1 -0,0056 -0,1657 2 -0,3478 0,1151

1 -0,1698 -0,1585 2 -0,3618 -0,2008

1 -0,3496 -0,1879 2 -0,3618 -0,086

1 -0,0894 0,0064 2 -0,4986 -0,2984

1 2

1 -0,2228 -0,171 2 -0,1744 0,1892

1 -0,0997 -0,0733 2 -0,4055 -0,2418

1 -0,1972 -0,0607 2 -0,2444 0,1614

1 -0,0867 -0,056 2 -0,4784 0,0282

Hemofílicos - Hemofílicos +

Objetivo: Obter uma função discriminante para grupos de mulheres que carregam ou não genes da hemofilia com base na atividade da proteína AHF e de seu antígeno.

Com base na função discriminante classifique uma mulher com medidas de AHF iguais a: ( -0,11 -0,037)

Johnson and Wichern, 1992, Tabela 11.8)

(5)

Análise Discriminante

Banco Condição X1 X2 X3 X4

B1 1 0,8888 0,7391 1,0255 0,3938

B2 1 1,6655 0,7268 0,878 0,0004

B3 1 2,2111 0,9166 0,9492 0,342

B4 1 1,4351 0,9133 0,9577 0,2325

B5 1 2,1414 0,002 1,0245 0,3966

B6 1 1,192 0,4972 1,034 0,3095

B7 1 1,5895 0,2593 1,0453 0,557

B8 1 1,3272 0,4126 1,0448 0,3482

B9 1 1,8847 0,388 0,9864 0,0337

B10 1 0,5229 0,9473 1,1244 0,118

n 10 10 10 10

Média 1,4852 0,5802 1,007 0,2732

D.P. 0,533 0,319 0,0674 0,1762

B11 2 0,4922 0,3166 1,1127 0,1628

B12 2 1,4427 0,0589 0,9019 0,1355

B13 2 0,5438 0,5358 1,03 0,1481

B14 2 0,1904 0,7087 0,9917 0,2625

B15 2 0,1102 0,7378 1,528 0,0783

B16 2 2,006 0,014 1,0321 0,0816

B17 2 0,2321 0,9234 0,9753 0,0045

B18 2 0,9019 0,1634 1,1414 0,5485

B19 2 1,9757 0,3395 0,9997 0,0751

B20 2 0,7276 0,3139 1,1077 0,2957

n 10 10 10 10

Média 0,862 0,4112 1,0821 0,1793

D.P. 0,712 0,3055 0,1726 0,1567

Condição:

1: Com problemas 2: Sem problemas

Objetivo:

Obter uma função de discriminação com base nas 4 variáveis de

indicadores econômicos

(6)

Análise Discriminante

X1

X2

2,5 2,0

1,5 1,0

0,5 0,0

1,0

0,8

0,6

0,4

0,2

0,0

Condição 1 2

Diagrama de Dispersão dos Bancos

Como as instituições bancárias de G1 e de G2 podem ser identificadas?

 Usando somente a variável X1 ?

 Usando somente a variável X2 ?

 Usando ambas, variável X1 e X2 ?

(7)

Análise Discriminante

X1

X2

2,5 2,0

1,5 1,0

0,5 0,0

1,0

0,8

0,6

0,4

0,2

0,0

Condição 1 2

Diagrama de Dispersão dos Bancos

Como as instituições bancárias podem ser identificadas com base nas duas variáveis X1 e X2 ?

 Você acha possível obter algum outro “eixo” de modo que as populações possam ser discriminadas?

(8)

Análise Discriminante

Representação de um terceiro eixo Y (em azul) onde as instituições bancárias são melhor discriminadas (linearmente).

X1

X2

2,5 2,0

1,5 1,0

0,5 0,0

1,0

0,8

0,6

0,4

0,2

0,0

Condição 1 2

Diagrama de Dispersão dos Bancos

 Função Discriminante (linear) de Fisher: obter um novo eixo para discriminar grupos. Este eixo é uma combinação linear das variáveis

originais, onde as populações podem ser melhor diferenciadas.

(9)

Análise Discriminante

Notação

X (px1) : vetor de variáveis vindo de uma dentre duas populações 1 e 2

1

) 1 (

1 |

pE X

2

) 1 (

2 |

pE X

1

) (

1 p pCov X |

2

) (

2 p pCov X |

: vetor de médias de uma observação multivariada de 1

: matriz de covariância de uma observação multivariada de 1

 Dados: Suponha que de cada população, 1 e 2 , seja selecionada uma amostra aleatória de tamanho n1 e n2, respectivamente.

(10)

Análise Discriminante

Método de Fisher para Duas Populações

X (px1) 1(p1) E

X |1

2(p1) E

X |2

1

) (

1 p p Cov X |

2(pp) Cov

X |2

Suposição 1 2

 

2

2 2 1

Y Y Y

X l Y

1

 

1

1

1 || 

Y E Y E lX l2Y E

Y |2

l2

 

l X l l

Y2Var   

Obter a combinação linear das variáveis que melhor discrimine as duas populações, isto é, que maximize a razão (diferença entre as médias em unidades de desvio padrão):

 Distância ao quadrado entre as médias de Y

 Variância de Y

g=2

Matrizes de covariâncias homogêneas

(11)

Análise Discriminante

Método de Fisher

 

2

2 2 1

Y Y Y

X

l Y

X  obter l , tal que, o máximo desta razão seja atingido

Y

12Y1Y2Y

Y

12Y

Área comum:

região de difícil discriminação Situações favoráveis:

Médias mais afastadas

 variância pequena

Representação sob a suposição de Normalidade.

(12)

Análise Discriminante

Método de Fisher para Duas Populações

X (px1)

1 22

2

1 2



1 2

 

2

1

l l l l

l l l

l l

l l

Y Y Y

X l Y

1

 

1

1

1 || 

Y E Y E lX l2Y E

Y |2

l2

 

l X l l

Y2Var   

 

X

X l

Y 1 2 1

  é a função discriminante

linear de Fisher

1 2

 

1 1 2

dM2

Distância de Mahalanobis Desigualdade de Cauchy-Schwarz

(13)

Análise Discriminante

Método de Fisher para Duas Populações

    

 

2

 

'

' 1

1

se 1

2 1

2 1

2

2 2 1

 

k l l

l l l l

l l

l l

l l

l l

l l

Y Y Y

Desigualdade de Cauchy-Schwarz:

    

 

'

'

 

'

( se b kA d;d kAb)

) kb d

kd;

b se ( '

' '

1 - 2 1

2

d A d Ab b d

b

d d b b d

b

(14)

Análise Discriminante

Método de Fisher

X (px1) Y l X

1

 

1

1

1 || 

Y E Y E lX l2Y E

Y |2

l2

 

l X l l

Y2Var   

 

X

X l

Y 1 2 1

  função discriminante linear

de Fisher

Para dados amostrais: X

X1 X2

1 X

Y l Sc

   

2 1 1

2 1

2 2

1 1

n n

S n

S Sc n

(15)

Análise Discriminante

Gráfico de dispersão das observações. Indicação da função discriminante (eixo Y)

X1

X2

2,5 2,0

1,5 1,0

0,5 0,0

1,0

0,8

0,6

0,4 0,2

0,0

Condição 1 2

Diagrama de Dispersão dos Bancos

Y

Y2

Y1

1 2

 

11 2

dM2 A função discriminante é obtida de tal forma que a distância de Mahalanobis

entre os centróides dos dois grupos no eixo Y é

máxima possível!

 

   1 2

1 2

1 2 1

2 1 2 1

X X

S X

X Y Y

Y m

c

Note que:

(16)

Análise Discriminante

Banco Condição X1 X2 X3 X4

B1 1 0,8888 0,7391 1,0255 0,3938

B2 1 1,6655 0,7268 0,878 0,0004

B3 1 2,2111 0,9166 0,9492 0,342

B4 1 1,4351 0,9133 0,9577 0,2325

B5 1 2,1414 0,002 1,0245 0,3966

B6 1 1,192 0,4972 1,034 0,3095

B7 1 1,5895 0,2593 1,0453 0,557

B8 1 1,3272 0,4126 1,0448 0,3482

B9 1 1,8847 0,388 0,9864 0,0337

B10 1 0,5229 0,9473 1,1244 0,118

n 10 10 10 10

Média 1,4852 0,5802 1,007 0,2732

D.P. 0,533 0,319 0,0674 0,1762

B11 2 0,4922 0,3166 1,1127 0,1628

B12 2 1,4427 0,0589 0,9019 0,1355

B13 2 0,5438 0,5358 1,03 0,1481

B14 2 0,1904 0,7087 0,9917 0,2625

B15 2 0,1102 0,7378 1,528 0,0783

B16 2 2,006 0,014 1,0321 0,0816

B17 2 0,2321 0,9234 0,9753 0,0045

B18 2 0,9019 0,1634 1,1414 0,5485

B19 2 1,9757 0,3395 0,9997 0,0751

B20 2 0,7276 0,3139 1,1077 0,2957

n 10 10 10 10

Média 0,862 0,4112 1,0821 0,1793

D.P. 0,712 0,3055 0,1726 0,1567

1,485 0,58

0,862 0,414 0,624 0,166

1

X X2

2

1 X

X

0,284 -0,07 -0,07 0,101

0,506 -0,164 -0,164 0,091

0,395 -0,117 -0,164 0,096

1 S

2 S

c S

1 2

1

X X Sc

l

2 1 5,719 274

,

3 X X

X l

Y

(17)

Análise Discriminante

Função Discriminante Linear de Fisher

 Classificação de Observações

1 2

1 0

0 0

0 X X X X

X Y l Sc

X

   

1 2

1

1 2

2 1

2 1

2 1

2 1 2

1

X X

S X

X

X l X

l X

l Y

Y Y

m

c

Regra de alocação:

Ponto médio m entre as duas médias univariadas dos dois grupos:

Y

Y 0

Y

Y 0

alocar X0 em 1 alocar X0 em 2

(18)

Banco Condição Função Discr Classificação

B1 1 7,13

B2 1 9,61

B3 1 12,48

B4 1 9,92

B5 1 7,02

B6 1 6,74

B7 1 6,68

B8 1 6,7

B9 1 8,39

B10 1 7,13

B11 2 3,42

B12 2 5,06

B13 2 4,84

B14 2 4,67

B15 2 4,58

B16 2 6,8

B17 2 6,04

B18 2 3,89

B19 2 8,41

B20 2 4,17

Análise Discriminante

681 ,

 6 Y

Y

Y 0

Y

Y 0

Condição 1 Condição 2

Como os bancos são classificados?

Qual a taxa de acerto?

?

?

(19)

Banco Condição Função Discr Classificação

B1 1 7,13

B2 1 9,61

B3 1 12,48

B4 1 9,92

B5 1 7,02

B6 1 6,74

B7 1 6,68

B8 1 6,7

B9 1 8,39

B10 1 7,13

B11 2 3,42

B12 2 5,06

B13 2 4,84

B14 2 4,67

B15 2 4,58

B16 2 6,8

B17 2 6,04

B18 2 3,89

B19 2 8,41

B20 2 4,17

Análise Discriminante

681 ,

 6 Y

Y

Y 0

Y

Y 0

Condição 1 Condição 2

Como os bancos são classificados?

Qual a taxa de acerto?

1 1 1 1 1 1 2 1 1 1 2 2 2 2 2 1 2 2 1 2

% 20 85

17

(20)

Análise Discriminante

Grupos X1 X2 X3

Grupo 1: Consumidores

1 8 9 6

2 6 7 5

3 10 6 3

4 9 4 4

5 4 8 2

Média 7,4 6,8 4

Grupo 2: Não Consumidores

6 5 4 7

7 3 7 2

8 4 5 5

9 2 4 3

10 2 2 2

Média 3,2 4,4 3,8

Diferença entre Médias 4,2 2,4 0,2

Dados HATCO: Lançamento de Produto

A variável X1 é a que mais discrimina os dois grupos e X3 é a que menos discrimina (em média)

 Considere as seguintes funções discriminantes: X1, X1+X2 e a de Fisher

(21)

Análise Discriminante

Dados HATCO: Lançamento de Produto

X1

X2

10 9 8 7 6 5 4 3 2 1 9 8 7 6 5 4 3

2 10

9

8 7

6 5

4 3 2

1

X1

X2

10 9 8 7 6 5 4 3 2 1 9 8 7 6 5 4 3

2 2

2

2 2

2 1

1 1 1

1

Dispersão dos 10 clientes nas var. X1 e X2

Dispersão dos 10 clientes nas var. X1 e X2 de acordo com o grupo de

consumidores

(22)

Análise Discriminante

 Obtenha o grupo predito de cada observação

 Avalie as classificações obtidas para cada função discriminante

 Por que a solução de Fisher é ótima?

Grupos X1 X1+X2

Grupo 1

1 8 17 20,15 7,2

2 6 13 15,37 2,42

3 10 16 19,78 6,83

4 9 13 16,36 3,41

5 4 12 13,68 0,73

Média 7,4 14,2 17,07 4,12

Grupo 2

6 5 9 10,92 -2,03

7 3 10 11,29 -1,66

8 4 9 10,59 -2,36

9 2 6 6,84 -6,11

10 2 4 4,78 -8,17

Média 3,2 7,6 8,88 -4,07

m 5,3 10,9 12,95 0

Y=1,36X1+1,03X2 Y Y-m

m: média das médias

Y  m  Gr1 Y < m  Gr2 (Y-m)  0  Gr1 (Y-m) < 0  Gr2

(23)

Análise Discriminante - Exemplo

Grupo log(AHF ativ) log(AHF antig) Grupo log(AHF ativ) log(AHF antig)

1 -0,0056 -0,1657 2 -0,3478 0,1151

1 -0,1698 -0,1585 2 -0,3618 -0,2008

1 -0,3496 -0,1879 2 -0,3618 -0,086

1 -0,0894 0,0064 2 -0,4986 -0,2984

1 2

1 -0,2228 -0,171 2 -0,1744 0,1892

1 -0,0997 -0,0733 2 -0,4055 -0,2418

1 -0,1972 -0,0607 2 -0,2444 0,1614

1 -0,0867 -0,056 2 -0,4784 0,0282

Hemofílicos - Hemofílicos +

Objetivo: Obter uma função discriminante para grupos de mulheres que carregam ou não genes da hemofilia com base na atividade da proteína AHF e de seu antígeno.

Com base na função discriminante classifique uma mulher com medidas de AHF iguais a: ( -0,11 -0,037)

(Johnson and Wichern, 1992, Tabela 11.8)

(24)

Análise Discriminante

Exemplo: Dados dos grupos de pacientes Hemofílicos (carregadores do gene) e não Hemofílicos (Normais) .





0390 .

0

0065 .

0

X1 



 

0262 .

0

2483 .

0 X2





147 . 108 423

. 90

423 . 90 158

.

1 131 Sc

1 2

1

X X Sc

l

2 1 28.92 61

.

37 X X

X l

Y

 

4.61

2 1 10

. 10

88 . 0

2 1

2 1 2

1 











m Y Y

X l

X l Y

Y Y

Yi  m  Normais Yi < m  Hemof.

(25)

Análise Discriminante

Método de Fisher para Muitas Populações

X (px1) 1(p1) E

X |1

2(p1) E

X |2

1

) (

1 p p Cov X |

2(pp) Cov

X |2

Suposição 1 2 ...g

Y l X

1

 

1

1

1 || 

Y E Y E lX l ... gY E

Y |g

lg

 

l X l l

Y2Var   

g ... g(p1) E

X |g

g

p p

g Cov X |

... ( )

para todas as populações

Para g populações há interesse em obter uma representação da população total que envolva “poucas” combinações lineares  l1 X, l2 X,..., lk X; k min(g 1, p)

(26)

Análise Discriminante

Método de Fisher para Muitas Populações

      

l l

l l

i

i i

Y

Y iY

i Y

Y Y

 

2

1 2

2 2 1 2

2 2 1

 Re-escrevendo o Critério para Duas Populações:

 Critério para Muitas Populações (estender o somatório para g grupos):

    

l l

l B l l

l

l l l

l

g

i

i i

Y j g

j Y

Y iY

g

i

 

1

2

2 1

2

2 1

 As funções discriminantes são obtidas a partir dos autovetores da matriz , tal que, 1 B

) , 1 min(

; ,...,

, 2

1 X l X l X k g p

l k

1

 l l

Maximizar a soma de quadrados Entre relativamente à soma de quadrados dentro.

(27)

Análise Discriminante

Método de Fisher para Muitas Populações

 Critério para Muitas Populações (g):

    

l l

l B l l

l

l l l

l

g

i

i i

Y j g

j Y

Y iY

g

i

 

1

2

2 1

2

2 1

 As funções discriminantes são obtidas a partir dos autovetores da matriz , tal que, 1 B

) , 1 min(

; ,...,

, 2

1 X l X l X k g p

l k

I l

l  

2 / 1 2

/

1

B

1 B

e : têm os mesmos autovalores

Matriz simétrica: autovetores P

2 P

/

1

Os autovetores são dados por:

(28)

Análise Discriminante

Método de Fisher para Muitas Populações

 Considerando Dados Amostrais:

l S l

l B l l

l l B l

c

ˆ

 

 

 

   









g

i n

j

i ij i ij g

i i g

i

i i

g

i i c

i

p

p n n S n X X X X

S

1 1 1

1 1

1

1

1 1

1

Matriz de covariância comum: covariâncias DENTRO de grupo





2

2 1

i i

i X

X X p

Matriz de covariâncias ENTRE grupos

  

g

i

i i

i p

p n X X X X

B

1

ˆ

Situação ideal para discriminação: variáveis com covariâncias ENTRE

e DENTRO de sinais contrários!

(29)

Análise Discriminante

Método de Fisher para Muitas Populações

 Considerando Dados Amostrais:

  

n

 

X X



X X

l

l

l X X

X X

n l

l S l

l B l l

l l B l

g

i n

j

i ij

i ij

i g

i

i i

i

c



n

1 1

1 1

) 1 (

ˆ

 As funções discriminantes são obtidas a partir dos autovetores da matriz Sc1 Bˆ

) , 1 min(

; ,...,

, 2 2

1

1 l X Y l X Y l X k g p

Y k k

 Para espaços discriminantes bi-dimensionais (k=2), a discriminação das

observações pode ser visualizada por meio de gráficos de dispersão de Y1 x Y2

Referências

Documentos relacionados

lhe o raciocínio, fazê-lo perceber as várias facetas de um problema, é ensiná-lo a con- siderar as coisas de outros pontos de vista, a levar em conta os argumentos alheios. A

Atualmente, a Revista é apoiada financeiramente pela Fundação Araucária, Capes, CNPq e IPEA, além da Universidade Estadual de Maringá (UEM). Isso possibilita manter um rigoroso

Os resultados de porcentagem e produtividade de P(3HB) (35% e 0,18 g L -1 h -1 , respectivamente) para o cultivo a 35 ºC sem adição de óleo usando amido hidrolisado de arroz

Figura 13 - Municípios do Centro de Endemismo Pernambuco onde foram registrados as espécies: Glaucidium mooreorum, Philydor novaesi, Terenura sicki, Myrmotherula snowi, Synallaxis

da distribuição gama mostra que o factor de variância 1.56 é, com uma probabilidade elevada (0.95), um majo- rante das possíveis ocorrências dos factores de variância.. Na Figura

Se o estudante cometer um erro de identificação ou de código pode comprometer a validade dos seus

Se o estudante cometer um erro de identificação ou de código pode comprometer a validade dos seus

Os assessores jurídicos externos da Companhia entendem como prováveis as chances de êxito nestes processos, respaldando-se ainda em pareceres de renomados juristas e em recentes