MAE 0330
ANÁLISE MULTIVARIADA DE DADOS
Análise Discriminante
Júlia M Pavan Soler pavan@ime.usp.br
2° Sem/2016
Análise Multivariada de Dados
Objetivos:
Discriminação: obter funcões das variáveis que discriminem as observações em
“g” grupos função discriminante.
Classificação: Obter funções das variáveis que permitam classificar novas observações em um de “g” grupos.
ANÁLISE DISCRIMINANTE
Unidades Amostrais 1 2 … j … p
1 Y111 Y112 Y11j Y11p
2 Y121 Y122 Y12j Y12p
… … … … … …
n1 Y1n11 Y1n12 Y1n1j Y1n1p
1 Y211 Y212 Y21j Y21p
2 Y221 Y222 Y22j Y22p
… … … … … …
n2 Y2n21 Y2n22 Y2n2j Y2n2p
Variáveis
G1
G2
Ynx(p+1)
n=n1+n2
Análise Discriminante
Populações: P1 e P2 Variáveis Objetivo
Instituições Com ou Sem problemas
5 indicadores financeiros
Análise de Risco Auditoria
Clientes Bons ou Ruins Sócio-econômicas, escolaridade, …
Concessão de crédito a clientes Genótipos dos pacientes
(aa, Aa, AA)
Biométricas,
resistência, produção
Identificação de fenótipos importantes
Dê exemplos de situações com mais de 2 grupos.
Análise Discriminante
Grupo log(AHF ativ) log(AHF antig) Grupo log(AHF ativ) log(AHF antig)
1 -0,0056 -0,1657 2 -0,3478 0,1151
1 -0,1698 -0,1585 2 -0,3618 -0,2008
1 -0,3496 -0,1879 2 -0,3618 -0,086
1 -0,0894 0,0064 2 -0,4986 -0,2984
1 … … 2 … …
1 -0,2228 -0,171 2 -0,1744 0,1892
1 -0,0997 -0,0733 2 -0,4055 -0,2418
1 -0,1972 -0,0607 2 -0,2444 0,1614
1 -0,0867 -0,056 2 -0,4784 0,0282
Hemofílicos - Hemofílicos +
Objetivo: Obter uma função discriminante para grupos de mulheres que carregam ou não genes da hemofilia com base na atividade da proteína AHF e de seu antígeno.
Com base na função discriminante classifique uma mulher com medidas de AHF iguais a: ( -0,11 -0,037)
Johnson and Wichern, 1992, Tabela 11.8)
Análise Discriminante
Banco Condição X1 X2 X3 X4
B1 1 0,8888 0,7391 1,0255 0,3938
B2 1 1,6655 0,7268 0,878 0,0004
B3 1 2,2111 0,9166 0,9492 0,342
B4 1 1,4351 0,9133 0,9577 0,2325
B5 1 2,1414 0,002 1,0245 0,3966
B6 1 1,192 0,4972 1,034 0,3095
B7 1 1,5895 0,2593 1,0453 0,557
B8 1 1,3272 0,4126 1,0448 0,3482
B9 1 1,8847 0,388 0,9864 0,0337
B10 1 0,5229 0,9473 1,1244 0,118
n 10 10 10 10
Média 1,4852 0,5802 1,007 0,2732
D.P. 0,533 0,319 0,0674 0,1762
B11 2 0,4922 0,3166 1,1127 0,1628
B12 2 1,4427 0,0589 0,9019 0,1355
B13 2 0,5438 0,5358 1,03 0,1481
B14 2 0,1904 0,7087 0,9917 0,2625
B15 2 0,1102 0,7378 1,528 0,0783
B16 2 2,006 0,014 1,0321 0,0816
B17 2 0,2321 0,9234 0,9753 0,0045
B18 2 0,9019 0,1634 1,1414 0,5485
B19 2 1,9757 0,3395 0,9997 0,0751
B20 2 0,7276 0,3139 1,1077 0,2957
n 10 10 10 10
Média 0,862 0,4112 1,0821 0,1793
D.P. 0,712 0,3055 0,1726 0,1567
Condição:
1: Com problemas 2: Sem problemas
Objetivo:
Obter uma função de discriminação com base nas 4 variáveis de
indicadores econômicos
Análise Discriminante
X1
X2
2,5 2,0
1,5 1,0
0,5 0,0
1,0
0,8
0,6
0,4
0,2
0,0
Condição 1 2
Diagrama de Dispersão dos Bancos
Como as instituições bancárias de G1 e de G2 podem ser identificadas?
Usando somente a variável X1 ?
Usando somente a variável X2 ?
Usando ambas, variável X1 e X2 ?
Análise Discriminante
X1
X2
2,5 2,0
1,5 1,0
0,5 0,0
1,0
0,8
0,6
0,4
0,2
0,0
Condição 1 2
Diagrama de Dispersão dos Bancos
Como as instituições bancárias podem ser identificadas com base nas duas variáveis X1 e X2 ?
Você acha possível obter algum outro “eixo” de modo que as populações possam ser discriminadas?
Análise Discriminante
Representação de um terceiro eixo Y (em azul) onde as instituições bancárias são melhor discriminadas (linearmente).
X1
X2
2,5 2,0
1,5 1,0
0,5 0,0
1,0
0,8
0,6
0,4
0,2
0,0
Condição 1 2
Diagrama de Dispersão dos Bancos
Função Discriminante (linear) de Fisher: obter um novo eixo para discriminar grupos. Este eixo é uma combinação linear das variáveis
originais, onde as populações podem ser melhor diferenciadas.
Análise Discriminante
Notação
X (px1) : vetor de variáveis vindo de uma dentre duas populações 1 e 2
1
) 1 (
1 |
p E X
2
) 1 (
2 |
p E X
1
) (
1 p p Cov X |
2
) (
2 p p Cov X |
: vetor de médias de uma observação multivariada de 1
: matriz de covariância de uma observação multivariada de 1
Dados: Suponha que de cada população, 1 e 2 , seja selecionada uma amostra aleatória de tamanho n1 e n2, respectivamente.
Análise Discriminante
Método de Fisher para Duas Populações
X (px1) 1(p1) E
X |1
2(p1) E
X |2
1
) (
1 p p Cov X |
2(pp) Cov
X |2
Suposição 1 2
2
2 2 1
Y Y Y
X l Y
1
1
11 | |
Y E Y E lX l 2Y E
Y |2
l2
l X l lY2 Var
Obter a combinação linear das variáveis que melhor discrimine as duas populações, isto é, que maximize a razão (diferença entre as médias em unidades de desvio padrão):
Distância ao quadrado entre as médias de Y
Variância de Y
g=2
Matrizes de covariâncias homogêneas
Análise Discriminante
Método de Fisher
2
2 2 1
Y Y Y
X
l Y
X obter l , tal que, o máximo desta razão seja atingido
Y
1 2Y 1Y 2Y
Y
1 2Y
Área comum:
região de difícil discriminação Situações favoráveis:
Médias mais afastadas
variância pequena
Representação sob a suposição de Normalidade.
Análise Discriminante
Método de Fisher para Duas Populações
X (px1)
1 22
2
1 2
1 2
2
1
l l l l
l l l
l l
l l
Y Y Y
X l Y
1
1
11 | |
Y E Y E lX l 2Y E
Y |2
l2
l X l lY2 Var
XX l
Y 1 2 1
é a função discriminante
linear de Fisher
1 2
1 1 2
dM2Distância de Mahalanobis Desigualdade de Cauchy-Schwarz
Análise Discriminante
Método de Fisher para Duas Populações
2
'
' 1
1
se 1
2 1
2 1
2
2 2 1
k l l
l l l l
l l
l l
l l
l l
l l
Y Y Y
Desigualdade de Cauchy-Schwarz:
'
'
'
( se b kA d;d kAb)) kb d
kd;
b se ( '
' '
1 - 2 1
2
d A d Ab b d
b
d d b b d
b
Análise Discriminante
Método de Fisher
X (px1) Y l X
1
1
11 | |
Y E Y E lX l 2Y E
Y |2
l2
l X l lY2 Var
XX l
Y 1 2 1
função discriminante linear
de Fisher
Para dados amostrais: X
X1 X2
1 X
Y l Sc
2 1 1
2 1
2 2
1 1
n n
S n
S Sc n
Análise Discriminante
Gráfico de dispersão das observações. Indicação da função discriminante (eixo Y)
X1
X2
2,5 2,0
1,5 1,0
0,5 0,0
1,0
0,8
0,6
0,4 0,2
0,0
Condição 1 2
Diagrama de Dispersão dos Bancos
Y
Y2
Y1
1 2
1 1 2
dM2 A função discriminante é obtida de tal forma que a distância de Mahalanobisentre os centróides dos dois grupos no eixo Y é
máxima possível!
1 2
1 2
1 2 1
2 1 2 1
X X
S X
X Y Y
Y m
c
Note que:
Análise Discriminante
Banco Condição X1 X2 X3 X4
B1 1 0,8888 0,7391 1,0255 0,3938
B2 1 1,6655 0,7268 0,878 0,0004
B3 1 2,2111 0,9166 0,9492 0,342
B4 1 1,4351 0,9133 0,9577 0,2325
B5 1 2,1414 0,002 1,0245 0,3966
B6 1 1,192 0,4972 1,034 0,3095
B7 1 1,5895 0,2593 1,0453 0,557
B8 1 1,3272 0,4126 1,0448 0,3482
B9 1 1,8847 0,388 0,9864 0,0337
B10 1 0,5229 0,9473 1,1244 0,118
n 10 10 10 10
Média 1,4852 0,5802 1,007 0,2732
D.P. 0,533 0,319 0,0674 0,1762
B11 2 0,4922 0,3166 1,1127 0,1628
B12 2 1,4427 0,0589 0,9019 0,1355
B13 2 0,5438 0,5358 1,03 0,1481
B14 2 0,1904 0,7087 0,9917 0,2625
B15 2 0,1102 0,7378 1,528 0,0783
B16 2 2,006 0,014 1,0321 0,0816
B17 2 0,2321 0,9234 0,9753 0,0045
B18 2 0,9019 0,1634 1,1414 0,5485
B19 2 1,9757 0,3395 0,9997 0,0751
B20 2 0,7276 0,3139 1,1077 0,2957
n 10 10 10 10
Média 0,862 0,4112 1,0821 0,1793
D.P. 0,712 0,3055 0,1726 0,1567
1,485 0,58
0,862 0,414 0,624 0,166
1
X X2
2
1 X
X
0,284 -0,07 -0,07 0,101
0,506 -0,164 -0,164 0,091
0,395 -0,117 -0,164 0,096
1 S
2 S
c S
1 2
1 X X Sc
l
2 1 5,719 274
,
3 X X
X l
Y
Análise Discriminante
Função Discriminante Linear de Fisher
Classificação de Observações
1 2
1 00 0
0 X X X X
X Y l Sc
X
1 2
1
1 2
2 1
2 1
2 1
2 1 2
1
X X
S X
X
X l X
l X
l Y
Y Y
m
c
Regra de alocação:
Ponto médio m entre as duas médias univariadas dos dois grupos:
Y
Y 0
Y
Y 0
alocar X0 em 1 alocar X0 em 2
Banco Condição Função Discr Classificação
B1 1 7,13
B2 1 9,61
B3 1 12,48
B4 1 9,92
B5 1 7,02
B6 1 6,74
B7 1 6,68
B8 1 6,7
B9 1 8,39
B10 1 7,13
B11 2 3,42
B12 2 5,06
B13 2 4,84
B14 2 4,67
B15 2 4,58
B16 2 6,8
B17 2 6,04
B18 2 3,89
B19 2 8,41
B20 2 4,17
Análise Discriminante
681 ,
6 Y
Y
Y 0
Y
Y 0
Condição 1 Condição 2
Como os bancos são classificados?
Qual a taxa de acerto?
?
?
Banco Condição Função Discr Classificação
B1 1 7,13
B2 1 9,61
B3 1 12,48
B4 1 9,92
B5 1 7,02
B6 1 6,74
B7 1 6,68
B8 1 6,7
B9 1 8,39
B10 1 7,13
B11 2 3,42
B12 2 5,06
B13 2 4,84
B14 2 4,67
B15 2 4,58
B16 2 6,8
B17 2 6,04
B18 2 3,89
B19 2 8,41
B20 2 4,17
Análise Discriminante
681 ,
6 Y
Y
Y 0
Y
Y 0
Condição 1 Condição 2
Como os bancos são classificados?
Qual a taxa de acerto?
1 1 1 1 1 1 2 1 1 1 2 2 2 2 2 1 2 2 1 2
% 20 85
17
Análise Discriminante
Grupos X1 X2 X3
Grupo 1: Consumidores
1 8 9 6
2 6 7 5
3 10 6 3
4 9 4 4
5 4 8 2
Média 7,4 6,8 4
Grupo 2: Não Consumidores
6 5 4 7
7 3 7 2
8 4 5 5
9 2 4 3
10 2 2 2
Média 3,2 4,4 3,8
Diferença entre Médias 4,2 2,4 0,2
Dados HATCO: Lançamento de Produto
A variável X1 é a que mais discrimina os dois grupos e X3 é a que menos discrimina (em média)
Considere as seguintes funções discriminantes: X1, X1+X2 e a de Fisher
Análise Discriminante
Dados HATCO: Lançamento de Produto
X1
X2
10 9 8 7 6 5 4 3 2 1 9 8 7 6 5 4 3
2 10
9
8 7
6 5
4 3 2
1
X1
X2
10 9 8 7 6 5 4 3 2 1 9 8 7 6 5 4 3
2 2
2
2 2
2 1
1 1 1
1
Dispersão dos 10 clientes nas var. X1 e X2
Dispersão dos 10 clientes nas var. X1 e X2 de acordo com o grupo de
consumidores
Análise Discriminante
Obtenha o grupo predito de cada observação
Avalie as classificações obtidas para cada função discriminante
Por que a solução de Fisher é ótima?
Grupos X1 X1+X2
Grupo 1
1 8 17 20,15 7,2
2 6 13 15,37 2,42
3 10 16 19,78 6,83
4 9 13 16,36 3,41
5 4 12 13,68 0,73
Média 7,4 14,2 17,07 4,12
Grupo 2
6 5 9 10,92 -2,03
7 3 10 11,29 -1,66
8 4 9 10,59 -2,36
9 2 6 6,84 -6,11
10 2 4 4,78 -8,17
Média 3,2 7,6 8,88 -4,07
m 5,3 10,9 12,95 0
Y=1,36X1+1,03X2 Y Y-m
m: média das médias
Y m Gr1 Y < m Gr2 (Y-m) 0 Gr1 (Y-m) < 0 Gr2
Análise Discriminante - Exemplo
Grupo log(AHF ativ) log(AHF antig) Grupo log(AHF ativ) log(AHF antig)
1 -0,0056 -0,1657 2 -0,3478 0,1151
1 -0,1698 -0,1585 2 -0,3618 -0,2008
1 -0,3496 -0,1879 2 -0,3618 -0,086
1 -0,0894 0,0064 2 -0,4986 -0,2984
1 … … 2 … …
1 -0,2228 -0,171 2 -0,1744 0,1892
1 -0,0997 -0,0733 2 -0,4055 -0,2418
1 -0,1972 -0,0607 2 -0,2444 0,1614
1 -0,0867 -0,056 2 -0,4784 0,0282
Hemofílicos - Hemofílicos +
Objetivo: Obter uma função discriminante para grupos de mulheres que carregam ou não genes da hemofilia com base na atividade da proteína AHF e de seu antígeno.
Com base na função discriminante classifique uma mulher com medidas de AHF iguais a: ( -0,11 -0,037)
(Johnson and Wichern, 1992, Tabela 11.8)
Análise Discriminante
Exemplo: Dados dos grupos de pacientes Hemofílicos (carregadores do gene) e não Hemofílicos (Normais) .
0390 .
0
0065 .
0
X1
0262 .
0
2483 .
0 X2
147 . 108 423
. 90
423 . 90 158
.
1 131 Sc
1 2
1 X X Sc
l
2 1 28.92 61
.
37 X X
X l
Y
4.612 1 10
. 10
88 . 0
2 1
2 1 2
1
m Y Y
X l
X l Y
Y Y
Yi m Normais Yi < m Hemof.
Análise Discriminante
Método de Fisher para Muitas Populações
X (px1) 1(p1) E
X |1
2(p1) E
X |2
1
) (
1 p p Cov X |
2(pp) Cov
X |2
Suposição 1 2 ...g
Y l X
1
1
11 | |
Y E Y E lX l ... gY E
Y |g
lg
l X l lY2 Var
g ... g(p1) E
X |g
g
p p
g Cov X |
... ( )
para todas as populações
Para g populações há interesse em obter uma representação da população total que envolva “poucas” combinações lineares l1 X, l2 X,..., lk X; k min(g 1, p)
Análise Discriminante
Método de Fisher para Muitas Populações
l l
l l
i
i i
Y
Y iY
i Y
Y Y
2
1 2
2 2 1 2
2 2 1
Re-escrevendo o Critério para Duas Populações:
Critério para Muitas Populações (estender o somatório para g grupos):
l l
l B l l
l
l l l
l
g
i
i i
Y j g
j Y
Y iY
g
i
12
2 1
2
2 1
As funções discriminantes são obtidas a partir dos autovetores da matriz , tal que, 1 B
) , 1 min(
; ,...,
, 2
1 X l X l X k g p
l k
1
l l
Maximizar a soma de quadrados Entre relativamente à soma de quadrados dentro.
Análise Discriminante
Método de Fisher para Muitas Populações
Critério para Muitas Populações (g):
l l
l B l l
l
l l l
l
g
i
i i
Y j g
j Y
Y iY
g
i
12
2 1
2
2 1
As funções discriminantes são obtidas a partir dos autovetores da matriz , tal que, 1 B
) , 1 min(
; ,...,
, 2
1 X l X l X k g p
l k
I l
l
2 / 1 2
/
1
B
1 B
e : têm os mesmos autovalores
Matriz simétrica: autovetores P
2 P
/
1
Os autovetores são dados por:
Análise Discriminante
Método de Fisher para Muitas Populações
Considerando Dados Amostrais:
l S l
l B l l
l l B l
c
ˆ
g
i n
j
i ij i ij g
i i g
i
i i
g
i i c
i
p
p n n S n X X X X
S
1 1 1
1 1
1
1
1 1
1
Matriz de covariância comum: covariâncias DENTRO de grupo
2
2 1
i i
i X
X X p
Matriz de covariâncias ENTRE grupos
g
i
i i
i p
p n X X X X
B
1
ˆ
Situação ideal para discriminação: variáveis com covariâncias ENTRE
e DENTRO de sinais contrários!
Análise Discriminante
Método de Fisher para Muitas Populações
Considerando Dados Amostrais:
n
X X
X X
ll
l X X
X X
n l
l S l
l B l l
l l B l
g
i n
j
i ij
i ij
i g
i
i i
i
c
n
1 1
1 1
) 1 (
ˆ
As funções discriminantes são obtidas a partir dos autovetores da matriz Sc1 Bˆ
) , 1 min(
; ,...,
, 2 2
1
1 l X Y l X Y l X k g p
Y k k
Para espaços discriminantes bi-dimensionais (k=2), a discriminação das
observações pode ser visualizada por meio de gráficos de dispersão de Y1 x Y2