análisediscriminante-AulaparaTadeu2011

(1)

ANÁLISE DISCRIMINANTE

Edilan Quaresma

ESCOLA SUPERIOR DE AGRICULTURA LUIZ DE QUEIROZ PPGEEA

Análise Multivariada

Orientador: Prof. Carlos Tadeu dos Santos Dias

(2)

ANÁLISE MULTIVARIADA

Introdução

I Análise Multivariada: interesse no comportamento simultâneo de p características (variáveis)

I Avanços no campo da multivariada⇒ investigações pioneiras de R.A.Fisher, "o arquiteto da análise multivariada"(Rao, 1964)

I Análise Discriminante (AD):

I _{Existem grupos diferentes, caracterizados por um conjunto} de características (variáveis) comuns;

I _{Novos sujeitos entram no estudo.} I Objetivo: A que grupo alocá-los?

I _{AD: fornece uma função matemática (função discriminante)} utilizada para classificar novos elementos amostrais nos grupos já existentes.

(3)

(4)

Introdução

I Baseado em algumas variáveis desejamos

i) Distinguir entre 2 ou mais grupos mutuamente exclusivos;

ii) Identificar quais dessas variáveis são mais importantes na discriminação dos grupos

iii) Desenvolver um procedimento que nos permita classificar novos indivíduos em um dos vários grupos.

(5)

I Existe uma média ¯xjp para cada variável i em cada poupulação j

(6)

Introdução

I Análise de risco (bancos): Como avaliar se um indivíduo, candidato a um empréstimo, tem grandes chances de vir a ser inadimplente?

I Ecologia: Como classificar insetos nas diferentes espécies (muito similares) com base, p.ex., em características

morfológicas (comprimento das patas, asas, mandíbula, antenas, tórax etc)?

I Medicina: Como classificar um paciente como provável portador ou não portador de uma patologia, com base em medidas laboratoriais,comportamentais e sociais?

I Ensino: Como classificar candidatos a um curso de pós-graduação como prováveis concluintes ou não de um desses cursos, com base em variáveis (quantificáveis) como histórico escolar, CV, cartas de referência, experiências profissionais e outras?

(7)

I Respostas:

i) Com base em informações anteriores é possível separar a população em grupos heterogêneos entre si e o mais homogêneos possível internamente;

ii) Novos indivíduos podem ser "alocados"em um dos grupos, com base na construção de uma regra de classificação, uma função

I _{Cuidado: Qualquer que seja a regra de classificação criada,} sempre existirá uma chance de cometermos um erro. matemática.

(8)

Introdução

(9)

I Exemplo 11.1:

I Identificar quais moradores da cidade são potenciais compradores de uma determinada marca de máquina agrícola.

I _{24 famílias foram entrevistadas, 12 já possuíam a máquina} (grupo π1) e as outras 12 ainda não possuíam a máquina

(grupo π2)

(10)

Classificação e Separação para duas Populações

(11)

Figura:Dispersão: Renda e tamanho do lote de terra

I Grupo de proprietários (π1)tem maiores valores para as variáveis que o grupo de não-proprietários (π2)

(12)

I A regra de classificação é boa quando comete poucos erros;

I AD cria uma regra (função) para determinação de 2 regiões (R1e R2) que minimize a chance de erro;

I No exemplo, a função consiste narotação do eixo

I Além das variáveis observadas, considerar: I _{probabilidade "a priori"de classificação}

I Ex: Moradores rurais tem maior chance de comprar máquinas I custo envolvido no processo

I Ex: Classificar portador como não portador de uma doença é mais grave que o inverso

(13)

A probabilidade de classificar um indivíduo em π2 quando ele é de π1é: P(2|1) = P(X ∈ R2|π1) = Z R2 f1(x )dx (1) em que:

I f1(x ): função densidade de probabilidade associada ao vetor aleatório ~Xpx 1 para a população π1

I R2= Ω −R1: região dos valores para os quais classificamos os indivíduos como π2

Analogamente,

P(1|2) = P(X ∈ R1|π2) = Z

R1

(14)

Seja p1a probabilidade a priori de π1e p2a probabilidade a priori de π2, com p1+p2=1

Figura:Probabilidades de má classificação para regiões de classificação hipotética

I P(classificaçãocorreta como π1)=P(X ∈ R1|π1)P(π1) =P(1|1)p1

I P(classificaçãoincorreta como π1)=P(X ∈ R2|π2)P(π2) =P(1|2)p2

I P(classificaçãocorreta como π2)=P(X ∈ R2|π2)P(π2) =P(2|2)p2

(15)

Tabela: Matriz de custos de classificação Pop verd Classif em π1 Classif em π2

π1 0 c(2|1)

π2 c(1|2) 0

I Custo médio de má classificação (ECM)

ECM = c(2|1)P(2|1)p1+c(1|2)P(1|2)p2 (3)

I regra de classificação razoável: ECM tão pequeno quanto possível

(16)

Resultado 11.1: As regiões R1e R2que minimizam a ECM são definidas pelos valores dex (observações multivariadas) para os quais valem as seguintes desigualdades:

R1: f1(x) f2(x) ≥ c(1|2) c(2|1) p2 p1 (4) R2: f1(x) f2(x) < c(1|2) c(2|1) p2 p1 (5)

(17)

Casos especiais de regiões que minimizam ECM (idéias de Fisher:

(a) p1=p2(probabilidades a priori iguais) I _R₁: f1(x) f2(x) ≥ _c(1_|2) c(2|1) I _R₂: f1(x) f2(x) < _c(1|2) c(2|1)

(b) c(1|2) = c(2|1) (custos iguais de má classificação) I _R₁: f1(x) f2(x) ≥ p2 p1 I _R₂: f1(x) f2(x) < p2 p1 (c) p2 p1 = c(2|1) c(1|2) I _R₁_: f1(x) f2(x) ≥ 1 I _R₁: f1(x) f2(x) <1

(18)

Classificação com duas Populações Normais Multivariadas

O CASO DE DUAS POPULAÇÕES NORMAIS MULTIVARIADAS

I Prodecimentos de classificação baseados em populações normais predominam na prática (simplicidade e eficiência altas)

I Assumimos que

f1(x )∼ N(µ1, Σ1) f2(x )∼ N(µ2, Σ2)

I Caso 1: Σ1= Σ2= Σ(Homogeneidade na estrutura de covariância)

(19)

CLASSIFICAÇÃO QUANDO Σ1= Σ2= Σ

Supondo que a densidade conjunta de X0 = [X1,X2, ..,Xp]para π1e π2, para i = 1, 2, seja dada por:

fi(x ) = 1 (2π)p/2|Σ|1/2exp −1 2(x − µ) 0 Σ−1(x − µ) (6) Resultado 11.2 Sejam as populações π1e π2descritas por den-sidades normais multivariadas da forma (6).Então a regra de classificação que minimiza o ECM é dada por:

Classificar x0em π1se: (µ₁−µ₂)0Σ−1x0− 1 2(µ1−µ2) 0 Σ−1(µ₁−µ₂)≥ ln c(1|2) c(2|1) p2 p1 (7)

(20)

Na prática, como µ1, µ2 e Σ são parâmetros desconhecidos, Wald (1944) e Anderson(1984) propuseram a substituição:

I µ₁= ¯x1= n11 n1 X j=1 x1j I µ2= ¯x2= _n21 n2 X j=1 x2j

I Como assumimos que Σ1= Σ2= Σ, uma estimativa não viesada de Σ é: I Σ =Sc =h n1−1 (n1−1)(n2−1) i S1+ h n2−1 (n1−1)(n2−1) i S2 s1= _n₁1₋₁ n1 X j=1 (xj − ¯x1)(xj − ¯x1) 0 s2= _n₂1₋₁ n2 X j=1 (xj − ¯x2)(xj − ¯x2) 0

(21)

Resultado 11.2:Classificar x0em π1se: (¯x1−¯x2) 0 S_c−1x0− 1 2(¯x1− ¯x2) 0 S−1_c (¯x1− ¯x2)≥ ln c(1|2) c(2|1) p2 p1 (8)

Caso contrário, classificar em π2

(22)

Exercício 11.3 : lista

Exemplo 11.3: Construir procedimento para detectar potenciais portadores de hemofilia tipo A

I Variáveis:X1:log(atividade AHF) eX2:log(antígeno AHF)

AHF: fator anti-hemofílico

I Grupos: π1: Normal (não carregam o gene da hemofilia)

(23)

Figura:Dispersão: log(atividade AHF) e log(antígeno AHF) para os grupos normal e portador

(24)

Quando c(2|1) = c(1|2) e p1=p2, temos que: c(1|2) c(2|1) p2 p1 =1⇒ log(1) = 0

e a regra do máximo ECM estimado para duas populações normais, consiste em comparar o escalar

^

y =(¯x1− ¯x2) 0

S_c−1x =a^0x avaliado em x0com o número

^ m = 1 2(¯x1− ¯x2) 0 S_c−1(¯x1− ¯x2) = 1 2(¯y1+ ¯y2)

(25)

Na expressão anterior: ^ y1= (¯x1− ¯x2) 0 S_c−1x¯1= ^a 0 ¯ x1 ^ y2= (¯x1− ¯x2) 0 S_c−1x¯2= ^a 0 ¯ x2 daí, usando os dados ^y = [37.61 − 28.92][x1x2]

0

(26)

Uma paciente com x1 = −0, 210 e x2 = −0, 044 é classificada em que grupo (normal ou portador)?

(27)

PROBLEMAS DE ESCALA O vetor ^a0 = (¯x1− ¯x2)

0

Sc−1é frequentemente padronizado para facilitar interpretação.

I As padronizações usuais são:

i) ^a∗= √^a

^

a0â (cada elemento de a dividido pelo comprimento do vetor) ii) â∗= _^_aâ

(28)

CLASSIFICAÇÃO QUANDO Σ16= Σ2

Quando Σ16= Σ2, as regras de classificação são mais complicadas.

(29)

Após construída a função de classificação, é necessário avaliar a sua eficiência.

1) Dados originais divididos emamostra de treinamento (a)e

amostra de validação (b).(a)é usada para obter a função de classificação e(b)para avaliar a performance da função

2) Usar a probabilidade de má classificação:

i) Método de Okamoto (1963): depende da suposição de normalidade das populações

II) Método de Smith (1947): não depende da suposição de normalidade das populações

(30)

Avaliação da Função de Classificação

Método de Okamoto ^ p(2|1) = ^p(1|2) = Φ −D 2 sendo D2 = (¯x1− ¯x2) 0

S_c−1(¯x1− ¯x2) a distância amostral de Ma-halanobis e Φ(z) = Zz −∞ 1 √ 2πexp −1 2 x 2_dx

Probabilidades altas, indicam que a função de classificação não é tão boa.

(31)

Método de Smith

I Calcula as probabilidades p(i|j) com base nas observações que geraram a função discriminante

I Se a função discriminante D(x ) classificou errado mi das ni observações, então

^

p(j|i) = mi ni

I Taxa Aparente de Erro (Johnson e Wichern)

APER = n1M+n2M n1+n2

em que niM é o número de observações má classificadas na população πi

(32)

Função Discriminante Linear de Fisher

Função Discriminante Linear Amostral de Fisher(1938) ^

y = ^a0x = (¯x1− ¯x2) 0

S_c−1x

Idéia: Transformar observações multivariadas x para obser-vações univariadas y tais que os y0s derivados das populações π₁e π2fossem tão separados quanto possível.

(33)

(34)

Função Discriminante Linear de Fisher

Todos os pontos no gráfico de dispersão são projetados sobre uma linha na direção ^a e essa direção varia até que a separação entre as amostras seja maximizada.

(35)

Exemplo 11.8: Potenciais portadores de hemofilia tipo A

A FD linear de Fisher para custos iguais e prob a priori tb iguais foi:

^

y = ^a0x = (¯x1− ¯x2) 0

S_c−1x = 37.61x1−28.92x2 e a máxima separação entre as duas amostras é

(36)

(37)

Até aqui, 2 populações normais

(38)

Classificação entre Diversas Populações

CLASSIFICAÇÃO ENTRE DIVERSAS POPULAÇÕES

I Para cada uma das g populações π1, ..., πg, precisamos assumir uma distribuição

I Com experiência dos pesquisadores, estabelecer probabilidades a priori e custos de má classificação

O MÉTODO DE MÍNIMO CUSTO ESPERADO DE MÁ CLASSIFICAÇÃO

fi(x ): densidade associada à população πi,parai = 1, .., g pi: probabilidade a priori da população πi

c(k|i): custo de classificação errada

Rk: região onde os x0s são classificados como πk P(k|i) = P(classificar um item comoπk|πi) =

R

(39)

(40)

(41)

(42)

CLASSIFICAÇÃO COM POPULAÇÕES NORMAIS

I Cada uma das g populações são normais multivariadas (µ_i, Σ_i)

I c(k|i) = 1: todos os custos de má classificação são iguais

(43)

Definimos o escore discriminante quadrático para a população πi, i = 1, ..., g, como d_iQ(x ) = −1 2ln|Σi| − 1 2(x − µi) 0 Σ−1_i (x − µi) +ln(pi) Utilizando as estimativas dos parâmetros:

^ d_iQ(x ) = −1 2ln|Si| − 1 2(x − ¯xi) 0 S_i−1(x − ¯xi) +ln(pi)

(44)

Quando Σi = Σ (homogeneidade das variâncias), o escore dis-criminante passa a ser:

d_iQ(x ) = −1 2ln|Σi| − 1 2x 0 Σ−1_i x + µ_i0Σ−1x − 1 2µ 0 iΣ−1µi+ln(pi) como os dois primeiros termos são iguais para todos os d_iQ(x ), eles podem ser ignorados nos cálculos. Daí, para i = 1, .., g:

di(x ) = µtiΣ −1_{x −} 1 2µ t iΣ −1_µ i+ln(pi)

(45)

Observações:

i) Regras de classificação dependem da verificação de normalidade e homocedasticidade

ii) Se uma das suposições forem violadas, buscamos alguma transformação nos dados

(46)

MÉTODO DE FISHER PARA DISCRIMINAÇÃO ENTRE DIVERSAS POPULAÇÕES

I AD Fisher: Vantagens quando se tem interesse em separar diversas populações por (i) inspeção visual ou (ii)

propósitos descritivos gráficos. Ela permite:

1. representação das g populações, reduzindo a dimensão dos dados para algumas poucas combinações lineares;

2. gráfico das médias das 2 ou 3 combinações lineares (discriminantes), o que auxilia no entendimento do relacionamento e dos possíveis agrupamentos das populações

3. gráficos de dispersão dos valores amostrais dos 2 primeiros discriminantes, o que pode mostrar alguma anormalidade nos dados

(47)

Sejam: I B = g X i=1 (¯xi− ¯x )(¯xi− ¯x ) 0

: matriz de soma de produtos cruzados amostraisentregrupos, em que

¯ x = g X i=1 nix¯i g X i=1 ni = g X i=1 ni X j=1 xij g X i=1 ni

I Matriz de produtos cruzados amostraisdentrodos grupos: W = g X i=1 (n1−1)Si = g X i=1 ni X j=1 (¯xij − ¯x )(¯xij− ¯x ) 0

(48)

Idealmente, os coeficientes padronizados das funções discrimi-nantes deverão ser examinados para avaliar a importância de uma variável na presença das outras variáveis.

(49)

(50)

(51)

USANDO OS DISCRIMINANTES DE FISHER PARA CLASSIFICAR OBJETOS

(52)

(53)

(54)

(55)