ANÁLISE DISCRIMINANTE
Edilan Quaresma
ESCOLA SUPERIOR DE AGRICULTURA LUIZ DE QUEIROZ PPGEEA
Análise Multivariada
Orientador: Prof. Carlos Tadeu dos Santos Dias
ANÁLISE MULTIVARIADA
Introdução
I Análise Multivariada: interesse no comportamento simultâneo de p características (variáveis)
I Avanços no campo da multivariada⇒ investigações pioneiras de R.A.Fisher, "o arquiteto da análise multivariada"(Rao, 1964)
I Análise Discriminante (AD):
I Existem grupos diferentes, caracterizados por um conjunto de características (variáveis) comuns;
I Novos sujeitos entram no estudo. I Objetivo: A que grupo alocá-los?
I AD: fornece uma função matemática (função discriminante) utilizada para classificar novos elementos amostrais nos grupos já existentes.
ANÁLISE MULTIVARIADA
Introdução
I Baseado em algumas variáveis desejamos
i) Distinguir entre 2 ou mais grupos mutuamente exclusivos;
ii) Identificar quais dessas variáveis são mais importantes na discriminação dos grupos
iii) Desenvolver um procedimento que nos permita classificar novos indivíduos em um dos vários grupos.
I Existe uma média ¯xjp para cada variável i em cada poupulação j
ANÁLISE MULTIVARIADA
Introdução
I Análise de risco (bancos): Como avaliar se um indivíduo, candidato a um empréstimo, tem grandes chances de vir a ser inadimplente?
I Ecologia: Como classificar insetos nas diferentes espécies (muito similares) com base, p.ex., em características
morfológicas (comprimento das patas, asas, mandíbula, antenas, tórax etc)?
I Medicina: Como classificar um paciente como provável portador ou não portador de uma patologia, com base em medidas laboratoriais,comportamentais e sociais?
I Ensino: Como classificar candidatos a um curso de pós-graduação como prováveis concluintes ou não de um desses cursos, com base em variáveis (quantificáveis) como histórico escolar, CV, cartas de referência, experiências profissionais e outras?
I Respostas:
i) Com base em informações anteriores é possível separar a população em grupos heterogêneos entre si e o mais homogêneos possível internamente;
ii) Novos indivíduos podem ser "alocados"em um dos grupos, com base na construção de uma regra de classificação, uma função
I Cuidado: Qualquer que seja a regra de classificação criada, sempre existirá uma chance de cometermos um erro. matemática.
ANÁLISE MULTIVARIADA
Introdução
I Exemplo 11.1:
I Identificar quais moradores da cidade são potenciais compradores de uma determinada marca de máquina agrícola.
I 24 famílias foram entrevistadas, 12 já possuíam a máquina (grupo π1) e as outras 12 ainda não possuíam a máquina
(grupo π2)
ANÁLISE MULTIVARIADA
Classificação e Separação para duas Populações
Figura:Dispersão: Renda e tamanho do lote de terra
I Grupo de proprietários (π1)tem maiores valores para as variáveis que o grupo de não-proprietários (π2)
ANÁLISE MULTIVARIADA
Classificação e Separação para duas Populações
I A regra de classificação é boa quando comete poucos erros;
I AD cria uma regra (função) para determinação de 2 regiões (R1e R2) que minimize a chance de erro;
I No exemplo, a função consiste narotação do eixo
I Além das variáveis observadas, considerar: I probabilidade "a priori"de classificação
I Ex: Moradores rurais tem maior chance de comprar máquinas I custo envolvido no processo
I Ex: Classificar portador como não portador de uma doença é mais grave que o inverso
A probabilidade de classificar um indivíduo em π2 quando ele é de π1é: P(2|1) = P(X ∈ R2|π1) = Z R2 f1(x )dx (1) em que:
I f1(x ): função densidade de probabilidade associada ao vetor aleatório ~Xpx 1 para a população π1
I R2= Ω −R1: região dos valores para os quais classificamos os indivíduos como π2
Analogamente,
P(1|2) = P(X ∈ R1|π2) = Z
R1
ANÁLISE MULTIVARIADA
Classificação e Separação para duas Populações
Seja p1a probabilidade a priori de π1e p2a probabilidade a priori de π2, com p1+p2=1
Figura:Probabilidades de má classificação para regiões de classificação hipotética
I P(classificaçãocorreta como π1)=P(X ∈ R1|π1)P(π1) =P(1|1)p1
I P(classificaçãoincorreta como π1)=P(X ∈ R2|π2)P(π2) =P(1|2)p2
I P(classificaçãocorreta como π2)=P(X ∈ R2|π2)P(π2) =P(2|2)p2
Tabela: Matriz de custos de classificação Pop verd Classif em π1 Classif em π2
π1 0 c(2|1)
π2 c(1|2) 0
I Custo médio de má classificação (ECM)
ECM = c(2|1)P(2|1)p1+c(1|2)P(1|2)p2 (3)
I regra de classificação razoável: ECM tão pequeno quanto possível
ANÁLISE MULTIVARIADA
Classificação e Separação para duas Populações
Resultado 11.1: As regiões R1e R2que minimizam a ECM são definidas pelos valores dex (observações multivariadas) para os quais valem as seguintes desigualdades:
R1: f1(x) f2(x) ≥ c(1|2) c(2|1) p2 p1 (4) R2: f1(x) f2(x) < c(1|2) c(2|1) p2 p1 (5)
Casos especiais de regiões que minimizam ECM (idéias de Fisher:
(a) p1=p2(probabilidades a priori iguais) I R1: f1(x) f2(x) ≥ c(1|2) c(2|1) I R2: f1(x) f2(x) < c(1|2) c(2|1)
(b) c(1|2) = c(2|1) (custos iguais de má classificação) I R1: f1(x) f2(x) ≥ p2 p1 I R2: f1(x) f2(x) < p2 p1 (c) p2 p1 = c(2|1) c(1|2) I R1: f1(x) f2(x) ≥ 1 I R1: f1(x) f2(x) <1
ANÁLISE MULTIVARIADA
Classificação com duas Populações Normais Multivariadas
O CASO DE DUAS POPULAÇÕES NORMAIS MULTIVARIADAS
I Prodecimentos de classificação baseados em populações normais predominam na prática (simplicidade e eficiência altas)
I Assumimos que
f1(x )∼ N(µ1, Σ1) f2(x )∼ N(µ2, Σ2)
I Caso 1: Σ1= Σ2= Σ(Homogeneidade na estrutura de covariância)
CLASSIFICAÇÃO QUANDO Σ1= Σ2= Σ
Supondo que a densidade conjunta de X0 = [X1,X2, ..,Xp]para π1e π2, para i = 1, 2, seja dada por:
fi(x ) = 1 (2π)p/2|Σ|1/2exp −1 2(x − µ) 0 Σ−1(x − µ) (6) Resultado 11.2 Sejam as populações π1e π2descritas por den-sidades normais multivariadas da forma (6).Então a regra de classificação que minimiza o ECM é dada por:
Classificar x0em π1se: (µ1−µ2)0Σ−1x0− 1 2(µ1−µ2) 0 Σ−1(µ1−µ2)≥ ln c(1|2) c(2|1) p2 p1 (7)
ANÁLISE MULTIVARIADA
Classificação com duas Populações Normais Multivariadas
Na prática, como µ1, µ2 e Σ são parâmetros desconhecidos, Wald (1944) e Anderson(1984) propuseram a substituição:
I µ1= ¯x1= n11 n1 X j=1 x1j I µ2= ¯x2= n21 n2 X j=1 x2j
I Como assumimos que Σ1= Σ2= Σ, uma estimativa não viesada de Σ é: I Σ =Sc =h n1−1 (n1−1)(n2−1) i S1+ h n2−1 (n1−1)(n2−1) i S2 s1= n11−1 n1 X j=1 (xj − ¯x1)(xj − ¯x1) 0 s2= n21−1 n2 X j=1 (xj − ¯x2)(xj − ¯x2) 0
Resultado 11.2:Classificar x0em π1se: (¯x1−¯x2) 0 Sc−1x0− 1 2(¯x1− ¯x2) 0 S−1c (¯x1− ¯x2)≥ ln c(1|2) c(2|1) p2 p1 (8)
Caso contrário, classificar em π2
ANÁLISE MULTIVARIADA
Classificação com duas Populações Normais Multivariadas
Exercício 11.3 : lista
Exemplo 11.3: Construir procedimento para detectar potenciais portadores de hemofilia tipo A
I Variáveis:X1:log(atividade AHF) eX2:log(antígeno AHF)
AHF: fator anti-hemofílico
I Grupos: π1: Normal (não carregam o gene da hemofilia)
Figura:Dispersão: log(atividade AHF) e log(antígeno AHF) para os grupos normal e portador
ANÁLISE MULTIVARIADA
Classificação com duas Populações Normais Multivariadas
Quando c(2|1) = c(1|2) e p1=p2, temos que: c(1|2) c(2|1) p2 p1 =1⇒ log(1) = 0
e a regra do máximo ECM estimado para duas populações normais, consiste em comparar o escalar
^
y =(¯x1− ¯x2) 0
Sc−1x =a^0x avaliado em x0com o número
^ m = 1 2(¯x1− ¯x2) 0 Sc−1(¯x1− ¯x2) = 1 2(¯y1+ ¯y2)
Na expressão anterior: ^ y1= (¯x1− ¯x2) 0 Sc−1x¯1= ^a 0 ¯ x1 ^ y2= (¯x1− ¯x2) 0 Sc−1x¯2= ^a 0 ¯ x2 daí, usando os dados ^y = [37.61 − 28.92][x1x2]
0
ANÁLISE MULTIVARIADA
Classificação com duas Populações Normais Multivariadas
Uma paciente com x1 = −0, 210 e x2 = −0, 044 é classificada em que grupo (normal ou portador)?
PROBLEMAS DE ESCALA O vetor ^a0 = (¯x1− ¯x2)
0
Sc−1é frequentemente padronizado para facilitar interpretação.
I As padronizações usuais são:
i) ^a∗= √^a
^
a0^a (cada elemento de a dividido pelo comprimento do vetor) ii) ^a∗= ^a^a
ANÁLISE MULTIVARIADA
Classificação com duas Populações Normais Multivariadas
CLASSIFICAÇÃO QUANDO Σ16= Σ2
Quando Σ16= Σ2, as regras de classificação são mais complicadas.
Após construída a função de classificação, é necessário avaliar a sua eficiência.
1) Dados originais divididos emamostra de treinamento (a)e
amostra de validação (b).(a)é usada para obter a função de classificação e(b)para avaliar a performance da função
2) Usar a probabilidade de má classificação:
i) Método de Okamoto (1963): depende da suposição de normalidade das populações
II) Método de Smith (1947): não depende da suposição de normalidade das populações
ANÁLISE MULTIVARIADA
Avaliação da Função de Classificação
Método de Okamoto ^ p(2|1) = ^p(1|2) = Φ −D 2 sendo D2 = (¯x1− ¯x2) 0
Sc−1(¯x1− ¯x2) a distância amostral de Ma-halanobis e Φ(z) = Zz −∞ 1 √ 2πexp −1 2 x 2dx
Probabilidades altas, indicam que a função de classificação não é tão boa.
Método de Smith
I Calcula as probabilidades p(i|j) com base nas observações que geraram a função discriminante
I Se a função discriminante D(x ) classificou errado mi das ni observações, então
^
p(j|i) = mi ni
I Taxa Aparente de Erro (Johnson e Wichern)
APER = n1M+n2M n1+n2
em que niM é o número de observações má classificadas na população πi
ANÁLISE MULTIVARIADA
Função Discriminante Linear de Fisher
Função Discriminante Linear Amostral de Fisher(1938) ^
y = ^a0x = (¯x1− ¯x2) 0
Sc−1x
Idéia: Transformar observações multivariadas x para obser-vações univariadas y tais que os y0s derivados das populações π1e π2fossem tão separados quanto possível.
ANÁLISE MULTIVARIADA
Função Discriminante Linear de Fisher
Todos os pontos no gráfico de dispersão são projetados sobre uma linha na direção ^a e essa direção varia até que a separação entre as amostras seja maximizada.
Exemplo 11.8: Potenciais portadores de hemofilia tipo A
A FD linear de Fisher para custos iguais e prob a priori tb iguais foi:
^
y = ^a0x = (¯x1− ¯x2) 0
Sc−1x = 37.61x1−28.92x2 e a máxima separação entre as duas amostras é
ANÁLISE MULTIVARIADA
Até aqui, 2 populações normais
ANÁLISE MULTIVARIADA
Classificação entre Diversas Populações
CLASSIFICAÇÃO ENTRE DIVERSAS POPULAÇÕES
I Para cada uma das g populações π1, ..., πg, precisamos assumir uma distribuição
I Com experiência dos pesquisadores, estabelecer probabilidades a priori e custos de má classificação
O MÉTODO DE MÍNIMO CUSTO ESPERADO DE MÁ CLASSIFICAÇÃO
fi(x ): densidade associada à população πi,parai = 1, .., g pi: probabilidade a priori da população πi
c(k|i): custo de classificação errada
Rk: região onde os x0s são classificados como πk P(k|i) = P(classificar um item comoπk|πi) =
R
ANÁLISE MULTIVARIADA
ANÁLISE MULTIVARIADA
Classificação entre Diversas Populações
CLASSIFICAÇÃO COM POPULAÇÕES NORMAIS
I Cada uma das g populações são normais multivariadas (µi, Σi)
I c(k|i) = 1: todos os custos de má classificação são iguais
Definimos o escore discriminante quadrático para a população πi, i = 1, ..., g, como diQ(x ) = −1 2ln|Σi| − 1 2(x − µi) 0 Σ−1i (x − µi) +ln(pi) Utilizando as estimativas dos parâmetros:
^ diQ(x ) = −1 2ln|Si| − 1 2(x − ¯xi) 0 Si−1(x − ¯xi) +ln(pi)
ANÁLISE MULTIVARIADA
Classificação entre Diversas Populações
Quando Σi = Σ (homogeneidade das variâncias), o escore dis-criminante passa a ser:
diQ(x ) = −1 2ln|Σi| − 1 2x 0 Σ−1i x + µi0Σ−1x − 1 2µ 0 iΣ−1µi+ln(pi) como os dois primeiros termos são iguais para todos os diQ(x ), eles podem ser ignorados nos cálculos. Daí, para i = 1, .., g:
di(x ) = µtiΣ −1x − 1 2µ t iΣ −1µ i+ln(pi)
Observações:
i) Regras de classificação dependem da verificação de normalidade e homocedasticidade
ii) Se uma das suposições forem violadas, buscamos alguma transformação nos dados
ANÁLISE MULTIVARIADA
Classificação entre Diversas Populações
MÉTODO DE FISHER PARA DISCRIMINAÇÃO ENTRE DIVERSAS POPULAÇÕES
I AD Fisher: Vantagens quando se tem interesse em separar diversas populações por (i) inspeção visual ou (ii)
propósitos descritivos gráficos. Ela permite:
1. representação das g populações, reduzindo a dimensão dos dados para algumas poucas combinações lineares;
2. gráfico das médias das 2 ou 3 combinações lineares (discriminantes), o que auxilia no entendimento do relacionamento e dos possíveis agrupamentos das populações
3. gráficos de dispersão dos valores amostrais dos 2 primeiros discriminantes, o que pode mostrar alguma anormalidade nos dados
Sejam: I B = g X i=1 (¯xi− ¯x )(¯xi− ¯x ) 0
: matriz de soma de produtos cruzados amostraisentregrupos, em que
¯ x = g X i=1 nix¯i g X i=1 ni = g X i=1 ni X j=1 xij g X i=1 ni
I Matriz de produtos cruzados amostraisdentrodos grupos: W = g X i=1 (n1−1)Si = g X i=1 ni X j=1 (¯xij − ¯x )(¯xij− ¯x ) 0
ANÁLISE MULTIVARIADA
Classificação entre Diversas Populações
Idealmente, os coeficientes padronizados das funções discrimi-nantes deverão ser examinados para avaliar a importância de uma variável na presença das outras variáveis.
ANÁLISE MULTIVARIADA
USANDO OS DISCRIMINANTES DE FISHER PARA CLASSIFICAR OBJETOS
ANÁLISE MULTIVARIADA
ANÁLISE MULTIVARIADA