• Nenhum resultado encontrado

análisediscriminante-AulaparaTadeu2011

N/A
N/A
Protected

Academic year: 2021

Share "análisediscriminante-AulaparaTadeu2011"

Copied!
55
0
0

Texto

(1)

ANÁLISE DISCRIMINANTE

Edilan Quaresma

ESCOLA SUPERIOR DE AGRICULTURA LUIZ DE QUEIROZ PPGEEA

Análise Multivariada

Orientador: Prof. Carlos Tadeu dos Santos Dias

(2)

ANÁLISE MULTIVARIADA

Introdução

I Análise Multivariada: interesse no comportamento simultâneo de p características (variáveis)

I Avanços no campo da multivariada⇒ investigações pioneiras de R.A.Fisher, "o arquiteto da análise multivariada"(Rao, 1964)

I Análise Discriminante (AD):

I Existem grupos diferentes, caracterizados por um conjunto de características (variáveis) comuns;

I Novos sujeitos entram no estudo. I Objetivo: A que grupo alocá-los?

I AD: fornece uma função matemática (função discriminante) utilizada para classificar novos elementos amostrais nos grupos já existentes.

(3)
(4)

ANÁLISE MULTIVARIADA

Introdução

I Baseado em algumas variáveis desejamos

i) Distinguir entre 2 ou mais grupos mutuamente exclusivos;

ii) Identificar quais dessas variáveis são mais importantes na discriminação dos grupos

iii) Desenvolver um procedimento que nos permita classificar novos indivíduos em um dos vários grupos.

(5)

I Existe uma média ¯xjp para cada variável i em cada poupulação j

(6)

ANÁLISE MULTIVARIADA

Introdução

I Análise de risco (bancos): Como avaliar se um indivíduo, candidato a um empréstimo, tem grandes chances de vir a ser inadimplente?

I Ecologia: Como classificar insetos nas diferentes espécies (muito similares) com base, p.ex., em características

morfológicas (comprimento das patas, asas, mandíbula, antenas, tórax etc)?

I Medicina: Como classificar um paciente como provável portador ou não portador de uma patologia, com base em medidas laboratoriais,comportamentais e sociais?

I Ensino: Como classificar candidatos a um curso de pós-graduação como prováveis concluintes ou não de um desses cursos, com base em variáveis (quantificáveis) como histórico escolar, CV, cartas de referência, experiências profissionais e outras?

(7)

I Respostas:

i) Com base em informações anteriores é possível separar a população em grupos heterogêneos entre si e o mais homogêneos possível internamente;

ii) Novos indivíduos podem ser "alocados"em um dos grupos, com base na construção de uma regra de classificação, uma função

I Cuidado: Qualquer que seja a regra de classificação criada, sempre existirá uma chance de cometermos um erro. matemática.

(8)

ANÁLISE MULTIVARIADA

Introdução

(9)

I Exemplo 11.1:

I Identificar quais moradores da cidade são potenciais compradores de uma determinada marca de máquina agrícola.

I 24 famílias foram entrevistadas, 12 já possuíam a máquina (grupo π1) e as outras 12 ainda não possuíam a máquina

(grupo π2)

(10)

ANÁLISE MULTIVARIADA

Classificação e Separação para duas Populações

(11)

Figura:Dispersão: Renda e tamanho do lote de terra

I Grupo de proprietários (π1)tem maiores valores para as variáveis que o grupo de não-proprietários (π2)

(12)

ANÁLISE MULTIVARIADA

Classificação e Separação para duas Populações

I A regra de classificação é boa quando comete poucos erros;

I AD cria uma regra (função) para determinação de 2 regiões (R1e R2) que minimize a chance de erro;

I No exemplo, a função consiste narotação do eixo

I Além das variáveis observadas, considerar: I probabilidade "a priori"de classificação

I Ex: Moradores rurais tem maior chance de comprar máquinas I custo envolvido no processo

I Ex: Classificar portador como não portador de uma doença é mais grave que o inverso

(13)

A probabilidade de classificar um indivíduo em π2 quando ele é de π1é: P(2|1) = P(X ∈ R2|π1) = Z R2 f1(x )dx (1) em que:

I f1(x ): função densidade de probabilidade associada ao vetor aleatório ~Xpx 1 para a população π1

I R2= Ω −R1: região dos valores para os quais classificamos os indivíduos como π2

Analogamente,

P(1|2) = P(X ∈ R1|π2) = Z

R1

(14)

ANÁLISE MULTIVARIADA

Classificação e Separação para duas Populações

Seja p1a probabilidade a priori de π1e p2a probabilidade a priori de π2, com p1+p2=1

Figura:Probabilidades de má classificação para regiões de classificação hipotética

I P(classificaçãocorreta como π1)=P(X ∈ R1|π1)P(π1) =P(1|1)p1

I P(classificaçãoincorreta como π1)=P(X ∈ R2|π2)P(π2) =P(1|2)p2

I P(classificaçãocorreta como π2)=P(X ∈ R2|π2)P(π2) =P(2|2)p2

(15)

Tabela: Matriz de custos de classificação Pop verd Classif em π1 Classif em π2

π1 0 c(2|1)

π2 c(1|2) 0

I Custo médio de má classificação (ECM)

ECM = c(2|1)P(2|1)p1+c(1|2)P(1|2)p2 (3)

I regra de classificação razoável: ECM tão pequeno quanto possível

(16)

ANÁLISE MULTIVARIADA

Classificação e Separação para duas Populações

Resultado 11.1: As regiões R1e R2que minimizam a ECM são definidas pelos valores dex (observações multivariadas) para os quais valem as seguintes desigualdades:

R1: f1(x) f2(x) ≥ c(1|2) c(2|1)   p2 p1  (4) R2: f1(x) f2(x) < c(1|2) c(2|1)   p2 p1  (5)

(17)

Casos especiais de regiões que minimizam ECM (idéias de Fisher:

(a) p1=p2(probabilidades a priori iguais) I R1: f1(x) f2(x) ≥ c(1|2) c(2|1)  I R2: f1(x) f2(x) < c(1|2) c(2|1) 

(b) c(1|2) = c(2|1) (custos iguais de má classificação) I R1: f1(x) f2(x) ≥  p2 p1  I R2: f1(x) f2(x) <  p2 p1  (c) p2 p1 = c(2|1) c(1|2) I R1: f1(x) f2(x) ≥ 1 I R1: f1(x) f2(x) <1

(18)

ANÁLISE MULTIVARIADA

Classificação com duas Populações Normais Multivariadas

O CASO DE DUAS POPULAÇÕES NORMAIS MULTIVARIADAS

I Prodecimentos de classificação baseados em populações normais predominam na prática (simplicidade e eficiência altas)

I Assumimos que

f1(x )∼ N(µ1, Σ1) f2(x )∼ N(µ2, Σ2)

I Caso 1: Σ1= Σ2= Σ(Homogeneidade na estrutura de covariância)

(19)

CLASSIFICAÇÃO QUANDO Σ1= Σ2= Σ

Supondo que a densidade conjunta de X0 = [X1,X2, ..,Xp]para π1e π2, para i = 1, 2, seja dada por:

fi(x ) = 1 (2π)p/2|Σ|1/2exp  −1 2(x − µ) 0 Σ−1(x − µ)  (6) Resultado 11.2 Sejam as populações π1e π2descritas por den-sidades normais multivariadas da forma (6).Então a regra de classificação que minimiza o ECM é dada por:

Classificar x0em π1se: (µ1−µ2)0Σ−1x0− 1 2(µ1−µ2) 0 Σ−1(µ1−µ2)≥ ln c(1|2) c(2|1)   p2 p1  (7)

(20)

ANÁLISE MULTIVARIADA

Classificação com duas Populações Normais Multivariadas

Na prática, como µ1, µ2 e Σ são parâmetros desconhecidos, Wald (1944) e Anderson(1984) propuseram a substituição:

I µ1= ¯x1= n11 n1 X j=1 x1j I µ2= ¯x2= n21 n2 X j=1 x2j

I Como assumimos que Σ1= Σ2= Σ, uma estimativa não viesada de Σ é: I Σ =Sc =h n1−1 (n1−1)(n2−1) i S1+ h n2−1 (n1−1)(n2−1) i S2 s1= n11−1 n1 X j=1 (xj − ¯x1)(xj − ¯x1) 0 s2= n21−1 n2 X j=1 (xj − ¯x2)(xj − ¯x2) 0

(21)

Resultado 11.2:Classificar x0em π1se: (¯x1−¯x2) 0 Sc−1x0− 1 2(¯x1− ¯x2) 0 S−1c (¯x1− ¯x2)≥ ln  c(1|2) c(2|1)   p2 p1  (8)

Caso contrário, classificar em π2

(22)

ANÁLISE MULTIVARIADA

Classificação com duas Populações Normais Multivariadas

Exercício 11.3 : lista

Exemplo 11.3: Construir procedimento para detectar potenciais portadores de hemofilia tipo A

I Variáveis:X1:log(atividade AHF) eX2:log(antígeno AHF)

AHF: fator anti-hemofílico

I Grupos: π1: Normal (não carregam o gene da hemofilia)

(23)

Figura:Dispersão: log(atividade AHF) e log(antígeno AHF) para os grupos normal e portador

(24)

ANÁLISE MULTIVARIADA

Classificação com duas Populações Normais Multivariadas

Quando c(2|1) = c(1|2) e p1=p2, temos que:  c(1|2) c(2|1)   p2 p1  =1⇒ log(1) = 0

e a regra do máximo ECM estimado para duas populações normais, consiste em comparar o escalar

^

y =(¯x1− ¯x2) 0

Sc−1x =a^0x avaliado em x0com o número

^ m = 1 2(¯x1− ¯x2) 0 Sc−1(¯x1− ¯x2) = 1 2(¯y1+ ¯y2)

(25)

Na expressão anterior: ^ y1= (¯x1− ¯x2) 0 Sc−1x¯1= ^a 0 ¯ x1 ^ y2= (¯x1− ¯x2) 0 Sc−1x¯2= ^a 0 ¯ x2 daí, usando os dados ^y = [37.61 − 28.92][x1x2]

0

(26)

ANÁLISE MULTIVARIADA

Classificação com duas Populações Normais Multivariadas

Uma paciente com x1 = −0, 210 e x2 = −0, 044 é classificada em que grupo (normal ou portador)?

(27)

PROBLEMAS DE ESCALA O vetor ^a0 = (¯x1− ¯x2)

0

Sc−1é frequentemente padronizado para facilitar interpretação.

I As padronizações usuais são:

i) ^a∗= √^a

^

a0^a (cada elemento de a dividido pelo comprimento do vetor) ii) ^a∗= ^a^a

(28)

ANÁLISE MULTIVARIADA

Classificação com duas Populações Normais Multivariadas

CLASSIFICAÇÃO QUANDO Σ16= Σ2

Quando Σ16= Σ2, as regras de classificação são mais complicadas.

(29)

Após construída a função de classificação, é necessário avaliar a sua eficiência.

1) Dados originais divididos emamostra de treinamento (a)e

amostra de validação (b).(a)é usada para obter a função de classificação e(b)para avaliar a performance da função

2) Usar a probabilidade de má classificação:

i) Método de Okamoto (1963): depende da suposição de normalidade das populações

II) Método de Smith (1947): não depende da suposição de normalidade das populações

(30)

ANÁLISE MULTIVARIADA

Avaliação da Função de Classificação

Método de Okamoto ^ p(2|1) = ^p(1|2) = Φ −D 2  sendo D2 = (¯x1− ¯x2) 0

Sc−1(¯x1− ¯x2) a distância amostral de Ma-halanobis e Φ(z) = Zz −∞ 1 √ 2πexp  −1 2 x 2dx 

Probabilidades altas, indicam que a função de classificação não é tão boa.

(31)

Método de Smith

I Calcula as probabilidades p(i|j) com base nas observações que geraram a função discriminante

I Se a função discriminante D(x ) classificou errado mi das ni observações, então

^

p(j|i) = mi ni

I Taxa Aparente de Erro (Johnson e Wichern)

APER = n1M+n2M n1+n2

em que niM é o número de observações má classificadas na população πi

(32)

ANÁLISE MULTIVARIADA

Função Discriminante Linear de Fisher

Função Discriminante Linear Amostral de Fisher(1938) ^

y = ^a0x = (¯x1− ¯x2) 0

Sc−1x

Idéia: Transformar observações multivariadas x para obser-vações univariadas y tais que os y0s derivados das populações π1e π2fossem tão separados quanto possível.

(33)
(34)

ANÁLISE MULTIVARIADA

Função Discriminante Linear de Fisher

Todos os pontos no gráfico de dispersão são projetados sobre uma linha na direção ^a e essa direção varia até que a separação entre as amostras seja maximizada.

(35)

Exemplo 11.8: Potenciais portadores de hemofilia tipo A

A FD linear de Fisher para custos iguais e prob a priori tb iguais foi:

^

y = ^a0x = (¯x1− ¯x2) 0

Sc−1x = 37.61x1−28.92x2 e a máxima separação entre as duas amostras é

(36)

ANÁLISE MULTIVARIADA

(37)

Até aqui, 2 populações normais

(38)

ANÁLISE MULTIVARIADA

Classificação entre Diversas Populações

CLASSIFICAÇÃO ENTRE DIVERSAS POPULAÇÕES

I Para cada uma das g populações π1, ..., πg, precisamos assumir uma distribuição

I Com experiência dos pesquisadores, estabelecer probabilidades a priori e custos de má classificação

O MÉTODO DE MÍNIMO CUSTO ESPERADO DE MÁ CLASSIFICAÇÃO

fi(x ): densidade associada à população πi,parai = 1, .., g pi: probabilidade a priori da população πi

c(k|i): custo de classificação errada

Rk: região onde os x0s são classificados como πk P(k|i) = P(classificar um item comoπk|πi) =

R

(39)
(40)

ANÁLISE MULTIVARIADA

(41)
(42)

ANÁLISE MULTIVARIADA

Classificação entre Diversas Populações

CLASSIFICAÇÃO COM POPULAÇÕES NORMAIS

I Cada uma das g populações são normais multivariadas (µi, Σi)

I c(k|i) = 1: todos os custos de má classificação são iguais

(43)

Definimos o escore discriminante quadrático para a população πi, i = 1, ..., g, como diQ(x ) = −1 2ln|Σi| − 1 2(x − µi) 0 Σ−1i (x − µi) +ln(pi) Utilizando as estimativas dos parâmetros:

^ diQ(x ) = −1 2ln|Si| − 1 2(x − ¯xi) 0 Si−1(x − ¯xi) +ln(pi)

(44)

ANÁLISE MULTIVARIADA

Classificação entre Diversas Populações

Quando Σi = Σ (homogeneidade das variâncias), o escore dis-criminante passa a ser:

diQ(x ) = −1 2ln|Σi| − 1 2x 0 Σ−1i x + µi0Σ−1x − 1 2µ 0 iΣ−1µi+ln(pi) como os dois primeiros termos são iguais para todos os diQ(x ), eles podem ser ignorados nos cálculos. Daí, para i = 1, .., g:

di(x ) = µtiΣ −1x − 1 2µ t iΣ −1µ i+ln(pi)

(45)

Observações:

i) Regras de classificação dependem da verificação de normalidade e homocedasticidade

ii) Se uma das suposições forem violadas, buscamos alguma transformação nos dados

(46)

ANÁLISE MULTIVARIADA

Classificação entre Diversas Populações

MÉTODO DE FISHER PARA DISCRIMINAÇÃO ENTRE DIVERSAS POPULAÇÕES

I AD Fisher: Vantagens quando se tem interesse em separar diversas populações por (i) inspeção visual ou (ii)

propósitos descritivos gráficos. Ela permite:

1. representação das g populações, reduzindo a dimensão dos dados para algumas poucas combinações lineares;

2. gráfico das médias das 2 ou 3 combinações lineares (discriminantes), o que auxilia no entendimento do relacionamento e dos possíveis agrupamentos das populações

3. gráficos de dispersão dos valores amostrais dos 2 primeiros discriminantes, o que pode mostrar alguma anormalidade nos dados

(47)

Sejam: I B = g X i=1 (¯xi− ¯x )(¯xi− ¯x ) 0

: matriz de soma de produtos cruzados amostraisentregrupos, em que

¯ x = g X i=1 nix¯i g X i=1 ni = g X i=1 ni X j=1 xij g X i=1 ni

I Matriz de produtos cruzados amostraisdentrodos grupos: W = g X i=1 (n1−1)Si = g X i=1 ni X j=1 (¯xij − ¯x )(¯xij− ¯x ) 0

(48)

ANÁLISE MULTIVARIADA

Classificação entre Diversas Populações

Idealmente, os coeficientes padronizados das funções discrimi-nantes deverão ser examinados para avaliar a importância de uma variável na presença das outras variáveis.

(49)
(50)

ANÁLISE MULTIVARIADA

(51)

USANDO OS DISCRIMINANTES DE FISHER PARA CLASSIFICAR OBJETOS

(52)

ANÁLISE MULTIVARIADA

(53)
(54)

ANÁLISE MULTIVARIADA

(55)

Referências

Documentos relacionados

Com isso, esta pesquisa nos permitiu perceber que a conservação da cultura material egípcia antiga contribuiu para que fosse criada uma ideia de herança

Frente a isso, esta pesquisa teve como objetivo realizar uma análise conjuntural dos preços no mercado imobiliário de Porto Velho, por meio de comparações de

Sobre as estratégias que podem contribuir para a prevenção da indisciplina na sala de aula fazemos referência à necessidade de fazer uma gestão adequada da

disponível para participação nos pregões realizados por este Município, ou até mesmo a falta de prática ou experiência para com o sistema, cabe nos informar que para se tornar

Isso inclui nossos próprios espíritos, porque temos que buscar nossa evolução através do trabalho mediúnico, com amor, tolerância e humildade, e isso só é possível

Um experimento consiste em colocar certa quantidade de bolas de vidro idênticas em um copo com água até certo nível e medir o nível da água, conforme

Nesse sentido, elaborou-se alguns indicadores correspondentes aos recursos materiais e humanos que possibilitam ao Programa de Controle da Tuberculose de cada Unidade Distrital

Figura 15 - Espécies identificadas nas vinhas monocasta nas castas Maria Gomes, Bical, Tinta Roriz, Touriga Nacional e Baga, no Mosto inicial e Início e Final de Fermentação