Aula13

(1)

11. DISCRIMINAÇÃO E CLASSIFICAÇÃO −− ANÁLISE DISCRIMINANTE

11.1. INTRODUÇÃO

Em diversas áreas de pesquisa como a biológica, econômica etc. existem situa-ções onde o pesquisador está interessado no estudo de p características (ou variáveis) e na maioria dos casos, interessa-se pelo comportamento simultâneo de todas as va-riáveis. Nesses contexto, a análise multivariada exerce um papel fundamental dentro da estatística matemática e do campo das aplicações.

Um grande avanço no campo da análise multivariada, teoria e aplicações, acon-teceu a partir das investigações pioneiras realizadas por R. A. Fisher, considerado por Rao (1964), "O arquiteto da análise multivariada".

Uma técnica interessante de análise multivariada é chamada Análise Discrimi-nante, que tem como finalidade a separação (discriminação) de grupos distintos de observações e posterior classificação de novas observações em um dos grupos pre-viamente determinados. O processo de classificação será baseado na construção de uma função linear envolvendo as características (variáveis) observadas e a determi-nação dessa função será baseada na otimização da classificação de casos nos grupos corretos.

Baseado em algumas características (variáveis), desejamos distinguir entre dois ou mais grupos mutuamente exclusivos. Desejamos também identificar quais dessas características são mais importantes na discriminação dos grupos e desenvolver um procedimento que nos permita classificar novos indivíduos em um dos vários grupos.

Alguns exemplos interessantes:

• um médico, a fim de diagnosticar uma doença, pode solicitar a realização de diver-sos exames e com base nos seus resultados, procurar classificar um indivíduo como portador ou não portador da referida doença. Entretanto, muitas vezes, mesmo co-nhecendo os resultados dos exames, torna-se impraticável a tomada de uma deci-são, que tornem mínimos os riscos de uma classificação errônea, já que as conse-qüências da tomada de uma decisão errada são muito graves.

• um gerente de banco precisa decidir se concede ou não um empréstimo a um clien-te e para auxiliá-lo na tomada de decisão, vai comparar suas caracclien-terísticas com as de clientes que já provaram ter pago seus empréstimos em dia e de outros, que deram trabalho para pagar. Baseado nas semelhanças e/ou diferenças das caracte-rísticas desses dois grupos, o gerente poderá fazer uma previsão de comportamento de novos clientes. Porém, como o volume de informações é grande, o gerente po-derá utilizar um procedimento mais criterioso para decidir se um novo cliente fará parte do grupo de bons pagadores ou de maus pagadores.

• um diretor de faculdade quer saber se um aluno se graduará no tempo normal ou não. Para tanto vai buscar informações sobre: notas de vestibular, média de notas semestrais em disciplinas já concluídas, número de atividades extra curriculares etc.

(2)

Usualmente, as regras criadas para classificação são desenvolvidas com base em amostras onde já se sabe o grupo ao qual os indivíduos pertencem. Dessa manei-ra, as características dos casos observados são usadas na diferenciação dos grupos.

No exemplo anterior (empréstimo), os clientes do banco já estão divididos em dois grupos: bons e maus clientes, dos quais são conhecidas algumas características como: idade, sexo, número de cartões de crédito, número de pessoas na família etc.). Assim, um novo cliente que tiver as características mais parecidas com dos integran-tes do primeiro grupo, será classificado como um bom cliente e se tiver características mais parecidas com dos integrantes do segundo grupo, será classificado como um mau cliente.

Deve ficar claro que qualquer que seja a regra de classificação criada, sempre existirá uma chance de cometermos um erro. Isso se deve ao fato de não existir uma distinção perfeita entre os grupos, baseada nas características observadas. No exem-plo, existe uma chance de um novo cliente ser classificado no grupo bom quando, na verdade, ele é um mau cliente e vice e versa.

11.2. CLASSIFICAÇÃO E SEPARAÇÃO PARA DUAS POPULAÇÕES

Exemplo 11.1 (página 632)

Objetivo: identificar quais moradores da cidade são potenciais compradores de uma

determinada marca de máquina agrícola. Vinte e quatro famílias foram entrevista-das, 12 já possuem a máquina (grupo π₁) e as outras 12 ainda não a possuem (gru-po π₂). As características investigadas foram x₁: renda anual (income) e x₂: tama-nho do lote de terra (lot_size) e os dados estão apresentados a seguir:

1

π : proprietários π₂: não proprietários renda anual ($1000) lote de terra (pés2) renda anual ($1000) lote de terra (pés2) 60.0 18.4 75.0 19.6 85.5 16.8 52.8 20.8 64.8 21.6 64.8 17.2 61.5 20.8 43.2 20.4 87.0 23.6 84.0 17.6 110.1 19.2 49.2 17.6 108.0 17.6 59.4 16.0 82.8 22.4 66.0 18.4 69.0 20.0 47.4 16.4 93.0 20.8 33.0 18.8 51.0 22.0 51.0 14.0 81.0 20.0 63.0 14.8

(3)

Com base na Figura 11.1, notamos que os indivíduos que pertencem ao grupo de proprietários (π₁) têm valores de renda e tamanho de lote de terra maiores que dos indivíduos do grupo de não proprietários (π₂). Porém, existe uma região de coinci-dência entre os dois grupos. Usando um segmento tracejado como delimitador das duas regiões R1 e R2, existem dois indivíduos pertencentes a π₁ que seriam classifica-dos (erroneamente) no grupo π₂ e dois indivíduos de π₂ que seriam classificados (erroneamente) no grupo π₁.

Renda (milhares de dólares)

Lote de terra (pés ao quadrado)

10 15 20 25 20 40 60 80 100 120 Grupo: Proprietários Não proprietários R1 R2

Figura 11.1 Gráfico de dispersão de renda e tamanho do lote de terra

Uma boa regra de classificação deve resultar em poucos erros de classificação. Por isso a análise discriminante deve criar uma regra (função) para determinação de duas regiões R1 e R2, que minimize as chances de classificação incorreta.

Além dos valores das variáveis income e lot_size (do Exemplo 11.1), também deve ser levado em conta a chance (probabilidade) de classificação de um indivíduo em cada um dos grupos antes da observação de qualquer variável. Podemos, por exemplo, saber que a porcentagem de famílias que têm a máquina na cidade tende a ser menor do que a porcentagem de famílias que não a possuem. Uma regra de classi-ficação boa deve levar em conta essas probabilidades a priori (antes da observação de qualquer variável). Dessa maneira, iremos classificar uma família como potencial compradora (π₁) da máquina se realmente suas características forem muito convin-centes, já que a probabilidade a priori dela vir a ser uma compradora é baixa.

Um outro aspecto relevante da classificação é o custo envolvido no processo. Por exemplo: No caso do diagnóstico da doença, classificar um indivíduo portador como não portador da doença pode ser muito mais sério que classificar um indivíduo não portador como portador da doença.

(4)

A probabilidade condicional de classificar um indivíduo como π₂ quando, de fato, ele é de π₁ é definida como

P(2 | 1) = P(X ∈ R2 | π1) =

∫

2 dx ) ( 1 R f x (11-1)

onde f₁(x) é a função densidade de probabilidade associada ao vetor aleatório X p x1 para a população π₁ e R2 = Ω − R1 é a região dos valores para os quais nós classifica-mos os indivíduos como π₂.

Similarmente, a probabilidade condicional de classificar um indivíduo como π₁ quando, de fato, ele é de π₂ é

P(1 | 2) = P(X ∈ R1 | π₂) =

∫

1 dx ) ( 2 R f x (11-2)

A integral em (11-1) representa o volume (quando p = 2) formado pela função densi-dade f₁(x) sobre a região R2. Similarmente, a integral em (11-2) representa o volume formado por f₂(x) sobre a região R1.

Seja p₁ a probabilidade a priori de π₁ e p₂ a probabilidade a priori de π₂, com p₁ + p₂ = 1. Então, as probabilidades de classificar indivíduos correta ou incor-retamente podem ser calculadas como o produto das probabilidades a priori e condi-cional:

Figura 11.3. Probabilidades de má classificação para regiões de classificação

hipotéticas quando p = 1

(5)

Os custos de má classificação podem ser definidos por uma matriz de custos: Classificado como 1 π π₂ 1 π 0 c(2 | 1) População verdadeira 2 π c(1 | 2) 0

onde os custos são nulos para classificações corretas, c(1 | 2) quando uma observação de π₂ é incorretamente classificada como π₁ e c(2 | 1), quando uma observação de

1

π é incorretamente classificada como π₂.

A média ou o custo médio de má classificação (ECM) é calculado multiplican-do-se os valores fora da diagonal pelas suas probabilidades de ocorrência, obtidas de (1103). Consequentemente temos:

ECM = c(2 | 1) P(2 | 1) p₁ + c(1 | 2) P(1 | 2) p₂ (11-5)

e uma regra de classificação razoável deverá ter um valor de ECM tão pequeno quan-to possível.

Resultado 11.1. As regiões R1 e R2 que minimizam a ECM são definidos pelos valores de x para os quais valem as seguintes desigualdades:

R1: ) ( ) ( 2 1 x x f f ≥ _ __ _ 1 2 ) 1 | 2 ( ) 2 | 1 ( p p c c R2: ) ( ) ( 2 1 x x f f <         1 2 ) 1 | 2 ( ) 2 | 1 ( p p c c (11-6)

CASOS ESPECIAIS DE REGIÕES QUE MINIMIZAM ECP

(a) p₁ = p₂ (probabilidades a priori iguais) R1: ) ( ) ( 2 1 x x f f ≥ _ _ ) 1 | 2 ( ) 2 | 1 ( c c e R2: ) ( ) ( 2 1 x x f f <     ) 1 | 2 ( ) 2 | 1 ( c c

(b) c(1 | 2) = c(2 | 1) (custos iguais de má classificação)

R1: ) ( ) ( 2 1 x x f f ≥ _ _ 1 2 p p e R2: ) ( ) ( 1 2 x x f f <     1 2 p p (c) p₂ p₁ = 1 c(1|2) c(2|1) R1: ) ( ) ( 2 1 x x f f ≥ 1 e R2: ) ( ) ( 2 1 x x f f < 1

(6)

11.3. CLASSIFICAÇÃO COM DUAS POPULAÇÕES NORMAIS MULTI-VARIADAS

Os procedimentos de classificação baseados em populações normais predomi-nam na prática porque sua simplicidade e eficiência são razoavelmente altas entre uma grande variedade de modelos populacionais. Assumiremos que f₁(x) e f₂(x) são densidades normais multivariadas, a primeira com vetor de médias µµ₁ e matriz de covariâncias ΣΣ₁ e a segunda com vetor de médias µµ₂ e matriz de covariâncias ΣΣ₂.

CLASSIFICAÇÃO QUANDO ΣΣ₁ = ΣΣ₂ = ΣΣ

Supondo que a densidade conjunta de X' = [X1, ..., Xp] para π1 e π2 seja dada

por ) (x i f = 2 1 2 | | ) 2 ( 1 ΣΣ p π exp    ₋ ₍ ₋ ₎ − ₍ ₋ ₎ 2 1 _µµ _ΣΣ 1 _µµ x ' x para i = 1, 2 (11-10)

Resultado 11.2. Sejam as populações π₁ e π₂ descritas por densidades normais multivariadas da forma (11-10). Então a regra de classificação que minimiza o ECM é como segue:

Classificar x₀ em π₁ se: 0 1 2 1 ) (µµ −µµ 'ΣΣ− x − 2 1 ) ( ) (µµ₁ −µµ₂ 'ΣΣ−1 µµ₁−µµ₂ ≥ ln _              1 2 ) 1 | 2 ( ) 2 | 1 ( p p c c (11-12) Classificar x₀ em π₂, caso contrário

(ver Prova na pág. 640)

Na prática, as quantidades populacionais µµ₁, µµ₂ e ΣΣ são desconhecidas e a re-gra (11-12) precisa ser modificada. Wald (1944) e Anderson (1984) sugeriram que os parâmetros populacionais sejam substituídos pelas suas estimativas.

Supondo que existam n₁ observações das variáveis aleatórias X' = [X1, ..., Xp] para π₁ e n₂ medidas dessas variáveis para π₂, com n₁ + n₂ = n. Então as matrizes de dados são: p) (n 1 1x X =               t n 1 t 12 t 11 1 x x x e p) (n 2 2x X =               t n 2 t 22 t 21 2 x x x (11-15)

(7)

Os vetores de médias e matrizes de covariâncias amostrais são determinados por: ) 1 (p 1 x x =

∑

= 1 1 j 1 1 1 n j n x (pxp) 1 S =

∑

= − − − 1 n 1 j 1 j 1 j 1 ) )( ( 1 1 ' x x x x n ) 1 (p 2 x x =

∑

= 1 1 j 2 2 1 n j n x (pxp) 1 S =

∑

= − − − 2 n 1 j 2 j 2 j 2 ) )( ( 1 1 ' x x x x n (11-16)

Como assumimos que as matrizes de variâncias populacionais ΣΣ₁ = ΣΣ₂ = ΣΣ, uma estimativa não viesada de ΣΣ é calculada por

c S = _      − + − − ) 1 ( ) 1 ( 1 2 1 1 n n n 1 S + _      − + − − ) 1 ( ) 1 ( 1 2 1 2 n n n 2 S (11-17) Substituindo em (11-12) os parâmetros pelas suas respectivas estimativas temos que:

Resultado 11.2. Classificar x₀ em π₁ se:

0 1 c 2 1 ) (x −x 'S− x − 2 1 ) ( ) (x₁ −x₂ 'S_c−1 x₁−x₂ ≥ ln               1 2 ) 1 | 2 ( ) 2 | 1 ( p p c c (11-18) Classificar x₀ em π₂, caso contrário.

Se, em (11-18)         1 2 ) 1 | 2 ( ) 2 | 1 ( p p c c

= 1 ⇒ ln(1) = 0 e a regra do mínimo de ECM estimado para as duas populações normais consiste em comparar o escalar

yˆ = (x₁ −x₂)'S_c−1x = aˆ'x (11-19) avaliado em x₀, com o número

mˆ = 2 1 ) ( ) (x₁−x₂ 'S_c−1 x₁−x₂ = ( ) 2 1 2 1 y y + (11-20) onde 1 y = (x₁ −x₂)'S_c−1x₁ = aˆ x' ₁ e y₂ = (x₁ −x₂)'S_c−1x₂ = aˆ x' ₂

ou seja, a regra do mínimo ECM estimado para duas populações normais é equiva-lente a criar duas populações univariadas para os valores y, tomando uma combina-ção linear apropriada das observações das populações π₁ e π₂ e então designar uma nova observação x₀ a π₁ ou π₂, dependendo se ˆy₀ = aˆ x' ₀ fica à direita ou à esquer-da no ponto médio mˆ entre as duas médias amostrais y₁ e y₂.

(8)

Resumindo: se os dados têm distribuição aparentemente normal multivariada, a esta-tística de classificação para o lado esquerdo da desigualdade em (11-18) pode ser calculada para cada nova observação x₀. Essas observações serão classificadas comparando-se os valores dessa estatística com o valor

ln _              1 2 ) 1 | 2 ( ) 2 | 1 ( p p c c

Exemplo 11.3 (página 643) [ver também o Exercício 11.32]

Para construir um procedimento para detectar potenciais portadoras de hemo-filia A, foram analisadas amostras de sangue de dois grupos de mulheres e feitas ava-liações sobre as variáveis:

1

X = log₁₀(atividade AHF) e X₂ = log₁₀(antígeno AHF)

onde AHF denota um fator anti-hemofílico. O primeiro grupo de 30 mulheres foi selecionado de uma população de mulheres que não carregam o gene da hemofilia - grupo normal. O segundo grupo de 22 mulheres foi selecionado dentre as portadores de hemofilia A - grupo portador. A partir dos dados apresentados nas páginas 721-723, construímos o gráfico de dispersão [Figura 11.4].

X1 X2 -0.6 -0.4 -0.2 0.0 0.2 0.4 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 Grupo Normal Portador

Figura 11.4. Gráfico de dispersão de [log₁₀(atividade AHF),log₁₀(antígeno AHF)] para os grupos normal e portador de hemofilia A

(9)

Dos dados temos que: 1 x = _      − − 0390 . 0 0065 . 0 , x₂ = _      − − 0262 . 0 2483 . 0 S_combinada−1 = _      − − 147 . 108 423 . 90 423 . 90 158 . 131

e a função discriminante para custos iguais e probabilidades a priori também iguais fica: yˆ = (x₁ −x₂)'S_c−1x = aˆ'x=

[

37.61 −28.92

]

_      2 1 x x = 37.61x₁ − 28.92x₂ Além disso 1 y = aˆ x' ₁ =

[

37.61 −28.92

]

_      − − 0390 . 0 0065 . 0 = 0.88 2 y = aˆ x' ₂ =

[

37.61 −28.92

]

_      − − 0262 . 0 2483 . 0 = −10.10

e o ponto médio entre essas médias é mˆ = ( ) 2

1

2

1 y

y + = −4,61.

Uma mulher com x1 = -0.210 e x2 = -0.044 será classificada como normal ou por-tadora ? Usando (11-18) com custos iguais e priores iguais, a regra consiste em:

Classificar x₀ em π₁ se ˆy₀ = aˆ x' ₀ ≥−4.61 e em π₂, se ˆy₀ < −4.61 Como ˆy₀ =

[

37.61 −28.92

]

_      − − 044 . 0 210 . 0 = −6.62 < −4.61 classificamos a mulher em π₂, ou seja, como portadora de hemofilia A (essa nova observação está indica-da com um sinal "+" na Figura 11.4.

PROBLEMAS DE ESCALA

O vetor de coeficientes aˆ' = (x₁ −x₂)'S_c−1 é freqüentemente padronizado para facilitar a interpretação dos seus elementos. Dois dos métodos de normalização mais comuns são: ∗ aˆ = a ' a a ˆ ˆ ˆ (11-21) ou ∗ aˆ = 1 aˆ ˆa (11-22) tal que o primeiro elemento do novo vetor de coeficientes aˆ∗ é igual a 1.

(10)

CLASSIFICAÇÃO QUANDO ΣΣ₁ ≠≠ ΣΣ₂

As regras de classificação são mais complicadas quando as matrizes de cova-riâncias populacionais são diferentes. Nesse caso, por exemplo, as regiões de ECM mínimo e de mínima probabilidade total de má classificação (TPM) dependem da razão das densidades de probabilidade.

Resultado 11.3. Sejam as populações π₁ e π₂ descritas por densidades normais multivariadas com vetores de médias e matrizes de covariâncias µµ₁, ΣΣ₁ e µµ₂, ΣΣ₂, respectivamente. Então a regra de classificação que minimiza o ECM é dada por: Classificar x₀ em π₁ se: − 2 1

(

)

0 1 2 1 1 t 0 x x ΣΣ− −ΣΣ− +

(

µµ₁tΣΣ₁−1 −µµ₂t ΣΣ−₂1

)

x₀ - k ≥ ln               1 2 ) 1 | 2 ( ) 2 | 1 ( p p c c onde k =     2 1 ln 2 1 ΣΣ ΣΣ +

(

₁t ₁1 ₁ t₂ ₂1 ₂

)

2 1 µµ ΣΣ µµ µµ ΣΣ µµ − − −

Classificar x₀ em π₂, caso contrário

Vale salientar mais uma vez que, na prática, todos os parâmetros são substituídos por suas respectivas estimativas.

REGRA QUADRÁTICA DE CLASSIFICAÇÃO (POPULAÇÕES NORMAIS COM MATRIZES DE COVARIÂNCIAS DIFERENTES)

Classificar x₀ em π₁ se − 2 1

(

)

0 1 2 1 1 t 0 S S x x − − − +

(

x₁tS₁−1 −x₂tS−₂1

)

x₀ − k ≥ ln _              1 2 ) 1 | 2 ( ) 2 | 1 ( p p c c (11-25) Classificar x₀ em π₂, caso contrário.

Regras de classificação com funções quadráticas são especialmente inade-quados em mais de duas dimensões e pode levar a alguns resultados estranhos. Isto é particularmente verdadeiro quando os dados não têm (essencialmente) distribuição normal multivariada. [para maiores detalhes ver pág. 648-649]

(11)

11.4. AVALIAÇÃO DA FUNÇÃO DE CLASSIFICAÇÃO

A função discriminante linear de Fisher não depende da forma das populações, apenas que as matrizes de covariâncias sejam iguais. Entretanto, existem trabalhos que mostraram que a função não produziu uma boa classificação, mesmo quando os dados apresentaram homogeneidade de matrizes de covariâncias.

Uma forma criteriosa de avaliar a função de classificação obtida, consiste em separar os dados originais em uma amostra de treinamento e uma amostra de valida-ção. A primeira amostra é usada na obtenção da função de classificação e a segunda, para avaliar a performance da função.

Para julgar a performance de algum procedimento de classificação é calcular suas taxas de erro ou probabilidades de má classificação. Quando as formas das populações são completamente conhecidas, as probabilidades de má classificação podem ser calculadas com relativa facilidade [Exemplo 11.4].

Como as populações raramente são conhecidas, nos concentraremos nas taxas de erros associadas com a função de classificação amostral. Assim que a função de classificação é construída, pode ser interessante calcular uma medida de sua perfor-mance para amostras futuras.

MÉTODO DE OKAMOTO ( 1963)

Este método é dependente da suposição de normalidade das populações e for-nece as probabilidades aproximadas de má classificação.

SendoD =2 (x₁−x₂)'S_c−1(x₁ −x₂) a distância amostral de Mahalanobis e con-siderando as suposições anteriores, as probabilidades de má classificação para as du-as populações são iguais e estimaddu-as por Pˆ(2|1) = Pˆ (1 | 2) = Φ 

    − 2 D , onde Φ(z) =

∫

∞ −      − π z 2 x 2 1 exp 2 1

dx e Pˆ (i | j) é a estimativa da probabilidade de classificarmos erroneamente uma observação de π_i em π_j (i ≠ j).

MÉTODO DE SMITH (1947)

Este método não depende da suposição de normalidade das populações. Smith (1947) sugeriu que as observações usadas na construção da função discriminante sejam reusadas para a estimação de P(i | j). Deste modo, se a função discriminante D(x) é construída utilizando-se as n₁ + n₂ observações e se m_i ≤ n_i delas são má classificadas em π_i, então temos que

Pˆ (j | i) = Pˆ_i = i i n m , para i = 1, 2.

(12)

Os cálculos envolvidos neste método são bastante fáceis, mas tende a subestimar as verdadeira taxas de erro e o problema é minimizado com tamanhos de amostras (n₁ e

2

n ) grandes.

Johnson & Wichern definiram a taxa aparente de erro como a fração de observações na amostra de treinamento que foi má classificada pela função de clas-sificação amostral. Sejam n_i_C o número de itens em π_i classificados corretamente como π_i, e n_i_M o número de itens em π_i mau classificados em π_j (i ≠ j). Então a ta-xa aparente de erro é calculada por

APER = 2 1 M 2 M 1 n n n n + + (11-30) Ver Exemplo 11.7 (pág. 658)

11.5. FUNÇÃO DISCRIMINANTE DE FISHER

Fisher (1938) chegou à estatística de classificação linear (11-19) usando um argumento completamente diferente daquele utilizado na Seção 11.3. A idéia de Fisher foi transformar observações multivariadas x para observações univariadas y tais que os y's derivados das populações π₁ e π₂ fossem tão separados quanto possí-vel.

Resultado 11.4 A combinação linear yˆ = aˆ'x = (x₁ −x₂)'S_c−1x, chamada Função Discriminante Linear Amostral de Fisher, maximiza a razão entre o quadrado da distância entre as médias amostrais e a variância amostral de y, que é escrita como

2 2 2 1 s ) ( y y y − = a S ' a x a x a ˆ ˆ ) ˆ ˆ ( c 2 2 2 1 1 − ₌ a S ' a d a ˆ ˆ ) ˆ ( c 2 (11-33) sobre todos os possíveis vetores de coeficientes aˆ onde d = (x₁ −x₂). O máximo da razão é D = 2 (x₁−x₂)'S_c−1(x₁ −x₂), chamada distância amostral de Mahalanobis. [Ver prova na página 662]

Exemplo 11.8: Baseado nos dados do Exemplo 11.3, a função discriminante linear

de Fisher para custos iguais e probabilidades a priori também iguais foi yˆ = aˆ'x = (x₁ −x₂)'S_c−1x = 37.61x₁ − 28.92x₂

(13)

2 D = (x₁ −x₂)'S−_c1(x₁−x₂) =

[

0.2418 −0.0652

]

_      − − 147 . 108 423 . 90 423 . 90 158 . 131       −0.0652 2418 . 0 = 10.98

A solução de Fisher para o problema de separação em dois grupos também pode ser usada para classificar novas observações.

REGRA DE CLASSIFICAÇÃO BASEADA NA FUNÇÃO DISCRIMINANTE DE FISHER Classificar x₀ em π₁ se ˆy₀ = (x₁ −x₂)'S_c−1x₀ ≥ mˆ = 2 1 ) ( ) (x₁−x₂ 'S−_c1 x₁−x₂ ou se ˆy₀ − mˆ ≥ 0 (11-35) Classificar x₀ em π₂ se ˆy₀ < mˆ ou se ˆy₀ − mˆ < 0

O procedimento descrito em (11-33) é ilustrado, esquematicamente, para p = 2 na Figura 11.8 da página 664. Todos os pontos no gráfico de dispersão são projetados sobre uma linha na direção aˆ e essa direção varia até que a separação entre as amos-tras seja maximizada.

A função discriminante linear de Fisher foi desenvolvida sob a suposição que as duas populações, qualquer de sejam suas formas, tenham matriz de covariâncias comuns. Na regra de classificação (11-18), o termo, yˆ = aˆ'x = (x₁ −x₂)'S_c−1x, é a função linear de Fisher que maximiza a variabilidade univariada entre amostras rela-tiva à variabilidade dentro de amostras. A expressão completa

wˆ = (x₁ −x₂)'S−_c1x − 2 1 ) ( ) (x₁ −x₂ 'S_c−1 x₁−x₂ = (x₁ −x₂)'S_c−1     ₋ ₍ ₋ ₎ 2 1 2 1 x x x (11-36) é freqüentemente chamada (estatística) função de discriminação de Anderson.

Desde que as duas populações normais tenham a mesma matriz de covariânci-as, a regra de classificação de Fisher é equivalente à regra do ECM mínimo, com iguais probabilidades a priori e iguais custos de má classificação.

A distância D pode ser usada, em certas situações, para testar se as médias 2 populacionais µµ₁ e µµ₂ diferem significativamente. Suponha que as populações π₁ e

2

π tenham distribuição normal com matriz de covariâncias comuns, ΣΣ. Então, para testar H0: µµ1 = µµ2 versus H1: µµ1 ≠ µµ2, utilizamos a estatística

(14)

    − + − − + p n n p n n ) 2 ( 1 2 1 2 1     + 2 1 2 1 n n n n ₂ D

que sob H0 tem distribuição F com ν1 = p e ν2 = (n1+n2 − p−1) graus de

liberda-de. Se H0 for rejeitada, podemos concluir que a separação entre as duas populações

1

π e π₂ é significativa.

É importante observar que:

• uma separação significativa [µµ₁ ≠ µµ₂] não implica necessariamente em uma boa regra de classificação;

• a eficiência de um procedimento de classificação pode ser avaliada independente-mente de qualquer teste de separação;

• se, por outro lado, a separação não é significativa, a busca por uma conveniente regra de classificação será estéril.

11.6. CLASSIFICAÇÃO ENTRE DIVERSAS POPULAÇÕES

Teoricamente, o problema atual é uma generalização direta do procedimento de classificação de g = 2 para g > 2 populações. Entretanto, pouco se sabe sobre as pro-priedades das correspondentes funções amostrais de classificação, e em particular, suas taxas de erros tem sido completamente investigada.

Como no caso anterior, nossa abordagem pretende desenvolver regras teorica-mente ótimas e então indicar as modificações necessárias para fazermos aplicações interessantes. Para cada uma das g populações, indicadas como π₁, π₂, ..., π_g, preci-saremos assumir uma distribuição e, contando com a experiência dos pesquisadores, estabelecer probabilidades a priori e custos de má classificação.

O MÉTODO DO MÍNIMO CUSTO ESPERADO DE MA CLASSIFICAÇÃO

Seja f_i(x) a densidade associada à população π_i, i = 1, 2, .., g [Geralmente assumiremos uma densidade normal multivariada mas, no momento, isso é desneces-sário para o desenvolvimento da teoria geral].

Seja p_i = probabilidade a priori da população π_i, i = 1, 2, .., g ; c(k | i) = custo de classificar um item de π_i em π_k , k, i = 1, 2, .., g [se k = i, c(i | i) = 0]; R_k = re-gião onde os x's são classificados como π_k , e P((k | i) = P(classificar um item como

k

π | π_i) =

∫

k

R fi(x)dx, para k, i = 1, 2, .., g com P(i | i) = 1 −

∑

≠ = g k i k P 1 ) | (

(15)

Seja ECM(1) o custo esperado de má classificação de um item x de π₁, ou π₂, ... , ou π_g é definido como ECM(1) = P(2 | 1)c(2 | 1) + P(3 | 1)c(3 | 1) + ... + P(g | 1)c(g | 1) =

∑

= g k k c k P 2 ) 1 | ( ) 1 | (

que ocorre com probabilidade a priori p₁. De modo análogo obtemos ECM(2), ..., ECM(g). Daí, o ECM geral é dado por

ECM = p₁ECM(1) + p₂ECM(2) + ... + p ECM(g) _g = p₁

∑

= g k k c k P 2 ) 1 | ( ) 1 | ( + ... + p_g

∑

− = 1 1 ) | ( ) | ( g k g k c g k P =

∑ ∑

= ≠ =          g i g i k k g k c g k P 1 1 ) | ( ) | ( (11-37)

Determinar um procedimento de classificação ótimo consiste em escolher as regiões de classificaçãoR₁, ..., R , mutuamente exclusivas e exaustivas, que minimi-_g zam a expressão (11-37).

Resultado 11.5. As regiões de classificação que minimizam o ECM (11-37) são

definidas para classificar um item x à população π_k, k = 1, 2, ..., g, para as quais

∑

≠ = g k i i i i f k|i) p 1 c( ) (x (11-38)

assume um valor mínimo. Se ocorrer um empate, x pode ser classificado em qualquer uma das populações envolvidas no empate.

Supondo que os custos de má classificação são iguais (a 1, sem perda de generaliza-ção), usando o argumento (11-38), nós classificaremos o item x na população π_k, para k = 1, ..., g, se

∑

≠ = g k i i i i f p 1 ) (x (11-38)

(16)

REGRA DE CLASSIFICAÇÃO DO MÍNIMO ECM COM CUSTOS DE MÁ CLASSIFICAÇÃO IGUAIS

Classificar x em π_k se p_k f_k(x) > p_i f_i(x), para todo i ≠ k (11-40) ou, equivalentemente,

Classificar x em π_k se ln [p_k f_k(x)] > ln [p_i f_i(x)], para todo i ≠ k (11-41)

• Vale notar que a regra de classificação (11-40) é idêntica a maximizar a probabili-dade a posteriori P(π_k | x) = P(x vir de π_k dado que x foi observado).

• A regra do mínimo ECM tem três componentes: a probabilidade a priori, os custos de má classificação e as funções de densidade. Esses componentes devem ser espe-cificados, conhecidos ou estimados. No caso de serem estimados, a qualidade do procedimento resultante dependerá da qualidade dos estimadores empregados. Ver Exemplo 11.9 nas páginas 668-669.

CLASSIFICAÇÃO COM POPULAÇÕES NORMAIS

Um importante caso especial ocorre quando as densidades para cada uma das g populações são normais multivariadas com vetores de médias µµ_i e matriz de covari-âncias ΣΣ_i. Se além disso, c(i | i ) = 0, c(k | i) = 1, k ≠ i (ou, equivalentemente, todos os custos de má classificação são iguais), então

Classificamos x em π_k se ln [p_k f_k(x)] = ln(p_k) − ln(2 ) 2 π     p − ln ΣΣk 2 1 − ( ) ( ) 2 1 1 k k k ΣΣ µµ µµ − − ' − x x = max[ln( _i _i(x)] i f p (11-44) A constante (p/2)ln(2π) pode ser ignorada em (11-44), desde que é o mesmo para todas as populações.

Definiremos o escore discriminante quadrático para a população π_i, i = 1, ..., g, como ) ( Q x i d = − ln ΣΣ_i 2 1 − ( ) ( ) 2 1 1 i i i ΣΣ µµ µµ − − ' − x x + ln(p_i) (11-45) que é composto da contribuição da variância generalizada ΣΣ , probabilidade a priori _i

i

(17)

REGRA DO MÍNIMO DO TOTAL DA PROBABILIDADE DE MÁ CLASSIFICAÇÃO (TPM) PARA POPULAÇÕES NORMAIS -

COM MATRIZES DE COVARIÂNCIAS DIFERENTES Classificar x em π_k se o escore quadrático

) ( Q x k d = max

(

d₁Q(x),d₂Q(x),L ,d_gQ(x)

)

(11-46) onde d_iQ(x) é como definido em (11-45)

Como, na prática, µµ_i e ΣΣ_i são desconhecidos, utilizamos como suas estimati-vas o vetor de médias amostrais, x_i, e a matriz de covariâncias amostrais, S_i. A esti-mativa do escore discriminante quadrático fica

) ( ˆQ x i d = − lnS_i 2 1 − ( ) ( ) 2 1 1 i i i 'S x x x x− − − + ln(p_i) (11-47) para i = 1, 2, ..., g. E a regra de classificação baseada na amostra é a seguinte:

REGRA DO MÍNIMO (TPM) ESTIMADO PARA DIVERSAS POPULAÇÕES NORMAIS − COM ΣΣ_i DIFERENTES Classificar x em π_k se o escore quadrático

) ( ˆQ x k d = max

(

dˆ₁Q(x),dˆ₂Q(x),L ,dˆ_gQ(x)

)

(11-48) onde dˆ_iQ(x) é como definido em (11-47)

Uma simplificação é possível se as matrizes de covariâncias ΣΣ_i forem iguais. Quando ΣΣ_i = ΣΣ, para i = 1, 2, ..., g, o escore discriminante em (11-45) passa a ser

) ( Q x i d = − ln ΣΣ 2 1 − ΣΣ µµ ΣΣ µµ ΣΣ µµi 1 t i 1 t i 1 2 1 2 1 ₋ ₋ ₋ − + x x x' + ln(p_i)

Como os dois primeiros termos dessa expressão são os mesmos para d₁Q(x), ..., )

(

Q

x g

d , eles podem ser ignorados nos cálculos. Os termos restantes consistem de uma constante c_i = ln(p_i) µµ_itΣΣ 1µµ_i

2

1 ₋

− e de uma combinação linear dos componentes de x. Definimos então, o escore discriminante linear

) (x i d = µµ_itΣΣ 1 µµ_itΣΣ 1µµ_i 2 1 ₋ − _x₋ _{+ ln(} i p ) (11-49) para i = 1, 2, ..., g.

(18)

Uma estimativa dˆ x_i( ) do escore discriminante linear d_i(x) é baseado na esti-mativa ponderada (ou combinada) de ΣΣ, que é dada por

c S = _i 1 1 ) 1 ( 1 S

∑

= = − − g i i g i i n g n (11-50) e é dada por ) ( ˆ x_i d = x_it S_c1x x_it S_c1 x_i 2 1 ₋ − ₋ _{+ ln(} i p ) (11-51) Consequentemente temos que

REGRA DO MÍNIMO TPM ESTIMADO PARA POPULAÇÕES NORMAIS COM MATRIZES DE COVARIÂNCIAS IGUAIS

Classificar x em π_k se o escore discriminante linear )

( ˆ x_i

d = max

(

dˆ₁(x),dˆ₂(x),L,dˆ_g(x)

)

(11-52) onde dˆ x_i( ) é como definido em (11-51)

• Quando ΣΣ_i = ΣΣ, o termo constante ln( ) 2 1

ΣΣ

− em (11-45) pode ser ignorado e uma regra de classificação equivalente pode ser obtida. O resultado, com as estimativas amostrais substituindo as quantidades populacionais desconhecidas, pode ser inter-pretado em termos dos quadrados das distâncias

) ( 2 x i D = (x−x_i)'S−_c1(x−x_i) (11-53) de x ao vetor de médias amostrais x_i. E a "nova" regra de classificação consiste em

Classificar x na população π_k para a qual ( ) 2 1 2 x i D − + ln(p_i) é um máximo (11-54)

• Se as probabilidades a priori são desconhecidas, o procedimento usual é assumir que p₁ = p₂ = ... = p = _g 1 . _g

(19)

Exemplo 11.10.

Calcular os escores discriminantes lineares baseados nos dados de g = 3 populações, assumindo que têm distribuição normal bivariada e matrizes de covariâncias iguais. As amostras aleatórias das populações π₁, π₂ e π₃ são

1 X =           − − 1 1 3 0 5 2 , X₂ =           2 1 4 2 6 0 e X₃ =           − − − 4 1 0 0 2 1

respectivamente. Dado que p₁ = p₂ = 0.25 e p₃ = 0.50, classificar a nova observa-ção x₀t = [ −2 −1] utilizando (11-52).

Utilizando os seguintes comandos do PROC IML options nocenter ps=1000; proc iml; * reset print; reset fuzz; X1 = {-2 5, 0 3, -1 1}; n1 = nrow(X1); p = ncol(X1); g = 3; X1b =(1/n1)*t(X1)*J(n1,1); S1 = t(X1)*(I(n1)-J(n1,n1)/n1)*X1/(n1-1); X2 = { 0 6, 2 4, 1 2}; n2 = nrow(X2); X2b =(1/n2)*t(X2)*J(n2,1); S2 = t(X2)*(I(n2)-J(n2,n2)/n2)*X2/(n2-1); X3 = { 1 -2, 0 0, -1 -4}; n3 = nrow(X3); X3b =(1/n3)*t(X3)*J(n3,1); S3 = t(X3)*(I(n3)-J(n3,n3)/n3)*X3/(n3-1); Sc = ((n1-1)*S1 + (n2-1)*S2 + (n3-1)*S3)/(n1+n2+n3-g); print X1 n1 X1b S1; print X2 n2 X2b S2; print X3 n3 X3b S3; print Sc; X0 = {-2, -1}; p1 = 0.25; p2 = 0.25; p3 = 0.50; print X0 p1 p2 p3;

d1_X0 = log(p1) + t(X1b)*inv(Sc)*X0 - t(X1b)*inv(Sc)*X1b/2; d2_X0 = log(p2) + t(X2b)*inv(Sc)*X0 - t(X2b)*inv(Sc)*X2b/2; d3_X0 = log(p3) + t(X3b)*inv(Sc)*X0 - t(X3b)*inv(Sc)*X3b/2;

print d1_X0 d2_x0 d3_X0;

obtemos: D1_X0 = −1.943437, D2_X0 = −8.157723 e D3_X0 = −0.35029. E desde que D3_X0 = −0.35029 é o maior escore discriminante, nós classificaremos x₀ na população π₃.

(20)

Exemplo 11.11 (página 674)

Classificar potenciais estudantes de uma escola, com base em uma pontuação média (GPA) e nos resultados de um teste de aptidão (GMAT). Os dados estão apresentados na Tabela 11.6 (pág. 718).

data Ex11_11;

input GPA GMAT Grupo $;

if Grupo=1 then Grupo='Admit';

else if Grupo=2 then Grupo='NotAdmit'; else Grupo='Border'; cards; 2.96 596 1 3.14 473 1 3.22 482 1 3.29 527 1 3.69 505 1 ... 2.85 483 3 3.01 453 3 3.03 414 3 3.04 446 3 ;

proc discrim data=Ex11_11 method=normal pool=yes manova wcov pcov listerr crosslisterr;

priors equal; class grupo; var GPA GMAT; run;

Resultando em:

DISCRIMINANT ANALYSIS

85 Observations 84 DF Total

2 Variables 82 DF Within Classes 3 Classes 2 DF Between Classes

Class Level Information

Prior GRUPO Frequency Weight Proportion Probability Admit 31 31.0000 0.364706 0.333333 Border 26 26.0000 0.305882 0.333333 NotAdmit 28 28.0000 0.329412 0.333333

• apresenta uma descrição dos grupos, tamanhos das amostras e as probabilidades a priori

DISCRIMINANT ANALYSIS WITHIN-CLASS COVARIANCE MATRICES

GRUPO = Admit DF = 30

Variable GPA GMAT GPA 0.043558 0.058097 GMAT 0.058097 4618.247312 --- GRUPO = Border DF = 25

Variable GPA GMAT GPA 0.029692 -5.403846 GMAT -5.403846 2246.904615 --- GRUPO = NotAdmit DF = 27

Variable GPA GMAT GPA 0.033649 -1.192037

(21)

continuação...

Pooled Within-Class Covariance Matrix DF = 82 Variable GPA GMAT GPA 0.036068 -2.018759 GMAT -2.018759 3655.901121

• apresenta estimativas das matrizes de covariâncias de cada grupo e da matriz de covariâncias comum (ou combinada)

DISCRIMINANT ANALYSIS POOLED COVARIANCE MATRIX INFORMATION

Covariance Natural Log of the Determinant Matrix Rank of the Covariance Matrix 2 4.85035289

Discriminant Analysis Pairwise Generalized Squared Distances Between Groups

2 _ _ -1 _ _ D (i|j) = (X - X )' COV (X - X ) i j i j

Generalized Squared Distance to GRUPO From

GRUPO Admit Border NotAdmit Admit 0 10.06344 31.28880 Border 10.06344 0 7.43364 NotAdmit 31.28880 7.43364 0

• apresenta os quadrados das distâncias entre os diversos grupos, sendo que a maior distância ocorre entre os grupos Admit e NotAdmit.

MULTIVARIATE STATISTICS AND F APPROXIMATIONS

S=2 M=-0.5 N=39.5

Statistic Value F Num DF Den DF Pr > F Wilks' Lambda 0.12637661 73.4257 4 162 0.0001 Pillai's Trace 1.00963002 41.7973 4 164 0.0001 Hotelling-Lawley Trace 5.83665601 116.7331 4 160 0.0001 Roy's Greatest Root 5.64604452 231.4878 2 82 0.0001

NOTE: F Statistic for Roy's Greatest Root is an upper bound. NOTE: F Statistic for Wilks' Lambda is exact.

• apresenta os resultados do teste (MANOVA) da hipótese de que as médias dos grupos são iguais, que é rejeitada, indicando que os grupos estão "bem separados".

DISCRIMINANT ANALYSIS LINEAR DISCRIMINANT FUNCTION _ -1 _ -1 _ Constant = -.5 X' COV X Coefficient Vector = COV X j j j

GRUPO

Admit Border NotAdmit CONSTANT -240.37168 -177.31575 -133.89892 GPA 106.24991 92.66953 78.08637 GMAT 0.21218 0.17323 0.16541

(22)

• apresenta as estimativas dos coeficientes das três funções discriminantes. Basea-do nessas funções, calcularemos os escores discriminantes para classificar novas observações:

Admit: dˆ₁(x) = −240.37168 + 106.24991GPA + 0.21218GMAT Not Admit: dˆ₂(x) = −177.31575 + 92.66953GPA + 0.17323GMAT Border: dˆ₃(x) = −133.89892 + 78.08637GPA + 0.16541GMAT

RESUBSTITUTION RESULTS USING LINEAR DISCRIMINANT FUNCTION

Generalized Squared Distance Function: Posterior Probability of Membership in each GRUPO: 2 _ -1 _ 2 2 D (X) = (X-X )' COV (X-X ) Pr(j|X) = exp(-.5 D (X)) / SUM exp(-.5 D (X)) j j j j k k Posterior Probability of Membership in GRUPO: Obs From Classified

GRUPO into GRUPO Admit Border NotAdmit 2 Admit Border * 0.1202 0.8778 0.0020 3 Admit Border * 0.3654 0.6342 0.0004 24 Admit Border * 0.4766 0.5234 0.0000 31 Admit Border * 0.2964 0.7032 0.0004 58 NotAdmit Border * 0.0001 0.7550 0.2450 59 NotAdmit Border * 0.0001 0.8673 0.1326 66 Border Admit * 0.5336 0.4664 0.0000 * Misclassified observation

RESUBSTITUTION SUMMARY USING LINEAR DISCRIMINANT FUNCTION

Generalized Squared Distance Function: Posterior Probability of Membership in each GRUPO: 2 _ -1 _ 2 2 D (X) = (X-X )' COV (X-X ) Pr(j|X) = exp(-.5 D (X)) / SUM exp(-.5 D (X)) j j j j k k

Number of Observations and Percent Classified into GRUPO:

From GRUPO Admit Border NotAdmit Total

Admit 27 4 0 31 87.10 12.90 0.00 100.00 Border 1 25 0 26 3.85 96.15 0.00 100.00 NotAdmit 0 2 26 28 0.00 7.14 92.86 100.00 Total 28 31 26 85 Percent 32.94 36.47 30.59 100.00 Priors 0.3333 0.3333 0.3333

Error Count Estimates for GRUPO:

Admit Border NotAdmit Total Rate 0.1290 0.0385 0.0714 0.0796 Priors 0.3333 0.3333 0.3333

• apresenta os resultados da reclassificação das observações utilizando as funções lineares discriminantes e as probabilidades a posteriori de classificação errônea.

• apresenta ainda o número e a porcentagem de observações classificadas erronea-mente em cada um dos grupos, utilizando as funções lineares discriminantes

(23)

CROSS-VALIDATION RESULTS USING LINEAR DISCRIMINANT FUNCTION

Generalized Squared Distance Function: Posterior Probability of Membership in each GRUPO: 2 _ -1 _ 2 2 D (X) = (X-X )' COV (X-X ) Pr(j|X) = exp(-.5 D (X)) / SUM exp(-.5 D (X)) j (X)j (X) (X)j j k k

Posterior Probability of Membership in GRUPO: Obs From Classified

GRUPO into GRUPO Admit Border NotAdmit 1 Admit Border * 0.4872 0.5074 0.0054 2 Admit Border * 0.0933 0.9049 0.0017 3 Admit Border * 0.3348 0.6648 0.0004 24 Admit Border * 0.3975 0.6024 0.0000 31 Admit Border * 0.2594 0.7402 0.0004 58 NotAdmit Border * 0.0001 0.8029 0.1971 59 NotAdmit Border * 0.0002 0.9047 0.0952 66 Border Admit * 0.6861 0.3139 0.0000 75 Border NotAdmit * 0.0002 0.4909 0.5089 * Misclassified observation

CROSS-VALIDATION SUMMARY USING LINEAR DISCRIMINANT FUNCTION

Generalized Squared Distance Function: Posterior Probability of Membership in each GRUPO: 2 _ -1 _ 2 2 D (X) = (X-X )' COV (X-X ) Pr(j|X) = exp(-.5 D (X)) / SUM exp(-.5 D (X)) j (X)j (X) (X)j j k k

Number of Observations and Percent Classified into GRUPO:

From GRUPO Admit Border NotAdmit Total Admit 26 5 0 31 83.87 16.13 0a.00 100.00 Border 1 24 1 26 3.85 92.31 3.85 100.00 NotAdmit 0 2 26 28 0.00 7.14 92.86 100.00 Total 27 31 27 85 Percent 31.76 36.47 31.76 100.00 Priors 0.3333 0.3333 0.3333

Error Count Estimates for GRUPO:

Admit Border NotAdmit Total Rate 0.1613 0.0769 0.0714 0.1032 Priors 0.3333 0.3333 0.3333

• apresenta as probabilidades a posteriori, as classes nas quais cada observação é classificada utilizando a validação cruzada e o número de observações e a porcen-tagem classificada em cada grupo.

(24)

OBSERVAÇÕES:

• A aplicação das regras de classificação utilizando funções lineares 52) ou (11-56) depende da verificação da normalidade multivariada das populações e da igual-dade das matrizes de covariâncias.

• Se uma ou ambas as suposições forem violadas, devemos buscar, primeiramente, alguma transformação de dados'.

• As regras de classificação utilizando funções quadráticas são apropriadas se a su-posição de normalidade está satisfeita, mas a susu-posição de igualdade de matrizes de covariâncias está seriamente violada.

• A suposição de normalidade dos dados é mais crítica para as regras de classifica-ção quadráticas do que para as lineares.

MÉTODO DE FISHER PARA DISCRIMINAÇÃO ENTRE DIVERSAS POPULAÇÕES

A análise discriminante de Fisher é motivada pela necessidade de obter uma razoável representação das populações envolvendo somente algumas combinações li-neares das observações, tais como a₁tx, a₂tx e a₃tx.

Essa abordagem tem diversas vantagens quando se está interessado em separar diversas populações por (i) inspeção visual ou (ii) propósitos descritivos gráficos. Ela permite

1. uma representação conveniente das g populações que reduzem a dimensão de um grande número de características para algumas poucas combinações lineares, o que pode envolver a perda de alguma informação

2. um gráfico das médias das duas ou três combinações lineares (discriminantes), que pode auxiliar a entender o relacionamento e os possíveis agrupamentos das popula-ções.

3. gráficos de dispersão dos valores amostrais dos dois primeiros discriminantes, que podem indicar valores aberrantes (outliers) ou alguma outra anormalidade nos dados.

O primeiro propósito da análise discriminante de Fisher é separar populações, mas ela também pode ser usada para classificar indivíduos. Não é necessário assumir que as g populações sejam normais multivariadas, mas é interessante assumir que as matrizes de covariâncias populacionais sejam iguais e de posto completo.

Seja B a matriz de somas de produtos cruzados entre grupos, tal que _µ

µ B =

∑

= − − g 1 i ) )( (µµ_i µµ µµ_i µµ ', onde µµ =

∑

= g i i g ₁ 1 µµ (11-58)

(25)

Consideremos as combinações lineares Y = a' X, com E(Y) = a'E(X |ð_i) = a'µµ_i=

Y

i

µ para a população ð_i e Var(Y) = a' ΣΣ a, para todas as populações. Consequen-temente, o valor esperado µ_i_Y = a'µµ_i muda quando a população da qual X é

selecio-nada também muda. A média geral é definida como

Y µ =

∑

= µ g i iY g ₁ 1 = a'µµ

e a razão entre a "soma dos quadrados das distâncias das populações para a média geral de Y" e a "variância de Y" é

(

)

2 Y 1 2 Y Y σ µ − µ

∑

= g i i = a a' a' a' ΣΣ µµ µµ

∑

= − g i i 1 2 ) ( = a a' a B a' ΣΣ µ µ (11-59) que mede a variabilidade entre os grupos dos valores Y relativa a variabilidade co-mum dentro dos grupos.

Deveremos selecionar a combinação a que maximiza essa razão. Ordinaria-mente, ΣΣ e µµ_i não são disponíveis e buscaremos estimar essas quantidades utilizando amostras de treinamento, consistindo de observações corretamente classificadas. Daí, temos os vetores de médias amostrais

i x =

∑

= i n j i n ₁ ij 1 x

e as correspondentes matrizes de covariâncias amostrais S_i, para i =1, 2, ..., g. O vetor de médias gerais é calculado como

x =

∑

= = g i i g i i n n 1 1 i x =

∑

∑∑

= = = g i i g i n j n i 1 1 1 ij x

que é um vetor (p x 1) de médias calculadas sobre todas as observações das amostras de treinamento. Definimos ainda a matriz de produtos cruzados amostrais entre gru-pos, B, que inclui os tamanhos amostrais, como

B =

∑

= − − g 1 i ) )( (x_i x x_i x ' i n (11-60) e a matriz de produtos cruzados amostrais dentro dos grupos

W = _i 1 ) 1 ( S

∑

= − g i i n =

∑ ∑

= = − − g i n j i 1 1 ij ij )( ) (x x x x ' (11-61)

(26)

Vale salientar que W =

(

n₁ +n₂ +...+n_g −g

)

S_c, de tal modo que aˆ que maximiza

aˆ'Baˆ/aˆ'S_c também maximiza aˆ'Baˆ/aˆ'Waˆ. Ou ainda, podemos otimizar aˆ como autovetores ˆe_i de W−1B.

DISCRIMINANTES LINEARES AMOSTRAIS DE FISHER

Sejam λˆ₁, ..., λˆ_s > 0 os s ≤ min(g−1, p) autovalores de W−1B e ˆe₁, ..., eˆ_sos au-tovetores correspondentes (padronizados tal que eˆ'S_ceˆ = 1). Então o vetor de coe-ficientes aˆ que maximiza a razão

a W ' a a B ' a ˆ ˆ ˆ ˆ = a ' x x x x ' a a ' x x x x ' a g 1 i ˆ ) )( ( ˆ ˆ ) )( ( ˆ 1 1 ij ij         − −     − −

∑∑

∑

= = = g i n j i i i i n (11-62)

é dado por â₁ = ê₁. A combinação linear â₁x é chamado primeiro discriminante

amostral. A escolha â₂ = ê₂, produz o segundo discriminante amostral, â₂x e,

continuando, obtemos o k-ésimo discriminante amostral, aˆ_k x = eˆ_k x , k ≤ s.

• Idealmente, os coeficientes padronizados das funções discriminantes deverão ser examinados para avaliar a importância de uma variável na presença das outras va-riáveis.

Ver Exemplos 11.14 (página 687) e 11.15 (página 689)

Exemplo 11.13 (página 686).

Consideremos as observações das p = 2 variáveis de g = 3 populações já apresentadas no Exemplo 11.10. Assumindo que as populações têm uma matriz de covariâncias comum ΣΣ, vamos obter os discriminantes de Fisher. Os dados são:

1 X =           − − 1 1 3 0 5 2 , X₂ =           2 1 4 2 6 0 e X₃ =           − − − 4 1 0 0 2 1 Do Exemplo 11.10 temos: x₁= _     − 3 1 , x₂ = _      4 1 , x₃ = _      −2 0 , então x = _      3 5 0 , B = _      62 3 3 6 , W = _      6 2 2 24 140 1 ⇒ ⇒ W−1B = _      7 . 2 21429 . 0 4 . 1 07143 . 1

(27)

1 ˆ λ = 2.8671 ⇒ ˆa₁t = [0.386 0.495] 2 ˆ λ = 1.07143 ⇒ ˆa₂t = [0.938 -0.112] E os dois discriminantes de Fisher são

1

yˆ = ˆa₁tx = 0.386x₁ + 0.495x₂

2

yˆ = ˆa₂tx = 0.938x₁ − 0.112x₂

USANDO OS DISCRIMINANTES DE FISHER PARA CLASSIFICAR OB-JETOS

Os discriminantes de Fisher foram derivados para o propósito de obter uma re-presentação dos dados numa dimensão menor que p, que separe as populações tanto quanto possível. Entretanto, eles podem ser usados como base para uma regra de clas-sificação. Tomando k Y = at_kX, o k-ésimo discriminante, k ≤ s (11-64) concluímos que Y =             s Y Y Y M 2 1

tem vetor de médias µµ_i_Y =

              µ µ µ s 2 1 Y Y Y i i i M =               i s i i µµ µµ µµ t t 2 t 1 a a a M

na população ð_i e matriz de covariâncias I , para todas as populações. A medida apropriada do quadrado da distância de Y = y até µµ_i_Y é

(y − µµ_i_Y)' (y − µµ_i_Y) = _Y 2 1 ) ì ( j i s j j y

∑

= −

e uma regra de classificação razoável consiste em alocar y na população ð_k se o qua-drado da distância de y a µµ_k_Y é menor que o quadrado da distância de y a µµ_i_Y, para i ≠ j. Se somente r dos discriminantes forem usados na alocação, a regra é

2 Y r 1 ) ì ( j k j j y

∑

= − =

∑

= − r 1 2 t j( )] [ j k µµ x a ≤

∑

= − r 1 2 t j( )] [ j i µµ x a , para todo i ≠ k (11-65)

(28)

Resultado 11.6. Seja y = _j a x, onde t_j a =_j ΣΣ−12e_j e e é um autovalor de _j 2 1 2 1 − − _ΣΣ ΣΣ B . Então 2 Y 1 ) ì ( j i p j j y

∑

= − =

∑

= − r 1 2 t j( )] [ j i µµ x a = (x − µµ_i)'ΣΣ (x −1 − µµ_i) = −2d_i(x) + x'ΣΣ x + 2ln(−1 p_i) Se λ₁≥ λ₂≥ ... ≥ λ_s > 0 = λ_s₊₁= ... = λ_p, _Y 2 1 ) ì ( j i p s j j y

∑

+ = −

é constante para todas as populações i = 1 , 2, ..., g, de modo que somente os s discriminantes y , ou _j

2 Y r 1 ) ì ( j k j j y

∑

= −

, contribuem para a classificação. [ver prova na pág. 693]

PROCEDIMENTO DE CLASSIFICAÇÃO DE FISHER BASEADO EM DISCRIMINANTES AMOSTRAIS Classificar x em π_k se 2 kj r 1 j j ) y yˆ (

∑

= − =

∑

= − r 1 2 t j( )] ˆ [ j k x x a ≤

∑

= − r 1 2 t j( )] ˆ [ j i x x a para todo i ≠ k (11-67) onde ˆa é definido em (11-62), _j y = _{k j} ˆa_j x_k e r ≤ s.

Exemplo 11.16 (página 695). Sejam os seguintes discriminantes de Fisher do

Exem-plo 11.13:

1

yˆ = ˆa₁tx = 0.386x₁ + 0.495x₂ e yˆ₂ = ˆa₂tx = 0.938x₁ − 0.112x₂

Vamos classificar a nova observação x₀t = [1 3] utilizando o resultado (11-67). Primeiramente, vamos calcular o valor dos discriminantes no ponto x₀t :

1

yˆ = â₁t x₀t = 1.87 e yˆ₂ = â₂t x₀t = 0.60 Além disso, 11 y = â₁t x₁ = 1.10, y₁₂ = â₂t x₁ = −1.27, 21 y = â₁t x₂ = 2.37, y₂₂ = â₂t x₂ = 0.49, 31 y = â₁t x₃ = −0.99, y₃₂ = â₂t x₃ = 0.22

(29)

Finalmente, o menor valor de _kj 2 2 1 j j ) y yˆ (

∑

= − =

∑

= − 2 1 j 2 k t j( )] ˆ [a x x , para k = 1, 2, 3 pode ser identificado. Temos então que

(k = 1): ₁_j 2 2 1 j j y ) yˆ (

∑

= − = [(1.87 − 1.10) 2 + (0.60 + 1.27)2 ] = 4.09 (k = 2): ₂_j 2 2 1 j j ) y yˆ (

∑

= − = [(1.87 − 2.37) 2 + (0.60 − 0.49)2] = 0.26 (k = 3): ₃_j 2 2 1 j j ) y yˆ (

∑

= − = [(1.87 + 0.99) 2 + (0.60 − 0.22)2] = 8.32 Como o mínimo de _kj 2 2 1 j j ) y yˆ (

∑

= − ocorre quando k = 2, classificaremos

t 0

x = [1 3] na população π₂.

COMENTÁRIOS FINAIS

• Uma abordagem para classificação completamente diferente dos métodos apresen-tados nesta aula é chamada CART (Classification and Regression Trees). É uma abordagem bastante atual, envolve cálculos intensivos e está relacionada a técnicas de agrupamento (clustering).

• Seleção de variáveis. Em diversas aplicações da análise discriminante, estão

dis-poníveis dados de um grande número de variáveis. Neste caso, é desejável sele-cionar um subgrupo relativamente pequeno dessas variáveis que contenha quase toda a informação do conjunto original. Este é o objetivo da stepwise discriminant analisys.