11. DISCRIMINAÇÃO E CLASSIFICAÇÃO −− ANÁLISE DISCRIMINANTE
11.1. INTRODUÇÃO
Em diversas áreas de pesquisa como a biológica, econômica etc. existem situa-ções onde o pesquisador está interessado no estudo de p características (ou variáveis) e na maioria dos casos, interessa-se pelo comportamento simultâneo de todas as va-riáveis. Nesses contexto, a análise multivariada exerce um papel fundamental dentro da estatística matemática e do campo das aplicações.
Um grande avanço no campo da análise multivariada, teoria e aplicações, acon-teceu a partir das investigações pioneiras realizadas por R. A. Fisher, considerado por Rao (1964), "O arquiteto da análise multivariada".
Uma técnica interessante de análise multivariada é chamada Análise Discrimi-nante, que tem como finalidade a separação (discriminação) de grupos distintos de observações e posterior classificação de novas observações em um dos grupos pre-viamente determinados. O processo de classificação será baseado na construção de uma função linear envolvendo as características (variáveis) observadas e a determi-nação dessa função será baseada na otimização da classificação de casos nos grupos corretos.
Baseado em algumas características (variáveis), desejamos distinguir entre dois ou mais grupos mutuamente exclusivos. Desejamos também identificar quais dessas características são mais importantes na discriminação dos grupos e desenvolver um procedimento que nos permita classificar novos indivíduos em um dos vários grupos.
Alguns exemplos interessantes:
• um médico, a fim de diagnosticar uma doença, pode solicitar a realização de diver-sos exames e com base nos seus resultados, procurar classificar um indivíduo como portador ou não portador da referida doença. Entretanto, muitas vezes, mesmo co-nhecendo os resultados dos exames, torna-se impraticável a tomada de uma deci-são, que tornem mínimos os riscos de uma classificação errônea, já que as conse-qüências da tomada de uma decisão errada são muito graves.
• um gerente de banco precisa decidir se concede ou não um empréstimo a um clien-te e para auxiliá-lo na tomada de decisão, vai comparar suas caracclien-terísticas com as de clientes que já provaram ter pago seus empréstimos em dia e de outros, que deram trabalho para pagar. Baseado nas semelhanças e/ou diferenças das caracte-rísticas desses dois grupos, o gerente poderá fazer uma previsão de comportamento de novos clientes. Porém, como o volume de informações é grande, o gerente po-derá utilizar um procedimento mais criterioso para decidir se um novo cliente fará parte do grupo de bons pagadores ou de maus pagadores.
• um diretor de faculdade quer saber se um aluno se graduará no tempo normal ou não. Para tanto vai buscar informações sobre: notas de vestibular, média de notas semestrais em disciplinas já concluídas, número de atividades extra curriculares etc.
Usualmente, as regras criadas para classificação são desenvolvidas com base em amostras onde já se sabe o grupo ao qual os indivíduos pertencem. Dessa manei-ra, as características dos casos observados são usadas na diferenciação dos grupos.
No exemplo anterior (empréstimo), os clientes do banco já estão divididos em dois grupos: bons e maus clientes, dos quais são conhecidas algumas características como: idade, sexo, número de cartões de crédito, número de pessoas na família etc.). Assim, um novo cliente que tiver as características mais parecidas com dos integran-tes do primeiro grupo, será classificado como um bom cliente e se tiver características mais parecidas com dos integrantes do segundo grupo, será classificado como um mau cliente.
Deve ficar claro que qualquer que seja a regra de classificação criada, sempre existirá uma chance de cometermos um erro. Isso se deve ao fato de não existir uma distinção perfeita entre os grupos, baseada nas características observadas. No exem-plo, existe uma chance de um novo cliente ser classificado no grupo bom quando, na verdade, ele é um mau cliente e vice e versa.
11.2. CLASSIFICAÇÃO E SEPARAÇÃO PARA DUAS POPULAÇÕES
Exemplo 11.1 (página 632)
Objetivo: identificar quais moradores da cidade são potenciais compradores de uma
determinada marca de máquina agrícola. Vinte e quatro famílias foram entrevista-das, 12 já possuem a máquina (grupo π1) e as outras 12 ainda não a possuem (gru-po π2). As características investigadas foram x1: renda anual (income) e x2: tama-nho do lote de terra (lot_size) e os dados estão apresentados a seguir:
1
π : proprietários π2: não proprietários renda anual ($1000) lote de terra (pés2) renda anual ($1000) lote de terra (pés2) 60.0 18.4 75.0 19.6 85.5 16.8 52.8 20.8 64.8 21.6 64.8 17.2 61.5 20.8 43.2 20.4 87.0 23.6 84.0 17.6 110.1 19.2 49.2 17.6 108.0 17.6 59.4 16.0 82.8 22.4 66.0 18.4 69.0 20.0 47.4 16.4 93.0 20.8 33.0 18.8 51.0 22.0 51.0 14.0 81.0 20.0 63.0 14.8
Com base na Figura 11.1, notamos que os indivíduos que pertencem ao grupo de proprietários (π1) têm valores de renda e tamanho de lote de terra maiores que dos indivíduos do grupo de não proprietários (π2). Porém, existe uma região de coinci-dência entre os dois grupos. Usando um segmento tracejado como delimitador das duas regiões R1 e R2, existem dois indivíduos pertencentes a π1 que seriam classifica-dos (erroneamente) no grupo π2 e dois indivíduos de π2 que seriam classificados (erroneamente) no grupo π1.
Renda (milhares de dólares)
Lote de terra (pés ao quadrado)
10 15 20 25 20 40 60 80 100 120 Grupo: Proprietários Não proprietários R1 R2
Figura 11.1 Gráfico de dispersão de renda e tamanho do lote de terra
Uma boa regra de classificação deve resultar em poucos erros de classificação. Por isso a análise discriminante deve criar uma regra (função) para determinação de duas regiões R1 e R2, que minimize as chances de classificação incorreta.
Além dos valores das variáveis income e lot_size (do Exemplo 11.1), também deve ser levado em conta a chance (probabilidade) de classificação de um indivíduo em cada um dos grupos antes da observação de qualquer variável. Podemos, por exemplo, saber que a porcentagem de famílias que têm a máquina na cidade tende a ser menor do que a porcentagem de famílias que não a possuem. Uma regra de classi-ficação boa deve levar em conta essas probabilidades a priori (antes da observação de qualquer variável). Dessa maneira, iremos classificar uma família como potencial compradora (π1) da máquina se realmente suas características forem muito convin-centes, já que a probabilidade a priori dela vir a ser uma compradora é baixa.
Um outro aspecto relevante da classificação é o custo envolvido no processo. Por exemplo: No caso do diagnóstico da doença, classificar um indivíduo portador como não portador da doença pode ser muito mais sério que classificar um indivíduo não portador como portador da doença.
A probabilidade condicional de classificar um indivíduo como π2 quando, de fato, ele é de π1 é definida como
P(2 | 1) = P(X ∈ R2 | π1) =
∫
2 dx ) ( 1 R f x (11-1)onde f1(x) é a função densidade de probabilidade associada ao vetor aleatório X p x1 para a população π1 e R2 = Ω − R1 é a região dos valores para os quais nós classifica-mos os indivíduos como π2.
Similarmente, a probabilidade condicional de classificar um indivíduo como π1 quando, de fato, ele é de π2 é
P(1 | 2) = P(X ∈ R1 | π2) =
∫
1 dx ) ( 2 R f x (11-2)A integral em (11-1) representa o volume (quando p = 2) formado pela função densi-dade f1(x) sobre a região R2. Similarmente, a integral em (11-2) representa o volume formado por f2(x) sobre a região R1.
Seja p1 a probabilidade a priori de π1 e p2 a probabilidade a priori de π2, com p1 + p2 = 1. Então, as probabilidades de classificar indivíduos correta ou incor-retamente podem ser calculadas como o produto das probabilidades a priori e condi-cional:
Figura 11.3. Probabilidades de má classificação para regiões de classificação
hipotéticas quando p = 1
P(classificação correta como π1) = P(X ∈ R1 | π1) P(π1) = P(1 | 1) p1 P(classificação incorreta como π1) = P(X ∈ R1 | π2) P(π2) = P(1 | 2) p2 P(classificação correta como π2) = P(X ∈ R2 | π2) P(π2) = P(2 | 2) p2
Os custos de má classificação podem ser definidos por uma matriz de custos: Classificado como 1 π π2 1 π 0 c(2 | 1) População verdadeira 2 π c(1 | 2) 0
onde os custos são nulos para classificações corretas, c(1 | 2) quando uma observação de π2 é incorretamente classificada como π1 e c(2 | 1), quando uma observação de
1
π é incorretamente classificada como π2.
A média ou o custo médio de má classificação (ECM) é calculado multiplican-do-se os valores fora da diagonal pelas suas probabilidades de ocorrência, obtidas de (1103). Consequentemente temos:
ECM = c(2 | 1) P(2 | 1) p1 + c(1 | 2) P(1 | 2) p2 (11-5)
e uma regra de classificação razoável deverá ter um valor de ECM tão pequeno quan-to possível.
Resultado 11.1. As regiões R1 e R2 que minimizam a ECM são definidos pelos valores de x para os quais valem as seguintes desigualdades:
R1: ) ( ) ( 2 1 x x f f ≥ 1 2 ) 1 | 2 ( ) 2 | 1 ( p p c c R2: ) ( ) ( 2 1 x x f f < 1 2 ) 1 | 2 ( ) 2 | 1 ( p p c c (11-6)
CASOS ESPECIAIS DE REGIÕES QUE MINIMIZAM ECP
(a) p1 = p2 (probabilidades a priori iguais) R1: ) ( ) ( 2 1 x x f f ≥ ) 1 | 2 ( ) 2 | 1 ( c c e R2: ) ( ) ( 2 1 x x f f < ) 1 | 2 ( ) 2 | 1 ( c c
(b) c(1 | 2) = c(2 | 1) (custos iguais de má classificação)
R1: ) ( ) ( 2 1 x x f f ≥ 1 2 p p e R2: ) ( ) ( 1 2 x x f f < 1 2 p p (c) p2 p1 = 1 c(1|2) c(2|1) R1: ) ( ) ( 2 1 x x f f ≥ 1 e R2: ) ( ) ( 2 1 x x f f < 1
11.3. CLASSIFICAÇÃO COM DUAS POPULAÇÕES NORMAIS MULTI-VARIADAS
Os procedimentos de classificação baseados em populações normais predomi-nam na prática porque sua simplicidade e eficiência são razoavelmente altas entre uma grande variedade de modelos populacionais. Assumiremos que f1(x) e f2(x) são densidades normais multivariadas, a primeira com vetor de médias µµ1 e matriz de covariâncias ΣΣ1 e a segunda com vetor de médias µµ2 e matriz de covariâncias ΣΣ2.
CLASSIFICAÇÃO QUANDO ΣΣ1 = ΣΣ2 = ΣΣ
Supondo que a densidade conjunta de X' = [X1, ..., Xp] para π1 e π2 seja dada
por ) (x i f = 2 1 2 | | ) 2 ( 1 ΣΣ p π exp − ( − ) − ( − ) 2 1 µµ ΣΣ 1 µµ x ' x para i = 1, 2 (11-10)
Resultado 11.2. Sejam as populações π1 e π2 descritas por densidades normais multivariadas da forma (11-10). Então a regra de classificação que minimiza o ECM é como segue:
Classificar x0 em π1 se: 0 1 2 1 ) (µµ −µµ 'ΣΣ− x − 2 1 ) ( ) (µµ1 −µµ2 'ΣΣ−1 µµ1−µµ2 ≥ ln 1 2 ) 1 | 2 ( ) 2 | 1 ( p p c c (11-12) Classificar x0 em π2, caso contrário
(ver Prova na pág. 640)
Na prática, as quantidades populacionais µµ1, µµ2 e ΣΣ são desconhecidas e a re-gra (11-12) precisa ser modificada. Wald (1944) e Anderson (1984) sugeriram que os parâmetros populacionais sejam substituídos pelas suas estimativas.
Supondo que existam n1 observações das variáveis aleatórias X' = [X1, ..., Xp] para π1 e n2 medidas dessas variáveis para π2, com n1 + n2 = n. Então as matrizes de dados são: p) (n 1 1x X = t n 1 t 12 t 11 1 x x x e p) (n 2 2x X = t n 2 t 22 t 21 2 x x x (11-15)
Os vetores de médias e matrizes de covariâncias amostrais são determinados por: ) 1 (p 1 x x =
∑
= 1 1 j 1 1 1 n j n x (pxp) 1 S =∑
= − − − 1 n 1 j 1 j 1 j 1 ) )( ( 1 1 ' x x x x n ) 1 (p 2 x x =∑
= 1 1 j 2 2 1 n j n x (pxp) 1 S =∑
= − − − 2 n 1 j 2 j 2 j 2 ) )( ( 1 1 ' x x x x n (11-16)Como assumimos que as matrizes de variâncias populacionais ΣΣ1 = ΣΣ2 = ΣΣ, uma estimativa não viesada de ΣΣ é calculada por
c S = − + − − ) 1 ( ) 1 ( 1 2 1 1 n n n 1 S + − + − − ) 1 ( ) 1 ( 1 2 1 2 n n n 2 S (11-17) Substituindo em (11-12) os parâmetros pelas suas respectivas estimativas temos que:
Resultado 11.2. Classificar x0 em π1 se:
0 1 c 2 1 ) (x −x 'S− x − 2 1 ) ( ) (x1 −x2 'Sc−1 x1−x2 ≥ ln 1 2 ) 1 | 2 ( ) 2 | 1 ( p p c c (11-18) Classificar x0 em π2, caso contrário.
Se, em (11-18) 1 2 ) 1 | 2 ( ) 2 | 1 ( p p c c
= 1 ⇒ ln(1) = 0 e a regra do mínimo de ECM estimado para as duas populações normais consiste em comparar o escalar
yˆ = (x1 −x2)'Sc−1x = aˆ'x (11-19) avaliado em x0, com o número
mˆ = 2 1 ) ( ) (x1−x2 'Sc−1 x1−x2 = ( ) 2 1 2 1 y y + (11-20) onde 1 y = (x1 −x2)'Sc−1x1 = aˆ x' 1 e y2 = (x1 −x2)'Sc−1x2 = aˆ x' 2
ou seja, a regra do mínimo ECM estimado para duas populações normais é equiva-lente a criar duas populações univariadas para os valores y, tomando uma combina-ção linear apropriada das observações das populações π1 e π2 e então designar uma nova observação x0 a π1 ou π2, dependendo se ˆy0 = aˆ x' 0 fica à direita ou à esquer-da no ponto médio mˆ entre as duas médias amostrais y1 e y2.
Resumindo: se os dados têm distribuição aparentemente normal multivariada, a esta-tística de classificação para o lado esquerdo da desigualdade em (11-18) pode ser calculada para cada nova observação x0. Essas observações serão classificadas comparando-se os valores dessa estatística com o valor
ln 1 2 ) 1 | 2 ( ) 2 | 1 ( p p c c
Exemplo 11.3 (página 643) [ver também o Exercício 11.32]
Para construir um procedimento para detectar potenciais portadoras de hemo-filia A, foram analisadas amostras de sangue de dois grupos de mulheres e feitas ava-liações sobre as variáveis:
1
X = log10(atividade AHF) e X2 = log10(antígeno AHF)
onde AHF denota um fator anti-hemofílico. O primeiro grupo de 30 mulheres foi selecionado de uma população de mulheres que não carregam o gene da hemofilia - grupo normal. O segundo grupo de 22 mulheres foi selecionado dentre as portadores de hemofilia A - grupo portador. A partir dos dados apresentados nas páginas 721-723, construímos o gráfico de dispersão [Figura 11.4].
X1 X2 -0.6 -0.4 -0.2 0.0 0.2 0.4 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 Grupo Normal Portador
Figura 11.4. Gráfico de dispersão de [log10(atividade AHF),log10(antígeno AHF)] para os grupos normal e portador de hemofilia A
Dos dados temos que: 1 x = − − 0390 . 0 0065 . 0 , x2 = − − 0262 . 0 2483 . 0 Scombinada−1 = − − 147 . 108 423 . 90 423 . 90 158 . 131
e a função discriminante para custos iguais e probabilidades a priori também iguais fica: yˆ = (x1 −x2)'Sc−1x = aˆ'x=
[
37.61 −28.92]
2 1 x x = 37.61x1 − 28.92x2 Além disso 1 y = aˆ x' 1 =[
37.61 −28.92]
− − 0390 . 0 0065 . 0 = 0.88 2 y = aˆ x' 2 =[
37.61 −28.92]
− − 0262 . 0 2483 . 0 = −10.10e o ponto médio entre essas médias é mˆ = ( ) 2
1
2
1 y
y + = −4,61.
Uma mulher com x1 = -0.210 e x2 = -0.044 será classificada como normal ou por-tadora ? Usando (11-18) com custos iguais e priores iguais, a regra consiste em:
Classificar x0 em π1 se ˆy0 = aˆ x' 0 ≥−4.61 e em π2, se ˆy0 < −4.61 Como ˆy0 =
[
37.61 −28.92]
− − 044 . 0 210 . 0 = −6.62 < −4.61 classificamos a mulher em π2, ou seja, como portadora de hemofilia A (essa nova observação está indica-da com um sinal "+" na Figura 11.4.PROBLEMAS DE ESCALA
O vetor de coeficientes aˆ' = (x1 −x2)'Sc−1 é freqüentemente padronizado para facilitar a interpretação dos seus elementos. Dois dos métodos de normalização mais comuns são: ∗ aˆ = a ' a a ˆ ˆ ˆ (11-21) ou ∗ aˆ = 1 aˆ ˆa (11-22) tal que o primeiro elemento do novo vetor de coeficientes aˆ∗ é igual a 1.
CLASSIFICAÇÃO QUANDO ΣΣ1 ≠≠ ΣΣ2
As regras de classificação são mais complicadas quando as matrizes de cova-riâncias populacionais são diferentes. Nesse caso, por exemplo, as regiões de ECM mínimo e de mínima probabilidade total de má classificação (TPM) dependem da razão das densidades de probabilidade.
Resultado 11.3. Sejam as populações π1 e π2 descritas por densidades normais multivariadas com vetores de médias e matrizes de covariâncias µµ1, ΣΣ1 e µµ2, ΣΣ2, respectivamente. Então a regra de classificação que minimiza o ECM é dada por: Classificar x0 em π1 se: − 2 1
(
)
0 1 2 1 1 t 0 x x ΣΣ− −ΣΣ− +(
µµ1tΣΣ1−1 −µµ2t ΣΣ−21)
x0 - k ≥ ln 1 2 ) 1 | 2 ( ) 2 | 1 ( p p c c onde k = 2 1 ln 2 1 ΣΣ ΣΣ +(
1t 11 1 t2 21 2)
2 1 µµ ΣΣ µµ µµ ΣΣ µµ − − −Classificar x0 em π2, caso contrário
Vale salientar mais uma vez que, na prática, todos os parâmetros são substituídos por suas respectivas estimativas.
REGRA QUADRÁTICA DE CLASSIFICAÇÃO (POPULAÇÕES NORMAIS COM MATRIZES DE COVARIÂNCIAS DIFERENTES)
Classificar x0 em π1 se − 2 1
(
)
0 1 2 1 1 t 0 S S x x − − − +(
x1tS1−1 −x2tS−21)
x0 − k ≥ ln 1 2 ) 1 | 2 ( ) 2 | 1 ( p p c c (11-25) Classificar x0 em π2, caso contrário.Regras de classificação com funções quadráticas são especialmente inade-quados em mais de duas dimensões e pode levar a alguns resultados estranhos. Isto é particularmente verdadeiro quando os dados não têm (essencialmente) distribuição normal multivariada. [para maiores detalhes ver pág. 648-649]
11.4. AVALIAÇÃO DA FUNÇÃO DE CLASSIFICAÇÃO
A função discriminante linear de Fisher não depende da forma das populações, apenas que as matrizes de covariâncias sejam iguais. Entretanto, existem trabalhos que mostraram que a função não produziu uma boa classificação, mesmo quando os dados apresentaram homogeneidade de matrizes de covariâncias.
Uma forma criteriosa de avaliar a função de classificação obtida, consiste em separar os dados originais em uma amostra de treinamento e uma amostra de valida-ção. A primeira amostra é usada na obtenção da função de classificação e a segunda, para avaliar a performance da função.
Para julgar a performance de algum procedimento de classificação é calcular suas taxas de erro ou probabilidades de má classificação. Quando as formas das populações são completamente conhecidas, as probabilidades de má classificação podem ser calculadas com relativa facilidade [Exemplo 11.4].
Como as populações raramente são conhecidas, nos concentraremos nas taxas de erros associadas com a função de classificação amostral. Assim que a função de classificação é construída, pode ser interessante calcular uma medida de sua perfor-mance para amostras futuras.
MÉTODO DE OKAMOTO ( 1963)
Este método é dependente da suposição de normalidade das populações e for-nece as probabilidades aproximadas de má classificação.
SendoD =2 (x1−x2)'Sc−1(x1 −x2) a distância amostral de Mahalanobis e con-siderando as suposições anteriores, as probabilidades de má classificação para as du-as populações são iguais e estimaddu-as por Pˆ(2|1) = Pˆ (1 | 2) = Φ
− 2 D , onde Φ(z) =
∫
∞ − − π z 2 x 2 1 exp 2 1dx e Pˆ (i | j) é a estimativa da probabilidade de classificarmos erroneamente uma observação de πi em πj (i ≠ j).
MÉTODO DE SMITH (1947)
Este método não depende da suposição de normalidade das populações. Smith (1947) sugeriu que as observações usadas na construção da função discriminante sejam reusadas para a estimação de P(i | j). Deste modo, se a função discriminante D(x) é construída utilizando-se as n1 + n2 observações e se mi ≤ ni delas são má classificadas em πi, então temos que
Pˆ (j | i) = Pˆi = i i n m , para i = 1, 2.
Os cálculos envolvidos neste método são bastante fáceis, mas tende a subestimar as verdadeira taxas de erro e o problema é minimizado com tamanhos de amostras (n1 e
2
n ) grandes.
Johnson & Wichern definiram a taxa aparente de erro como a fração de observações na amostra de treinamento que foi má classificada pela função de clas-sificação amostral. Sejam niC o número de itens em πi classificados corretamente como πi, e niM o número de itens em πi mau classificados em πj (i ≠ j). Então a ta-xa aparente de erro é calculada por
APER = 2 1 M 2 M 1 n n n n + + (11-30) Ver Exemplo 11.7 (pág. 658)
11.5. FUNÇÃO DISCRIMINANTE DE FISHER
Fisher (1938) chegou à estatística de classificação linear (11-19) usando um argumento completamente diferente daquele utilizado na Seção 11.3. A idéia de Fisher foi transformar observações multivariadas x para observações univariadas y tais que os y's derivados das populações π1 e π2 fossem tão separados quanto possí-vel.
Resultado 11.4 A combinação linear yˆ = aˆ'x = (x1 −x2)'Sc−1x, chamada Função Discriminante Linear Amostral de Fisher, maximiza a razão entre o quadrado da distância entre as médias amostrais e a variância amostral de y, que é escrita como
2 2 2 1 s ) ( y y y − = a S ' a x a x a ˆ ˆ ) ˆ ˆ ( c 2 2 2 1 1 − = a S ' a d a ˆ ˆ ) ˆ ( c 2 (11-33) sobre todos os possíveis vetores de coeficientes aˆ onde d = (x1 −x2). O máximo da razão é D = 2 (x1−x2)'Sc−1(x1 −x2), chamada distância amostral de Mahalanobis. [Ver prova na página 662]
Exemplo 11.8: Baseado nos dados do Exemplo 11.3, a função discriminante linear
de Fisher para custos iguais e probabilidades a priori também iguais foi yˆ = aˆ'x = (x1 −x2)'Sc−1x = 37.61x1 − 28.92x2
2 D = (x1 −x2)'S−c1(x1−x2) =
[
0.2418 −0.0652]
− − 147 . 108 423 . 90 423 . 90 158 . 131 −0.0652 2418 . 0 = 10.98A solução de Fisher para o problema de separação em dois grupos também pode ser usada para classificar novas observações.
REGRA DE CLASSIFICAÇÃO BASEADA NA FUNÇÃO DISCRIMINANTE DE FISHER Classificar x0 em π1 se ˆy0 = (x1 −x2)'Sc−1x0 ≥ mˆ = 2 1 ) ( ) (x1−x2 'S−c1 x1−x2 ou se ˆy0 − mˆ ≥ 0 (11-35) Classificar x0 em π2 se ˆy0 < mˆ ou se ˆy0 − mˆ < 0
O procedimento descrito em (11-33) é ilustrado, esquematicamente, para p = 2 na Figura 11.8 da página 664. Todos os pontos no gráfico de dispersão são projetados sobre uma linha na direção aˆ e essa direção varia até que a separação entre as amos-tras seja maximizada.
A função discriminante linear de Fisher foi desenvolvida sob a suposição que as duas populações, qualquer de sejam suas formas, tenham matriz de covariâncias comuns. Na regra de classificação (11-18), o termo, yˆ = aˆ'x = (x1 −x2)'Sc−1x, é a função linear de Fisher que maximiza a variabilidade univariada entre amostras rela-tiva à variabilidade dentro de amostras. A expressão completa
wˆ = (x1 −x2)'S−c1x − 2 1 ) ( ) (x1 −x2 'Sc−1 x1−x2 = (x1 −x2)'Sc−1 − ( − ) 2 1 2 1 x x x (11-36) é freqüentemente chamada (estatística) função de discriminação de Anderson.
Desde que as duas populações normais tenham a mesma matriz de covariânci-as, a regra de classificação de Fisher é equivalente à regra do ECM mínimo, com iguais probabilidades a priori e iguais custos de má classificação.
A distância D pode ser usada, em certas situações, para testar se as médias 2 populacionais µµ1 e µµ2 diferem significativamente. Suponha que as populações π1 e
2
π tenham distribuição normal com matriz de covariâncias comuns, ΣΣ. Então, para testar H0: µµ1 = µµ2 versus H1: µµ1 ≠ µµ2, utilizamos a estatística
− + − − + p n n p n n ) 2 ( 1 2 1 2 1 + 2 1 2 1 n n n n 2 D
que sob H0 tem distribuição F com ν1 = p e ν2 = (n1+n2 − p−1) graus de
liberda-de. Se H0 for rejeitada, podemos concluir que a separação entre as duas populações
1
π e π2 é significativa.
É importante observar que:
• uma separação significativa [µµ1 ≠ µµ2] não implica necessariamente em uma boa regra de classificação;
• a eficiência de um procedimento de classificação pode ser avaliada independente-mente de qualquer teste de separação;
• se, por outro lado, a separação não é significativa, a busca por uma conveniente regra de classificação será estéril.
11.6. CLASSIFICAÇÃO ENTRE DIVERSAS POPULAÇÕES
Teoricamente, o problema atual é uma generalização direta do procedimento de classificação de g = 2 para g > 2 populações. Entretanto, pouco se sabe sobre as pro-priedades das correspondentes funções amostrais de classificação, e em particular, suas taxas de erros tem sido completamente investigada.
Como no caso anterior, nossa abordagem pretende desenvolver regras teorica-mente ótimas e então indicar as modificações necessárias para fazermos aplicações interessantes. Para cada uma das g populações, indicadas como π1, π2, ..., πg, preci-saremos assumir uma distribuição e, contando com a experiência dos pesquisadores, estabelecer probabilidades a priori e custos de má classificação.
O MÉTODO DO MÍNIMO CUSTO ESPERADO DE MA CLASSIFICAÇÃO
Seja fi(x) a densidade associada à população πi, i = 1, 2, .., g [Geralmente assumiremos uma densidade normal multivariada mas, no momento, isso é desneces-sário para o desenvolvimento da teoria geral].
Seja pi = probabilidade a priori da população πi, i = 1, 2, .., g ; c(k | i) = custo de classificar um item de πi em πk , k, i = 1, 2, .., g [se k = i, c(i | i) = 0]; Rk = re-gião onde os x's são classificados como πk , e P((k | i) = P(classificar um item como
k
π | πi) =
∫
k
R fi(x)dx, para k, i = 1, 2, .., g com P(i | i) = 1 −
∑
≠ = g k i k P 1 ) | (
Seja ECM(1) o custo esperado de má classificação de um item x de π1, ou π2, ... , ou πg é definido como ECM(1) = P(2 | 1)c(2 | 1) + P(3 | 1)c(3 | 1) + ... + P(g | 1)c(g | 1) =
∑
= g k k c k P 2 ) 1 | ( ) 1 | (que ocorre com probabilidade a priori p1. De modo análogo obtemos ECM(2), ..., ECM(g). Daí, o ECM geral é dado por
ECM = p1ECM(1) + p2ECM(2) + ... + p ECM(g) g = p1
∑
= g k k c k P 2 ) 1 | ( ) 1 | ( + ... + pg∑
− = 1 1 ) | ( ) | ( g k g k c g k P =∑ ∑
= ≠ = g i g i k k g k c g k P 1 1 ) | ( ) | ( (11-37)Determinar um procedimento de classificação ótimo consiste em escolher as regiões de classificaçãoR1, ..., R , mutuamente exclusivas e exaustivas, que minimi-g zam a expressão (11-37).
Resultado 11.5. As regiões de classificação que minimizam o ECM (11-37) são
definidas para classificar um item x à população πk, k = 1, 2, ..., g, para as quais
∑
≠ = g k i i i i f k|i) p 1 c( ) (x (11-38)assume um valor mínimo. Se ocorrer um empate, x pode ser classificado em qualquer uma das populações envolvidas no empate.
Supondo que os custos de má classificação são iguais (a 1, sem perda de generaliza-ção), usando o argumento (11-38), nós classificaremos o item x na população πk, para k = 1, ..., g, se
∑
≠ = g k i i i i f p 1 ) (x (11-38)REGRA DE CLASSIFICAÇÃO DO MÍNIMO ECM COM CUSTOS DE MÁ CLASSIFICAÇÃO IGUAIS
Classificar x em πk se pk fk(x) > pi fi(x), para todo i ≠ k (11-40) ou, equivalentemente,
Classificar x em πk se ln [pk fk(x)] > ln [pi fi(x)], para todo i ≠ k (11-41)
• Vale notar que a regra de classificação (11-40) é idêntica a maximizar a probabili-dade a posteriori P(πk | x) = P(x vir de πk dado que x foi observado).
• A regra do mínimo ECM tem três componentes: a probabilidade a priori, os custos de má classificação e as funções de densidade. Esses componentes devem ser espe-cificados, conhecidos ou estimados. No caso de serem estimados, a qualidade do procedimento resultante dependerá da qualidade dos estimadores empregados. Ver Exemplo 11.9 nas páginas 668-669.
CLASSIFICAÇÃO COM POPULAÇÕES NORMAIS
Um importante caso especial ocorre quando as densidades para cada uma das g populações são normais multivariadas com vetores de médias µµi e matriz de covari-âncias ΣΣi. Se além disso, c(i | i ) = 0, c(k | i) = 1, k ≠ i (ou, equivalentemente, todos os custos de má classificação são iguais), então
Classificamos x em πk se ln [pk fk(x)] = ln(pk) − ln(2 ) 2 π p − ln ΣΣk 2 1 − ( ) ( ) 2 1 1 k k k ΣΣ µµ µµ − − ' − x x = max[ln( i i(x)] i f p (11-44) A constante (p/2)ln(2π) pode ser ignorada em (11-44), desde que é o mesmo para todas as populações.
Definiremos o escore discriminante quadrático para a população πi, i = 1, ..., g, como ) ( Q x i d = − ln ΣΣi 2 1 − ( ) ( ) 2 1 1 i i i ΣΣ µµ µµ − − ' − x x + ln(pi) (11-45) que é composto da contribuição da variância generalizada ΣΣ , probabilidade a priori i
i
REGRA DO MÍNIMO DO TOTAL DA PROBABILIDADE DE MÁ CLASSIFICAÇÃO (TPM) PARA POPULAÇÕES NORMAIS -
COM MATRIZES DE COVARIÂNCIAS DIFERENTES Classificar x em πk se o escore quadrático
) ( Q x k d = max
(
d1Q(x),d2Q(x),L ,dgQ(x))
(11-46) onde diQ(x) é como definido em (11-45)Como, na prática, µµi e ΣΣi são desconhecidos, utilizamos como suas estimati-vas o vetor de médias amostrais, xi, e a matriz de covariâncias amostrais, Si. A esti-mativa do escore discriminante quadrático fica
) ( ˆQ x i d = − lnSi 2 1 − ( ) ( ) 2 1 1 i i i 'S x x x x− − − + ln(pi) (11-47) para i = 1, 2, ..., g. E a regra de classificação baseada na amostra é a seguinte:
REGRA DO MÍNIMO (TPM) ESTIMADO PARA DIVERSAS POPULAÇÕES NORMAIS − COM ΣΣi DIFERENTES Classificar x em πk se o escore quadrático
) ( ˆQ x k d = max
(
dˆ1Q(x),dˆ2Q(x),L ,dˆgQ(x))
(11-48) onde dˆiQ(x) é como definido em (11-47)Uma simplificação é possível se as matrizes de covariâncias ΣΣi forem iguais. Quando ΣΣi = ΣΣ, para i = 1, 2, ..., g, o escore discriminante em (11-45) passa a ser
) ( Q x i d = − ln ΣΣ 2 1 − ΣΣ µµ ΣΣ µµ ΣΣ µµi 1 t i 1 t i 1 2 1 2 1 − − − − + x x x' + ln(pi)
Como os dois primeiros termos dessa expressão são os mesmos para d1Q(x), ..., )
(
Q
x g
d , eles podem ser ignorados nos cálculos. Os termos restantes consistem de uma constante ci = ln(pi) µµitΣΣ 1µµi
2
1 −
− e de uma combinação linear dos componentes de x. Definimos então, o escore discriminante linear
) (x i d = µµitΣΣ 1 µµitΣΣ 1µµi 2 1 − − x− + ln( i p ) (11-49) para i = 1, 2, ..., g.
Uma estimativa dˆ xi( ) do escore discriminante linear di(x) é baseado na esti-mativa ponderada (ou combinada) de ΣΣ, que é dada por
c S = i 1 1 ) 1 ( 1 S
∑
∑
= = − − g i i g i i n g n (11-50) e é dada por ) ( ˆ xi d = xit Sc1x xit Sc1 xi 2 1 − − − + ln( i p ) (11-51) Consequentemente temos queREGRA DO MÍNIMO TPM ESTIMADO PARA POPULAÇÕES NORMAIS COM MATRIZES DE COVARIÂNCIAS IGUAIS
Classificar x em πk se o escore discriminante linear )
( ˆ xi
d = max
(
dˆ1(x),dˆ2(x),L,dˆg(x))
(11-52) onde dˆ xi( ) é como definido em (11-51)• Quando ΣΣi = ΣΣ, o termo constante ln( ) 2 1
ΣΣ
− em (11-45) pode ser ignorado e uma regra de classificação equivalente pode ser obtida. O resultado, com as estimativas amostrais substituindo as quantidades populacionais desconhecidas, pode ser inter-pretado em termos dos quadrados das distâncias
) ( 2 x i D = (x−xi)'S−c1(x−xi) (11-53) de x ao vetor de médias amostrais xi. E a "nova" regra de classificação consiste em
Classificar x na população πk para a qual ( ) 2 1 2 x i D − + ln(pi) é um máximo (11-54)
• Se as probabilidades a priori são desconhecidas, o procedimento usual é assumir que p1 = p2 = ... = p = g 1 . g
Exemplo 11.10.
Calcular os escores discriminantes lineares baseados nos dados de g = 3 populações, assumindo que têm distribuição normal bivariada e matrizes de covariâncias iguais. As amostras aleatórias das populações π1, π2 e π3 são
1 X = − − 1 1 3 0 5 2 , X2 = 2 1 4 2 6 0 e X3 = − − − 4 1 0 0 2 1
respectivamente. Dado que p1 = p2 = 0.25 e p3 = 0.50, classificar a nova observa-ção x0t = [ −2 −1] utilizando (11-52).
Utilizando os seguintes comandos do PROC IML options nocenter ps=1000; proc iml; * reset print; reset fuzz; X1 = {-2 5, 0 3, -1 1}; n1 = nrow(X1); p = ncol(X1); g = 3; X1b =(1/n1)*t(X1)*J(n1,1); S1 = t(X1)*(I(n1)-J(n1,n1)/n1)*X1/(n1-1); X2 = { 0 6, 2 4, 1 2}; n2 = nrow(X2); X2b =(1/n2)*t(X2)*J(n2,1); S2 = t(X2)*(I(n2)-J(n2,n2)/n2)*X2/(n2-1); X3 = { 1 -2, 0 0, -1 -4}; n3 = nrow(X3); X3b =(1/n3)*t(X3)*J(n3,1); S3 = t(X3)*(I(n3)-J(n3,n3)/n3)*X3/(n3-1); Sc = ((n1-1)*S1 + (n2-1)*S2 + (n3-1)*S3)/(n1+n2+n3-g); print X1 n1 X1b S1; print X2 n2 X2b S2; print X3 n3 X3b S3; print Sc; X0 = {-2, -1}; p1 = 0.25; p2 = 0.25; p3 = 0.50; print X0 p1 p2 p3;
d1_X0 = log(p1) + t(X1b)*inv(Sc)*X0 - t(X1b)*inv(Sc)*X1b/2; d2_X0 = log(p2) + t(X2b)*inv(Sc)*X0 - t(X2b)*inv(Sc)*X2b/2; d3_X0 = log(p3) + t(X3b)*inv(Sc)*X0 - t(X3b)*inv(Sc)*X3b/2;
print d1_X0 d2_x0 d3_X0;
obtemos: D1_X0 = −1.943437, D2_X0 = −8.157723 e D3_X0 = −0.35029. E desde que D3_X0 = −0.35029 é o maior escore discriminante, nós classificaremos x0 na população π3.
Exemplo 11.11 (página 674)
Classificar potenciais estudantes de uma escola, com base em uma pontuação média (GPA) e nos resultados de um teste de aptidão (GMAT). Os dados estão apresentados na Tabela 11.6 (pág. 718).
data Ex11_11;
input GPA GMAT Grupo $;
if Grupo=1 then Grupo='Admit';
else if Grupo=2 then Grupo='NotAdmit'; else Grupo='Border'; cards; 2.96 596 1 3.14 473 1 3.22 482 1 3.29 527 1 3.69 505 1 ... 2.85 483 3 3.01 453 3 3.03 414 3 3.04 446 3 ;
proc discrim data=Ex11_11 method=normal pool=yes manova wcov pcov listerr crosslisterr;
priors equal; class grupo; var GPA GMAT; run;
Resultando em:
DISCRIMINANT ANALYSIS
85 Observations 84 DF Total
2 Variables 82 DF Within Classes 3 Classes 2 DF Between Classes
Class Level Information
Prior GRUPO Frequency Weight Proportion Probability Admit 31 31.0000 0.364706 0.333333 Border 26 26.0000 0.305882 0.333333 NotAdmit 28 28.0000 0.329412 0.333333
• apresenta uma descrição dos grupos, tamanhos das amostras e as probabilidades a priori
DISCRIMINANT ANALYSIS WITHIN-CLASS COVARIANCE MATRICES
GRUPO = Admit DF = 30
Variable GPA GMAT GPA 0.043558 0.058097 GMAT 0.058097 4618.247312 --- GRUPO = Border DF = 25
Variable GPA GMAT GPA 0.029692 -5.403846 GMAT -5.403846 2246.904615 --- GRUPO = NotAdmit DF = 27
Variable GPA GMAT GPA 0.033649 -1.192037
continuação...
Pooled Within-Class Covariance Matrix DF = 82 Variable GPA GMAT GPA 0.036068 -2.018759 GMAT -2.018759 3655.901121
• apresenta estimativas das matrizes de covariâncias de cada grupo e da matriz de covariâncias comum (ou combinada)
DISCRIMINANT ANALYSIS POOLED COVARIANCE MATRIX INFORMATION
Covariance Natural Log of the Determinant Matrix Rank of the Covariance Matrix 2 4.85035289
Discriminant Analysis Pairwise Generalized Squared Distances Between Groups
2 _ _ -1 _ _ D (i|j) = (X - X )' COV (X - X ) i j i j
Generalized Squared Distance to GRUPO From
GRUPO Admit Border NotAdmit Admit 0 10.06344 31.28880 Border 10.06344 0 7.43364 NotAdmit 31.28880 7.43364 0
• apresenta os quadrados das distâncias entre os diversos grupos, sendo que a maior distância ocorre entre os grupos Admit e NotAdmit.
MULTIVARIATE STATISTICS AND F APPROXIMATIONS
S=2 M=-0.5 N=39.5
Statistic Value F Num DF Den DF Pr > F Wilks' Lambda 0.12637661 73.4257 4 162 0.0001 Pillai's Trace 1.00963002 41.7973 4 164 0.0001 Hotelling-Lawley Trace 5.83665601 116.7331 4 160 0.0001 Roy's Greatest Root 5.64604452 231.4878 2 82 0.0001
NOTE: F Statistic for Roy's Greatest Root is an upper bound. NOTE: F Statistic for Wilks' Lambda is exact.
• apresenta os resultados do teste (MANOVA) da hipótese de que as médias dos grupos são iguais, que é rejeitada, indicando que os grupos estão "bem separados".
DISCRIMINANT ANALYSIS LINEAR DISCRIMINANT FUNCTION _ -1 _ -1 _ Constant = -.5 X' COV X Coefficient Vector = COV X j j j
GRUPO
Admit Border NotAdmit CONSTANT -240.37168 -177.31575 -133.89892 GPA 106.24991 92.66953 78.08637 GMAT 0.21218 0.17323 0.16541
• apresenta as estimativas dos coeficientes das três funções discriminantes. Basea-do nessas funções, calcularemos os escores discriminantes para classificar novas observações:
Admit: dˆ1(x) = −240.37168 + 106.24991GPA + 0.21218GMAT Not Admit: dˆ2(x) = −177.31575 + 92.66953GPA + 0.17323GMAT Border: dˆ3(x) = −133.89892 + 78.08637GPA + 0.16541GMAT
RESUBSTITUTION RESULTS USING LINEAR DISCRIMINANT FUNCTION
Generalized Squared Distance Function: Posterior Probability of Membership in each GRUPO: 2 _ -1 _ 2 2 D (X) = (X-X )' COV (X-X ) Pr(j|X) = exp(-.5 D (X)) / SUM exp(-.5 D (X)) j j j j k k Posterior Probability of Membership in GRUPO: Obs From Classified
GRUPO into GRUPO Admit Border NotAdmit 2 Admit Border * 0.1202 0.8778 0.0020 3 Admit Border * 0.3654 0.6342 0.0004 24 Admit Border * 0.4766 0.5234 0.0000 31 Admit Border * 0.2964 0.7032 0.0004 58 NotAdmit Border * 0.0001 0.7550 0.2450 59 NotAdmit Border * 0.0001 0.8673 0.1326 66 Border Admit * 0.5336 0.4664 0.0000 * Misclassified observation
RESUBSTITUTION SUMMARY USING LINEAR DISCRIMINANT FUNCTION
Generalized Squared Distance Function: Posterior Probability of Membership in each GRUPO: 2 _ -1 _ 2 2 D (X) = (X-X )' COV (X-X ) Pr(j|X) = exp(-.5 D (X)) / SUM exp(-.5 D (X)) j j j j k k
Number of Observations and Percent Classified into GRUPO:
From GRUPO Admit Border NotAdmit Total
Admit 27 4 0 31 87.10 12.90 0.00 100.00 Border 1 25 0 26 3.85 96.15 0.00 100.00 NotAdmit 0 2 26 28 0.00 7.14 92.86 100.00 Total 28 31 26 85 Percent 32.94 36.47 30.59 100.00 Priors 0.3333 0.3333 0.3333
Error Count Estimates for GRUPO:
Admit Border NotAdmit Total Rate 0.1290 0.0385 0.0714 0.0796 Priors 0.3333 0.3333 0.3333
• apresenta os resultados da reclassificação das observações utilizando as funções lineares discriminantes e as probabilidades a posteriori de classificação errônea.
• apresenta ainda o número e a porcentagem de observações classificadas erronea-mente em cada um dos grupos, utilizando as funções lineares discriminantes
CROSS-VALIDATION RESULTS USING LINEAR DISCRIMINANT FUNCTION
Generalized Squared Distance Function: Posterior Probability of Membership in each GRUPO: 2 _ -1 _ 2 2 D (X) = (X-X )' COV (X-X ) Pr(j|X) = exp(-.5 D (X)) / SUM exp(-.5 D (X)) j (X)j (X) (X)j j k k
Posterior Probability of Membership in GRUPO: Obs From Classified
GRUPO into GRUPO Admit Border NotAdmit 1 Admit Border * 0.4872 0.5074 0.0054 2 Admit Border * 0.0933 0.9049 0.0017 3 Admit Border * 0.3348 0.6648 0.0004 24 Admit Border * 0.3975 0.6024 0.0000 31 Admit Border * 0.2594 0.7402 0.0004 58 NotAdmit Border * 0.0001 0.8029 0.1971 59 NotAdmit Border * 0.0002 0.9047 0.0952 66 Border Admit * 0.6861 0.3139 0.0000 75 Border NotAdmit * 0.0002 0.4909 0.5089 * Misclassified observation
CROSS-VALIDATION SUMMARY USING LINEAR DISCRIMINANT FUNCTION
Generalized Squared Distance Function: Posterior Probability of Membership in each GRUPO: 2 _ -1 _ 2 2 D (X) = (X-X )' COV (X-X ) Pr(j|X) = exp(-.5 D (X)) / SUM exp(-.5 D (X)) j (X)j (X) (X)j j k k
Number of Observations and Percent Classified into GRUPO:
From GRUPO Admit Border NotAdmit Total Admit 26 5 0 31 83.87 16.13 0a.00 100.00 Border 1 24 1 26 3.85 92.31 3.85 100.00 NotAdmit 0 2 26 28 0.00 7.14 92.86 100.00 Total 27 31 27 85 Percent 31.76 36.47 31.76 100.00 Priors 0.3333 0.3333 0.3333
Error Count Estimates for GRUPO:
Admit Border NotAdmit Total Rate 0.1613 0.0769 0.0714 0.1032 Priors 0.3333 0.3333 0.3333
• apresenta as probabilidades a posteriori, as classes nas quais cada observação é classificada utilizando a validação cruzada e o número de observações e a porcen-tagem classificada em cada grupo.
OBSERVAÇÕES:
• A aplicação das regras de classificação utilizando funções lineares 52) ou (11-56) depende da verificação da normalidade multivariada das populações e da igual-dade das matrizes de covariâncias.
• Se uma ou ambas as suposições forem violadas, devemos buscar, primeiramente, alguma transformação de dados'.
• As regras de classificação utilizando funções quadráticas são apropriadas se a su-posição de normalidade está satisfeita, mas a susu-posição de igualdade de matrizes de covariâncias está seriamente violada.
• A suposição de normalidade dos dados é mais crítica para as regras de classifica-ção quadráticas do que para as lineares.
MÉTODO DE FISHER PARA DISCRIMINAÇÃO ENTRE DIVERSAS POPULAÇÕES
A análise discriminante de Fisher é motivada pela necessidade de obter uma razoável representação das populações envolvendo somente algumas combinações li-neares das observações, tais como a1tx, a2tx e a3tx.
Essa abordagem tem diversas vantagens quando se está interessado em separar diversas populações por (i) inspeção visual ou (ii) propósitos descritivos gráficos. Ela permite
1. uma representação conveniente das g populações que reduzem a dimensão de um grande número de características para algumas poucas combinações lineares, o que pode envolver a perda de alguma informação
2. um gráfico das médias das duas ou três combinações lineares (discriminantes), que pode auxiliar a entender o relacionamento e os possíveis agrupamentos das popula-ções.
3. gráficos de dispersão dos valores amostrais dos dois primeiros discriminantes, que podem indicar valores aberrantes (outliers) ou alguma outra anormalidade nos dados.
O primeiro propósito da análise discriminante de Fisher é separar populações, mas ela também pode ser usada para classificar indivíduos. Não é necessário assumir que as g populações sejam normais multivariadas, mas é interessante assumir que as matrizes de covariâncias populacionais sejam iguais e de posto completo.
Seja B a matriz de somas de produtos cruzados entre grupos, tal que µ
µ B =
∑
= − − g 1 i ) )( (µµi µµ µµi µµ ', onde µµ =∑
= g i i g 1 1 µµ (11-58)Consideremos as combinações lineares Y = a' X, com E(Y) = a'E(X |ði) = a'µµi=
Y
i
µ para a população ði e Var(Y) = a' ΣΣ a, para todas as populações. Consequen-temente, o valor esperado µiY = a'µµi muda quando a população da qual X é
selecio-nada também muda. A média geral é definida como
Y µ =
∑
= µ g i iY g 1 1 = a'µµe a razão entre a "soma dos quadrados das distâncias das populações para a média geral de Y" e a "variância de Y" é
(
)
2 Y 1 2 Y Y σ µ − µ∑
= g i i = a a' a' a' ΣΣ µµ µµ∑
= − g i i 1 2 ) ( = a a' a B a' ΣΣ µ µ (11-59) que mede a variabilidade entre os grupos dos valores Y relativa a variabilidade co-mum dentro dos grupos.Deveremos selecionar a combinação a que maximiza essa razão. Ordinaria-mente, ΣΣ e µµi não são disponíveis e buscaremos estimar essas quantidades utilizando amostras de treinamento, consistindo de observações corretamente classificadas. Daí, temos os vetores de médias amostrais
i x =
∑
= i n j i n 1 ij 1 xe as correspondentes matrizes de covariâncias amostrais Si, para i =1, 2, ..., g. O vetor de médias gerais é calculado como
x =
∑
∑
= = g i i g i i n n 1 1 i x =∑
∑∑
= = = g i i g i n j n i 1 1 1 ij xque é um vetor (p x 1) de médias calculadas sobre todas as observações das amostras de treinamento. Definimos ainda a matriz de produtos cruzados amostrais entre gru-pos, B, que inclui os tamanhos amostrais, como
B =
∑
= − − g 1 i ) )( (xi x xi x ' i n (11-60) e a matriz de produtos cruzados amostrais dentro dos gruposW = i 1 ) 1 ( S
∑
= − g i i n =∑ ∑
= = − − g i n j i 1 1 ij ij )( ) (x x x x ' (11-61)Vale salientar que W =
(
n1 +n2 +...+ng −g)
Sc, de tal modo que aˆ que maximizaaˆ'Baˆ/aˆ'Sc também maximiza aˆ'Baˆ/aˆ'Waˆ. Ou ainda, podemos otimizar aˆ como autovetores ˆei de W−1B.
DISCRIMINANTES LINEARES AMOSTRAIS DE FISHER
Sejam λˆ1, ..., λˆs > 0 os s ≤ min(g−1, p) autovalores de W−1B e ˆe1, ..., eˆsos au-tovetores correspondentes (padronizados tal que eˆ'Sceˆ = 1). Então o vetor de coe-ficientes aˆ que maximiza a razão
a W ' a a B ' a ˆ ˆ ˆ ˆ = a ' x x x x ' a a ' x x x x ' a g 1 i ˆ ) )( ( ˆ ˆ ) )( ( ˆ 1 1 ij ij − − − −
∑∑
∑
= = = g i n j i i i i n (11-62)é dado por ˆa1 = ˆe1. A combinação linear ˆa1x é chamado primeiro discriminante
amostral. A escolha ˆa2 = ˆe2, produz o segundo discriminante amostral, ˆa2x e,
continuando, obtemos o k-ésimo discriminante amostral, aˆk x = eˆk x , k ≤ s.
• Idealmente, os coeficientes padronizados das funções discriminantes deverão ser examinados para avaliar a importância de uma variável na presença das outras va-riáveis.
Ver Exemplos 11.14 (página 687) e 11.15 (página 689)
Exemplo 11.13 (página 686).
Consideremos as observações das p = 2 variáveis de g = 3 populações já apresentadas no Exemplo 11.10. Assumindo que as populações têm uma matriz de covariâncias comum ΣΣ, vamos obter os discriminantes de Fisher. Os dados são:
1 X = − − 1 1 3 0 5 2 , X2 = 2 1 4 2 6 0 e X3 = − − − 4 1 0 0 2 1 Do Exemplo 11.10 temos: x1= − 3 1 , x2 = 4 1 , x3 = −2 0 , então x = 3 5 0 , B = 62 3 3 6 , W = 6 2 2 24 140 1 ⇒ ⇒ W−1B = 7 . 2 21429 . 0 4 . 1 07143 . 1
1 ˆ λ = 2.8671 ⇒ ˆa1t = [0.386 0.495] 2 ˆ λ = 1.07143 ⇒ ˆa2t = [0.938 -0.112] E os dois discriminantes de Fisher são
1
yˆ = ˆa1tx = 0.386x1 + 0.495x2
2
yˆ = ˆa2tx = 0.938x1 − 0.112x2
USANDO OS DISCRIMINANTES DE FISHER PARA CLASSIFICAR OB-JETOS
Os discriminantes de Fisher foram derivados para o propósito de obter uma re-presentação dos dados numa dimensão menor que p, que separe as populações tanto quanto possível. Entretanto, eles podem ser usados como base para uma regra de clas-sificação. Tomando k Y = atkX, o k-ésimo discriminante, k ≤ s (11-64) concluímos que Y = s Y Y Y M 2 1
tem vetor de médias µµiY =
µ µ µ s 2 1 Y Y Y i i i M = i s i i µµ µµ µµ t t 2 t 1 a a a M
na população ði e matriz de covariâncias I , para todas as populações. A medida apropriada do quadrado da distância de Y = y até µµiY é
(y − µµiY)' (y − µµiY) = Y 2 1 ) ì ( j i s j j y
∑
= −e uma regra de classificação razoável consiste em alocar y na população ðk se o qua-drado da distância de y a µµkY é menor que o quadrado da distância de y a µµiY, para i ≠ j. Se somente r dos discriminantes forem usados na alocação, a regra é
2 Y r 1 ) ì ( j k j j y
∑
= − =∑
= − r 1 2 t j( )] [ j k µµ x a ≤∑
= − r 1 2 t j( )] [ j i µµ x a , para todo i ≠ k (11-65)Resultado 11.6. Seja y = j a x, onde tj a =j ΣΣ−12ej e e é um autovalor de j 2 1 2 1 − − ΣΣ ΣΣ B . Então 2 Y 1 ) ì ( j i p j j y
∑
= − =∑
= − r 1 2 t j( )] [ j i µµ x a = (x − µµi)'ΣΣ (x −1 − µµi) = −2di(x) + x'ΣΣ x + 2ln(−1 pi) Se λ1≥ λ2≥ ... ≥ λs > 0 = λs+1= ... = λp, Y 2 1 ) ì ( j i p s j j y∑
+ = −é constante para todas as populações i = 1 , 2, ..., g, de modo que somente os s discriminantes y , ou j
2 Y r 1 ) ì ( j k j j y
∑
= −, contribuem para a classificação. [ver prova na pág. 693]
PROCEDIMENTO DE CLASSIFICAÇÃO DE FISHER BASEADO EM DISCRIMINANTES AMOSTRAIS Classificar x em πk se 2 kj r 1 j j ) y yˆ (
∑
= − =∑
= − r 1 2 t j( )] ˆ [ j k x x a ≤∑
= − r 1 2 t j( )] ˆ [ j i x x a para todo i ≠ k (11-67) onde ˆa é definido em (11-62), j y = k j ˆaj xk e r ≤ s.Exemplo 11.16 (página 695). Sejam os seguintes discriminantes de Fisher do
Exem-plo 11.13:
1
yˆ = ˆa1tx = 0.386x1 + 0.495x2 e yˆ2 = ˆa2tx = 0.938x1 − 0.112x2
Vamos classificar a nova observação x0t = [1 3] utilizando o resultado (11-67). Primeiramente, vamos calcular o valor dos discriminantes no ponto x0t :
1
yˆ = ˆa1t x0t = 1.87 e yˆ2 = ˆa2t x0t = 0.60 Além disso, 11 y = ˆa1t x1 = 1.10, y12 = ˆa2t x1 = −1.27, 21 y = ˆa1t x2 = 2.37, y22 = ˆa2t x2 = 0.49, 31 y = ˆa1t x3 = −0.99, y32 = ˆa2t x3 = 0.22
Finalmente, o menor valor de kj 2 2 1 j j ) y yˆ (
∑
= − =∑
= − 2 1 j 2 k t j( )] ˆ [a x x , para k = 1, 2, 3 pode ser identificado. Temos então que(k = 1): 1j 2 2 1 j j y ) yˆ (
∑
= − = [(1.87 − 1.10) 2 + (0.60 + 1.27)2 ] = 4.09 (k = 2): 2j 2 2 1 j j ) y yˆ (∑
= − = [(1.87 − 2.37) 2 + (0.60 − 0.49)2] = 0.26 (k = 3): 3j 2 2 1 j j ) y yˆ (∑
= − = [(1.87 + 0.99) 2 + (0.60 − 0.22)2] = 8.32 Como o mínimo de kj 2 2 1 j j ) y yˆ (∑
= − ocorre quando k = 2, classificaremos
t 0
x = [1 3] na população π2.
COMENTÁRIOS FINAIS
• Uma abordagem para classificação completamente diferente dos métodos apresen-tados nesta aula é chamada CART (Classification and Regression Trees). É uma abordagem bastante atual, envolve cálculos intensivos e está relacionada a técnicas de agrupamento (clustering).
• Seleção de variáveis. Em diversas aplicações da análise discriminante, estão
dis-poníveis dados de um grande número de variáveis. Neste caso, é desejável sele-cionar um subgrupo relativamente pequeno dessas variáveis que contenha quase toda a informação do conjunto original. Este é o objetivo da stepwise discriminant analisys.