Ralph S. Silva

(1)

Ralph S. Silva

http://www.im.ufrj.br/ralph/multivariada.html

Departamento de M ´etodos Estat´ısticos

Instituto de Matem ´atica

Universidade Federal do Rio de Janeiro

(2)

Sum ´ario

(3)

T écnicas multivariadas que dizem respeito à “separaç ão” de conjuntos distintos de objetos (ou observaç ões) e à alocaç ão de novos objetos (observaç ões) a grupos previamente definidos.

Podemos enumerar os principais objetivos aqui como:

Discriminaç ão: Descrever grafica e algebricamente os aspectos que diferenciam os grupos de objetos (observaç ões). Determinar “discriminantes” entre grupos.

Classificaç ão: Alocar objetos em classes previamente definidas. A ênfase aqui est á na construç ão de uma regra que pode ser usada para designar de forma ótima um novo objeto às classes existentes.

(4)

Exemplo 1: (Diagn óstico m édico)Suponha que disp õe-se de uma amostra de n fichas de pacientes para os quais foram registrados p sintomas que podem ser representados por um vetorx e cujo diagn óstico foi uma

entre k doenc¸as poss´ıveis. Um novo paciente apresenta vetor de sintomas

x0. Como utilizar a informaç ão amostral para diagnosticar a doença do novo

paciente?

Uma func¸ ˜ao que separa objetos pode servir algumas vezes como

“alocadora” e, reciprocamente, uma regra que aloca objetos pode sugerir um procedimento de discriminac¸ ˜ao.

Na pr ática, os dois principais objetivos se sobrep õem e a distinç ão entre separaç ão e alocaç ão fica obscurecida.

(5)

Separaç ão e Classificaç ão para o Caso de Duas Populaç ões

Sejam π1e π2as duas populac¸ ˜oes.

Os objetos s ˜ao separados ou classificados com base em p medidas

X0= (X1,X2, . . . ,Xp). Os valores observadosx diferem de alguma forma de

uma populac¸ ˜ao para outra.

Sex vem da populaç ão π1dizemos que a distribuiç ão caracterizada pela

densidade de probabilidade conjunta deX ´e dada por f1(x), caso contr ´ario, a

densidade ´e dada por f2(x).

As regras de classificaç ão costumam ser desenvolvidas a partir de amostras de aprendizagem: amostras para as quais a classificaç ão de todos os elementos é conhecida.

Essencialmente, o conjunto de todos os resultados amostrais é dividido em duas regi ões complementares, R1e R2tal que se uma nova observaç ão cair

(6)

Regras de classificaç ão n ão fornecem m étodos livres de erro. Muitas vezes n ão é clara a distinç ão entre as medidas observadas de cada populaç ão: os grupos podem se sobrepor de alguma forma. Logo, ser á poss´ıvel classificar um objeto de π2em π1e vice-versa.

Um bom procedimento de classificaç ão deve resultar numa taxa de erro de classificaç ão pequena.

Probabilidades a Priori

Pode ocorrer que uma populaç ão tenha verossimilhança maior do que a outra porque uma populaç ão é muito maior. A regra de classificaç ão deve levar em conta estas “probabilidades” a priori de cada populaç ão. Notaç ão: Sejam pj, j = 1, 2 tal que pj >0, j = 1, 2 e p1+p2=1 tais

(7)

Custos de Classificac¸ ˜ao Incorreta

Tamb ´em pode ocorrer que classificar um objeto de π1em π2represente um

erro muito mais s ério do que o rec´ıproco. A regra de classificaç ão deve levar em conta os custos de classificaç ão incorreta.

Seja Ω o espaço amostral - isto é, a coleç ão de todos os valores poss´ıveis do vetorx. Sejam R1⊂ Ω o conjunto de valores para o qual classificamos o

objeto com sendo de π1e, R2= Ω \R1o conjunto de valores para o qual

classificamos o objeto como sendo de π2.

Se p = 2, podemos representar graficamente esta situac¸ ˜ao.

A probabilidade condicional Pr(2|1) de classificar um objeto de π1em π2 ´e

Pr(X ∈ R2|π1) =

Z

R₂

f1(x)d x = Pr(2|1).

Similarmente, a probabilidade condicional Pr(1|2) de classificar um objeto de π2em π1 ´e

Pr(X ∈ R1|π2) =

Z

R1

(8)

Desse modo, a probabilidade global de classificac¸ ˜ao incorreta pode ser obtida como a soma do produto das probabilidades condicionais por suas probabilidades a priori:

P(classificar incorretamente em π1) =Pr(X ∈ R1|π2)Pr(π2) =Pr(1|2)p2.

P(classificar incorretamente em π2) =Pr(X ∈ R2|π1)Pr(π1) =Pr(2|1)p1.

Os esquemas de classificaç ão costumam ser avaliados em funç ão de suas probabilidades de classificaç ão incorreta, mas observe que estas

probabilidades ignoram os custos de classificaç ão incorreta. Suponha a seguinte tabela de custos de classificaç ão:

Populac¸ ˜ao Real Classificado em π1 Classificado em π2

π1 0 C(2|1)

π2 C(1|2) 0

Para qualquer regra, o custo esperado de classificaç ão incorreta (CECI) é dado por

CECI = C(2|1)Pr(2|1)p1+C(1|2)Pr(1|2)p2.

Uma regra de classificaç ão razo ável deve ter um CECI t ão pequeno quanto poss´ıvel.

(9)

Proposiç ão 1:As regi ões R1e R2que minimizam o CECI s ão definidas

pelos valores dex para os quais valem:

R1: f1(x) f2(x) > C(1|2) C(2|1) p2 p1 .

(Raz ão de densidades) > (Raz ão de custos) × (Raz ão de probabilidades a priori). R2: f1(x) f2(x) <C(1|2) C(2|1) p2 p1 .

A implementaç ão dessa regra requer o conhecimento da raz ão de

densidades para uma nova observaç ãox0, da raz ão de custos e da raz ão de

probabilidades a priori. É, em geral, mais simples atribuir valores para as raz ões do lado direito da desigualdade acima do que atribuir um valor para cada probabilidade a priori e custo de classificaç ão incorreta.

(10)

Casos especiais da regra estabelecida pela Proposic¸ ˜ao 1:

(1a) probabilidades a priori iguais, R1:

f1(x)

f2(x) >

C(1|2) C(2|1);

(1b) custos de classificac¸ ˜ao incorreta iguais, R1: f1(x) f2(x) > p2 p1 ;

(1c) probabilidades a priori iguais e custos iguais, R1:

f1(x)

f2(x) > 1.

No caso especial (1c), observe que a regra reduz-se à comparaç ão de densidades tal que se f1(x0) > f2(x0),x0 é classificado em π1. Caso,

(11)

Outros crit érios podem ser usados para obter uma regra de classificaç ão ótima. Por exemplo, podemos ignorar os custos de classificaç ão incorreta e escolher R1e R2que minimizam a probabilidade total de classificaç ão

incorreta (PTCI).

PTCI = Pr(classificar incorretamente uma observac¸ ˜ao) = p1 Z R2 f1(x)d x + p2 Z R1 f2(x)d x.

Matematicamente, este problema é equivalente a minimizar o custo esperado de classificaç ão incorreta quando os custos de classificaç ão incorreta s ão iguais (1b).

(12)

Poder´ıamos tamb ém alocar uma nova observaç ãox0a populaç ão com

maior probabilidade a posteriori Pr(πi|x0), i = 1, 2.

classificamosx0em π1. Caso contr ´ario, classificamosx0em π2. Observe

que essa regra é equivalente a regra (1b), que considera os custos de classificaç ão incorreta iguais.

(13)

Classificaç ão em Uma de Duas Populaç ões Normais Multivariadas

Primeiro, suponha que as populaç ões tenham matrizes de covari âncias iguais, Σ1= Σ2= Σ. fj(x) = (2π)−p/2|Σ|−1/2exp −1 2(x − µj) 0 Σ−1(x − µj) , j = 1, 2, com µ₁, µ₂e Σ desconhecidos.

Proposiç ão 2:A regra do CECI m´ınimo é dada por    R1: x (µ1− µ2) 0 Σ−1x −1 2(µ1− µ2) 0 Σ−1(µ₁+ µ₂) > ln C(1|2)p2 C(2|1)p1 ; R2: caso contr ário.

Observaç ão:Nas aplicaç ões µ1, µ2e Σ s ão desconhecidos, por essa raz ão,

(14)

O estimador de Σ ´e dado por

Sc =

(n1− 1)S1+ (n2− 1)S2

(n1+n2− 2)

.

A regra resultante da substituiç ão pelos vetores de m édia amostral e a matriz

Sc ´e:    R1: x (x1− x2) 0_S−1 c x − 1 2(x1− x2) 0_S−1 c (x1+x2) > ln C(1|2)p2 C(2|1)p1 ; R2: caso contr ´ario.

Se as probabilidades a priori s ão iguais e os custos de classificaç ão incorreta tamb ém s ão iguais, ent ão a regra acima se simplifica para

R1: x (x1− x2) 0 S−1c x > 1 2(x1− x2) 0 S−1c (x1+x2) .

(15)

Fac¸a b y = ab 0 x, com b a0 = (x1− x2)0S−1c , b m = 1 2(x1− x2) 0 S−1c (x1+x2) = 1 2(y1+y2) com yj = ab 0 xj, j = 1, 2.

Resumindo, a regra estimada do CECI m´ınimo é equivalente a criar duas populaç ões normais univariadas para os valores y , tomando-se uma combinaç ão linear apropriada das observaç ões de π1e π2e, ent ão, designar x0a π1ou a π2dependendo seby0=ba

0

x0cai `a direta ou `a esquerda do

ponto m ´ediom entre as duas m ´edias amostrais yb 1e y2.

Como os par âmetros s ão substitu´ıdos por suas estimativas n ão se pode mais assegurar que a regra resultante minimize o custo esperado de classificaç ão incorreta em uma particular aplicaç ão.

Por ´em, parece razo ´avel esperar que ela deva comportar-se bem para tamanhos amostrais grandes.

(16)

Resumindo: se os dados parecem ser normais multivariados, a estat´ıstica de classificac¸ ˜ao do lado esquerdo

(x1− x2) 0 S−1c x − 1 2(x1− x2) 0 S−1c (x1+x2)

pode ser calculada para cada nova observaç ãox0. Essas observaç ões s ão

classificadas comparando-se os valores da estat´ıstica com o valor de ln C(1|2)p2

C(2|1)p1

.

Exemplo 2:Um bi ólogo obteve medidas sobre n = 25 lagartos conhecidos cientificamente como Cophosaurus texanus. O peso (mass) é dados em gramas, enquanto que o comprimento da abertura do focinho (svl) e a extens ão dos membros posteriores (hls) s ão dados em mil´ımetros. Os dados est ão dispon´ıveis no arquivo T1-3.DAT. Al ém das tr ês medidas, o bi ólogo identificou o g ênero de cada lagarto m-macho, f -f êmea. Construir uma regra de classificaç ão de g ênero a partir das tr ês medidas usando os dados dispon´ıveis.(Ver lagarto.r)

(17)

Tabela:Probabilidade a prior dos grupos. Grupo 1 Grupo 2

0,48 0,52

Como nada foi dito na funç ão do R, o mesmo adota prioris iguais às proporç ões amostrais.

Tabela:Grupo de m ´edias.

Grupo mass svl hls

F ˆemea 7,012 63,042 118,000

(18)

Tabela:Coeficientes de discriminaç ão linear. Vari ável LD1

mass -0,5723

svl -0,0908

hls 0,2949

Tabela:Erros de classificaç ão. Classificaç ão Grupo

F ˆemea Macho

F ˆemea 11 1

Macho 0 13

Observaç ão: Especificando prioris iguais, a tabela acima n ão apresentar á erros de classificaç ão reaplicada a amostra de aprendizagem.

(19)

Escala

Para qualquer constante c 6= 0, o vetor cba = cS−1c (x1− x2)tamb ´em servir ´a

como coeficientes discriminantes. O vetorba é frequentemente “normalizado” para facilitar a interpretaç ão de seus elementos. Duas das normalizaç ões mais comuns s ão apresentadas a seguir.

1. Fac¸a b a∗= ba p b a0ba tal queba ∗

tenha comprimento unit ´ario.

2. Fac¸a

b

a∗= ba b a1

tal que o primeiro elemento deba

∗

seja 1. Em ambos os casos,ba

∗

(20)

Abordagem de Fisher para Classificaç ão em Uma de Duas Populaç ões

Fisher de fato chegou a estat´ıstica de classificac¸ ˜ao R1: x (x1− x2) 0 S−1c x > 1 2(x1− x2) 0 S−1c (x1+x2) ou R1: y|by > (y1+y2)/2 , b y =a0x, a = (x1− x2)0S−1c , yj=ba 0 xj , usando um argumento completamente diferente. A ideia de Fisher foi

transformar as observaç ões multivariadasx em observaç ões univariadas y

tal que os y0s provenientes de π1e de π2sejam t ˜ao separados quanto

poss´ıvel.

Fisher sugeriu tomar combinaç ões lineares dex para criar os y0s, porque elas s ão funç ões simples dex e podem ser manipuladas facilmente.

(21)

A abordagem de Fisher n ão assume que as populaç ões sejam normais. No entanto, implicitamente, assume que as matrizes de covari âncias das populaç ões sejam iguais, porque uma estimativa combinada da matriz de covari âncias é usada.

Uma combinac¸ ˜ao linear fixada dex toma os valores y11,y12, . . . ,y1n1para as

observaç ões de π1e os valores y21,y22, . . . ,y2n₂para as observaç ões de π2.

A separaç ão destes dois conjuntos de valores univariados é avaliada em funç ão da diferença entre as m édias amostrais y₁e y₂expressa em unidades de desvio padr ão.

Separac¸ ˜ao = |y1− y2| sy com s2y = 1 n1+n2− 2 hXn₁ i=1(y1i− y1) 2 +Xn2 i=1(y2i− y2) 2i .

O objetivo é selecionar a combinaç ão linear dex que alcança a separaç ão

(22)

Proposiç ão 3:A combinaç ão linear y =ba

0

x = (x1− x2)0S−1c x maximiza a raz ˜ao

dist ância quadrada entre m édias vari ância amostral de y =

(y₁− y2) 2 s2 y =(ba 0 d)2 b a0Scba .

Regra de Alocaç ão: Funç ão Discriminante (Linear) de Fisher

Sejam b y0 = (x1− x2)0S−1c x0 b m = 1 2(x1− x2) 0 S−1c (x1+x2) = 1 2(y1+y2). Aloquex0a π1seby0>m.b Caso contr ´ario, aloquex0a π2.

(23)

Classificac¸ ˜ao ´

E Uma Boa Ideia?

Para duas populaç ões, a separaç ão m áxima relativa que pode ser obtida considerando-se combinaç ões lineares das observaç ões multivariadas é igual a dist ância

D2= (x1− x2) 0

S−1c (x1− x2).

Isto é conveniente, porque D2pode ser usada, em certas situaç ões, para testar se as m édias das populaç ões π1e π2diferem sigificativamente.

Consequentemente, um teste de diferença entre vetores de m édia pode ser visto como um teste para a “signific ância” da separaç ão que pode ser alcançada.

(24)

Suponha que as populac¸ ˜oes π1e π2sejam normais multivariadas com uma

matriz de covari ˆancias comum Σ. Ent ˜ao, vimos que um teste de H0: µ1= µ2versus H1: µ16= µ2usa a estat´ıstica

n1+n2− p − 1 (n1+n2− 2)p n1n2 n1+n2 D2, que sob H0tem distribuic¸ ˜ao Fp,n1+n2−p−1.

Se H0 é rejeitada, podemos concluir que a separaç ão entre as duas

populaç ões é significante.

Observaç ão:Separaç ão significante n ão necessariamente implicar á em boa classificaç ão. A efic ácia de um procedimento de classificaç ão pode ser avaliada independentemente de qualquer teste de separaç ão. Em contraste, se a separaç ão n ão é significante, a busca por uma regra de classificaç ão útil ser á, provavelmente, infrut´ıfera.

(25)

Classificaç ão de Populaç ões Normais - Caso Σ

1

6= Σ

2

As regras de classificaç ão s ão mais complicadas quando as matrizes de covari âncias das populaç ões s ão desiguais. Considere novamente a raz ão das densidades normais multivariadas, agora considerando as covari âncias desiguais. Neste caso, os fatores fora do termo exponencial n ão simplificam e n ão é poss´ıvel colocar o termo dentro da exponencial em evid ência. f1(x) f2(x) = |Σ2| |Σ1| 1/2 exp −1 2 h (x − µ1) 0 Σ−11 (x − µ1) + (x − µ2) 0 Σ−12 (x − µ2) i . Nesse caso, as regi ões de classificaç ão, segundo o crit ério do custo

esperado de classificaç ão incorreta m´ınimo, ser ão dadas por (na escala logaritmo natural):    R1: R1: − 1 2x 0 (Σ−1₁ − Σ−1₂ )x + (µ0 1Σ −1 1 − µ 0 2Σ −1 2 )x − k > ln C(1|2) C(2|1) p2 p1 ; R2: caso contr ário,

com k =1 2ln |Σ2| |Σ1| +1 2(µ 0 1Σ −1 1 µ1− µ 0 2Σ −1 2 µ2).

(26)

As regi ões de classificaç ão s ão quadr áticas emx. Quando Σ1= Σ2, o termo

quadr ´aticox0

(Σ−1₁ − Σ−1

2 )x se anula, e as regi ˜oes resultantes s ˜ao aquelas

obtidas anteriormente no caso de vari ˆancias iguais.

Proposiç ão 4:Sob normalidade multivariada com covari âncias desiguais, aloquex0a π1se −1 2x 0 0(Σ−11 − Σ −1 2 )x0+ (µ01Σ −1 1 − µ 0 2Σ −1 2 )x0− k > ln C(1|2) C(2|1) p2 p1 . Caso contr ário, aloquex0a π2.

Na pr ática, a regra de classificaç ão acima é implementada substituindo-se os par âmetros populacionais por estimativasx1,x2eS1eS2.

Regra de Classificaç ão Quadr ática

Populaç ões normais, covari âncias desiguais: Aloquex0a π1se −1 2x 0 0(S−11 − S −1 2 )x0+ (x 0 1S−11 − x 0 2S−12 )x0− k > ln C(1|2) C(2|1) p2 p1 . Caso contr ário, aloquex0a π2.

(27)

Classificaç ão com funç ões quadr áticas é bem complicada quando se tem mais de duas medidas e pode levar a resultados estranhos. Isto é particularmente verdade quando os dados n ão s ão (essencialmente) normais multivariados.

As regi ões de classificaç ão podem ser uma uni ão de regi ões disjuntas do espaço amostral.

Em muitas aplicaç ões, a cauda inferior da distribuiç ão de π1ser á menor do

que a prescrita por uma distribuiç ão normal e a regra quadr ática poder á levar a altas taxas de erro de classificaç ão. Uma desvantagem s éria da regra quadr ática é que ela é bem sens´ıvel a desvios da normalidade.

Se os dados n ão s ão normais multivariados, duas opç ões est ão dispon´ıveis. A primeira, envolve transformar os dados n ão normais, e depois testar a igualdade das matrizes de covari âncias para verificar se é a regra linear ou a quadr ática que devem ser usadas.

Os testes usuais para homogeneidade das covari âncias s ão fortemente afetados sob n ão normalidade. A convers ão de dados n ão normais para dados normais deve sempre ser feita antes de realizar tais testes.

(28)

Como segunda opç ão, podemos usar uma regra linear (ou quadr ática) sem nos preocuparmos com a forma das distribuiç ões populacionais e esperar que elas ir ão funcionar razoavelmente bem.

Estudos mostraram, por ém, que existem casos n ão normais para os quais uma funç ão de classificaç ão linear tem uma performance ruim, mesmo se as matrizes de covari âncias das duas populaç ões s ão iguais.

Moral da hist ória: sempre verificar a performance de qualquer procedimento de classificaç ão. Em último caso, isto deve ser feito com o conjunto de dados usado para construir a regra. O ideal é que se tenha uma quantidade de dados suficientemente grande que podem ser repartidos em amostras de treinamento e de validaç ão. A amostra de treinamento/aprendizagem é usada para construir a regra, e a amostra de validaç ão é usada para avaliar a performance da regra constru´ıda.

(29)

Exerc´ıcios do cap´ıtulo 11 para entregar:

1, 3 a 18.

(30)

Avaliaç ão das Funç ões de Classificaç ão

A avaliaç ão envolve calcular taxas de erro ou probabilidades de classificaç ão incorreta.

Como as densidades s ão em geral desconhecidas, concentraremo-nos sobre as taxas de erro associadas à funç ão de classificaç ão amostral. Taxa de Erro Ótima (TEO) - regra de classificaç ão segundo o crit ério da probabilidade total de classificaç ão incorreta (PTCI) m´ınima.

TEO = p1 Z R2 f1(x)d x + p2 Z R1 f2(x)d x

(31)

Exemplo 3:Suponha duas populaç ões normais multivariadas com matrizes de covari âncias iguais, p1=p2=1/2 e tamb ém C(2|1) = C(1|2) tal que

lnC(1|2)_C(2|1)p2 p1 =0. Neste caso, R1: x (µ1− µ2) 0 Σ−1x >1 2(µ1− µ2) 0 Σ−1(µ1+ µ2) ou R1: x a 0 x >1 2a 0 (µ1+ µ2) . Fazendo Y =a0X teremos σY2 =a 0 Σa = δ2.

(32)

PTCI = 1 2 Z R2 f1(x)d x + 1 2 Z R1 f2(x)d x = Φ −δ 2 . Se δ2=2, 56, teremos PTCI = Φ(−0, 8) = 0, 2119.

A regra de classificaç ão aqui ir á alocar cerca de 21% dos itens incorretamente.

Este exemplo ilustra como a TEO pode ser calculada quando as funç ões de densidade s ão conhecidas. Como em geral os par âmetros populacionais s ão desconhecidos, eles dever ão ser estimados e a avaliaç ão da taxa de erro n ão ser á t ão direta.

A performance da funç ão de classificaç ão amostral pode, em princ´ıpio, ser avaliada calculando-se a taxa de erro real (TER).

(33)

TER = p1 Z b R₂ f1(x)d x + p2 Z b R₁ f2(x)d x. b

R1e bR2s ão as regi ões de classificaç ão determinadas pelas amostras de

tamanhos n1e n2, respectivamente.

A TER indica como a funç ão de clasificaç ão amostral se comportar á em amostras futuras. Como a TEO, geralmente ela n ão poder á ser calculada, pois depende das densidades f1e f2. Por ém, uma estimativa de uma

quantidade relacionada a TER pode ser calculada e ser á apresentada aqui. A taxa de erro real aparente (TERA) pode ser calculada a partir da matriz de “confus ão” (tabela de dupla entrada indicando as frequ ências de

(34)

Classificaç ão em Populaç ão π1 π2 π1 n1c n1M =n1− n1c π2 n2M =n2− n2c n2c TERA = n1M+n2M n1+n2 .

Observe que a TERA nada mais é do que a proporç ão amostral de classificaç ões incorretas considerando-se a amostra de treinamento. A TERA é uma medida intuitiva e simples, mas tem um vi és: tende a subestimar a TER, a menos que n1e n2sejam suficientemente grandes.

Estimativas de taxas de erro melhores do que a TERA e que n ão exigem a suposiç ão das distribuiç ões populacionais podem ser constru´ıdas.

Um procedimento é dividir a amostra total em uma amostra de treinamento e outra de validaç ão. A amostra de treinamento é usada para construir a funç ão de classificaç ão e, a de validaç ão, para avaliar a funç ão obtida. A taxa de erro é determinada pela porporç ão amostral de classificaç ões incorretas na amostra de validaç ão.

(35)

Apesar deste m ´etodo superar o problema do vi ´es, ele padece de dois defeitos:

1. requer amostras muito grandes;

2. a funç ão avaliada n ão é a funç ão de interesse. Em última an álise, quase todos os dados devem ser usados para construir a regra. Caso

contr ário, informaç ão importante pode estar sendo desperdiçada. Uma segunda abordagem, que parece funcionar bem, é chamada procedimento de validaç ão “reter um fora” (holdout) de Lachenbruch.

1. Comece em π1. Omita uma de suas observaç ões e desenvolva a funç ão

de classificaç ão com as restantes n1− 1 + n2. 2. Classifique a observaç ão omitida com a funç ão obtida.

3. Repita os passos (1) e (2) at é que todas as observaç ões de π1sejam

classificadas. Defina n(H)_1M como o n úmero de classificaç ões incorretas neste grupo.

4. Repita os passos (1), (2) e (3) para as observac¸ ˜oes de π2e defina n (H) 2M

como o n úmero de classificaç ões incorretas neste grupo. \ Pr(2|1) =n (H) 1M n1 , Pr(1|2) =\ n (H) 2M n2 e \PTCI = n (H) 1M +n (H) 2M n1+n2 .

(36)

Para amostras moderadas [PTCI ´e uma estimativa n ˜ao viesada do valor esperado da TERA (taxa de erro aparente).

Deve ser intuitivamente claro que classificaç ão boa (taxas de erro pequenas) depender á da separaç ão dos grupos. O mais separados s ão os grupos, mais provavelmente uma regra de classificaç ão útil ser á desenvolvida. Como veremos, regras de alocaç ão apropriadas para o caso envolvendo probabilidades a priori iguais e custos de classificaç ão incorreta iguais correspondem às funç ões designadas para populaç ões separadas o m áximo poss´ıvel. É nesta situaç ão que começamos a perder a distinç ão entre classificaç ão e separaç ão.

(37)

Classificaç ão em Uma de g Populaç ões

(g > 2)

Pelo menos em teoria, a extens ão para a classificaç ão em um de g grupos, g > 2 é imediata. Por ém, n ão muito é conhecido sobre as propriedades das funç ões de classificaç ão amostrais correspondentes, e em particular, sobre suas taxas de erro investigadas.

A “robustez” da estat´ıstica linear de classificaç ão em dois grupos para, por exemplo, covari âncias desiguais ou distribuiç ões n ão normais pode ser estudada a partir de experimentos simulados. Para mais de duas populaç ões, esta abordagem n ão leva a conclus ões gerais, porque as propriedades dependem sobre onde as populaç ões est ão localizadas, e existem muitas configuraç ões para serem convenientemente estudadas. Como antes, a abordagem aqui ser á desenvolver regras ótimas te óricas e, ent ão indicar as modificaç ões exigidas para as aplicaç ões reais.

(38)

Regra do Custo Esperado de Classificac¸ ˜ao Incorreta M´ınimo

Notac¸ ˜ao:

I fk(x) - funç ão de densidade de probabilidade conjunta para o k - ésimo

grupo, k = 1, 2, . . . , g.

I p1,p2, . . . ,pg- probabiliades a priori de cada grupo tais que pk >0, ∀k e

Pg

k =1pk =1.

I C(k |j) - custo de classificaç ão incorreta de uma observaç ão de πjem

πk, ∀j, k = 1, 2, . . . , g e j 6= k . Se j = k , ent ˜ao c(k |k ) = 0.

I Rk - regi ão de classificaç ão em πk tal que ∪ g

k =1Rk = Ω, Rj∩ Rk = ∅para

j 6= k .

A probabilidade de classificar uma observaç ão de πjem πk é

Pr(k |j) = Z Rk fj(x)d x para k ∈ {1, 2, ..., g}, k 6= j e Pr(j|j) = 1 − g X k =1,k 6=j Pr(k |j).

(39)

O custo esperado de classificaç ão incorreta de uma observaç ão proveniente de π1ser á dado por

CECI(1) = Pr(2|1)C(2|1) + Pr(3|1)C(3|1) + · · · + Pr(g|1)C(g|1)

= Xg

k =2P(k |1)c(k |1).

Este custo esperado condicional ocorre com probabilidade p1, a

probabilidade a priori de π1.

De maneira similar, podemos obter os custos esperados de classificac¸ ˜ao incorreta condicionais CECI(2), CECI(3), . . . , CECI(g).

Multiplicando os custos condicionais pelas respectivas probabilidades a priori temos o custo esperado de classificac¸ ˜ao incorreta dado por

CECI =Xg j=1pj Xg k =1,k 6=jPr(k |j)C(k |j) .

(40)

Proposiç ão 5:As regi ões de classificaç ão que minimizam o custo esperado de classificaç ão incorreta s ão definidas por

I Aloquex a πj, j = 1, 2, . . . , g na qual

Xg

j=1,j6=kpjfj(x)C(k |j) ´e um m´ınimo.

I Se os custos de classificaç ão incorreta s ão todos iguais a unidade, observe que a regra alocar áx à populaç ão πk, k = 1, 2, . . . , g para a

qual,

Xg

j=1,j6=kpjfj(x) ´e um m´ınimo.

Observe que esta soma ser ´a um m´ınimo se o termo deixado de fora, pkfk(x),

(41)

Regra do CECI M´ınimo para Custos de Classificac¸ ˜ao Incorreta Iguais

I Aloquex0 à populaç ão πk se

pkfk(x0) >pjfj(x0), ∀j 6= k ,

ou equivalentemente,

I Aloquex0 à populaç ão πk se

ln (pkfk(x0)) >ln (pjfj(x0)) , ∀j 6= k .

Esta regra ´e equivalente `a regra que maximiza a probabilidade a posteriori Pr(πk|x0).

Deve-se ter em mente que as regras do CECI m´ınimo t êm tr ês componentes: probabilidades a priori, custos de classificaç ão incorreta e funç ões de densidade. Estes componentes devem ser especificados (ou estimados) antes da regra poder ser implementada.

(42)

Exemplo 4: (Classificaç ão de nova observaç ão em uma de tr ês populaç ões conhecidas)

Suponha os seguintes custos de classificaÇ ão incorreta, probabilidades a priori e densidades avaliadas emx0uma nova observaç ão.

Classificaç ão em Populaç ão π1 π2 π3 π1 C(1|1) = 0 C(2|1) = 10 C(3|1) = 50 π2 C(1|2) = 500 C(2|2) = 0 C(3|2) = 200 π3 C(1|3) = 100 C(2|3) = 50 C(3|3) = 0 Prioris p1=0, 05 p2=0, 60 p3=0, 35 fj(x0) f1(x0) =0, 01 f2(x0) =0, 85 f3(x0) =2

Classificarx0em uma das tr ês populaç ões.

Usando a regra do CECI m´ınimo, alocaremosx0a πk, k = 1, 2, 3 para a qual

X3

(43)

k X3

j=1,j6=kpjfj(x)C(k |j)

1 325

2 35,055

3 102,025

Como o menor valor ocorre para k = 2, alocamosx0a π2.

Se os custos de classificac¸ ˜ao incorreta fossem todos iguais, designar´ıamos

x0a πk, k = 1, 2, 3 na qual pkfk(x0) >pjfj(x0), ∀j 6= k .

k pkfk(x0)

1 0,0005

2 0,5100

3 0,7000

(44)

Classificaç ão com Populaç ões Normais

fk(x) = (2π)−p/2|Σk|−1/2exp{− 1 2(x − µk) 0 Σ−1_k (x − µk)}, k = 1, 2, . . . , g.

Se considerarmos todos os custos iguais a unidade, a regra resultante ser ´a:

I Aloquex0a πk se ln(pkfk(x0)) = ln pk− p 2ln(2π) − 1 2ln |Σk| − 1 2(x − µk) 0 Σ−1_k (x − µk) = max 16j6gln(pjfj(x0))

A constante p ln(2π)/2 pode ser desprezada, pois ela é igual para todas as populaç ões. Portanto, podemos definir um escore discriminante quadr ático para a k - ésima populaç ão dado por

dkQ(x) = ln pk− 1 2ln |Σk| − 1 2(x − µk) 0 Σ−1k (x − µk), k = 1, 2, . . . , g.

O escore quadr ´atico dQ

k(x ) é composto pelas contribuiç ões da vari ância

generalizada |Σk|, da probabilidade a priori pk, e da dist ˆancia quadrada dex

(45)

Regra da Probabilidade Total de Classificac¸ ˜ao Incorreta M´ınima

-Populaç ões Normais, Covari âncias Desiguais

I Aloquex0a πk se o escore quadr ´atico

dkQ(x0) = max 16j6g{d

Q j (x0)}.

Na pr ´atica µ_k e Σk s ˜ao desconhecidas para todo k = 1, 2, . . . , g, mas um

conjunto de treinamento cujas classificaç ões corretas das observaç ões s ão conhecidas est á em geral dispon´ıvel para a construç ão de estimativas. As quantidades amostrais relevantes para a populaç ão πk s ãoxk eSk com nk o

n úmero de observaç ões da k - ésima populaç ão. b dkQ(x) = ln pk− 1 2ln |Sk| − 1 2(x − xk) 0 S−1k (x − xk), k = 1, 2, . . . , g.

Assim, a regra estimada ´e alocarx0a πk se o escore quadr ´atico estimado

b

dkQ(x0) = max 16j6g{bd

Q j (x0)}.

(46)

Uma simplificaç ão aqui é poss´ıvel para o caso em que Σ1= Σ2= · · · = Σg = Σ.

Neste caso os escores discriminantes passam a ser lineares emx e

simplificam para dk(x) = ln pk+ µ0kΣ −1_{x −}1 2µ 0 kΣ −1 µk, k = 1, 2, . . . , g.

Uma estimativa de dk(x) ´e baseada em Sc=

1

n1+n2+ · · · +ng− g

Xg

k =1(nk− 1)Sk

e ´e dada por b dk(x) = ln pk+x 0 kS−1c x − 1 2x 0 kS−1c xk, k = 1, 2, . . . , g.

Consequentemente, temos a regra estimada dada por “aloquex0a πk se

b

dk(x0) = max

(47)

M étodo de Discriminaç ão de Fisher para V árias Populaç ões

O prop ósito principal na an álise discriminante de Fisher (ADF) é separar populaç ões (grupos). No entanto, como veremos, o produto final pode levar a uma regra de classificaç ão. Na ADF n ão é necess ário supor a normalidade das g populaç ões, embora sup õe-se que as covari âncias sejam iguais. Denote µ o vetor de m édias combinado das g populaç ões, isto é,

µ = 1 g

Xg

k =1µk.

Denote a matrizBµa matriz p × p de somas de quadrados e produtos

cruzados Bµ= Xg k =1(µk− µ)(µk− µ) 0 .

Fac¸a Y =a0X tal que E(Y |πk) =a0µk e Var(Y |πk) =a0Σa, k = 1, 2, . . . , g.

Consequentemente µkY =a0µkdepende da populac¸ ˜ao na qualX foi

observada. M ´edia Global: µY =a 01 g Xg k =1µk =a 0 µ.

(48)

Medida de separac¸ ˜ao dos grupos: Xg k =1(µkY− µY) 2 σ2 Y = Pg k =1(a 0 µ_k− a0µ)2 a0_Σ_a = 0 Bµa a0_Σ_a.

Esta raz ˜ao mede a variabilidade entre os grupos de valores de Y relativa `a variabilidade comum dentro dentro dos grupos.

Podemos selecionara que maximiza esta raz ˜ao.

Em geral Σ e µk s ˜ao desconhecidos, mas disp ˜oe-se de uma amostra de

treinamento a partir da qual podemos estimar estas quantidades. Sejamxk,Sk as estimativas em cada grupo e

x = 1 g g X k =1 xk, b Bµ = Xg k =1(xk− x)(xk− x) 0 e c W = Xg k =1 Xnk j=1(xjk− xk)(xjk− xk) 0 .

(49)

Discriminantes Lineares Amostrais de Fisher (DALF)

Sejam bλ1, bλ2, . . . , bλs, s ≤ min{g − 1, p} autovalores n ˜ao-nulos de cW −1

b

Bµe

b

v1,vb2, . . . ,vbs os autovetores correspondentes tal que (vb

0

kS−1c vbk =1).

Ent ˜ao, o vetorba que maximiza a raz ˜ao

a0Bbµa a0

c

W a ´e dado porba1=bv1.

A combinac¸ ˜ao linearba

0

1x ´e chamada primeiro discriminante amostral.

A escolhaba2=vb2produz o segundo discriminante amostral e continuamos at ´e obter o k - ´esimo discriminante amostralbak =vbk, k ≤ s.

(50)

Coment ´arios Finais

Regress ˜ao Log´ıstica

As funç ões de classificaç ão discutidas at é aqui s ão baseadas em vari áveis quantitativas. A regress ão log´ıstica é uma abordagem apropriada para classificaç ão quando algumas ou todas as vari áveis s ão qualitativas. Na sua configuraç ão mais simples, a vari ável resposta Y est á restrita a dois valores. Por exemplo, Y pode representar g ênero: macho/f êmea, ou

empregado/desempregado, aprovado/reprovado, etc.

Quando a resposta assume apenas dois valores poss´ıveis ´e comum

codific á-la como 0 ou 1 e, o interesse passa a ser estimar a probabilidade da vari ável assumir o valor 1 dado o vetor de covari áveisx, que representa a

proporç ão na populaç ão codificada com o valor 1.

Esta modelagem pode ent ão ser usada para fins de classificaç ão em um de dois grupos, e a ideia pode ser estendida para v ários grupos, substituindo a dsitribuiç ão binomial pela multinomial.

(51)

Inclus ˜ao de Vari ´aveis Qualitativas

Neste cap´ıtulo assumimos que as vari áveis de discriminaç ão X1,X2, . . . ,Xp

s ão cont´ınuas. Com frequ ência, uma vari ável qualitativa ou categ órica pode ser útil como vari ável discriminante (classificadora). Esta situaç ão é

frequentemente contornada criando-se uma vari ável X cujo valor num érico é 1 se o objeto possui a tal caracter´ıstica e zero, caso contr ário. A vari ável é, ent ão, tratada como uma vari ável de medida nos procedimentos de classificaç ão e discriminaç ão usuais.

Exceto para classificaç ão log´ıstica, h á pouca teoria dispon´ıvel para lidar com o caso em que algumas vari áveis s ão cont´ınuas e outras s ão qualitativas. Experimentos de simulaç ão indicaram que a funç ãoo discriminante linear de Fisher pode comportar-se tanto pobremente como satisfatoriamente, dependendo das correlaç ões entre as vari áveis cont´ınuas e qualitativas. Krzanowski: “Uma correlaç ão baixa em uma populaç ão, mas uma correlaç ão alta na outra, ou uma mudança no sinal das correlaç ões entre as duas populaç ões poderiam indicar condiç ões desfavor áveis à funç ão discriminante linear de Fisher”. Esta é uma área problem ática e que precisa de mais estudo.

(52)

´

Arvores de Classificac¸ ˜ao

Uma abordagem de classificaç ão completamente diferente dos m étodos discutidos aqui foi desenvolvida. (Breiman, L., 1. Friedman, R Olshen, and C. Stone. Classification and Regression Trees. Belmont, CA: Wadsworth, Inc., 1984.) Ela é computacionalmente intensiva. A abordagem, chamada árvore de classificaç ão e regress ão (CART), é proximamente relacionada com as t écnicas de conglomeraç ão divisivas.(Cap´ıtulo 12 do livro texto).

Inicialmente, todos os objetos s ão considerados em um único grupo. O grupo é ent ão dividido em dois subgrupos, usando, por exemplo, altos valores de uma vari ável para um grupo e baixos valores dessa mesma vari ável para o outro grupo. Os dois subgrupos s ão ent ão cada um dividido novamente, agora usando valores de uma segunda vari ável. O processo de divis ão continua at é que um ponto de parada adequado seja atingido. Os valores das vari áveis divisoras podem ser categorias ordenados ou n ão. É este aspecto que torna o CART t ão geral.

(53)

Redes Neurais

Uma rede neural é um procedimento computacional intensivo para transformar entradas em sa´ıdas programadas usando redes altamente conectadas de unidades de processamento relativamente simples (neur ônios ou n ós). Suas tr ês caracter´ısticas essenciais s ão as unidades b ásicas de computaç ão (neur ônios ou n ós), a arquitetura da rede

descrevendo as conex ões entre as unidades de computaç ão, e o algoritmo de treinamento usado para encontrar valores dos par âmetros da rede (pesos) para realizar uma tarefa particular.

As unidades de computaç ão s ão conectadas umas às outras no sentido de que a sa´ıda de uma unidade pode servir como entrada para outra unidade. Cada unidade de computaç ão transforma uma entrada em uma sa´ıda usando alguma funç ão pr é-especificada que é tipicamente mon ótona, mas de alguma forma arbitr ária. Esta funç ão depende de constantes

(par ˆametros) cujos valores devem ser determinados com um conjunto de treinamento de entradas e sa´ıdas.

(54)

Arquitetura da rede é a organizaç ão das unidades computacionais e os tipos de conex ão permitidos. Em aplicaç ões estat´ısticas, as unidades

computacionais s ão arrumadas em uma s érie de camadas com conex ões entre n ós em camadas diferentes, mas n ão entre n ós da mesma camada. A camada que recebe as entradas iniciais é chamada camada de entrada. A camada final é chamada camada de sa´ıda. Todas as camadas entre as camadas de entrada e sa´ıda s ão chamadas camadas ocultas.

Redes Neurais podem ser usadas para discriminaç ão e classificaç ão. Quando elas s ão usadas com este fim, as vari áveis de entrada s ão as medidas X1,X2, . . . ,Xp, e a vari ável de sa´ıda é a vari ável categ órica que

indica de qual grupo veio a observaç ão de entrada. A experi ência inidca que redes neurais apropriadamente constru´ıdas comportam-se t ão bem quanto à regress ão log´ıstica e as funç ões discriminantes discutidas aqui. Os autores sugerem a seguinte refer ência para uma boa discuss ão do uso de redes neurais em aplicaç ões da estat´ıstica: Stem, H. S. Neural Networks in Applied Statistics. Technometrics, 38, (1996), 205-214.

(55)

Seleç ão de Vari áveis

Em algumas aplicaç ões da an álise discriminante, os dados est ão dispon´ıveis para um grande n úmero de vari áveis. Mucciardi e Gose (A Comparison of Seven Techniques for Choosing Subsets of Pattern Recognition Properties. IEEE Trans. Computers, C20 (1971), 1023-1031.) estudaram uma an álise discriminante baseada em 157 vari áveis. Neste caso, seria obviamente desej ável selecionar um subconjunto menor de vari áveis que contivesse quase toda a informaç ão original para efeitos da classificaç ão. Este é o prop ósito da an álise discriminante passo-a-passo stepwise, e v ários programas de computador disp õem destas funç ões de seleç ão de vari ável.

(56)

Se uma an álise discriminante stepwise (ou qualquer outro m étodo de seleç ão) é empregado, os resultados devem ser interpretados com cautela. (Veja Murray, G. D. A Cautionary Note on Selection of Variables in

Discriminant Analysis. Applied Statistics, 26, no. 3 (1977),246-250.) N ão h á garantia de que o subconjunto selecionado seja o “melhor”, sem olhar o crit ério usado para fazer a seleç ão. Por exemplo, subconjuntos selecionados com base na minimizaç ão da taxa de erro aparente ou maximizaç ão do “poder de discriminaç ão” podem comportar-se pobremente em amostras futuras. Problemas associados com procedimentos de seleç ão de vari áveis s ão ampliados se existem correlaç ões altas entre as vari áveis ou entre ombinaç ões lineares das vari áveis.

(57)

A escolha de um subconjunto de vari áveis que parece ser ótima para um dado conjunto de dados é especialmente preocupante se a classificaç ão é o objetivo. No m´ınimo, a funç ão de classificaç ão obtida deve ser avaliada com uma amostra de validaç ão. Como Murray (1977) sugeriu, uma ideia melhor pode ser dividir a amostra em um n úmero de lotes e determinar o “melhor” subconjunto para cada lote. O n úmero de vezes que uma dada vari ável aparece nos melhores subconjuntos fornece uma medida do valor dessa vari ável para classificaç ões futuras.

(58)

Ralph S. Silva

Ralph S. Silva

Departamento de M ´etodos Estat´ısticos

Instituto de Matem ´atica

Universidade Federal do Rio de Janeiro

Sum ´ario

Separaç ão e Classificaç ão para o Caso de Duas Populaç ões

Classificaç ão em Uma de Duas Populaç ões Normais Multivariadas

Escala

Abordagem de Fisher para Classificaç ão em Uma de Duas Populaç ões

Classificac¸ ˜ao ´

E Uma Boa Ideia?

Classificaç ão de Populaç ões Normais - Caso Σ

6= Σ

Exerc´ıcios do cap´ıtulo 11 para entregar:

1, 3 a 18.

Avaliaç ão das Funç ões de Classificaç ão

Classificaç ão em Uma de g Populaç ões

Regra do Custo Esperado de Classificac¸ ˜ao Incorreta M´ınimo

Regra do CECI M´ınimo para Custos de Classificac¸ ˜ao Incorreta Iguais

Classificaç ão com Populaç ões Normais

Regra da Probabilidade Total de Classificac¸ ˜ao Incorreta M´ınima

-Populaç ões Normais, Covari âncias Desiguais

M étodo de Discriminaç ão de Fisher para V árias Populaç ões

Discriminantes Lineares Amostrais de Fisher (DALF)

Coment ´arios Finais

Exerc´ıcios do cap´ıtulo 11 para entregar:

2, 24 a 28.