• Nenhum resultado encontrado

Ralph S. Silva

N/A
N/A
Protected

Academic year: 2021

Share "Ralph S. Silva"

Copied!
58
0
0

Texto

(1)

Ralph S. Silva

http://www.im.ufrj.br/ralph/multivariada.html

Departamento de M ´etodos Estat´ısticos

Instituto de Matem ´atica

Universidade Federal do Rio de Janeiro

(2)

Sum ´ario

(3)

T ´ecnicas multivariadas que dizem respeito `a “separac¸ ˜ao” de conjuntos distintos de objetos (ou observac¸ ˜oes) e `a alocac¸ ˜ao de novos objetos (observac¸ ˜oes) a grupos previamente definidos.

Podemos enumerar os principais objetivos aqui como:

Discriminac¸ ˜ao: Descrever grafica e algebricamente os aspectos que diferenciam os grupos de objetos (observac¸ ˜oes). Determinar “discriminantes” entre grupos.

Classificac¸ ˜ao: Alocar objetos em classes previamente definidas. A ˆenfase aqui est ´a na construc¸ ˜ao de uma regra que pode ser usada para designar de forma ´otima um novo objeto `as classes existentes.

(4)

Exemplo 1: (Diagn ´ostico m ´edico)Suponha que disp ˜oe-se de uma amostra de n fichas de pacientes para os quais foram registrados p sintomas que podem ser representados por um vetorx e cujo diagn ´ostico foi uma

entre k doenc¸as poss´ıveis. Um novo paciente apresenta vetor de sintomas

x0. Como utilizar a informac¸ ˜ao amostral para diagnosticar a doenc¸a do novo

paciente?

Uma func¸ ˜ao que separa objetos pode servir algumas vezes como

“alocadora” e, reciprocamente, uma regra que aloca objetos pode sugerir um procedimento de discriminac¸ ˜ao.

Na pr ´atica, os dois principais objetivos se sobrep ˜oem e a distinc¸ ˜ao entre separac¸ ˜ao e alocac¸ ˜ao fica obscurecida.

(5)

Separac¸ ˜ao e Classificac¸ ˜ao para o Caso de Duas Populac¸ ˜oes

Sejam π1e π2as duas populac¸ ˜oes.

Os objetos s ˜ao separados ou classificados com base em p medidas

X0= (X1,X2, . . . ,Xp). Os valores observadosx diferem de alguma forma de

uma populac¸ ˜ao para outra.

Sex vem da populac¸ ˜ao π1dizemos que a distribuic¸ ˜ao caracterizada pela

densidade de probabilidade conjunta deX ´e dada por f1(x), caso contr ´ario, a

densidade ´e dada por f2(x).

As regras de classificac¸ ˜ao costumam ser desenvolvidas a partir de amostras de aprendizagem: amostras para as quais a classificac¸ ˜ao de todos os elementos ´e conhecida.

Essencialmente, o conjunto de todos os resultados amostrais ´e dividido em duas regi ˜oes complementares, R1e R2tal que se uma nova observac¸ ˜ao cair

(6)

Regras de classificac¸ ˜ao n ˜ao fornecem m ´etodos livres de erro. Muitas vezes n ˜ao ´e clara a distinc¸ ˜ao entre as medidas observadas de cada populac¸ ˜ao: os grupos podem se sobrepor de alguma forma. Logo, ser ´a poss´ıvel classificar um objeto de π2em π1e vice-versa.

Um bom procedimento de classificac¸ ˜ao deve resultar numa taxa de erro de classificac¸ ˜ao pequena.

Probabilidades a Priori

Pode ocorrer que uma populac¸ ˜ao tenha verossimilhanc¸a maior do que a outra porque uma populac¸ ˜ao ´e muito maior. A regra de classificac¸ ˜ao deve levar em conta estas “probabilidades” a priori de cada populac¸ ˜ao. Notac¸ ˜ao: Sejam pj, j = 1, 2 tal que pj >0, j = 1, 2 e p1+p2=1 tais

(7)

Custos de Classificac¸ ˜ao Incorreta

Tamb ´em pode ocorrer que classificar um objeto de π1em π2represente um

erro muito mais s ´erio do que o rec´ıproco. A regra de classificac¸ ˜ao deve levar em conta os custos de classificac¸ ˜ao incorreta.

Seja Ω o espac¸o amostral - isto ´e, a colec¸ ˜ao de todos os valores poss´ıveis do vetorx. Sejam R1⊂ Ω o conjunto de valores para o qual classificamos o

objeto com sendo de π1e, R2= Ω \R1o conjunto de valores para o qual

classificamos o objeto como sendo de π2.

Se p = 2, podemos representar graficamente esta situac¸ ˜ao.

A probabilidade condicional Pr(2|1) de classificar um objeto de π1em π2 ´e

Pr(X ∈ R2|π1) =

Z

R2

f1(x)d x = Pr(2|1).

Similarmente, a probabilidade condicional Pr(1|2) de classificar um objeto de π2em π1 ´e

Pr(X ∈ R1|π2) =

Z

R1

(8)

Desse modo, a probabilidade global de classificac¸ ˜ao incorreta pode ser obtida como a soma do produto das probabilidades condicionais por suas probabilidades a priori:

P(classificar incorretamente em π1) =Pr(X ∈ R1|π2)Pr(π2) =Pr(1|2)p2.

P(classificar incorretamente em π2) =Pr(X ∈ R2|π1)Pr(π1) =Pr(2|1)p1.

Os esquemas de classificac¸ ˜ao costumam ser avaliados em func¸ ˜ao de suas probabilidades de classificac¸ ˜ao incorreta, mas observe que estas

probabilidades ignoram os custos de classificac¸ ˜ao incorreta. Suponha a seguinte tabela de custos de classificac¸ ˜ao:

Populac¸ ˜ao Real Classificado em π1 Classificado em π2

π1 0 C(2|1)

π2 C(1|2) 0

Para qualquer regra, o custo esperado de classificac¸ ˜ao incorreta (CECI) ´e dado por

CECI = C(2|1)Pr(2|1)p1+C(1|2)Pr(1|2)p2.

Uma regra de classificac¸ ˜ao razo ´avel deve ter um CECI t ˜ao pequeno quanto poss´ıvel.

(9)

Proposic¸ ˜ao 1:As regi ˜oes R1e R2que minimizam o CECI s ˜ao definidas

pelos valores dex para os quais valem:

R1: f1(x) f2(x) > C(1|2) C(2|1) p2 p1 .

(Raz ˜ao de densidades) > (Raz ˜ao de custos) × (Raz ˜ao de probabilidades a priori). R2: f1(x) f2(x) <C(1|2) C(2|1) p2 p1 .

A implementac¸ ˜ao dessa regra requer o conhecimento da raz ˜ao de

densidades para uma nova observac¸ ˜aox0, da raz ˜ao de custos e da raz ˜ao de

probabilidades a priori. ´E, em geral, mais simples atribuir valores para as raz ˜oes do lado direito da desigualdade acima do que atribuir um valor para cada probabilidade a priori e custo de classificac¸ ˜ao incorreta.

(10)

Casos especiais da regra estabelecida pela Proposic¸ ˜ao 1:

(1a) probabilidades a priori iguais, R1:

f1(x)

f2(x) >

C(1|2) C(2|1);

(1b) custos de classificac¸ ˜ao incorreta iguais, R1: f1(x) f2(x) > p2 p1 ;

(1c) probabilidades a priori iguais e custos iguais, R1:

f1(x)

f2(x) > 1.

No caso especial (1c), observe que a regra reduz-se `a comparac¸ ˜ao de densidades tal que se f1(x0) > f2(x0),x0 ´e classificado em π1. Caso,

(11)

Outros crit ´erios podem ser usados para obter uma regra de classificac¸ ˜ao ´otima. Por exemplo, podemos ignorar os custos de classificac¸ ˜ao incorreta e escolher R1e R2que minimizam a probabilidade total de classificac¸ ˜ao

incorreta (PTCI).

PTCI = Pr(classificar incorretamente uma observac¸ ˜ao) = p1 Z R2 f1(x)d x + p2 Z R1 f2(x)d x.

Matematicamente, este problema ´e equivalente a minimizar o custo esperado de classificac¸ ˜ao incorreta quando os custos de classificac¸ ˜ao incorreta s ˜ao iguais (1b).

(12)

Poder´ıamos tamb ´em alocar uma nova observac¸ ˜aox0a populac¸ ˜ao com

maior probabilidade a posteriori Pr(πi|x0), i = 1, 2.

Pelo teorema de Bayes Pr(π1|x0) = Pr(π1ocorrer e observarmosx0) Pr(observarmosx0) = Pr(x0|π1)p1 Pr(x0|π1)p1+Pr(x0|π2)p2 = p1f1(x0) p1f1(x0) +p2f2(x0) , e Pr(π2|x0) = p2f2(x0) p1f1(x0) +p2f2(x0) . Se Pr(π1|x0) > Pr(π2|x0)

classificamosx0em π1. Caso contr ´ario, classificamosx0em π2. Observe

que essa regra ´e equivalente a regra (1b), que considera os custos de classificac¸ ˜ao incorreta iguais.

(13)

Classificac¸ ˜ao em Uma de Duas Populac¸ ˜oes Normais Multivariadas

Primeiro, suponha que as populac¸ ˜oes tenham matrizes de covari ˆancias iguais, Σ1= Σ2= Σ. fj(x) = (2π)−p/2|Σ|−1/2exp  −1 2(x − µj) 0 Σ−1(x − µj)  , j = 1, 2, com µ1, µ2e Σ desconhecidos.

Proposic¸ ˜ao 2:A regra do CECI m´ınimo ´e dada por    R1:  x (µ1− µ2) 0 Σ−1x −1 2(µ1− µ2) 0 Σ−1(µ1+ µ2) > ln C(1|2)p2 C(2|1)p1  ; R2: caso contr ´ario.

Observac¸ ˜ao:Nas aplicac¸ ˜oes µ1, µ2e Σ s ˜ao desconhecidos, por essa raz ˜ao,

(14)

O estimador de Σ ´e dado por

Sc =

(n1− 1)S1+ (n2− 1)S2

(n1+n2− 2)

.

A regra resultante da substituic¸ ˜ao pelos vetores de m ´edia amostral e a matriz

Sc ´e:    R1:  x (x1− x2) 0S−1 c x − 1 2(x1− x2) 0S−1 c (x1+x2) > ln  C(1|2)p2 C(2|1)p1  ; R2: caso contr ´ario.

Se as probabilidades a priori s ˜ao iguais e os custos de classificac¸ ˜ao incorreta tamb ´em s ˜ao iguais, ent ˜ao a regra acima se simplifica para

R1:  x (x1− x2) 0 S−1c x > 1 2(x1− x2) 0 S−1c (x1+x2)  .

(15)

Fac¸a b y = ab 0 x, com b a0 = (x1− x2)0S−1c , b m = 1 2(x1− x2) 0 S−1c (x1+x2) = 1 2(y1+y2) com yj = ab 0 xj, j = 1, 2.

Resumindo, a regra estimada do CECI m´ınimo ´e equivalente a criar duas populac¸ ˜oes normais univariadas para os valores y , tomando-se uma combinac¸ ˜ao linear apropriada das observac¸ ˜oes de π1e π2e, ent ˜ao, designar x0a π1ou a π2dependendo seby0=ba

0

x0cai `a direta ou `a esquerda do

ponto m ´ediom entre as duas m ´edias amostrais yb 1e y2.

Como os par ˆametros s ˜ao substitu´ıdos por suas estimativas n ˜ao se pode mais assegurar que a regra resultante minimize o custo esperado de classificac¸ ˜ao incorreta em uma particular aplicac¸ ˜ao.

Por ´em, parece razo ´avel esperar que ela deva comportar-se bem para tamanhos amostrais grandes.

(16)

Resumindo: se os dados parecem ser normais multivariados, a estat´ıstica de classificac¸ ˜ao do lado esquerdo

(x1− x2) 0 S−1c x − 1 2(x1− x2) 0 S−1c (x1+x2)

pode ser calculada para cada nova observac¸ ˜aox0. Essas observac¸ ˜oes s ˜ao

classificadas comparando-se os valores da estat´ıstica com o valor de ln C(1|2)p2

C(2|1)p1

 .

Exemplo 2:Um bi ´ologo obteve medidas sobre n = 25 lagartos conhecidos cientificamente como Cophosaurus texanus. O peso (mass) ´e dados em gramas, enquanto que o comprimento da abertura do focinho (svl) e a extens ˜ao dos membros posteriores (hls) s ˜ao dados em mil´ımetros. Os dados est ˜ao dispon´ıveis no arquivo T1-3.DAT. Al ´em das tr ˆes medidas, o bi ´ologo identificou o g ˆenero de cada lagarto m-macho, f -f ˆemea. Construir uma regra de classificac¸ ˜ao de g ˆenero a partir das tr ˆes medidas usando os dados dispon´ıveis.(Ver lagarto.r)

(17)

Tabela:Probabilidade a prior dos grupos. Grupo 1 Grupo 2

0,48 0,52

Como nada foi dito na func¸ ˜ao do R, o mesmo adota prioris iguais `as proporc¸ ˜oes amostrais.

Tabela:Grupo de m ´edias.

Grupo mass svl hls

F ˆemea 7,012 63,042 118,000

(18)

Tabela:Coeficientes de discriminac¸ ˜ao linear. Vari ´avel LD1

mass -0,5723

svl -0,0908

hls 0,2949

Tabela:Erros de classificac¸ ˜ao. Classificac¸ ˜ao Grupo

F ˆemea Macho

F ˆemea 11 1

Macho 0 13

Observac¸ ˜ao: Especificando prioris iguais, a tabela acima n ˜ao apresentar ´a erros de classificac¸ ˜ao reaplicada a amostra de aprendizagem.

(19)

Escala

Para qualquer constante c 6= 0, o vetor cba = cS−1c (x1− x2)tamb ´em servir ´a

como coeficientes discriminantes. O vetorba ´e frequentemente “normalizado” para facilitar a interpretac¸ ˜ao de seus elementos. Duas das normalizac¸ ˜oes mais comuns s ˜ao apresentadas a seguir.

1. Fac¸a b a∗= ba p b a0ba tal queba

tenha comprimento unit ´ario.

2. Fac¸a

b

a∗= ba b a1

tal que o primeiro elemento deba

seja 1. Em ambos os casos,ba

(20)

Abordagem de Fisher para Classificac¸ ˜ao em Uma de Duas Populac¸ ˜oes

Fisher de fato chegou a estat´ıstica de classificac¸ ˜ao R1:  x (x1− x2) 0 S−1c x > 1 2(x1− x2) 0 S−1c (x1+x2)  ou R1: y|by > (y1+y2)/2 ,  b y =a0x, a = (x1− x2)0S−1c , yj=ba 0 xj  , usando um argumento completamente diferente. A ideia de Fisher foi

transformar as observac¸ ˜oes multivariadasx em observac¸ ˜oes univariadas y

tal que os y0s provenientes de π1e de π2sejam t ˜ao separados quanto

poss´ıvel.

Fisher sugeriu tomar combinac¸ ˜oes lineares dex para criar os y0s, porque elas s ˜ao func¸ ˜oes simples dex e podem ser manipuladas facilmente.

(21)

A abordagem de Fisher n ˜ao assume que as populac¸ ˜oes sejam normais. No entanto, implicitamente, assume que as matrizes de covari ˆancias das populac¸ ˜oes sejam iguais, porque uma estimativa combinada da matriz de covari ˆancias ´e usada.

Uma combinac¸ ˜ao linear fixada dex toma os valores y11,y12, . . . ,y1n1para as

observac¸ ˜oes de π1e os valores y21,y22, . . . ,y2n2para as observac¸ ˜oes de π2.

A separac¸ ˜ao destes dois conjuntos de valores univariados ´e avaliada em func¸ ˜ao da diferenc¸a entre as m ´edias amostrais y1e y2expressa em unidades de desvio padr ˜ao.

Separac¸ ˜ao = |y1− y2| sy com s2y = 1 n1+n2− 2 hXn1 i=1(y1i− y1) 2 +Xn2 i=1(y2i− y2) 2i .

O objetivo ´e selecionar a combinac¸ ˜ao linear dex que alcanc¸a a separac¸ ˜ao

(22)

Proposic¸ ˜ao 3:A combinac¸ ˜ao linear y =ba

0

x = (x1− x2)0S−1c x maximiza a raz ˜ao

dist ˆancia quadrada entre m ´edias vari ˆancia amostral de y =

(y1− y2) 2 s2 y =(ba 0 d)2 b a0Scba .

Regra de Alocac¸ ˜ao: Func¸ ˜ao Discriminante (Linear) de Fisher

Sejam b y0 = (x1− x2)0S−1c x0 b m = 1 2(x1− x2) 0 S−1c (x1+x2) = 1 2(y1+y2). Aloquex0a π1seby0>m.b Caso contr ´ario, aloquex0a π2.

(23)

Classificac¸ ˜ao ´

E Uma Boa Ideia?

Para duas populac¸ ˜oes, a separac¸ ˜ao m ´axima relativa que pode ser obtida considerando-se combinac¸ ˜oes lineares das observac¸ ˜oes multivariadas ´e igual a dist ˆancia

D2= (x1− x2) 0

S−1c (x1− x2).

Isto ´e conveniente, porque D2pode ser usada, em certas situac¸ ˜oes, para testar se as m ´edias das populac¸ ˜oes π1e π2diferem sigificativamente.

Consequentemente, um teste de diferenc¸a entre vetores de m ´edia pode ser visto como um teste para a “signific ˆancia” da separac¸ ˜ao que pode ser alcanc¸ada.

(24)

Suponha que as populac¸ ˜oes π1e π2sejam normais multivariadas com uma

matriz de covari ˆancias comum Σ. Ent ˜ao, vimos que um teste de H0: µ1= µ2versus H1: µ16= µ2usa a estat´ıstica

 n1+n2− p − 1 (n1+n2− 2)p   n1n2 n1+n2  D2, que sob H0tem distribuic¸ ˜ao Fp,n1+n2−p−1.

Se H0 ´e rejeitada, podemos concluir que a separac¸ ˜ao entre as duas

populac¸ ˜oes ´e significante.

Observac¸ ˜ao:Separac¸ ˜ao significante n ˜ao necessariamente implicar ´a em boa classificac¸ ˜ao. A efic ´acia de um procedimento de classificac¸ ˜ao pode ser avaliada independentemente de qualquer teste de separac¸ ˜ao. Em contraste, se a separac¸ ˜ao n ˜ao ´e significante, a busca por uma regra de classificac¸ ˜ao ´util ser ´a, provavelmente, infrut´ıfera.

(25)

Classificac¸ ˜ao de Populac¸ ˜oes Normais - Caso Σ

1

6= Σ

2

As regras de classificac¸ ˜ao s ˜ao mais complicadas quando as matrizes de covari ˆancias das populac¸ ˜oes s ˜ao desiguais. Considere novamente a raz ˜ao das densidades normais multivariadas, agora considerando as covari ˆancias desiguais. Neste caso, os fatores fora do termo exponencial n ˜ao simplificam e n ˜ao ´e poss´ıvel colocar o termo dentro da exponencial em evid ˆencia. f1(x) f2(x) = |Σ2| |Σ1| 1/2 exp  −1 2 h (x − µ1) 0 Σ−11 (x − µ1) + (x − µ2) 0 Σ−12 (x − µ2) i . Nesse caso, as regi ˜oes de classificac¸ ˜ao, segundo o crit ´erio do custo

esperado de classificac¸ ˜ao incorreta m´ınimo, ser ˜ao dadas por (na escala logaritmo natural):    R1: R1: − 1 2x 0 (Σ−11 − Σ−12 )x + (µ0 1Σ −1 1 − µ 0 2Σ −1 2 )x − k > ln  C(1|2) C(2|1) p2 p1  ; R2: caso contr ´ario,

com k =1 2ln  |Σ2| |Σ1|  +1 2(µ 0 1Σ −1 1 µ1− µ 0 2Σ −1 2 µ2).

(26)

As regi ˜oes de classificac¸ ˜ao s ˜ao quadr ´aticas emx. Quando Σ1= Σ2, o termo

quadr ´aticox0

(Σ−11 − Σ−1

2 )x se anula, e as regi ˜oes resultantes s ˜ao aquelas

obtidas anteriormente no caso de vari ˆancias iguais.

Proposic¸ ˜ao 4:Sob normalidade multivariada com covari ˆancias desiguais, aloquex0a π1se −1 2x 0 0(Σ−11 − Σ −1 2 )x0+ (µ01Σ −1 1 − µ 0 2Σ −1 2 )x0− k > ln  C(1|2) C(2|1) p2 p1  . Caso contr ´ario, aloquex0a π2.

Na pr ´atica, a regra de classificac¸ ˜ao acima ´e implementada substituindo-se os par ˆametros populacionais por estimativasx1,x2eS1eS2.

Regra de Classificac¸ ˜ao Quadr ´atica

Populac¸ ˜oes normais, covari ˆancias desiguais: Aloquex0a π1se −1 2x 0 0(S−11 − S −1 2 )x0+ (x 0 1S−11 − x 0 2S−12 )x0− k > ln  C(1|2) C(2|1) p2 p1  . Caso contr ´ario, aloquex0a π2.

(27)

Classificac¸ ˜ao com func¸ ˜oes quadr ´aticas ´e bem complicada quando se tem mais de duas medidas e pode levar a resultados estranhos. Isto ´e particularmente verdade quando os dados n ˜ao s ˜ao (essencialmente) normais multivariados.

As regi ˜oes de classificac¸ ˜ao podem ser uma uni ˜ao de regi ˜oes disjuntas do espac¸o amostral.

Em muitas aplicac¸ ˜oes, a cauda inferior da distribuic¸ ˜ao de π1ser ´a menor do

que a prescrita por uma distribuic¸ ˜ao normal e a regra quadr ´atica poder ´a levar a altas taxas de erro de classificac¸ ˜ao. Uma desvantagem s ´eria da regra quadr ´atica ´e que ela ´e bem sens´ıvel a desvios da normalidade.

Se os dados n ˜ao s ˜ao normais multivariados, duas opc¸ ˜oes est ˜ao dispon´ıveis. A primeira, envolve transformar os dados n ˜ao normais, e depois testar a igualdade das matrizes de covari ˆancias para verificar se ´e a regra linear ou a quadr ´atica que devem ser usadas.

Os testes usuais para homogeneidade das covari ˆancias s ˜ao fortemente afetados sob n ˜ao normalidade. A convers ˜ao de dados n ˜ao normais para dados normais deve sempre ser feita antes de realizar tais testes.

(28)

Como segunda opc¸ ˜ao, podemos usar uma regra linear (ou quadr ´atica) sem nos preocuparmos com a forma das distribuic¸ ˜oes populacionais e esperar que elas ir ˜ao funcionar razoavelmente bem.

Estudos mostraram, por ´em, que existem casos n ˜ao normais para os quais uma func¸ ˜ao de classificac¸ ˜ao linear tem uma performance ruim, mesmo se as matrizes de covari ˆancias das duas populac¸ ˜oes s ˜ao iguais.

Moral da hist ´oria: sempre verificar a performance de qualquer procedimento de classificac¸ ˜ao. Em ´ultimo caso, isto deve ser feito com o conjunto de dados usado para construir a regra. O ideal ´e que se tenha uma quantidade de dados suficientemente grande que podem ser repartidos em amostras de treinamento e de validac¸ ˜ao. A amostra de treinamento/aprendizagem ´e usada para construir a regra, e a amostra de validac¸ ˜ao ´e usada para avaliar a performance da regra constru´ıda.

(29)

Exerc´ıcios do cap´ıtulo 11 para entregar:

1, 3 a 18.

(30)

Avaliac¸ ˜ao das Func¸ ˜oes de Classificac¸ ˜ao

A avaliac¸ ˜ao envolve calcular taxas de erro ou probabilidades de classificac¸ ˜ao incorreta.

Como as densidades s ˜ao em geral desconhecidas, concentraremo-nos sobre as taxas de erro associadas `a func¸ ˜ao de classificac¸ ˜ao amostral. Taxa de Erro ´Otima (TEO) - regra de classificac¸ ˜ao segundo o crit ´erio da probabilidade total de classificac¸ ˜ao incorreta (PTCI) m´ınima.

TEO = p1 Z R2 f1(x)d x + p2 Z R1 f2(x)d x

(31)

Exemplo 3:Suponha duas populac¸ ˜oes normais multivariadas com matrizes de covari ˆancias iguais, p1=p2=1/2 e tamb ´em C(2|1) = C(1|2) tal que

lnC(1|2)C(2|1)p2 p1  =0. Neste caso, R1:  x (µ1− µ2) 0 Σ−1x >1 2(µ1− µ2) 0 Σ−1(µ1+ µ2)  ou R1:  x a 0 x >1 2a 0 (µ1+ µ2)  . Fazendo Y =a0X teremos σY2 =a 0 Σa = δ2.

(32)

PTCI = 1 2 Z R2 f1(x)d x + 1 2 Z R1 f2(x)d x = Φ  −δ 2  . Se δ2=2, 56, teremos PTCI = Φ(−0, 8) = 0, 2119.

A regra de classificac¸ ˜ao aqui ir ´a alocar cerca de 21% dos itens incorretamente.

Este exemplo ilustra como a TEO pode ser calculada quando as func¸ ˜oes de densidade s ˜ao conhecidas. Como em geral os par ˆametros populacionais s ˜ao desconhecidos, eles dever ˜ao ser estimados e a avaliac¸ ˜ao da taxa de erro n ˜ao ser ´a t ˜ao direta.

A performance da func¸ ˜ao de classificac¸ ˜ao amostral pode, em princ´ıpio, ser avaliada calculando-se a taxa de erro real (TER).

(33)

TER = p1 Z b R2 f1(x)d x + p2 Z b R1 f2(x)d x. b

R1e bR2s ˜ao as regi ˜oes de classificac¸ ˜ao determinadas pelas amostras de

tamanhos n1e n2, respectivamente.

A TER indica como a func¸ ˜ao de clasificac¸ ˜ao amostral se comportar ´a em amostras futuras. Como a TEO, geralmente ela n ˜ao poder ´a ser calculada, pois depende das densidades f1e f2. Por ´em, uma estimativa de uma

quantidade relacionada a TER pode ser calculada e ser ´a apresentada aqui. A taxa de erro real aparente (TERA) pode ser calculada a partir da matriz de “confus ˜ao” (tabela de dupla entrada indicando as frequ ˆencias de

(34)

Classificac¸ ˜ao em Populac¸ ˜ao π1 π2 π1 n1c n1M =n1− n1c π2 n2M =n2− n2c n2c TERA = n1M+n2M n1+n2 .

Observe que a TERA nada mais ´e do que a proporc¸ ˜ao amostral de classificac¸ ˜oes incorretas considerando-se a amostra de treinamento. A TERA ´e uma medida intuitiva e simples, mas tem um vi ´es: tende a subestimar a TER, a menos que n1e n2sejam suficientemente grandes.

Estimativas de taxas de erro melhores do que a TERA e que n ˜ao exigem a suposic¸ ˜ao das distribuic¸ ˜oes populacionais podem ser constru´ıdas.

Um procedimento ´e dividir a amostra total em uma amostra de treinamento e outra de validac¸ ˜ao. A amostra de treinamento ´e usada para construir a func¸ ˜ao de classificac¸ ˜ao e, a de validac¸ ˜ao, para avaliar a func¸ ˜ao obtida. A taxa de erro ´e determinada pela porporc¸ ˜ao amostral de classificac¸ ˜oes incorretas na amostra de validac¸ ˜ao.

(35)

Apesar deste m ´etodo superar o problema do vi ´es, ele padece de dois defeitos:

1. requer amostras muito grandes;

2. a func¸ ˜ao avaliada n ˜ao ´e a func¸ ˜ao de interesse. Em ´ultima an ´alise, quase todos os dados devem ser usados para construir a regra. Caso

contr ´ario, informac¸ ˜ao importante pode estar sendo desperdic¸ada. Uma segunda abordagem, que parece funcionar bem, ´e chamada procedimento de validac¸ ˜ao “reter um fora” (holdout) de Lachenbruch.

1. Comece em π1. Omita uma de suas observac¸ ˜oes e desenvolva a func¸ ˜ao

de classificac¸ ˜ao com as restantes n1− 1 + n2. 2. Classifique a observac¸ ˜ao omitida com a func¸ ˜ao obtida.

3. Repita os passos (1) e (2) at ´e que todas as observac¸ ˜oes de π1sejam

classificadas. Defina n(H)1M como o n ´umero de classificac¸ ˜oes incorretas neste grupo.

4. Repita os passos (1), (2) e (3) para as observac¸ ˜oes de π2e defina n (H) 2M

como o n ´umero de classificac¸ ˜oes incorretas neste grupo. \ Pr(2|1) =n (H) 1M n1 , Pr(1|2) =\ n (H) 2M n2 e \PTCI = n (H) 1M +n (H) 2M n1+n2 .

(36)

Para amostras moderadas [PTCI ´e uma estimativa n ˜ao viesada do valor esperado da TERA (taxa de erro aparente).

Deve ser intuitivamente claro que classificac¸ ˜ao boa (taxas de erro pequenas) depender ´a da separac¸ ˜ao dos grupos. O mais separados s ˜ao os grupos, mais provavelmente uma regra de classificac¸ ˜ao ´util ser ´a desenvolvida. Como veremos, regras de alocac¸ ˜ao apropriadas para o caso envolvendo probabilidades a priori iguais e custos de classificac¸ ˜ao incorreta iguais correspondem `as func¸ ˜oes designadas para populac¸ ˜oes separadas o m ´aximo poss´ıvel. ´E nesta situac¸ ˜ao que comec¸amos a perder a distinc¸ ˜ao entre classificac¸ ˜ao e separac¸ ˜ao.

(37)

Classificac¸ ˜ao em Uma de g Populac¸ ˜oes

(g > 2)

Pelo menos em teoria, a extens ˜ao para a classificac¸ ˜ao em um de g grupos, g > 2 ´e imediata. Por ´em, n ˜ao muito ´e conhecido sobre as propriedades das func¸ ˜oes de classificac¸ ˜ao amostrais correspondentes, e em particular, sobre suas taxas de erro investigadas.

A “robustez” da estat´ıstica linear de classificac¸ ˜ao em dois grupos para, por exemplo, covari ˆancias desiguais ou distribuic¸ ˜oes n ˜ao normais pode ser estudada a partir de experimentos simulados. Para mais de duas populac¸ ˜oes, esta abordagem n ˜ao leva a conclus ˜oes gerais, porque as propriedades dependem sobre onde as populac¸ ˜oes est ˜ao localizadas, e existem muitas configurac¸ ˜oes para serem convenientemente estudadas. Como antes, a abordagem aqui ser ´a desenvolver regras ´otimas te ´oricas e, ent ˜ao indicar as modificac¸ ˜oes exigidas para as aplicac¸ ˜oes reais.

(38)

Regra do Custo Esperado de Classificac¸ ˜ao Incorreta M´ınimo

Notac¸ ˜ao:

I fk(x) - func¸ ˜ao de densidade de probabilidade conjunta para o k - ´esimo

grupo, k = 1, 2, . . . , g.

I p1,p2, . . . ,pg- probabiliades a priori de cada grupo tais que pk >0, ∀k e

Pg

k =1pk =1.

I C(k |j) - custo de classificac¸ ˜ao incorreta de uma observac¸ ˜ao de πjem

πk, ∀j, k = 1, 2, . . . , g e j 6= k . Se j = k , ent ˜ao c(k |k ) = 0.

I Rk - regi ˜ao de classificac¸ ˜ao em πk tal que ∪ g

k =1Rk = Ω, Rj∩ Rk = ∅para

j 6= k .

A probabilidade de classificar uma observac¸ ˜ao de πjem πk ´e

Pr(k |j) = Z Rk fj(x)d x para k ∈ {1, 2, ..., g}, k 6= j e Pr(j|j) = 1 − g X k =1,k 6=j Pr(k |j).

(39)

O custo esperado de classificac¸ ˜ao incorreta de uma observac¸ ˜ao proveniente de π1ser ´a dado por

CECI(1) = Pr(2|1)C(2|1) + Pr(3|1)C(3|1) + · · · + Pr(g|1)C(g|1)

= Xg

k =2P(k |1)c(k |1).

Este custo esperado condicional ocorre com probabilidade p1, a

probabilidade a priori de π1.

De maneira similar, podemos obter os custos esperados de classificac¸ ˜ao incorreta condicionais CECI(2), CECI(3), . . . , CECI(g).

Multiplicando os custos condicionais pelas respectivas probabilidades a priori temos o custo esperado de classificac¸ ˜ao incorreta dado por

CECI =Xg j=1pj Xg k =1,k 6=jPr(k |j)C(k |j)  .

(40)

Proposic¸ ˜ao 5:As regi ˜oes de classificac¸ ˜ao que minimizam o custo esperado de classificac¸ ˜ao incorreta s ˜ao definidas por

I Aloquex a πj, j = 1, 2, . . . , g na qual

Xg

j=1,j6=kpjfj(x)C(k |j) ´e um m´ınimo.

I Se os custos de classificac¸ ˜ao incorreta s ˜ao todos iguais a unidade, observe que a regra alocar ´ax `a populac¸ ˜ao πk, k = 1, 2, . . . , g para a

qual,

Xg

j=1,j6=kpjfj(x) ´e um m´ınimo.

Observe que esta soma ser ´a um m´ınimo se o termo deixado de fora, pkfk(x),

(41)

Regra do CECI M´ınimo para Custos de Classificac¸ ˜ao Incorreta Iguais

I Aloquex0 `a populac¸ ˜ao πk se

pkfk(x0) >pjfj(x0), ∀j 6= k ,

ou equivalentemente,

I Aloquex0 `a populac¸ ˜ao πk se

ln (pkfk(x0)) >ln (pjfj(x0)) , ∀j 6= k .

Esta regra ´e equivalente `a regra que maximiza a probabilidade a posteriori Pr(πk|x0).

Deve-se ter em mente que as regras do CECI m´ınimo t ˆem tr ˆes componentes: probabilidades a priori, custos de classificac¸ ˜ao incorreta e func¸ ˜oes de densidade. Estes componentes devem ser especificados (ou estimados) antes da regra poder ser implementada.

(42)

Exemplo 4: (Classificac¸ ˜ao de nova observac¸ ˜ao em uma de tr ˆes populac¸ ˜oes conhecidas)

Suponha os seguintes custos de classificaC¸ ˜ao incorreta, probabilidades a priori e densidades avaliadas emx0uma nova observac¸ ˜ao.

Classificac¸ ˜ao em Populac¸ ˜ao π1 π2 π3 π1 C(1|1) = 0 C(2|1) = 10 C(3|1) = 50 π2 C(1|2) = 500 C(2|2) = 0 C(3|2) = 200 π3 C(1|3) = 100 C(2|3) = 50 C(3|3) = 0 Prioris p1=0, 05 p2=0, 60 p3=0, 35 fj(x0) f1(x0) =0, 01 f2(x0) =0, 85 f3(x0) =2

Classificarx0em uma das tr ˆes populac¸ ˜oes.

Usando a regra do CECI m´ınimo, alocaremosx0a πk, k = 1, 2, 3 para a qual

X3

(43)

k X3

j=1,j6=kpjfj(x)C(k |j)

1 325

2 35,055

3 102,025

Como o menor valor ocorre para k = 2, alocamosx0a π2.

Se os custos de classificac¸ ˜ao incorreta fossem todos iguais, designar´ıamos

x0a πk, k = 1, 2, 3 na qual pkfk(x0) >pjfj(x0), ∀j 6= k .

k pkfk(x0)

1 0,0005

2 0,5100

3 0,7000

(44)

Classificac¸ ˜ao com Populac¸ ˜oes Normais

fk(x) = (2π)−p/2|Σk|−1/2exp{− 1 2(x − µk) 0 Σ−1k (x − µk)}, k = 1, 2, . . . , g.

Se considerarmos todos os custos iguais a unidade, a regra resultante ser ´a:

I Aloquex0a πk se ln(pkfk(x0)) = ln pk− p 2ln(2π) − 1 2ln |Σk| − 1 2(x − µk) 0 Σ−1k (x − µk) = max 16j6gln(pjfj(x0))

A constante p ln(2π)/2 pode ser desprezada, pois ela ´e igual para todas as populac¸ ˜oes. Portanto, podemos definir um escore discriminante quadr ´atico para a k - ´esima populac¸ ˜ao dado por

dkQ(x) = ln pk− 1 2ln |Σk| − 1 2(x − µk) 0 Σ−1k (x − µk), k = 1, 2, . . . , g.

O escore quadr ´atico dQ

k(x ) ´e composto pelas contribuic¸ ˜oes da vari ˆancia

generalizada |Σk|, da probabilidade a priori pk, e da dist ˆancia quadrada dex

(45)

Regra da Probabilidade Total de Classificac¸ ˜ao Incorreta M´ınima

-Populac¸ ˜oes Normais, Covari ˆancias Desiguais

I Aloquex0a πk se o escore quadr ´atico

dkQ(x0) = max 16j6g{d

Q j (x0)}.

Na pr ´atica µk e Σk s ˜ao desconhecidas para todo k = 1, 2, . . . , g, mas um

conjunto de treinamento cujas classificac¸ ˜oes corretas das observac¸ ˜oes s ˜ao conhecidas est ´a em geral dispon´ıvel para a construc¸ ˜ao de estimativas. As quantidades amostrais relevantes para a populac¸ ˜ao πk s ˜aoxk eSk com nk o

n ´umero de observac¸ ˜oes da k - ´esima populac¸ ˜ao. b dkQ(x) = ln pk− 1 2ln |Sk| − 1 2(x − xk) 0 S−1k (x − xk), k = 1, 2, . . . , g.

Assim, a regra estimada ´e alocarx0a πk se o escore quadr ´atico estimado

b

dkQ(x0) = max 16j6g{bd

Q j (x0)}.

(46)

Uma simplificac¸ ˜ao aqui ´e poss´ıvel para o caso em que Σ1= Σ2= · · · = Σg = Σ.

Neste caso os escores discriminantes passam a ser lineares emx e

simplificam para dk(x) = ln pk+ µ0kΣ −1x −1 2µ 0 kΣ −1 µk, k = 1, 2, . . . , g.

Uma estimativa de dk(x) ´e baseada em Sc=

1

n1+n2+ · · · +ng− g

Xg

k =1(nk− 1)Sk

e ´e dada por b dk(x) = ln pk+x 0 kS−1c x − 1 2x 0 kS−1c xk, k = 1, 2, . . . , g.

Consequentemente, temos a regra estimada dada por “aloquex0a πk se

b

dk(x0) = max

(47)

M ´etodo de Discriminac¸ ˜ao de Fisher para V ´arias Populac¸ ˜oes

O prop ´osito principal na an ´alise discriminante de Fisher (ADF) ´e separar populac¸ ˜oes (grupos). No entanto, como veremos, o produto final pode levar a uma regra de classificac¸ ˜ao. Na ADF n ˜ao ´e necess ´ario supor a normalidade das g populac¸ ˜oes, embora sup ˜oe-se que as covari ˆancias sejam iguais. Denote µ o vetor de m ´edias combinado das g populac¸ ˜oes, isto ´e,

µ = 1 g

Xg

k =1µk.

Denote a matrizBµa matriz p × p de somas de quadrados e produtos

cruzados Bµ= Xg k =1(µk− µ)(µk− µ) 0 .

Fac¸a Y =a0X tal que E(Y |πk) =a0µk e Var(Y |πk) =aa, k = 1, 2, . . . , g.

Consequentemente µkY =a0µkdepende da populac¸ ˜ao na qualX foi

observada. M ´edia Global: µY =a 01 g Xg k =1µk =a 0 µ.

(48)

Medida de separac¸ ˜ao dos grupos: Xg k =1(µkY− µY) 2 σ2 Y = Pg k =1(a 0 µk− a0µ)2 a0Σa = 0 Bµa a0Σa.

Esta raz ˜ao mede a variabilidade entre os grupos de valores de Y relativa `a variabilidade comum dentro dentro dos grupos.

Podemos selecionara que maximiza esta raz ˜ao.

Em geral Σ e µk s ˜ao desconhecidos, mas disp ˜oe-se de uma amostra de

treinamento a partir da qual podemos estimar estas quantidades. Sejamxk,Sk as estimativas em cada grupo e

x = 1 g g X k =1 xk, b Bµ = Xg k =1(xk− x)(xk− x) 0 e c W = Xg k =1 Xnk j=1(xjk− xk)(xjk− xk) 0 .

(49)

Discriminantes Lineares Amostrais de Fisher (DALF)

Sejam bλ1, bλ2, . . . , bλs, s ≤ min{g − 1, p} autovalores n ˜ao-nulos de cW −1

b

Bµe

b

v1,vb2, . . . ,vbs os autovetores correspondentes tal que (vb

0

kS−1c vbk =1).

Ent ˜ao, o vetorba que maximiza a raz ˜ao

a0Ba a0

c

W a ´e dado porba1=bv1.

A combinac¸ ˜ao linearba

0

1x ´e chamada primeiro discriminante amostral.

A escolhaba2=vb2produz o segundo discriminante amostral e continuamos at ´e obter o k - ´esimo discriminante amostralbak =vbk, k ≤ s.

(50)

Coment ´arios Finais

Regress ˜ao Log´ıstica

As func¸ ˜oes de classificac¸ ˜ao discutidas at ´e aqui s ˜ao baseadas em vari ´aveis quantitativas. A regress ˜ao log´ıstica ´e uma abordagem apropriada para classificac¸ ˜ao quando algumas ou todas as vari ´aveis s ˜ao qualitativas. Na sua configurac¸ ˜ao mais simples, a vari ´avel resposta Y est ´a restrita a dois valores. Por exemplo, Y pode representar g ˆenero: macho/f ˆemea, ou

empregado/desempregado, aprovado/reprovado, etc.

Quando a resposta assume apenas dois valores poss´ıveis ´e comum

codific ´a-la como 0 ou 1 e, o interesse passa a ser estimar a probabilidade da vari ´avel assumir o valor 1 dado o vetor de covari ´aveisx, que representa a

proporc¸ ˜ao na populac¸ ˜ao codificada com o valor 1.

Esta modelagem pode ent ˜ao ser usada para fins de classificac¸ ˜ao em um de dois grupos, e a ideia pode ser estendida para v ´arios grupos, substituindo a dsitribuic¸ ˜ao binomial pela multinomial.

(51)

Inclus ˜ao de Vari ´aveis Qualitativas

Neste cap´ıtulo assumimos que as vari ´aveis de discriminac¸ ˜ao X1,X2, . . . ,Xp

s ˜ao cont´ınuas. Com frequ ˆencia, uma vari ´avel qualitativa ou categ ´orica pode ser ´util como vari ´avel discriminante (classificadora). Esta situac¸ ˜ao ´e

frequentemente contornada criando-se uma vari ´avel X cujo valor num ´erico ´e 1 se o objeto possui a tal caracter´ıstica e zero, caso contr ´ario. A vari ´avel ´e, ent ˜ao, tratada como uma vari ´avel de medida nos procedimentos de classificac¸ ˜ao e discriminac¸ ˜ao usuais.

Exceto para classificac¸ ˜ao log´ıstica, h ´a pouca teoria dispon´ıvel para lidar com o caso em que algumas vari ´aveis s ˜ao cont´ınuas e outras s ˜ao qualitativas. Experimentos de simulac¸ ˜ao indicaram que a func¸ ˜aoo discriminante linear de Fisher pode comportar-se tanto pobremente como satisfatoriamente, dependendo das correlac¸ ˜oes entre as vari ´aveis cont´ınuas e qualitativas. Krzanowski: “Uma correlac¸ ˜ao baixa em uma populac¸ ˜ao, mas uma correlac¸ ˜ao alta na outra, ou uma mudanc¸a no sinal das correlac¸ ˜oes entre as duas populac¸ ˜oes poderiam indicar condic¸ ˜oes desfavor ´aveis `a func¸ ˜ao discriminante linear de Fisher”. Esta ´e uma ´area problem ´atica e que precisa de mais estudo.

(52)

´

Arvores de Classificac¸ ˜ao

Uma abordagem de classificac¸ ˜ao completamente diferente dos m ´etodos discutidos aqui foi desenvolvida. (Breiman, L., 1. Friedman, R Olshen, and C. Stone. Classification and Regression Trees. Belmont, CA: Wadsworth, Inc., 1984.) Ela ´e computacionalmente intensiva. A abordagem, chamada ´arvore de classificac¸ ˜ao e regress ˜ao (CART), ´e proximamente relacionada com as t ´ecnicas de conglomerac¸ ˜ao divisivas.(Cap´ıtulo 12 do livro texto).

Inicialmente, todos os objetos s ˜ao considerados em um ´unico grupo. O grupo ´e ent ˜ao dividido em dois subgrupos, usando, por exemplo, altos valores de uma vari ´avel para um grupo e baixos valores dessa mesma vari ´avel para o outro grupo. Os dois subgrupos s ˜ao ent ˜ao cada um dividido novamente, agora usando valores de uma segunda vari ´avel. O processo de divis ˜ao continua at ´e que um ponto de parada adequado seja atingido. Os valores das vari ´aveis divisoras podem ser categorias ordenados ou n ˜ao. ´E este aspecto que torna o CART t ˜ao geral.

(53)

Redes Neurais

Uma rede neural ´e um procedimento computacional intensivo para transformar entradas em sa´ıdas programadas usando redes altamente conectadas de unidades de processamento relativamente simples (neur ˆonios ou n ´os). Suas tr ˆes caracter´ısticas essenciais s ˜ao as unidades b ´asicas de computac¸ ˜ao (neur ˆonios ou n ´os), a arquitetura da rede

descrevendo as conex ˜oes entre as unidades de computac¸ ˜ao, e o algoritmo de treinamento usado para encontrar valores dos par ˆametros da rede (pesos) para realizar uma tarefa particular.

As unidades de computac¸ ˜ao s ˜ao conectadas umas `as outras no sentido de que a sa´ıda de uma unidade pode servir como entrada para outra unidade. Cada unidade de computac¸ ˜ao transforma uma entrada em uma sa´ıda usando alguma func¸ ˜ao pr ´e-especificada que ´e tipicamente mon ´otona, mas de alguma forma arbitr ´aria. Esta func¸ ˜ao depende de constantes

(par ˆametros) cujos valores devem ser determinados com um conjunto de treinamento de entradas e sa´ıdas.

(54)

Arquitetura da rede ´e a organizac¸ ˜ao das unidades computacionais e os tipos de conex ˜ao permitidos. Em aplicac¸ ˜oes estat´ısticas, as unidades

computacionais s ˜ao arrumadas em uma s ´erie de camadas com conex ˜oes entre n ´os em camadas diferentes, mas n ˜ao entre n ´os da mesma camada. A camada que recebe as entradas iniciais ´e chamada camada de entrada. A camada final ´e chamada camada de sa´ıda. Todas as camadas entre as camadas de entrada e sa´ıda s ˜ao chamadas camadas ocultas.

Redes Neurais podem ser usadas para discriminac¸ ˜ao e classificac¸ ˜ao. Quando elas s ˜ao usadas com este fim, as vari ´aveis de entrada s ˜ao as medidas X1,X2, . . . ,Xp, e a vari ´avel de sa´ıda ´e a vari ´avel categ ´orica que

indica de qual grupo veio a observac¸ ˜ao de entrada. A experi ˆencia inidca que redes neurais apropriadamente constru´ıdas comportam-se t ˜ao bem quanto `a regress ˜ao log´ıstica e as func¸ ˜oes discriminantes discutidas aqui. Os autores sugerem a seguinte refer ˆencia para uma boa discuss ˜ao do uso de redes neurais em aplicac¸ ˜oes da estat´ıstica: Stem, H. S. Neural Networks in Applied Statistics. Technometrics, 38, (1996), 205-214.

(55)

Selec¸ ˜ao de Vari ´aveis

Em algumas aplicac¸ ˜oes da an ´alise discriminante, os dados est ˜ao dispon´ıveis para um grande n ´umero de vari ´aveis. Mucciardi e Gose (A Comparison of Seven Techniques for Choosing Subsets of Pattern Recognition Properties. IEEE Trans. Computers, C20 (1971), 1023-1031.) estudaram uma an ´alise discriminante baseada em 157 vari ´aveis. Neste caso, seria obviamente desej ´avel selecionar um subconjunto menor de vari ´aveis que contivesse quase toda a informac¸ ˜ao original para efeitos da classificac¸ ˜ao. Este ´e o prop ´osito da an ´alise discriminante passo-a-passo stepwise, e v ´arios programas de computador disp ˜oem destas func¸ ˜oes de selec¸ ˜ao de vari ´avel.

(56)

Se uma an ´alise discriminante stepwise (ou qualquer outro m ´etodo de selec¸ ˜ao) ´e empregado, os resultados devem ser interpretados com cautela. (Veja Murray, G. D. A Cautionary Note on Selection of Variables in

Discriminant Analysis. Applied Statistics, 26, no. 3 (1977),246-250.) N ˜ao h ´a garantia de que o subconjunto selecionado seja o “melhor”, sem olhar o crit ´erio usado para fazer a selec¸ ˜ao. Por exemplo, subconjuntos selecionados com base na minimizac¸ ˜ao da taxa de erro aparente ou maximizac¸ ˜ao do “poder de discriminac¸ ˜ao” podem comportar-se pobremente em amostras futuras. Problemas associados com procedimentos de selec¸ ˜ao de vari ´aveis s ˜ao ampliados se existem correlac¸ ˜oes altas entre as vari ´aveis ou entre ombinac¸ ˜oes lineares das vari ´aveis.

(57)

A escolha de um subconjunto de vari ´aveis que parece ser ´otima para um dado conjunto de dados ´e especialmente preocupante se a classificac¸ ˜ao ´e o objetivo. No m´ınimo, a func¸ ˜ao de classificac¸ ˜ao obtida deve ser avaliada com uma amostra de validac¸ ˜ao. Como Murray (1977) sugeriu, uma ideia melhor pode ser dividir a amostra em um n ´umero de lotes e determinar o “melhor” subconjunto para cada lote. O n ´umero de vezes que uma dada vari ´avel aparece nos melhores subconjuntos fornece uma medida do valor dessa vari ´avel para classificac¸ ˜oes futuras.

(58)

Exerc´ıcios do cap´ıtulo 11 para entregar:

2, 24 a 28.

Referências

Documentos relacionados

Diante de tal contexto, em 2011 foi criado e estruturado o “Núcleo de Assistência Social, Jurídica e de Estudos sobre a Pessoa Idosa” – NASJEPI, Projeto

9.1 O Congresso de Iniciação Científica de Ensino Médio da UnB é o evento de conclusão das atividades do Programa e será realizado após o término de

As pinças de elevação CH, CHE e CHNM da Gunnebo Lifting são adequadas apenas para movimentos horizontais e de elevação de estruturas e placas de aço não dobráveis em que seja

ATLETA ENTIDADE TOTAL FABIO ORLANDO DA SILVA ASL 6.. TABELA

O ângulo de repouso aumenta com a maior quantidade de impurezas finas e a porosidade intergranular aumenta com a presença de impurezas grossas; a massa específica aparente é

Sousa Li-Chang (2005) aponta dezesseis critérios que, segundo ela, representam uma síntese descritiva daqueles que são observados nas publicações sobre esportes. Para a autora, a

Consiste em entrevistar pai, mãe ou responsável para extrair o máximo de informações possíveis sobre o sujeito, realizando uma posterior Análise e levantamento do

algumas semanas da prova, será enviado um relatório com a classificação obtida nas diversas competências avaliadas, assim como um diploma com a nota final no caso do aluno