Ralph S. Silva
http://www.im.ufrj.br/ralph/multivariada.html
Departamento de M ´etodos Estat´ısticos
Instituto de Matem ´atica
Universidade Federal do Rio de Janeiro
Sum ´ario
T ´ecnicas multivariadas que dizem respeito `a “separac¸ ˜ao” de conjuntos distintos de objetos (ou observac¸ ˜oes) e `a alocac¸ ˜ao de novos objetos (observac¸ ˜oes) a grupos previamente definidos.
Podemos enumerar os principais objetivos aqui como:
Discriminac¸ ˜ao: Descrever grafica e algebricamente os aspectos que diferenciam os grupos de objetos (observac¸ ˜oes). Determinar “discriminantes” entre grupos.
Classificac¸ ˜ao: Alocar objetos em classes previamente definidas. A ˆenfase aqui est ´a na construc¸ ˜ao de uma regra que pode ser usada para designar de forma ´otima um novo objeto `as classes existentes.
Exemplo 1: (Diagn ´ostico m ´edico)Suponha que disp ˜oe-se de uma amostra de n fichas de pacientes para os quais foram registrados p sintomas que podem ser representados por um vetorx e cujo diagn ´ostico foi uma
entre k doenc¸as poss´ıveis. Um novo paciente apresenta vetor de sintomas
x0. Como utilizar a informac¸ ˜ao amostral para diagnosticar a doenc¸a do novo
paciente?
Uma func¸ ˜ao que separa objetos pode servir algumas vezes como
“alocadora” e, reciprocamente, uma regra que aloca objetos pode sugerir um procedimento de discriminac¸ ˜ao.
Na pr ´atica, os dois principais objetivos se sobrep ˜oem e a distinc¸ ˜ao entre separac¸ ˜ao e alocac¸ ˜ao fica obscurecida.
Separac¸ ˜ao e Classificac¸ ˜ao para o Caso de Duas Populac¸ ˜oes
Sejam π1e π2as duas populac¸ ˜oes.
Os objetos s ˜ao separados ou classificados com base em p medidas
X0= (X1,X2, . . . ,Xp). Os valores observadosx diferem de alguma forma de
uma populac¸ ˜ao para outra.
Sex vem da populac¸ ˜ao π1dizemos que a distribuic¸ ˜ao caracterizada pela
densidade de probabilidade conjunta deX ´e dada por f1(x), caso contr ´ario, a
densidade ´e dada por f2(x).
As regras de classificac¸ ˜ao costumam ser desenvolvidas a partir de amostras de aprendizagem: amostras para as quais a classificac¸ ˜ao de todos os elementos ´e conhecida.
Essencialmente, o conjunto de todos os resultados amostrais ´e dividido em duas regi ˜oes complementares, R1e R2tal que se uma nova observac¸ ˜ao cair
Regras de classificac¸ ˜ao n ˜ao fornecem m ´etodos livres de erro. Muitas vezes n ˜ao ´e clara a distinc¸ ˜ao entre as medidas observadas de cada populac¸ ˜ao: os grupos podem se sobrepor de alguma forma. Logo, ser ´a poss´ıvel classificar um objeto de π2em π1e vice-versa.
Um bom procedimento de classificac¸ ˜ao deve resultar numa taxa de erro de classificac¸ ˜ao pequena.
Probabilidades a Priori
Pode ocorrer que uma populac¸ ˜ao tenha verossimilhanc¸a maior do que a outra porque uma populac¸ ˜ao ´e muito maior. A regra de classificac¸ ˜ao deve levar em conta estas “probabilidades” a priori de cada populac¸ ˜ao. Notac¸ ˜ao: Sejam pj, j = 1, 2 tal que pj >0, j = 1, 2 e p1+p2=1 tais
Custos de Classificac¸ ˜ao Incorreta
Tamb ´em pode ocorrer que classificar um objeto de π1em π2represente um
erro muito mais s ´erio do que o rec´ıproco. A regra de classificac¸ ˜ao deve levar em conta os custos de classificac¸ ˜ao incorreta.
Seja Ω o espac¸o amostral - isto ´e, a colec¸ ˜ao de todos os valores poss´ıveis do vetorx. Sejam R1⊂ Ω o conjunto de valores para o qual classificamos o
objeto com sendo de π1e, R2= Ω \R1o conjunto de valores para o qual
classificamos o objeto como sendo de π2.
Se p = 2, podemos representar graficamente esta situac¸ ˜ao.
A probabilidade condicional Pr(2|1) de classificar um objeto de π1em π2 ´e
Pr(X ∈ R2|π1) =
Z
R2
f1(x)d x = Pr(2|1).
Similarmente, a probabilidade condicional Pr(1|2) de classificar um objeto de π2em π1 ´e
Pr(X ∈ R1|π2) =
Z
R1
Desse modo, a probabilidade global de classificac¸ ˜ao incorreta pode ser obtida como a soma do produto das probabilidades condicionais por suas probabilidades a priori:
P(classificar incorretamente em π1) =Pr(X ∈ R1|π2)Pr(π2) =Pr(1|2)p2.
P(classificar incorretamente em π2) =Pr(X ∈ R2|π1)Pr(π1) =Pr(2|1)p1.
Os esquemas de classificac¸ ˜ao costumam ser avaliados em func¸ ˜ao de suas probabilidades de classificac¸ ˜ao incorreta, mas observe que estas
probabilidades ignoram os custos de classificac¸ ˜ao incorreta. Suponha a seguinte tabela de custos de classificac¸ ˜ao:
Populac¸ ˜ao Real Classificado em π1 Classificado em π2
π1 0 C(2|1)
π2 C(1|2) 0
Para qualquer regra, o custo esperado de classificac¸ ˜ao incorreta (CECI) ´e dado por
CECI = C(2|1)Pr(2|1)p1+C(1|2)Pr(1|2)p2.
Uma regra de classificac¸ ˜ao razo ´avel deve ter um CECI t ˜ao pequeno quanto poss´ıvel.
Proposic¸ ˜ao 1:As regi ˜oes R1e R2que minimizam o CECI s ˜ao definidas
pelos valores dex para os quais valem:
R1: f1(x) f2(x) > C(1|2) C(2|1) p2 p1 .
(Raz ˜ao de densidades) > (Raz ˜ao de custos) × (Raz ˜ao de probabilidades a priori). R2: f1(x) f2(x) <C(1|2) C(2|1) p2 p1 .
A implementac¸ ˜ao dessa regra requer o conhecimento da raz ˜ao de
densidades para uma nova observac¸ ˜aox0, da raz ˜ao de custos e da raz ˜ao de
probabilidades a priori. ´E, em geral, mais simples atribuir valores para as raz ˜oes do lado direito da desigualdade acima do que atribuir um valor para cada probabilidade a priori e custo de classificac¸ ˜ao incorreta.
Casos especiais da regra estabelecida pela Proposic¸ ˜ao 1:
(1a) probabilidades a priori iguais, R1:
f1(x)
f2(x) >
C(1|2) C(2|1);
(1b) custos de classificac¸ ˜ao incorreta iguais, R1: f1(x) f2(x) > p2 p1 ;
(1c) probabilidades a priori iguais e custos iguais, R1:
f1(x)
f2(x) > 1.
No caso especial (1c), observe que a regra reduz-se `a comparac¸ ˜ao de densidades tal que se f1(x0) > f2(x0),x0 ´e classificado em π1. Caso,
Outros crit ´erios podem ser usados para obter uma regra de classificac¸ ˜ao ´otima. Por exemplo, podemos ignorar os custos de classificac¸ ˜ao incorreta e escolher R1e R2que minimizam a probabilidade total de classificac¸ ˜ao
incorreta (PTCI).
PTCI = Pr(classificar incorretamente uma observac¸ ˜ao) = p1 Z R2 f1(x)d x + p2 Z R1 f2(x)d x.
Matematicamente, este problema ´e equivalente a minimizar o custo esperado de classificac¸ ˜ao incorreta quando os custos de classificac¸ ˜ao incorreta s ˜ao iguais (1b).
Poder´ıamos tamb ´em alocar uma nova observac¸ ˜aox0a populac¸ ˜ao com
maior probabilidade a posteriori Pr(πi|x0), i = 1, 2.
Pelo teorema de Bayes Pr(π1|x0) = Pr(π1ocorrer e observarmosx0) Pr(observarmosx0) = Pr(x0|π1)p1 Pr(x0|π1)p1+Pr(x0|π2)p2 = p1f1(x0) p1f1(x0) +p2f2(x0) , e Pr(π2|x0) = p2f2(x0) p1f1(x0) +p2f2(x0) . Se Pr(π1|x0) > Pr(π2|x0)
classificamosx0em π1. Caso contr ´ario, classificamosx0em π2. Observe
que essa regra ´e equivalente a regra (1b), que considera os custos de classificac¸ ˜ao incorreta iguais.
Classificac¸ ˜ao em Uma de Duas Populac¸ ˜oes Normais Multivariadas
Primeiro, suponha que as populac¸ ˜oes tenham matrizes de covari ˆancias iguais, Σ1= Σ2= Σ. fj(x) = (2π)−p/2|Σ|−1/2exp −1 2(x − µj) 0 Σ−1(x − µj) , j = 1, 2, com µ1, µ2e Σ desconhecidos.
Proposic¸ ˜ao 2:A regra do CECI m´ınimo ´e dada por R1: x (µ1− µ2) 0 Σ−1x −1 2(µ1− µ2) 0 Σ−1(µ1+ µ2) > ln C(1|2)p2 C(2|1)p1 ; R2: caso contr ´ario.
Observac¸ ˜ao:Nas aplicac¸ ˜oes µ1, µ2e Σ s ˜ao desconhecidos, por essa raz ˜ao,
O estimador de Σ ´e dado por
Sc =
(n1− 1)S1+ (n2− 1)S2
(n1+n2− 2)
.
A regra resultante da substituic¸ ˜ao pelos vetores de m ´edia amostral e a matriz
Sc ´e: R1: x (x1− x2) 0S−1 c x − 1 2(x1− x2) 0S−1 c (x1+x2) > ln C(1|2)p2 C(2|1)p1 ; R2: caso contr ´ario.
Se as probabilidades a priori s ˜ao iguais e os custos de classificac¸ ˜ao incorreta tamb ´em s ˜ao iguais, ent ˜ao a regra acima se simplifica para
R1: x (x1− x2) 0 S−1c x > 1 2(x1− x2) 0 S−1c (x1+x2) .
Fac¸a b y = ab 0 x, com b a0 = (x1− x2)0S−1c , b m = 1 2(x1− x2) 0 S−1c (x1+x2) = 1 2(y1+y2) com yj = ab 0 xj, j = 1, 2.
Resumindo, a regra estimada do CECI m´ınimo ´e equivalente a criar duas populac¸ ˜oes normais univariadas para os valores y , tomando-se uma combinac¸ ˜ao linear apropriada das observac¸ ˜oes de π1e π2e, ent ˜ao, designar x0a π1ou a π2dependendo seby0=ba
0
x0cai `a direta ou `a esquerda do
ponto m ´ediom entre as duas m ´edias amostrais yb 1e y2.
Como os par ˆametros s ˜ao substitu´ıdos por suas estimativas n ˜ao se pode mais assegurar que a regra resultante minimize o custo esperado de classificac¸ ˜ao incorreta em uma particular aplicac¸ ˜ao.
Por ´em, parece razo ´avel esperar que ela deva comportar-se bem para tamanhos amostrais grandes.
Resumindo: se os dados parecem ser normais multivariados, a estat´ıstica de classificac¸ ˜ao do lado esquerdo
(x1− x2) 0 S−1c x − 1 2(x1− x2) 0 S−1c (x1+x2)
pode ser calculada para cada nova observac¸ ˜aox0. Essas observac¸ ˜oes s ˜ao
classificadas comparando-se os valores da estat´ıstica com o valor de ln C(1|2)p2
C(2|1)p1
.
Exemplo 2:Um bi ´ologo obteve medidas sobre n = 25 lagartos conhecidos cientificamente como Cophosaurus texanus. O peso (mass) ´e dados em gramas, enquanto que o comprimento da abertura do focinho (svl) e a extens ˜ao dos membros posteriores (hls) s ˜ao dados em mil´ımetros. Os dados est ˜ao dispon´ıveis no arquivo T1-3.DAT. Al ´em das tr ˆes medidas, o bi ´ologo identificou o g ˆenero de cada lagarto m-macho, f -f ˆemea. Construir uma regra de classificac¸ ˜ao de g ˆenero a partir das tr ˆes medidas usando os dados dispon´ıveis.(Ver lagarto.r)
Tabela:Probabilidade a prior dos grupos. Grupo 1 Grupo 2
0,48 0,52
Como nada foi dito na func¸ ˜ao do R, o mesmo adota prioris iguais `as proporc¸ ˜oes amostrais.
Tabela:Grupo de m ´edias.
Grupo mass svl hls
F ˆemea 7,012 63,042 118,000
Tabela:Coeficientes de discriminac¸ ˜ao linear. Vari ´avel LD1
mass -0,5723
svl -0,0908
hls 0,2949
Tabela:Erros de classificac¸ ˜ao. Classificac¸ ˜ao Grupo
F ˆemea Macho
F ˆemea 11 1
Macho 0 13
Observac¸ ˜ao: Especificando prioris iguais, a tabela acima n ˜ao apresentar ´a erros de classificac¸ ˜ao reaplicada a amostra de aprendizagem.
Escala
Para qualquer constante c 6= 0, o vetor cba = cS−1c (x1− x2)tamb ´em servir ´a
como coeficientes discriminantes. O vetorba ´e frequentemente “normalizado” para facilitar a interpretac¸ ˜ao de seus elementos. Duas das normalizac¸ ˜oes mais comuns s ˜ao apresentadas a seguir.
1. Fac¸a b a∗= ba p b a0ba tal queba ∗
tenha comprimento unit ´ario.
2. Fac¸a
b
a∗= ba b a1
tal que o primeiro elemento deba
∗
seja 1. Em ambos os casos,ba
∗
Abordagem de Fisher para Classificac¸ ˜ao em Uma de Duas Populac¸ ˜oes
Fisher de fato chegou a estat´ıstica de classificac¸ ˜ao R1: x (x1− x2) 0 S−1c x > 1 2(x1− x2) 0 S−1c (x1+x2) ou R1: y|by > (y1+y2)/2 , b y =a0x, a = (x1− x2)0S−1c , yj=ba 0 xj , usando um argumento completamente diferente. A ideia de Fisher foi
transformar as observac¸ ˜oes multivariadasx em observac¸ ˜oes univariadas y
tal que os y0s provenientes de π1e de π2sejam t ˜ao separados quanto
poss´ıvel.
Fisher sugeriu tomar combinac¸ ˜oes lineares dex para criar os y0s, porque elas s ˜ao func¸ ˜oes simples dex e podem ser manipuladas facilmente.
A abordagem de Fisher n ˜ao assume que as populac¸ ˜oes sejam normais. No entanto, implicitamente, assume que as matrizes de covari ˆancias das populac¸ ˜oes sejam iguais, porque uma estimativa combinada da matriz de covari ˆancias ´e usada.
Uma combinac¸ ˜ao linear fixada dex toma os valores y11,y12, . . . ,y1n1para as
observac¸ ˜oes de π1e os valores y21,y22, . . . ,y2n2para as observac¸ ˜oes de π2.
A separac¸ ˜ao destes dois conjuntos de valores univariados ´e avaliada em func¸ ˜ao da diferenc¸a entre as m ´edias amostrais y1e y2expressa em unidades de desvio padr ˜ao.
Separac¸ ˜ao = |y1− y2| sy com s2y = 1 n1+n2− 2 hXn1 i=1(y1i− y1) 2 +Xn2 i=1(y2i− y2) 2i .
O objetivo ´e selecionar a combinac¸ ˜ao linear dex que alcanc¸a a separac¸ ˜ao
Proposic¸ ˜ao 3:A combinac¸ ˜ao linear y =ba
0
x = (x1− x2)0S−1c x maximiza a raz ˜ao
dist ˆancia quadrada entre m ´edias vari ˆancia amostral de y =
(y1− y2) 2 s2 y =(ba 0 d)2 b a0Scba .
Regra de Alocac¸ ˜ao: Func¸ ˜ao Discriminante (Linear) de Fisher
Sejam b y0 = (x1− x2)0S−1c x0 b m = 1 2(x1− x2) 0 S−1c (x1+x2) = 1 2(y1+y2). Aloquex0a π1seby0>m.b Caso contr ´ario, aloquex0a π2.
Classificac¸ ˜ao ´
E Uma Boa Ideia?
Para duas populac¸ ˜oes, a separac¸ ˜ao m ´axima relativa que pode ser obtida considerando-se combinac¸ ˜oes lineares das observac¸ ˜oes multivariadas ´e igual a dist ˆancia
D2= (x1− x2) 0
S−1c (x1− x2).
Isto ´e conveniente, porque D2pode ser usada, em certas situac¸ ˜oes, para testar se as m ´edias das populac¸ ˜oes π1e π2diferem sigificativamente.
Consequentemente, um teste de diferenc¸a entre vetores de m ´edia pode ser visto como um teste para a “signific ˆancia” da separac¸ ˜ao que pode ser alcanc¸ada.
Suponha que as populac¸ ˜oes π1e π2sejam normais multivariadas com uma
matriz de covari ˆancias comum Σ. Ent ˜ao, vimos que um teste de H0: µ1= µ2versus H1: µ16= µ2usa a estat´ıstica
n1+n2− p − 1 (n1+n2− 2)p n1n2 n1+n2 D2, que sob H0tem distribuic¸ ˜ao Fp,n1+n2−p−1.
Se H0 ´e rejeitada, podemos concluir que a separac¸ ˜ao entre as duas
populac¸ ˜oes ´e significante.
Observac¸ ˜ao:Separac¸ ˜ao significante n ˜ao necessariamente implicar ´a em boa classificac¸ ˜ao. A efic ´acia de um procedimento de classificac¸ ˜ao pode ser avaliada independentemente de qualquer teste de separac¸ ˜ao. Em contraste, se a separac¸ ˜ao n ˜ao ´e significante, a busca por uma regra de classificac¸ ˜ao ´util ser ´a, provavelmente, infrut´ıfera.
Classificac¸ ˜ao de Populac¸ ˜oes Normais - Caso Σ
16= Σ
2As regras de classificac¸ ˜ao s ˜ao mais complicadas quando as matrizes de covari ˆancias das populac¸ ˜oes s ˜ao desiguais. Considere novamente a raz ˜ao das densidades normais multivariadas, agora considerando as covari ˆancias desiguais. Neste caso, os fatores fora do termo exponencial n ˜ao simplificam e n ˜ao ´e poss´ıvel colocar o termo dentro da exponencial em evid ˆencia. f1(x) f2(x) = |Σ2| |Σ1| 1/2 exp −1 2 h (x − µ1) 0 Σ−11 (x − µ1) + (x − µ2) 0 Σ−12 (x − µ2) i . Nesse caso, as regi ˜oes de classificac¸ ˜ao, segundo o crit ´erio do custo
esperado de classificac¸ ˜ao incorreta m´ınimo, ser ˜ao dadas por (na escala logaritmo natural): R1: R1: − 1 2x 0 (Σ−11 − Σ−12 )x + (µ0 1Σ −1 1 − µ 0 2Σ −1 2 )x − k > ln C(1|2) C(2|1) p2 p1 ; R2: caso contr ´ario,
com k =1 2ln |Σ2| |Σ1| +1 2(µ 0 1Σ −1 1 µ1− µ 0 2Σ −1 2 µ2).
As regi ˜oes de classificac¸ ˜ao s ˜ao quadr ´aticas emx. Quando Σ1= Σ2, o termo
quadr ´aticox0
(Σ−11 − Σ−1
2 )x se anula, e as regi ˜oes resultantes s ˜ao aquelas
obtidas anteriormente no caso de vari ˆancias iguais.
Proposic¸ ˜ao 4:Sob normalidade multivariada com covari ˆancias desiguais, aloquex0a π1se −1 2x 0 0(Σ−11 − Σ −1 2 )x0+ (µ01Σ −1 1 − µ 0 2Σ −1 2 )x0− k > ln C(1|2) C(2|1) p2 p1 . Caso contr ´ario, aloquex0a π2.
Na pr ´atica, a regra de classificac¸ ˜ao acima ´e implementada substituindo-se os par ˆametros populacionais por estimativasx1,x2eS1eS2.
Regra de Classificac¸ ˜ao Quadr ´atica
Populac¸ ˜oes normais, covari ˆancias desiguais: Aloquex0a π1se −1 2x 0 0(S−11 − S −1 2 )x0+ (x 0 1S−11 − x 0 2S−12 )x0− k > ln C(1|2) C(2|1) p2 p1 . Caso contr ´ario, aloquex0a π2.
Classificac¸ ˜ao com func¸ ˜oes quadr ´aticas ´e bem complicada quando se tem mais de duas medidas e pode levar a resultados estranhos. Isto ´e particularmente verdade quando os dados n ˜ao s ˜ao (essencialmente) normais multivariados.
As regi ˜oes de classificac¸ ˜ao podem ser uma uni ˜ao de regi ˜oes disjuntas do espac¸o amostral.
Em muitas aplicac¸ ˜oes, a cauda inferior da distribuic¸ ˜ao de π1ser ´a menor do
que a prescrita por uma distribuic¸ ˜ao normal e a regra quadr ´atica poder ´a levar a altas taxas de erro de classificac¸ ˜ao. Uma desvantagem s ´eria da regra quadr ´atica ´e que ela ´e bem sens´ıvel a desvios da normalidade.
Se os dados n ˜ao s ˜ao normais multivariados, duas opc¸ ˜oes est ˜ao dispon´ıveis. A primeira, envolve transformar os dados n ˜ao normais, e depois testar a igualdade das matrizes de covari ˆancias para verificar se ´e a regra linear ou a quadr ´atica que devem ser usadas.
Os testes usuais para homogeneidade das covari ˆancias s ˜ao fortemente afetados sob n ˜ao normalidade. A convers ˜ao de dados n ˜ao normais para dados normais deve sempre ser feita antes de realizar tais testes.
Como segunda opc¸ ˜ao, podemos usar uma regra linear (ou quadr ´atica) sem nos preocuparmos com a forma das distribuic¸ ˜oes populacionais e esperar que elas ir ˜ao funcionar razoavelmente bem.
Estudos mostraram, por ´em, que existem casos n ˜ao normais para os quais uma func¸ ˜ao de classificac¸ ˜ao linear tem uma performance ruim, mesmo se as matrizes de covari ˆancias das duas populac¸ ˜oes s ˜ao iguais.
Moral da hist ´oria: sempre verificar a performance de qualquer procedimento de classificac¸ ˜ao. Em ´ultimo caso, isto deve ser feito com o conjunto de dados usado para construir a regra. O ideal ´e que se tenha uma quantidade de dados suficientemente grande que podem ser repartidos em amostras de treinamento e de validac¸ ˜ao. A amostra de treinamento/aprendizagem ´e usada para construir a regra, e a amostra de validac¸ ˜ao ´e usada para avaliar a performance da regra constru´ıda.
Exerc´ıcios do cap´ıtulo 11 para entregar:
1, 3 a 18.
Avaliac¸ ˜ao das Func¸ ˜oes de Classificac¸ ˜ao
A avaliac¸ ˜ao envolve calcular taxas de erro ou probabilidades de classificac¸ ˜ao incorreta.
Como as densidades s ˜ao em geral desconhecidas, concentraremo-nos sobre as taxas de erro associadas `a func¸ ˜ao de classificac¸ ˜ao amostral. Taxa de Erro ´Otima (TEO) - regra de classificac¸ ˜ao segundo o crit ´erio da probabilidade total de classificac¸ ˜ao incorreta (PTCI) m´ınima.
TEO = p1 Z R2 f1(x)d x + p2 Z R1 f2(x)d x
Exemplo 3:Suponha duas populac¸ ˜oes normais multivariadas com matrizes de covari ˆancias iguais, p1=p2=1/2 e tamb ´em C(2|1) = C(1|2) tal que
lnC(1|2)C(2|1)p2 p1 =0. Neste caso, R1: x (µ1− µ2) 0 Σ−1x >1 2(µ1− µ2) 0 Σ−1(µ1+ µ2) ou R1: x a 0 x >1 2a 0 (µ1+ µ2) . Fazendo Y =a0X teremos σY2 =a 0 Σa = δ2.
PTCI = 1 2 Z R2 f1(x)d x + 1 2 Z R1 f2(x)d x = Φ −δ 2 . Se δ2=2, 56, teremos PTCI = Φ(−0, 8) = 0, 2119.
A regra de classificac¸ ˜ao aqui ir ´a alocar cerca de 21% dos itens incorretamente.
Este exemplo ilustra como a TEO pode ser calculada quando as func¸ ˜oes de densidade s ˜ao conhecidas. Como em geral os par ˆametros populacionais s ˜ao desconhecidos, eles dever ˜ao ser estimados e a avaliac¸ ˜ao da taxa de erro n ˜ao ser ´a t ˜ao direta.
A performance da func¸ ˜ao de classificac¸ ˜ao amostral pode, em princ´ıpio, ser avaliada calculando-se a taxa de erro real (TER).
TER = p1 Z b R2 f1(x)d x + p2 Z b R1 f2(x)d x. b
R1e bR2s ˜ao as regi ˜oes de classificac¸ ˜ao determinadas pelas amostras de
tamanhos n1e n2, respectivamente.
A TER indica como a func¸ ˜ao de clasificac¸ ˜ao amostral se comportar ´a em amostras futuras. Como a TEO, geralmente ela n ˜ao poder ´a ser calculada, pois depende das densidades f1e f2. Por ´em, uma estimativa de uma
quantidade relacionada a TER pode ser calculada e ser ´a apresentada aqui. A taxa de erro real aparente (TERA) pode ser calculada a partir da matriz de “confus ˜ao” (tabela de dupla entrada indicando as frequ ˆencias de
Classificac¸ ˜ao em Populac¸ ˜ao π1 π2 π1 n1c n1M =n1− n1c π2 n2M =n2− n2c n2c TERA = n1M+n2M n1+n2 .
Observe que a TERA nada mais ´e do que a proporc¸ ˜ao amostral de classificac¸ ˜oes incorretas considerando-se a amostra de treinamento. A TERA ´e uma medida intuitiva e simples, mas tem um vi ´es: tende a subestimar a TER, a menos que n1e n2sejam suficientemente grandes.
Estimativas de taxas de erro melhores do que a TERA e que n ˜ao exigem a suposic¸ ˜ao das distribuic¸ ˜oes populacionais podem ser constru´ıdas.
Um procedimento ´e dividir a amostra total em uma amostra de treinamento e outra de validac¸ ˜ao. A amostra de treinamento ´e usada para construir a func¸ ˜ao de classificac¸ ˜ao e, a de validac¸ ˜ao, para avaliar a func¸ ˜ao obtida. A taxa de erro ´e determinada pela porporc¸ ˜ao amostral de classificac¸ ˜oes incorretas na amostra de validac¸ ˜ao.
Apesar deste m ´etodo superar o problema do vi ´es, ele padece de dois defeitos:
1. requer amostras muito grandes;
2. a func¸ ˜ao avaliada n ˜ao ´e a func¸ ˜ao de interesse. Em ´ultima an ´alise, quase todos os dados devem ser usados para construir a regra. Caso
contr ´ario, informac¸ ˜ao importante pode estar sendo desperdic¸ada. Uma segunda abordagem, que parece funcionar bem, ´e chamada procedimento de validac¸ ˜ao “reter um fora” (holdout) de Lachenbruch.
1. Comece em π1. Omita uma de suas observac¸ ˜oes e desenvolva a func¸ ˜ao
de classificac¸ ˜ao com as restantes n1− 1 + n2. 2. Classifique a observac¸ ˜ao omitida com a func¸ ˜ao obtida.
3. Repita os passos (1) e (2) at ´e que todas as observac¸ ˜oes de π1sejam
classificadas. Defina n(H)1M como o n ´umero de classificac¸ ˜oes incorretas neste grupo.
4. Repita os passos (1), (2) e (3) para as observac¸ ˜oes de π2e defina n (H) 2M
como o n ´umero de classificac¸ ˜oes incorretas neste grupo. \ Pr(2|1) =n (H) 1M n1 , Pr(1|2) =\ n (H) 2M n2 e \PTCI = n (H) 1M +n (H) 2M n1+n2 .
Para amostras moderadas [PTCI ´e uma estimativa n ˜ao viesada do valor esperado da TERA (taxa de erro aparente).
Deve ser intuitivamente claro que classificac¸ ˜ao boa (taxas de erro pequenas) depender ´a da separac¸ ˜ao dos grupos. O mais separados s ˜ao os grupos, mais provavelmente uma regra de classificac¸ ˜ao ´util ser ´a desenvolvida. Como veremos, regras de alocac¸ ˜ao apropriadas para o caso envolvendo probabilidades a priori iguais e custos de classificac¸ ˜ao incorreta iguais correspondem `as func¸ ˜oes designadas para populac¸ ˜oes separadas o m ´aximo poss´ıvel. ´E nesta situac¸ ˜ao que comec¸amos a perder a distinc¸ ˜ao entre classificac¸ ˜ao e separac¸ ˜ao.
Classificac¸ ˜ao em Uma de g Populac¸ ˜oes
(g > 2)Pelo menos em teoria, a extens ˜ao para a classificac¸ ˜ao em um de g grupos, g > 2 ´e imediata. Por ´em, n ˜ao muito ´e conhecido sobre as propriedades das func¸ ˜oes de classificac¸ ˜ao amostrais correspondentes, e em particular, sobre suas taxas de erro investigadas.
A “robustez” da estat´ıstica linear de classificac¸ ˜ao em dois grupos para, por exemplo, covari ˆancias desiguais ou distribuic¸ ˜oes n ˜ao normais pode ser estudada a partir de experimentos simulados. Para mais de duas populac¸ ˜oes, esta abordagem n ˜ao leva a conclus ˜oes gerais, porque as propriedades dependem sobre onde as populac¸ ˜oes est ˜ao localizadas, e existem muitas configurac¸ ˜oes para serem convenientemente estudadas. Como antes, a abordagem aqui ser ´a desenvolver regras ´otimas te ´oricas e, ent ˜ao indicar as modificac¸ ˜oes exigidas para as aplicac¸ ˜oes reais.
Regra do Custo Esperado de Classificac¸ ˜ao Incorreta M´ınimo
Notac¸ ˜ao:
I fk(x) - func¸ ˜ao de densidade de probabilidade conjunta para o k - ´esimo
grupo, k = 1, 2, . . . , g.
I p1,p2, . . . ,pg- probabiliades a priori de cada grupo tais que pk >0, ∀k e
Pg
k =1pk =1.
I C(k |j) - custo de classificac¸ ˜ao incorreta de uma observac¸ ˜ao de πjem
πk, ∀j, k = 1, 2, . . . , g e j 6= k . Se j = k , ent ˜ao c(k |k ) = 0.
I Rk - regi ˜ao de classificac¸ ˜ao em πk tal que ∪ g
k =1Rk = Ω, Rj∩ Rk = ∅para
j 6= k .
A probabilidade de classificar uma observac¸ ˜ao de πjem πk ´e
Pr(k |j) = Z Rk fj(x)d x para k ∈ {1, 2, ..., g}, k 6= j e Pr(j|j) = 1 − g X k =1,k 6=j Pr(k |j).
O custo esperado de classificac¸ ˜ao incorreta de uma observac¸ ˜ao proveniente de π1ser ´a dado por
CECI(1) = Pr(2|1)C(2|1) + Pr(3|1)C(3|1) + · · · + Pr(g|1)C(g|1)
= Xg
k =2P(k |1)c(k |1).
Este custo esperado condicional ocorre com probabilidade p1, a
probabilidade a priori de π1.
De maneira similar, podemos obter os custos esperados de classificac¸ ˜ao incorreta condicionais CECI(2), CECI(3), . . . , CECI(g).
Multiplicando os custos condicionais pelas respectivas probabilidades a priori temos o custo esperado de classificac¸ ˜ao incorreta dado por
CECI =Xg j=1pj Xg k =1,k 6=jPr(k |j)C(k |j) .
Proposic¸ ˜ao 5:As regi ˜oes de classificac¸ ˜ao que minimizam o custo esperado de classificac¸ ˜ao incorreta s ˜ao definidas por
I Aloquex a πj, j = 1, 2, . . . , g na qual
Xg
j=1,j6=kpjfj(x)C(k |j) ´e um m´ınimo.
I Se os custos de classificac¸ ˜ao incorreta s ˜ao todos iguais a unidade, observe que a regra alocar ´ax `a populac¸ ˜ao πk, k = 1, 2, . . . , g para a
qual,
Xg
j=1,j6=kpjfj(x) ´e um m´ınimo.
Observe que esta soma ser ´a um m´ınimo se o termo deixado de fora, pkfk(x),
Regra do CECI M´ınimo para Custos de Classificac¸ ˜ao Incorreta Iguais
I Aloquex0 `a populac¸ ˜ao πk se
pkfk(x0) >pjfj(x0), ∀j 6= k ,
ou equivalentemente,
I Aloquex0 `a populac¸ ˜ao πk se
ln (pkfk(x0)) >ln (pjfj(x0)) , ∀j 6= k .
Esta regra ´e equivalente `a regra que maximiza a probabilidade a posteriori Pr(πk|x0).
Deve-se ter em mente que as regras do CECI m´ınimo t ˆem tr ˆes componentes: probabilidades a priori, custos de classificac¸ ˜ao incorreta e func¸ ˜oes de densidade. Estes componentes devem ser especificados (ou estimados) antes da regra poder ser implementada.
Exemplo 4: (Classificac¸ ˜ao de nova observac¸ ˜ao em uma de tr ˆes populac¸ ˜oes conhecidas)
Suponha os seguintes custos de classificaC¸ ˜ao incorreta, probabilidades a priori e densidades avaliadas emx0uma nova observac¸ ˜ao.
Classificac¸ ˜ao em Populac¸ ˜ao π1 π2 π3 π1 C(1|1) = 0 C(2|1) = 10 C(3|1) = 50 π2 C(1|2) = 500 C(2|2) = 0 C(3|2) = 200 π3 C(1|3) = 100 C(2|3) = 50 C(3|3) = 0 Prioris p1=0, 05 p2=0, 60 p3=0, 35 fj(x0) f1(x0) =0, 01 f2(x0) =0, 85 f3(x0) =2
Classificarx0em uma das tr ˆes populac¸ ˜oes.
Usando a regra do CECI m´ınimo, alocaremosx0a πk, k = 1, 2, 3 para a qual
X3
k X3
j=1,j6=kpjfj(x)C(k |j)
1 325
2 35,055
3 102,025
Como o menor valor ocorre para k = 2, alocamosx0a π2.
Se os custos de classificac¸ ˜ao incorreta fossem todos iguais, designar´ıamos
x0a πk, k = 1, 2, 3 na qual pkfk(x0) >pjfj(x0), ∀j 6= k .
k pkfk(x0)
1 0,0005
2 0,5100
3 0,7000
Classificac¸ ˜ao com Populac¸ ˜oes Normais
fk(x) = (2π)−p/2|Σk|−1/2exp{− 1 2(x − µk) 0 Σ−1k (x − µk)}, k = 1, 2, . . . , g.Se considerarmos todos os custos iguais a unidade, a regra resultante ser ´a:
I Aloquex0a πk se ln(pkfk(x0)) = ln pk− p 2ln(2π) − 1 2ln |Σk| − 1 2(x − µk) 0 Σ−1k (x − µk) = max 16j6gln(pjfj(x0))
A constante p ln(2π)/2 pode ser desprezada, pois ela ´e igual para todas as populac¸ ˜oes. Portanto, podemos definir um escore discriminante quadr ´atico para a k - ´esima populac¸ ˜ao dado por
dkQ(x) = ln pk− 1 2ln |Σk| − 1 2(x − µk) 0 Σ−1k (x − µk), k = 1, 2, . . . , g.
O escore quadr ´atico dQ
k(x ) ´e composto pelas contribuic¸ ˜oes da vari ˆancia
generalizada |Σk|, da probabilidade a priori pk, e da dist ˆancia quadrada dex
Regra da Probabilidade Total de Classificac¸ ˜ao Incorreta M´ınima
-Populac¸ ˜oes Normais, Covari ˆancias Desiguais
I Aloquex0a πk se o escore quadr ´atico
dkQ(x0) = max 16j6g{d
Q j (x0)}.
Na pr ´atica µk e Σk s ˜ao desconhecidas para todo k = 1, 2, . . . , g, mas um
conjunto de treinamento cujas classificac¸ ˜oes corretas das observac¸ ˜oes s ˜ao conhecidas est ´a em geral dispon´ıvel para a construc¸ ˜ao de estimativas. As quantidades amostrais relevantes para a populac¸ ˜ao πk s ˜aoxk eSk com nk o
n ´umero de observac¸ ˜oes da k - ´esima populac¸ ˜ao. b dkQ(x) = ln pk− 1 2ln |Sk| − 1 2(x − xk) 0 S−1k (x − xk), k = 1, 2, . . . , g.
Assim, a regra estimada ´e alocarx0a πk se o escore quadr ´atico estimado
b
dkQ(x0) = max 16j6g{bd
Q j (x0)}.
Uma simplificac¸ ˜ao aqui ´e poss´ıvel para o caso em que Σ1= Σ2= · · · = Σg = Σ.
Neste caso os escores discriminantes passam a ser lineares emx e
simplificam para dk(x) = ln pk+ µ0kΣ −1x −1 2µ 0 kΣ −1 µk, k = 1, 2, . . . , g.
Uma estimativa de dk(x) ´e baseada em Sc=
1
n1+n2+ · · · +ng− g
Xg
k =1(nk− 1)Sk
e ´e dada por b dk(x) = ln pk+x 0 kS−1c x − 1 2x 0 kS−1c xk, k = 1, 2, . . . , g.
Consequentemente, temos a regra estimada dada por “aloquex0a πk se
b
dk(x0) = max
M ´etodo de Discriminac¸ ˜ao de Fisher para V ´arias Populac¸ ˜oes
O prop ´osito principal na an ´alise discriminante de Fisher (ADF) ´e separar populac¸ ˜oes (grupos). No entanto, como veremos, o produto final pode levar a uma regra de classificac¸ ˜ao. Na ADF n ˜ao ´e necess ´ario supor a normalidade das g populac¸ ˜oes, embora sup ˜oe-se que as covari ˆancias sejam iguais. Denote µ o vetor de m ´edias combinado das g populac¸ ˜oes, isto ´e,
µ = 1 g
Xg
k =1µk.
Denote a matrizBµa matriz p × p de somas de quadrados e produtos
cruzados Bµ= Xg k =1(µk− µ)(µk− µ) 0 .
Fac¸a Y =a0X tal que E(Y |πk) =a0µk e Var(Y |πk) =a0Σa, k = 1, 2, . . . , g.
Consequentemente µkY =a0µkdepende da populac¸ ˜ao na qualX foi
observada. M ´edia Global: µY =a 01 g Xg k =1µk =a 0 µ.
Medida de separac¸ ˜ao dos grupos: Xg k =1(µkY− µY) 2 σ2 Y = Pg k =1(a 0 µk− a0µ)2 a0Σa = 0 Bµa a0Σa.
Esta raz ˜ao mede a variabilidade entre os grupos de valores de Y relativa `a variabilidade comum dentro dentro dos grupos.
Podemos selecionara que maximiza esta raz ˜ao.
Em geral Σ e µk s ˜ao desconhecidos, mas disp ˜oe-se de uma amostra de
treinamento a partir da qual podemos estimar estas quantidades. Sejamxk,Sk as estimativas em cada grupo e
x = 1 g g X k =1 xk, b Bµ = Xg k =1(xk− x)(xk− x) 0 e c W = Xg k =1 Xnk j=1(xjk− xk)(xjk− xk) 0 .
Discriminantes Lineares Amostrais de Fisher (DALF)
Sejam bλ1, bλ2, . . . , bλs, s ≤ min{g − 1, p} autovalores n ˜ao-nulos de cW −1
b
Bµe
b
v1,vb2, . . . ,vbs os autovetores correspondentes tal que (vb
0
kS−1c vbk =1).
Ent ˜ao, o vetorba que maximiza a raz ˜ao
a0Bbµa a0
c
W a ´e dado porba1=bv1.
A combinac¸ ˜ao linearba
0
1x ´e chamada primeiro discriminante amostral.
A escolhaba2=vb2produz o segundo discriminante amostral e continuamos at ´e obter o k - ´esimo discriminante amostralbak =vbk, k ≤ s.
Coment ´arios Finais
Regress ˜ao Log´ıstica
As func¸ ˜oes de classificac¸ ˜ao discutidas at ´e aqui s ˜ao baseadas em vari ´aveis quantitativas. A regress ˜ao log´ıstica ´e uma abordagem apropriada para classificac¸ ˜ao quando algumas ou todas as vari ´aveis s ˜ao qualitativas. Na sua configurac¸ ˜ao mais simples, a vari ´avel resposta Y est ´a restrita a dois valores. Por exemplo, Y pode representar g ˆenero: macho/f ˆemea, ou
empregado/desempregado, aprovado/reprovado, etc.
Quando a resposta assume apenas dois valores poss´ıveis ´e comum
codific ´a-la como 0 ou 1 e, o interesse passa a ser estimar a probabilidade da vari ´avel assumir o valor 1 dado o vetor de covari ´aveisx, que representa a
proporc¸ ˜ao na populac¸ ˜ao codificada com o valor 1.
Esta modelagem pode ent ˜ao ser usada para fins de classificac¸ ˜ao em um de dois grupos, e a ideia pode ser estendida para v ´arios grupos, substituindo a dsitribuic¸ ˜ao binomial pela multinomial.
Inclus ˜ao de Vari ´aveis Qualitativas
Neste cap´ıtulo assumimos que as vari ´aveis de discriminac¸ ˜ao X1,X2, . . . ,Xp
s ˜ao cont´ınuas. Com frequ ˆencia, uma vari ´avel qualitativa ou categ ´orica pode ser ´util como vari ´avel discriminante (classificadora). Esta situac¸ ˜ao ´e
frequentemente contornada criando-se uma vari ´avel X cujo valor num ´erico ´e 1 se o objeto possui a tal caracter´ıstica e zero, caso contr ´ario. A vari ´avel ´e, ent ˜ao, tratada como uma vari ´avel de medida nos procedimentos de classificac¸ ˜ao e discriminac¸ ˜ao usuais.
Exceto para classificac¸ ˜ao log´ıstica, h ´a pouca teoria dispon´ıvel para lidar com o caso em que algumas vari ´aveis s ˜ao cont´ınuas e outras s ˜ao qualitativas. Experimentos de simulac¸ ˜ao indicaram que a func¸ ˜aoo discriminante linear de Fisher pode comportar-se tanto pobremente como satisfatoriamente, dependendo das correlac¸ ˜oes entre as vari ´aveis cont´ınuas e qualitativas. Krzanowski: “Uma correlac¸ ˜ao baixa em uma populac¸ ˜ao, mas uma correlac¸ ˜ao alta na outra, ou uma mudanc¸a no sinal das correlac¸ ˜oes entre as duas populac¸ ˜oes poderiam indicar condic¸ ˜oes desfavor ´aveis `a func¸ ˜ao discriminante linear de Fisher”. Esta ´e uma ´area problem ´atica e que precisa de mais estudo.
´
Arvores de Classificac¸ ˜ao
Uma abordagem de classificac¸ ˜ao completamente diferente dos m ´etodos discutidos aqui foi desenvolvida. (Breiman, L., 1. Friedman, R Olshen, and C. Stone. Classification and Regression Trees. Belmont, CA: Wadsworth, Inc., 1984.) Ela ´e computacionalmente intensiva. A abordagem, chamada ´arvore de classificac¸ ˜ao e regress ˜ao (CART), ´e proximamente relacionada com as t ´ecnicas de conglomerac¸ ˜ao divisivas.(Cap´ıtulo 12 do livro texto).
Inicialmente, todos os objetos s ˜ao considerados em um ´unico grupo. O grupo ´e ent ˜ao dividido em dois subgrupos, usando, por exemplo, altos valores de uma vari ´avel para um grupo e baixos valores dessa mesma vari ´avel para o outro grupo. Os dois subgrupos s ˜ao ent ˜ao cada um dividido novamente, agora usando valores de uma segunda vari ´avel. O processo de divis ˜ao continua at ´e que um ponto de parada adequado seja atingido. Os valores das vari ´aveis divisoras podem ser categorias ordenados ou n ˜ao. ´E este aspecto que torna o CART t ˜ao geral.
Redes Neurais
Uma rede neural ´e um procedimento computacional intensivo para transformar entradas em sa´ıdas programadas usando redes altamente conectadas de unidades de processamento relativamente simples (neur ˆonios ou n ´os). Suas tr ˆes caracter´ısticas essenciais s ˜ao as unidades b ´asicas de computac¸ ˜ao (neur ˆonios ou n ´os), a arquitetura da rede
descrevendo as conex ˜oes entre as unidades de computac¸ ˜ao, e o algoritmo de treinamento usado para encontrar valores dos par ˆametros da rede (pesos) para realizar uma tarefa particular.
As unidades de computac¸ ˜ao s ˜ao conectadas umas `as outras no sentido de que a sa´ıda de uma unidade pode servir como entrada para outra unidade. Cada unidade de computac¸ ˜ao transforma uma entrada em uma sa´ıda usando alguma func¸ ˜ao pr ´e-especificada que ´e tipicamente mon ´otona, mas de alguma forma arbitr ´aria. Esta func¸ ˜ao depende de constantes
(par ˆametros) cujos valores devem ser determinados com um conjunto de treinamento de entradas e sa´ıdas.
Arquitetura da rede ´e a organizac¸ ˜ao das unidades computacionais e os tipos de conex ˜ao permitidos. Em aplicac¸ ˜oes estat´ısticas, as unidades
computacionais s ˜ao arrumadas em uma s ´erie de camadas com conex ˜oes entre n ´os em camadas diferentes, mas n ˜ao entre n ´os da mesma camada. A camada que recebe as entradas iniciais ´e chamada camada de entrada. A camada final ´e chamada camada de sa´ıda. Todas as camadas entre as camadas de entrada e sa´ıda s ˜ao chamadas camadas ocultas.
Redes Neurais podem ser usadas para discriminac¸ ˜ao e classificac¸ ˜ao. Quando elas s ˜ao usadas com este fim, as vari ´aveis de entrada s ˜ao as medidas X1,X2, . . . ,Xp, e a vari ´avel de sa´ıda ´e a vari ´avel categ ´orica que
indica de qual grupo veio a observac¸ ˜ao de entrada. A experi ˆencia inidca que redes neurais apropriadamente constru´ıdas comportam-se t ˜ao bem quanto `a regress ˜ao log´ıstica e as func¸ ˜oes discriminantes discutidas aqui. Os autores sugerem a seguinte refer ˆencia para uma boa discuss ˜ao do uso de redes neurais em aplicac¸ ˜oes da estat´ıstica: Stem, H. S. Neural Networks in Applied Statistics. Technometrics, 38, (1996), 205-214.
Selec¸ ˜ao de Vari ´aveis
Em algumas aplicac¸ ˜oes da an ´alise discriminante, os dados est ˜ao dispon´ıveis para um grande n ´umero de vari ´aveis. Mucciardi e Gose (A Comparison of Seven Techniques for Choosing Subsets of Pattern Recognition Properties. IEEE Trans. Computers, C20 (1971), 1023-1031.) estudaram uma an ´alise discriminante baseada em 157 vari ´aveis. Neste caso, seria obviamente desej ´avel selecionar um subconjunto menor de vari ´aveis que contivesse quase toda a informac¸ ˜ao original para efeitos da classificac¸ ˜ao. Este ´e o prop ´osito da an ´alise discriminante passo-a-passo stepwise, e v ´arios programas de computador disp ˜oem destas func¸ ˜oes de selec¸ ˜ao de vari ´avel.
Se uma an ´alise discriminante stepwise (ou qualquer outro m ´etodo de selec¸ ˜ao) ´e empregado, os resultados devem ser interpretados com cautela. (Veja Murray, G. D. A Cautionary Note on Selection of Variables in
Discriminant Analysis. Applied Statistics, 26, no. 3 (1977),246-250.) N ˜ao h ´a garantia de que o subconjunto selecionado seja o “melhor”, sem olhar o crit ´erio usado para fazer a selec¸ ˜ao. Por exemplo, subconjuntos selecionados com base na minimizac¸ ˜ao da taxa de erro aparente ou maximizac¸ ˜ao do “poder de discriminac¸ ˜ao” podem comportar-se pobremente em amostras futuras. Problemas associados com procedimentos de selec¸ ˜ao de vari ´aveis s ˜ao ampliados se existem correlac¸ ˜oes altas entre as vari ´aveis ou entre ombinac¸ ˜oes lineares das vari ´aveis.
A escolha de um subconjunto de vari ´aveis que parece ser ´otima para um dado conjunto de dados ´e especialmente preocupante se a classificac¸ ˜ao ´e o objetivo. No m´ınimo, a func¸ ˜ao de classificac¸ ˜ao obtida deve ser avaliada com uma amostra de validac¸ ˜ao. Como Murray (1977) sugeriu, uma ideia melhor pode ser dividir a amostra em um n ´umero de lotes e determinar o “melhor” subconjunto para cada lote. O n ´umero de vezes que uma dada vari ´avel aparece nos melhores subconjuntos fornece uma medida do valor dessa vari ´avel para classificac¸ ˜oes futuras.