• Nenhum resultado encontrado

Coment ´arios Finais

No documento Ralph S. Silva (páginas 50-58)

Regress ˜ao Log´ıstica

As func¸ ˜oes de classificac¸ ˜ao discutidas at ´e aqui s ˜ao baseadas em vari ´aveis quantitativas. A regress ˜ao log´ıstica ´e uma abordagem apropriada para classificac¸ ˜ao quando algumas ou todas as vari ´aveis s ˜ao qualitativas. Na sua configurac¸ ˜ao mais simples, a vari ´avel resposta Y est ´a restrita a dois valores. Por exemplo, Y pode representar g ˆenero: macho/f ˆemea, ou

empregado/desempregado, aprovado/reprovado, etc.

Quando a resposta assume apenas dois valores poss´ıveis ´e comum

codific ´a-la como 0 ou 1 e, o interesse passa a ser estimar a probabilidade da vari ´avel assumir o valor 1 dado o vetor de covari ´aveisx, que representa a

proporc¸ ˜ao na populac¸ ˜ao codificada com o valor 1.

Esta modelagem pode ent ˜ao ser usada para fins de classificac¸ ˜ao em um de dois grupos, e a ideia pode ser estendida para v ´arios grupos, substituindo a dsitribuic¸ ˜ao binomial pela multinomial.

Inclus ˜ao de Vari ´aveis Qualitativas

Neste cap´ıtulo assumimos que as vari ´aveis de discriminac¸ ˜ao X1,X2, . . . ,Xp

s ˜ao cont´ınuas. Com frequ ˆencia, uma vari ´avel qualitativa ou categ ´orica pode ser ´util como vari ´avel discriminante (classificadora). Esta situac¸ ˜ao ´e

frequentemente contornada criando-se uma vari ´avel X cujo valor num ´erico ´e 1 se o objeto possui a tal caracter´ıstica e zero, caso contr ´ario. A vari ´avel ´e, ent ˜ao, tratada como uma vari ´avel de medida nos procedimentos de classificac¸ ˜ao e discriminac¸ ˜ao usuais.

Exceto para classificac¸ ˜ao log´ıstica, h ´a pouca teoria dispon´ıvel para lidar com o caso em que algumas vari ´aveis s ˜ao cont´ınuas e outras s ˜ao qualitativas. Experimentos de simulac¸ ˜ao indicaram que a func¸ ˜aoo discriminante linear de Fisher pode comportar-se tanto pobremente como satisfatoriamente, dependendo das correlac¸ ˜oes entre as vari ´aveis cont´ınuas e qualitativas. Krzanowski: “Uma correlac¸ ˜ao baixa em uma populac¸ ˜ao, mas uma correlac¸ ˜ao alta na outra, ou uma mudanc¸a no sinal das correlac¸ ˜oes entre as duas populac¸ ˜oes poderiam indicar condic¸ ˜oes desfavor ´aveis `a func¸ ˜ao discriminante linear de Fisher”. Esta ´e uma ´area problem ´atica e que precisa de mais estudo.

´

Arvores de Classificac¸ ˜ao

Uma abordagem de classificac¸ ˜ao completamente diferente dos m ´etodos discutidos aqui foi desenvolvida. (Breiman, L., 1. Friedman, R Olshen, and C. Stone. Classification and Regression Trees. Belmont, CA: Wadsworth, Inc., 1984.) Ela ´e computacionalmente intensiva. A abordagem, chamada ´arvore de classificac¸ ˜ao e regress ˜ao (CART), ´e proximamente relacionada com as t ´ecnicas de conglomerac¸ ˜ao divisivas.(Cap´ıtulo 12 do livro texto).

Inicialmente, todos os objetos s ˜ao considerados em um ´unico grupo. O grupo ´e ent ˜ao dividido em dois subgrupos, usando, por exemplo, altos valores de uma vari ´avel para um grupo e baixos valores dessa mesma vari ´avel para o outro grupo. Os dois subgrupos s ˜ao ent ˜ao cada um dividido novamente, agora usando valores de uma segunda vari ´avel. O processo de divis ˜ao continua at ´e que um ponto de parada adequado seja atingido. Os valores das vari ´aveis divisoras podem ser categorias ordenados ou n ˜ao. ´E este aspecto que torna o CART t ˜ao geral.

Redes Neurais

Uma rede neural ´e um procedimento computacional intensivo para transformar entradas em sa´ıdas programadas usando redes altamente conectadas de unidades de processamento relativamente simples (neur ˆonios ou n ´os). Suas tr ˆes caracter´ısticas essenciais s ˜ao as unidades b ´asicas de computac¸ ˜ao (neur ˆonios ou n ´os), a arquitetura da rede

descrevendo as conex ˜oes entre as unidades de computac¸ ˜ao, e o algoritmo de treinamento usado para encontrar valores dos par ˆametros da rede (pesos) para realizar uma tarefa particular.

As unidades de computac¸ ˜ao s ˜ao conectadas umas `as outras no sentido de que a sa´ıda de uma unidade pode servir como entrada para outra unidade. Cada unidade de computac¸ ˜ao transforma uma entrada em uma sa´ıda usando alguma func¸ ˜ao pr ´e-especificada que ´e tipicamente mon ´otona, mas de alguma forma arbitr ´aria. Esta func¸ ˜ao depende de constantes

(par ˆametros) cujos valores devem ser determinados com um conjunto de treinamento de entradas e sa´ıdas.

Arquitetura da rede ´e a organizac¸ ˜ao das unidades computacionais e os tipos de conex ˜ao permitidos. Em aplicac¸ ˜oes estat´ısticas, as unidades

computacionais s ˜ao arrumadas em uma s ´erie de camadas com conex ˜oes entre n ´os em camadas diferentes, mas n ˜ao entre n ´os da mesma camada. A camada que recebe as entradas iniciais ´e chamada camada de entrada. A camada final ´e chamada camada de sa´ıda. Todas as camadas entre as camadas de entrada e sa´ıda s ˜ao chamadas camadas ocultas.

Redes Neurais podem ser usadas para discriminac¸ ˜ao e classificac¸ ˜ao. Quando elas s ˜ao usadas com este fim, as vari ´aveis de entrada s ˜ao as medidas X1,X2, . . . ,Xp, e a vari ´avel de sa´ıda ´e a vari ´avel categ ´orica que

indica de qual grupo veio a observac¸ ˜ao de entrada. A experi ˆencia inidca que redes neurais apropriadamente constru´ıdas comportam-se t ˜ao bem quanto `a regress ˜ao log´ıstica e as func¸ ˜oes discriminantes discutidas aqui. Os autores sugerem a seguinte refer ˆencia para uma boa discuss ˜ao do uso de redes neurais em aplicac¸ ˜oes da estat´ıstica: Stem, H. S. Neural Networks in Applied Statistics. Technometrics, 38, (1996), 205-214.

Selec¸ ˜ao de Vari ´aveis

Em algumas aplicac¸ ˜oes da an ´alise discriminante, os dados est ˜ao dispon´ıveis para um grande n ´umero de vari ´aveis. Mucciardi e Gose (A Comparison of Seven Techniques for Choosing Subsets of Pattern Recognition Properties. IEEE Trans. Computers, C20 (1971), 1023-1031.) estudaram uma an ´alise discriminante baseada em 157 vari ´aveis. Neste caso, seria obviamente desej ´avel selecionar um subconjunto menor de vari ´aveis que contivesse quase toda a informac¸ ˜ao original para efeitos da classificac¸ ˜ao. Este ´e o prop ´osito da an ´alise discriminante passo-a-passo stepwise, e v ´arios programas de computador disp ˜oem destas func¸ ˜oes de selec¸ ˜ao de vari ´avel.

Se uma an ´alise discriminante stepwise (ou qualquer outro m ´etodo de selec¸ ˜ao) ´e empregado, os resultados devem ser interpretados com cautela. (Veja Murray, G. D. A Cautionary Note on Selection of Variables in

Discriminant Analysis. Applied Statistics, 26, no. 3 (1977),246-250.) N ˜ao h ´a garantia de que o subconjunto selecionado seja o “melhor”, sem olhar o crit ´erio usado para fazer a selec¸ ˜ao. Por exemplo, subconjuntos selecionados com base na minimizac¸ ˜ao da taxa de erro aparente ou maximizac¸ ˜ao do “poder de discriminac¸ ˜ao” podem comportar-se pobremente em amostras futuras. Problemas associados com procedimentos de selec¸ ˜ao de vari ´aveis s ˜ao ampliados se existem correlac¸ ˜oes altas entre as vari ´aveis ou entre ombinac¸ ˜oes lineares das vari ´aveis.

A escolha de um subconjunto de vari ´aveis que parece ser ´otima para um dado conjunto de dados ´e especialmente preocupante se a classificac¸ ˜ao ´e o objetivo. No m´ınimo, a func¸ ˜ao de classificac¸ ˜ao obtida deve ser avaliada com uma amostra de validac¸ ˜ao. Como Murray (1977) sugeriu, uma ideia melhor pode ser dividir a amostra em um n ´umero de lotes e determinar o “melhor” subconjunto para cada lote. O n ´umero de vezes que uma dada vari ´avel aparece nos melhores subconjuntos fornece uma medida do valor dessa vari ´avel para classificac¸ ˜oes futuras.

Exerc´ıcios do cap´ıtulo 11 para entregar:

No documento Ralph S. Silva (páginas 50-58)

Documentos relacionados