• Nenhum resultado encontrado

Comparação entre medidas clássicas e robustas para identificação de outliers em regressão

N/A
N/A
Protected

Academic year: 2021

Share "Comparação entre medidas clássicas e robustas para identificação de outliers em regressão"

Copied!
6
0
0

Texto

(1)

Comparac

¸˜

ao entre medidas cl´

assicas e

robustas para identificac

¸˜

ao de outliers em

regress˜

ao

Gabriela Isabel L. Alves

(1)

, Verˆ

onica Maria C. Lima

(2)

(1)Curso de Gradua¸c˜ao em Estat´ıstica (2)Departamento de Estat´ıstica

Universidade Federal da Bahia Salvador/BA, 40170–110, Brazil

{gabbybel@hotmail.com; cadena@ufba.br}

Resumo

A t´ecnica de an´alise de regress˜ao linear n˜ao est´a completa sem o estudo dos res´ıduos para a identifica¸c˜ao de poss´ıveis outliers e de alguns outros diagn´osticos. Outliers est˜ao presentes em praticamente todos os conjuntos de dados, em qualquer dom´ınio de aplica¸c˜ao. Pesquisas realizadas com grandes quantidades de observa¸c˜oes tornam mais dif´ıceis sua detec¸c˜ao visual. O objetivo deste trabalho ´e comparar as medidas cl´assicas com as medidas robustas para identifica¸c˜ao de outliers. Entre as medidas cl´assicas foram consideradas: Leverage, DFBeta DFFit, Cook, Covratio e a distˆancia de Mahalanobis. As medidas robustas consideradas foram Elips´oide de Volume M´ınimo e Covariˆancia de Determinante M´ınimo. Atrav´es da an´alise de v´arios conjuntos de dados, os resultados revelaram que as medidas robustas, que utilizam es-timadores “resistentes”a uma propor¸c˜ao de dados contaminados, mostraram-se mais eficientes na identifica¸c˜ao de outliers.

Palavras-Chaves: Outliers, diagn´osticos cl´assicos, diagn´osticos robustos.

1

Introdu¸

ao

Segundo Rousseeuw and van Zomeren (1990), outliers s˜ao observa¸c˜oes que n˜ao seguem o padr˜ao da maioria dos dados. Outliers est˜ao presentes em praticamente todos os conjuntos de dados, em qualquer dom´ınio de aplica¸c˜ao. A maioria das pesquisas em ciˆencia, ind´ustria e economia, lidam com grandes quantidades de observa¸c˜oes, o que aumenta a possibilidade de se encontrar outliers (Todorov and Filzmoser (2009)).

Em regress˜ao, ap´os o ajuste do modelo, ´e comum a utiliza¸c˜ao de v´arias medidas de diagn´osticos para identifica¸c˜ao de poss´ıveis outliers no conjunto de dados. V´arias medidas de diagn´osticos foram planejadas para detectar observa¸c˜oes individuais ou grupo de observa¸c˜oes que diferem do restante dos dados. Muitas delas est˜ao baseadas em res´ıduos de m´ınimos quadrados ordin´arios (MQO). Entretanto, como o m´etodo de MQO tenta evitar grandes res´ıduos, um outlier apenas pode com-prometer completamente as estimativas dos parˆametros do modelo de regress˜ao. Outras medidas de diagn´ostico est˜ao baseadas em deletar uma observa¸c˜ao por vez, e observar a diferen¸ca nas estima-tivas dos parˆametros do modelo entre os valores ajustados com e sem a i-´esima observa¸c˜ao. Pode acontecer que um subconjunto das observa¸c˜oes seja altamente influente, mas n˜ao uma observa¸c˜ao

(2)

individualmente (Rousseeuw and Leroy (1987)). Neste trabalho, vamos considerar as medidas de diagn´osticos Leverage, DFBeta, DFFit, Cook, Covratio e a distˆancia de Mahalanobis.

Devido a fragilidade destas medidas na identifica¸c˜ao de outliers, tem sido propostas na literatura diversas medidas robustas. Neste trabalho, vamos considerar as distˆancias robustas Elips´oide de Volume M´ınimo e Covariˆancia de Determinante M´ınimo. Ambas estas distˆancias est˜ao baseadas em estimadores robustos para o vetor de m´edias e matriz de covariˆancias. O objetivo deste trabalho ´e realizar uma compara¸c˜ao entre as v´arias medidas, cl´assicas e robustas, para identifica¸c˜ao de outliers. Este trabalho est´a organizado como segue. A Se¸c˜ao 2, descreve o modelo de regress˜ao linear e o m´etodo de estima¸c˜ao de m´ınimos quadrados ordin´arios. As Se¸c˜oes 3 e 4, apresentam as medidas, cl´assicas e robustas, respectivamente, e a aplica¸c˜ao destas medidas a dados da literatura. Por fim, na Se¸c˜ao 5, conclui este trabalho.

2

Modelo de Regress˜

ao Linear

O modelo de regress˜ao linear tem o objetivo de descrever a rela¸c˜ao existente entre as vari´aveis explanat´orias X e a vari´avel resposta y. Essa rela¸c˜ao pode ser escrita como: y = Xβ + , em que y ´

e um vetor (n × 1) de respostas, X ´e uma matriz (n × p) (p < n) de vari´aveis independentes, β ´e um vetor (p × 1) de parˆametros desconhecidos e  ´e um vetor (n × 1) de erros aleat´orios independentes, cada um com m´edia zero e apresentando a propriedade de homocedasticidade, ou seja, variˆancia constante. Os prop´ositos da regress˜ao linear s˜ao: a descri¸c˜ao e controle dos dados, estima¸c˜ao dos parˆametros e predi¸c˜ao (Montgomery and Peck (1992)).

A estima¸c˜ao dos parˆametros do modelo ´e comumente realizada utilizando o m´etodo de m´ınimos quadrados ordin´arios (MQO). Este m´etodo consiste na minimiza¸c˜ao da soma dos quadrados dos erros e fornece estimadores com propriedades desej´aveis como n˜ao vi´es, consistˆencia e eficiˆencia. O estimador de m´ınimos quadrados pode ser escrito na forma matricial como: ˆβ = (X0X)−1(X0Y ).

Os res´ıduos s˜ao definidos como a diferen¸ca entre os valores observados e os valores estimados pelo modelo em quest˜ao. Uma an´alise de regress˜ao linear n˜ao est´a completa sem o estudo dos res´ıduos para a identifica¸c˜ao de outliers e de alguns outros diagn´osticos. Se o modelo for apropriado para amostra em quest˜ao, os res´ıduos devem refletir as caracter´ısticas dos erros.

3

Diagn´

osticos Cl´

assicos de Regress˜

ao

Outliers ocorrem muito freq¨uentemente em dados reais e eles, muitas vezes, n˜ao s˜ao observados pelo usu´ario. Tanto a vari´avel resposta como as vari´aveis explanat´orias do modelo podem conter outliers. Neste ´ultimo caso, eles s˜ao chamados de pontos de alavanca. Ambos os tipos de outliers podem afetar as estimativas de m´ınimos quadrados ordin´arios. Existem na literatura v´arias medidas para identifica¸c˜ao de outliers (ver por ex. Montgomery and Peck (1992), Mendes (1999) e Rousseeuw and Leroy (1987)). Abaixo, descrevemos algumas delas.

1. Medida de Leverage (hii)

A medida de leverage (hii) mede a importˆancia da i-´esima observa¸c˜ao na determina¸c˜ao do

ajuste do modelo, em que hii ´e o valor do i-´esimo elemento da diagonal principal da matriz

H. Valores de hii > 2p/n devem ser verificados, pois, podem ser pontos de alavanca. Al´em

disso, podem ser consideradas observa¸c˜oes n˜ao problem´aticas aquelas com hii menores que

0,2, enquanto que observa¸c˜oes extremamente influentes seriam aquelas com hii maiores que

0,5.

2. DFBetaj(i)

Esta estat´ıstica mede a influˆencia da i-´esima observa¸c˜ao sobre o valor estimado do j-´esimo β, ou seja, avalia a influˆencia de uma dada observa¸c˜ao na estima¸c˜ao dos parˆametros. A estat´ıstica

(3)

´

e dada por: DFBeta(j)i = ˆ βj− ˆβj(−i)

CjjQMRes(−i)

, em que Cjj ´e o (jj)-´esimo elemento da diagonal da

matriz (X0X)−1. Os valores de | DFBeta(j)i |> 2/

n indicam que a observa¸c˜ao pode ser considerada influente.

3. DFFiti

O DFFiti mede a influˆencia provocada no valor ajustado pela retirada da i-´esima observa¸c˜ao.

´

E definido por: DFFiti = ˆ yi−ˆy(−i)

hiiQMRes(−i)

. Valores absolutos excedendo 2pp/n nos fornece ind´ıcios de observa¸c˜oes influentes.

4. Distˆancia de Cook (Di)

A distˆancia de Cook, representada por Di mede o afastamento do vetor de estimativas dos

coeficientes da regress˜ao provocado pela retirada da i-´esima observa¸c˜ao. A estat´ıstica ´e dada por Di =

( ˆβ(i)− ˆβ(−i))0X0X( ˆβ(i)− ˆβ(−i))

pQMRes . Valores de Di > 1 sugerem a avalia¸c˜ao de observa¸c˜oes

influentes. Outra recomenda¸c˜ao ´e comparar Di com a mediana da distribui¸c˜ao F com graus

de liberdade p e n − p (F0.5,p,n−p).

5. COVRATIOi

Uma medida que pode nos informar sobre a precis˜ao geral da estima¸c˜ao ´e o COVRATIO. Esta mede o efeito da retirada da i-´esima observa¸c˜ao no determinante da matriz de co-variˆancia das estimativas. ´E definida por COVRATIOi =

det[QMRes(−i)(X(−i)0 X(−i))−1]

det[QMRes(X0X)−1] . Valores de

|COV RAT IOi| > 1 + 3p/n indicam que essas observa¸c˜oes podem ser consideradas influentes.

6. Distˆancia de Mahalanobis (M Di)

A distˆancia de Mahalanobis ´e baseada na matriz de covariˆancias amostrais e no vetor de m´edias amostrais. Ela ´e definida como M Di =

q

(xi− ˆµ)0 ˆ

P−1

(xi− ˆµ), em que ˆµ representa

a m´edia amostral e ˆP ´e a matriz (p − 1) × (p − 1) das covariˆancias amostrais. Os valores de M Di devem ser comparados com a raiz quadrada do percentil de probabilidade de uma

qui-quadrado com (p − 1) graus de liberdade.

3.1

An´

alise de dados

Vamos agora investigar o uso destas medidas em alguns conjuntos de dados.

Exemplo 1: Oxida¸c˜ao de amˆonia em ´acido n´ıtrico. Rousseeuw and Leroy (1987) con-sideram um banco de dados referente ao funcionamento de uma f´abrica para oxida¸c˜ao de amˆonia em ´acido n´ıtrico. Este conjunto de dados ´e composto por 21 observa¸c˜oes com 3 vari´aveis indepen-dentes, sendo elas: a taxa de funcionamento, a temperatura de entrada da ´agua de resfriamento e a concentra¸c˜ao do ´acido. Segundo Rousseeuw and van Zomeren (1990), as observa¸c˜oes 1, 2, 3 e 21 s˜ao outliers.

A Tabela 1 apresenta as medidas Leverage, DFBeta, DFFit, Cook, Covratio e Mahalanobis avaliando os pontos influentes. De acordo com a Tabela 1, a medida de Leverage identificou er-roneamente a observa¸c˜ao 17, enquanto o DFBeta identificou corretamente uma observa¸c˜ao (21) e uma observa¸c˜ao erroneamente (4). Com rela¸c˜ao a medida de Covratio, esta identificou as ob-serva¸c˜oes 17 e 21 como pontos influentes sendo, uma observa¸c˜ao identificada corretamente (21) e uma identificada erroneamente (17). J´a o DFFit, Cook e Mahalanobis n˜ao consideraram nenhuma observa¸c˜ao como sendo influente.

Exemplo 2: Gravidade espec´ıfica da madeira. Rousseeuw (1984) consideram os dados descritos em Draper and Smith (1966) sobre a influˆencia de fatores anatˆomicos na gravidade

(4)

es-Tabela 1: Resultados da verifica¸c˜ao das medidas influentes para os dados sobre oxida¸c˜ao de amˆonia em ´acido n´ıtrico. As observa¸c˜oes 1, 2, 3 e 21 s˜ao outliers.

Medidas Pontos detectados Resultados

Leverage 17 O ponto identificado n˜ao ´e influente. DFbeta x1 21 O ponto identificado ´e influente.

DFbeta x2 4 e 21 Identificou 1 ponto corretamente e 1 erroneamente. DFbeta x3 - Nenhum dos 4 pontos foram identificados.

DFfit - Nenhum dos 4 pontos foram identificados. Cook - Nenhum dos 4 pontos foram identificados. Covratio 17 e 21 Identificou 1 ponto corretamente e 1 erroneamente. Mahalanobis - Nenhum dos 4 pontos foram identificados.

MVE 1, 2 e 3 Todos os pontos identificados s˜ao influentes. MCD 1, 2, 3, 15, 16, 17, 18, 19 e 21 Identificou 4 pontos corretamente e 5 erroneamente.

pec´ıfica da madeira. Este conjunto de dados cont´em 20 observa¸c˜oes com 5 vari´aveis independentes. As observa¸c˜oes (4, 6, 8 e 19) foram substitu´ıdas por outliers.

A Tabela 2 apresenta as medidas de Leverage, DFBeta, DFFit, Cook, Covratio e Mahalanobis avaliando os pontos influentes para esse banco de dados. De acordo com a Tabela 2, as medidas de Leverage, Cook e distˆancia de Mahalanobis n˜ao consideram nenhum dos pontos como sendo influente. O DFFit, DFBeta e Covratio consideraram v´arias observa¸c˜oes como influentes, entretanto nenhuma delas s˜ao outliers.

Tabela 2: Resultados da verifica¸c˜ao das medidas influentes para os dados sobre gravidade espec´ıfica da madeira. As observa¸c˜oes 4, 6, 8 e 19 s˜ao outliers.

Medidas Pontos detectados Resultados

Leverage - Nenhum dos 4 pontos influentes foram identificados. DFbeta x1 3, 7, 12 e 16 Todos os pontos identificados n˜ao s˜ao influentes. DFbeta x2 3, 5, 11 e 16 Todos os pontos identificados n˜ao s˜ao influentes. DFbeta x3 7, 11 e 12 Todos os pontos identificados n˜ao s˜ao influentes. DFbeta x4 16 O ponto identificado n˜ao ´e influente. DFbeta x5 3, 7 e 11 Todos os pontos identificados n˜ao s˜ao influentes.

DFfit 7, 11 e 12 Todos os pontos identificados n˜ao s˜ao influentes. Cook - Nenhum dos 4 pontos influentes foram identificados. Covratio 10 e 16 Todos os pontos identificados n˜ao s˜ao influentes. Mahalanobis - Nenhum dos 4 pontos influentes foram identificados.

MVE 4, 6, 8, 11, e 19 Identificou 1 ponto erroneamente. MCD 4, 6, 7, 8, 11, 16 e 19 Identificou 3 pontos erronemente.

4

Diagn´

osticos Robustos de Regress˜

ao.

De acordo com os resultados descritos na se¸c˜ao anterior, ´e poss´ıvel perceber a necessidade de se considerar outras medidas de diagn´osticos para identifica¸c˜ao de outliers. Neste trabalho, vamos considerar o Elips´oide de Volume M´ınimo e a Covariˆancia de Determinante M´ınimo.

(5)

Para melhor compreens˜ao dos estimadores robustos ´e necess´ario introduzir o conceito de ponto de ruptura, que ´e uma medida global de robustez. O ponto de ruptura de um estimador mede qual seria a maior porcentagem de contamina¸c˜ao que um estimador poderia suportar e ainda assim fornecer informa¸c˜ao confi´avel sobre o parˆametro considerado. Quanto mais pr´oximo de 0,5 ´e o ponto de ruptura, mais resistente ´e este estimador a outliers.

1. Elips´oide de Volume M´ınimo

Segundo Rousseeuw and van Zomeren (1990), o Elips´oide de Volume M´ınimo (Minimum Volume Ellipsoid - MVE) ´e baseado no elips´oide de menor volume cobrindo pelo menos k pontos de X, em que k em geral ´e igual a parte inteira de [n/2] + 1. Este estimador possui ponto de ruptura 0,5 e ´e equivariante, ou seja, T (x1A + b, ..., xnA + b) = T (x1, ..., xn)A + b

e C(x1A + b, ..., xnA + b) = AtC(x1, ..., xn)A. Este estimador robusto ´e definido pelo par

(T, C) onde T ´e um vetor de dimens˜ao p da m´edia amostral, e C ´e a matriz de dimens˜ao p × p da matriz de covariˆancia amostral. A distˆancia robusta definida para o MVE ´e: RDi = p(xi− T (X))C(X)−1(xi− T (X))t. Rousseeuw e van Zomeren (1990) apresentam

dois algoritmos aproximados para o MVE, o algoritmo de reamostragem e o algoritmo de proje¸c˜ao.

2. Covariˆancia de Determinante M´ınimo

De acordo com Rousseeuw (1985), o estimador Covariˆancia de Determinante M´ınimo (Mi-nimum Covariance Determinant Estimator - MCD) para um conjunto de dados {x1, ..., xn}

em <p ´e definido pelo subconjunto {xi1, ..., xik} de k observa¸c˜oes, cuja matriz de covariˆancia

tem o menor determinante entre todos os subconjuntos poss´ıveis de tamanho k. O estimador do vetor de loca¸c˜ao ´e definido como a m´edia aritm´etica dos k pontos de X para os quais o determinante da matriz de covariˆancia ´e m´ınimo.

O c´alculo do estimador MCD est´a longe de ser trivial. Um algoritmo ingˆenuo continuaria investigando exaustivamente por todos os subconjuntos de tamanho k para encontrar o sub-conjunto com o menor determinante de sua matriz de covariˆancia, mas, isso s´o ser´a vi´avel para conjuntos de dados muito pequenos.

Segundo Todorov and Filzmoser (2009), o MCD foi negligenciado em favor do MVE porque o algoritmo de reamostragem simples foi mais eficiente para MVE. Entretanto, o ponto de ruptura deste estimador coincide com o do MVE (0,5) e tem baixa convergˆencia, tornando-se mais eficiente estatisticamente.

Ambas distˆancias est˜ao dispon´ıveis no software R atrav´es dos pacotes robustbase e rrcov, desenvolvidos por Todorov and Filzmoser (2009).

4.1

An´

alise de Dados

Vamos agora aplicar essas medidas robustas nos conjuntos de dados em que foram aplicados as medidas cl´assicas de identifica¸c˜ao de outliers.

Voltando ao exemplo do funcionamento da f´abrica para oxida¸c˜ao de amˆonia em ´acido n´ıtrico, que apresenta as observa¸c˜oes 1, 2, 3 e 21 como outliers. A Tabela 1 apresenta um resumo das medidas robustas avaliando os pontos influentes desse banco de dados. O MVE identificou as observa¸c˜oes 1, 2 e 3, sendo que todos identificados s˜ao realmente outliers, por´em, faltou identificar a observa¸c˜ao 21. J´a o MCD identificou as observa¸c˜oes 1, 2, 3, 15, 16, 17, 18, 19 e 21, sendo quatro identificados corretamente (1, 2, 3 e 21) e cinco erroneamente (15, 16, 17, 18 e 19).

Retomemos agora aos dados da Gravidade espec´ıfica da madeira (Exemplo 2). De acordo com a Tabela 2, o MVE identificou as observa¸c˜oes 4, 6, 8, 11 e 19, sendo quatro identificados corretamente (4, 6, 8 e 19) e uma erroneamente (11). O MCD identificou as observa¸c˜oes 4, 6, 7, 8, 11, 16 e 19,

(6)

sendo quatro observa¸c˜oes identificadas corretamente (4, 6, 8 e 19) e trˆes identificadas erroneamente (7, 11 e 16).

5

Conclus˜

oes

Com base nos resultados encontrados, observou-se que as medidas de Leverage, DFBeta, DFFit, Cook, Covratio e a distˆancia de Mahalanobis n˜ao produzem resultados satisfat´orios, deixando de identificar observa¸c˜oes que s˜ao, de fato, outliers e, outras vezes, identificando observa¸c˜oes como outliers quando na realidade n˜ao o s˜ao. Com rela¸c˜ao aos diagn´osticos robustos, MVE e MCD, estes apresentaram melhores resultados, pois, identificaram a maioria dos outliers. Entretanto, estas medidas tamb´em identificaram observa¸c˜oes que n˜ao s˜ao outliers.

O pr´oximo passo deste trabalho ser´a considerar outros diagn´osticos robustos tais como os res´ıduos padronizados provenientes da regress˜ao do estimador menor mediana dos quadrados dos res´ıduos, proposto por Rousseeuw (1984).

Agradecimentos

Este trabalho recebe apoio do CNPq atrav´es de bolsa de IC.

Referˆ

encias

Draper, N. R. and Smith, H. (1966). Applied Regression Analysis. Wiley, New York.

Mendes, B. V. M. (1999). Regress˜ao Robusta: Conceitos, Aplica¸c˜oes e Aspectos Computacionais. Associa¸c˜ao Brasileira de Estat´ıstica, S˜ao Paulo.

Montgomery, D. C. and Peck, E. A. (1992). Introduction to linear regression analysis. J. Wiley, New York.

Rousseeuw, P. J. (1984). Least median of squares regression. Journal of American Statistical Association, 79:871–880.

Rousseeuw, P. J. (1985). Multivariate estimation with high breakdown point. In Grossmann, W., Pflug, G., Vincze, I., and Wetz, W., editors, Mathematical Statistics and Aplications, pages 283–297. Reidel Publishing Company, Dordrecht.

Rousseeuw, P. J. and Leroy, A. M. (1987). Robust Regression and Outlier Detection. Wiley, New York.

Rousseeuw, P. J. and van Zomeren, B. C. (1990). Unmasking multivariate outliers and leverage points. Journal of American Statistical Association, 85:633–639.

Todorov, V. and Filzmoser, P. (2009). An object-oriented framework for robust multivariate anal-ysis. Journal of Statistical Software, 32:1–47.

Referências

Documentos relacionados

Sobre estas perspectivas procuro levantar alguns questionamentos durante esta investigação, tais como: a distopia relaciona com a realidade extra fílmicas do presente

Visando prospectar espécies vegetais promissoras, como fontes de metabólitos secundários, testou-se, na Universidade Federal de Santa Maria Santa Maria, RS diversos extratos de

The animals were divided in six groups and submitted to the following procedures: SHAM, rats submitted to surgical laparotomy and anesthetic stress without the induction of I/R;

Analisando o excerto anterior é possível verificar que, ao contrário do que acontece com os restantes tipos de dados, neste não colocamos o “e” comercial no início do nome

Abordam-se pontos como o princípio dos 5R’s, a temática da eficiência hídrica em edifícios, as diretrizes para o setor urbano definidas no Programa Nacional para o Uso

Este trabalho se refere ao instituto processual conhecido como fundamentação das decisões judiciais, que em razão da divergência doutrinária quanto a nomenclatura

A seguir apresentam-se os gráficos de Carga Média (kgf) x Deformação Média (mm) comparando cada amostra dentro de seu grupo, e os gráficos de Carga Média (kgf) x Deformação

As relações hídricas das cultivares de amendoim foram significativamente influenciadas pela a deficiência hídrica, reduzindo o potencial hídrico foliar e o conteúdo relativo de