Estimadores, distâncias e outros aspectos relevantes

Rejeição de outliers em dados multivariados

4.2 Estimadores, distâncias e outros aspectos relevantes

O procedimento clássico para a identificação de outliers em dados multivariados é baseado no cálculo das distâncias de Mahalanobis (observações que apresentam distâncias “grandes” são consideradas outliers). Enquanto que é relativamente simples detectar um único outlier recorrendo a esta distância, este procedimento não é suficiente para múltiplos outliers. Esta e outras abordagens que apareceram anteriormente, podem falhar por dois motivos: o efeito masking e o efeito swamping. O primeiro corresponde à incapacidade de um teste identificar mesmo que um único outlier, na presença de outros valores suspeitos. A presença de outras observações mascara a detecção do impacto real de uma única observação; múltiplos outliers na mesma nuvem distorcem as estimativas quer pela atracção da média amostral quer por inflacionar a matriz de covariâncias amostral na sua direcção, levando à obtenção de valores menores para a distância de Mahalanobis. No segundo efeito, o swamping, as observações podem parecer outliers quando de facto não o são (ver Davies e Gather, 1993). Refere-se ao efeito que um agregado (nuvem) de outliers pode ter num conjunto de observações consistentes com a maioria; o agregado pode causar distorções na matriz de covariâncias pelo que grandes valores de distâncias podem traduzir-se em observações que na realidade não são outliers. Grosso modo, diz-se que o efeito de swamping ocorre quando, observações regulares são rotuladas como sendo outliers. Rocke e Woodruff (1996) dão especial relevância ao porquê da detecção de outliers multivariados ser tão difícil e ao porquê desta dificuldade aumentar com a dimensão dos dados.

Uma forma de contornar estes problemas consiste na utilização de estimadores robustos do vector de médias e da matriz de covariâncias. Este tema tem sido alvo de intensa investigação nos últimos anos e constitui um grande desafio tendo sido considerado um dos problemas mais difíceis da estatística robusta. Aliás, conforme já aqui foi referido, a existência de outliers nos dados é das razões mais óbvias para que necessitemos de algum tipo de procedimento robusto.

Do conjunto de estimadores disponíveis destacam-se o MVE (Minimum Volume Ellipsoid) e o MCD (Minimum Covariance Determinant) de Rousseeuw (Rousseeuw, 1985; Rousseeuw e Leroy, 1987) e versões reponderadas dos mesmos, mais eficientes (ver Croux e Haesbroeck, 1999). No caso do MCD o objectivo é o de encontrar h pontos que fazem com que a matriz de covariâncias tenha determinante mínimo enquanto que no MVE se procura o elipsóide que contém os h pontos que perfazem volume mínimo. O MCD é geralmente mais utilizado porque supera o MVE tanto em termos de eficiência estatística como em velocidade computacional (Rousseuw e Van Driessen, 1999). Destaque-se ainda que o estimador MVE não tem distribuição assintótica normal e não é n consistente (Davies, 1992). Estes estimadores são resistentes aos outliers porque estes não se envolvem nos cálculos efectuados para a estimação da localização e da escala: as distâncias robustas baseadas no MCD são mais precisas quando há contaminação do que as baseadas no MVE permitindo uma melhor detecção dos outliers.

Tanto o estimador MCD como o estimador MVE possuem elevado ponto de rotura (arbitrariamente próximo de 50% para qualquer n), são equivariantes, mas pouco eficientes próximo do modelo multinormal colocando até há bem pouco tempo, grandes problemas de cálculo (ver por exemplo Pires, 1995). No entanto, este problema foi ultrapassado em 1999 com o aparecimento de um novo algoritmo (Rousseeuw e van Driessen, 1999) que tornou o MCD disponível originando o aparecimento de uma rotina que, por exemplo, constitui parte integrante do software S-Plus. O novo estimador passou a chamar-se “fast MCD” e tomou a designação dada pela sigla FMCD ou RMCD, no caso da versão reponderada. Muitos outros autores, como por exemplo Atkinson (1994), e Rocke e Woodruff (1996) utilizaram também estes estimadores (MCD e MVE) nos seus métodos de detecção de outliers.

Importa também fazer menção a outros estimadores tais como os estimadores-S (Davies, 1987), os estimadores-M de Maronna (1976) e os outros estimadores baseados em projecções com especial destaque para o estimador Stahel-Donoho proposto por Stahel (1981) e Donoho (1982) e mais tarde estudado por Maronna e Yohai (1995). Ao contrário dos estimadores-M, todos os outros possuem elevado ponto de rotura. Hampel (2002), referindo-se a estes estimadores, tece alguns comentários interessantes acerca das matrizes de covariâncias robustas.

Recentemente, Maronna e Zamar (2002) propõem um novo estimador baseado numa versão modificada do estimador robusto de Gnanadesikan e Kettering que designam por OGK (orthogonalised Gnanadesikan-Kettnering estimate). Como estes autores referem, embora tenham aparecido muitas abordagens para lidar com o problema da sensibilidade da matriz de covariâncias à presença dos outliers (destacando-se o MCD), a obtenção destes estimadores requer tempos de processamento substanciais, mesmo no caso do FMCD, principalmente para amostras de grande dimensão. Neste artigo dá-se relevo a alguns obstáculos associados à consistência e ao enviesamento do estimador MCD sendo apresentado um método genérico para obtenção de uma matriz de dispersão robusta, definida positiva e aproximadamente equivariante para transformações afins. Este estimador tem também a vantagem de requerer tempos de processamento inferiores a estimadores robustos recentes (tais como o FMCD e o estimador de Stahel-Donoho). Com base num conjunto de simulações com dados normais contaminados mostra-se que o estimador OGK é quase tão bom como o estimador de Stahel-Donoho e claramente melhor que o FMCD sendo mais rápido que ambos especialmente para grandes dimensões. Quando aplicado a dados reais também mostrou ser tão bom, ou melhor, que o estimador de Stahel-Donoho e o FMCD.

Pelas razões apontadas decidiu-se incluir neste trabalho o estimador OGK já que poderá vir a revelar-se uma proposta competitiva com o MCD pelo que se julga conveniente dedicar um pouco mais de atenção à descrição das ideias básicas do mesmo.

De grosso modo, o estimador de localização-escala OGK, é baseado numa versão modificada do estimador de Gnanadesikan-Kettenring, através da seguinte relação entre variâncias e covariâncias:

Cov(X,Y)= 1_{( (} ₎2 ₍ _{) )}2

4 X Y+ − X Y−

onde σ representa o desvio-padrão usual e X, Y um par de variáveis aleatórias. Estes autores propõem a definição de uma “matriz de covariâncias robusta” através da utilização de uma escala robusta (como por exemplo o “trimmed standard deviation”). Contudo, com base nesta relação, a matriz de localização-dispersão multivariada resultante não é equivariante para transformações afins e não se pode garantir que seja definida positiva.

Recorde-se que sendo V a matriz de covariâncias do vector x p-dimensional e o desvio-padrão, então (aTx)2_=aT_Va,

a∈

∀ . Maronna e Zamar (2002) propõem uma modificação, forçando esta igualdade para um conjunto de “direcções principais” e obrigando a que a matriz se torne definida positiva. Esta modificação assenta no facto de que os valores próprios da matriz de covariâncias correspondem às variâncias ao longo das direcções dadas pelos respectivos vectores próprios. Para tal definem uma matriz de dispersão V(X) e um vector de localização t(X) que podem e devem, ser iterados e que são obtidos à custa de quatro passos sendo o primeiro o que torna o estimador equivariante para a escala e os restantes uma espécie de “componentes principais” com a substituição dos valores próprios (que podem ser negativos) por “variâncias robustas” das correspondentes direcções, conforme referem estes mesmos autores. O estimador pode também ser melhorado depois de um passo de reponderação. Sendo assim, o que é proposto neste artigo é o seguinte. Tome-se o quadrado da distância de Mahalanobis usual, _{( ) (} _{t) V (}T 1 _t)

i i i i

d ₌d x ₌ x ₋ − x ₋ _{, com matriz de}

dispersão V=V(X) e vector de localização t=t(X). Seja W a função de pesos e tW, VW a

matriz de dispersão e o vector de localização pesados correspondentes, onde cada x i

tem peso wi=W(di). Considere-se então a função de pesos mais simples- rejeição abrupta

(hard rejection)- com W(d)=I(d≤d0), onde I(.) é uma função indicatriz (unitária se d≤d0) e tome-se 2 1 0 2 ( ) med( ,..., ) (0.05) p n p d d d = onde 2_{( )}

p é o β- quantíl de uma distribuição

Qui-quadrado com p graus de liberdade e med a notação utilizada para referir a mediana.

Uma vez que é conveniente a utilização de estimadores robustos e eficientes para a escala e localização, Maronna e Zamar (2002) sugerem para a “τ-scale” de Yohai e Zamar (1988)- que é um desvio standard truncado – e para estimador de µ uma versão “pesada” da média. Para tal definam-se as seguintes funções:

Wc ( x )= 2 2 2 2 1 ( ), c( ) min ( , ). x I x c x x c c − ≤ =

Seja X=

{

x1,...,xn

}

uma amostra univariada e faça-se,

0 med( )

MAD( ) med( med( ) , i .

i c

x X

X X X w W −

= = − =

Então os estimadores de localização e dispersão são definidos como

2 2 2 0 0 (X) (X) , (X) i i i i c i i i x w x w n − = = .

Para combinar robustez e eficiência Maronna e Zamar (2002) sugerem que se tome c1=4.5 e c2=3 que permite, tanto para dados normais como de Cauchy, uma eficiência de aproximadamente 80% para localização e dispersão univariada. O programa que permite o cálculo deste estimador encontra-se no Apêndice C (este programa é uma tradução para a linguagem S-Plus da versão original escrita para a linguagem GAUSS, gentilmente cedida por Maronna).

A 12 de Janeiro de 2004 Pagnotta deu um seminário no Instituto Superior Técnico de Lisboa, onde abordou o tema “ Approximation algorithms for the estimate of the MCD and a new proposal”. A sua intervenção veio reforçar aquilo que já se suspeitava pelo que se tinha observado nalgumas situações. O estimador FMCD funciona muito bem quando a configuração dos dados contém nuvens de outliers com dispersão superior à das chamadas “boas” observações5, caso contrário apresenta algumas desvantagens nomeadamente quando o número de variáveis aumenta e quando também

aumenta o número de outliers que se concentram6_{em determinada localização.} Recentemente Pagnotta encontra-se a desenvolver uma versão modificada do FMCD a que chama CC-MCD e que se espera que introduza alguns melhoramentos nas propriedades do estimador bem como na diminuição do número de subconjuntos amostrais. Pagnotta (2003) esboça o algoritmo associado ao FMCD e analisa as respectivas fontes de falha apresentando a sua proposta alternativa CC-MCD.

Para terminar chama-se a atenção para um outro aspecto de importância relevante nos procedimentos de detecção de outliers: os métodos devem ser equivariantes para transformações afins, ou seja, as alterações de escala, localização e orientação não devem alterar o comportamento destes métodos, podendo ser ignoradas. É óbvio que esta propriedade é desejável tanto para o modelo como para as medidas de discrepância. Note-se que a distância de Mahalanobis é um dos poucos critérios de identificação de outliers invariante para transformações afins. Por essa razão não são aqui referidas e não serão experimentadas (no estudo de simulação apresentado no Capítulo 5 e na aplicação a conjuntos de dados reais no Capítulo 6) outras propostas de distâncias, como por exemplo a distância às medianas utilizada por Billor, Hadi e Velleman (2000, pág. 285).

No documento Reconhecimento de padrões: classificação supervisionada com rejeição de observações (páginas 156-161)