• Nenhum resultado encontrado

2.2

Detecção de outliers

Conjuntos de dados, sejam eles grandes ou pequenos, podem conter elementos que não são consistentes com a distribuição do restante dos dados que compõe o conjunto, e.g., pontos que desviam em uma ou mais variáveis, impedindo a modelagem estatística e a correta análise dos dados [Santana Giroldo & Barroso, 2008]. Estas anomalias são chamadas outliers.

Na literatura são encontradas diversas definições para outliers, entre elas, pode- mos citar Hawkins [1980]:

“Outlier é uma observação, que desvia muito de outras observações desper- tando suspeitas de que são geradas por um mecanismo diferente”

e Barnett & Lewis [1994]:

“Outlier é uma observação (ou um subconjunto de observações) que parece ser inconsistente comparado ao restante do conjunto de dados.”

Em redes de sensores, segundo Sheng et al. [2007], podemos citar:

“Outlier é um conjunto de medidas que desviam significativamente do pa- drão normal dos dados sensoriados.

O tratamento de outliers, seja para identificação, remoção ou ambos, tem sido extensivamente pesquisada em várias disciplinas, como a estatística, mineração de da- dos, aprendizagem de máquina e teoria da informação. As aplicações que se beneficiam do tratamento de outliers são a identificação de fraudes ou intrusão de redes, análise de desempenho, previsão do tempo entre outras [Chandola et al., 2009]. Apenas recen- temente o tratamento de outliers tem atraído a atenção em pesquisas relacionadas às redes de sensores [Zhang et al., 2010].

Como estamos interessados em dados multivariados, discutiremos adiante algu- mas técnicas para o tratamento de outliers em dados multivariados. Um método clássico para o reconhecimento de outliers nesse contexto, é a distância de Mahala- nobis [Hazewinkel, 1990],

MDi = p

(Vi− T (V))C(V)−1(Vi− T (V))⊤, (2.1) calculado para cada ponto em relação à média do conjunto. Na equação 2.1, V re- presenta o conjunto de dados que desejamos analisar, modelado como uma matriz de dimensões p × n, onde p representa o número de variáveis e n o número de amostras co- letadas; Vi representa a i-ésima amostra do conjunto de entrada; T (V) é um vetor

12 Capítulo 2. Fundamentação teórica e trabalhos relacionados de média aritmética simples, onde existe uma média para cada variável; e C(V) é a matriz de covariância de dimensões p × p.

Para uma distribuição Normal Multivariada, a Distância de Mahalanobis ao qua- drado (MD2

i) tem aproximadamente uma distribuição qui-quadrado, com p graus de liberdade (χ2

p). Então, podemos definir os outliers como aquelas medidas que ultra- passam um determinado quantil da distribuição qui-quadrado.

Mesmo sendo utilizada para detectar os outliers, a Distância de Mahalanobis é fortemente influenciada por eles. Isso ocorre devido à fragilidade dos estimadores de locação e dispersão utilizados, respectivamente a média aritmética simples e a matriz de covariância amostral [Rousseeuw & Driessen, 1999; Filzmoser et al., 2005]. Logo, são necessários estimadores que sofram menor interferência das anomalias.

Santana Giroldo & Barroso [2008], listam três métodos robustos para a identifi- cação de outliers em conjuntos de dados multivariados. Estes métodos são o Minimum Ellipsoid Volume (MVE) [Rousseeuw & Zomeren, 1990], o Minimum Covariance Deter- minant (MCD) [Filzmoser et al., 2005] e o Max-Eigen Difference (MED) [Gao et al., 2005]. Com exceção do MED, os outros métodos usam a distância de Mahalanobis para a detecção de outliers, mas, substituindo a média e a matriz de covariância por estimadores robustos.

Minimum Volume Ellipsoid (MVE): Este método utiliza a distância de Mahala- nobis, porém substituindo os estimadores de locação e dispersão por estimadores que sofrem menor interferência das anomalias. O estimador MVE pode ser de- finido como um par (T, C), que substituem a média e a matriz de covariância por um vetor T (V) de tamanho p, e C(V), uma matriz positiva semi-definida de tamanho p × p. O determinante da matriz é mínimo, sujeito a

#{i; (Vi− T (V))C(V) −1

(Vi− T (V))t ≤ a2} ≥ g,

onde # é o número de elementos no conjunto, g = ⌊(n + p + 1)/2⌋, sendo que, n representa o tamanho da amostra e p a quantidade de variáveis. Considerando que a maior parte dos dados segue uma distribuição Normal, a2 é uma constante, como χ2

p;0,50 [Rousseeuw & Zomeren, 1990]. Desse modo, obtém-se um elipsoide

definido por T (V ) e C(V ), dado um coeficiente a2, que cubra ao menos g pontos de dados, onde n/2 ≤ g < n.

Os estimadores iniciais são a média e a matriz de covariância. A partir destes dados será traçado um elipsoide de volume mínimo que definirá os “pontos bons”, ou seja, que pertencem a um intervalo de confiança definido, que no nosso caso

2.2. Detecção de outliers 13

será considerado um intervalo de 97, 5%. Esses “pontos bons” são utilizados para os cálculos das estimativas finais dos parâmetros de localização e dispersão, respectivamente a sua média e matriz de covariância [Santana Giroldo & Barroso, 2008]. De acordo com Alameddine et al. [2010], o ponto de ruptura do MVE pode chegar a 50%, quando n aumenta. Esse ponto representa a fração de outliers na amostra que pode tornar o estimador completamente tendencioso.

Minimum Covariance Determinant (MCD): Este método é frequentemente uti- lizado na prática, particularmente devido à rápida execução de seu algoritmo [Filzmoser et al., 2005]. O objetivo dessa técnica é encontrar g observações que tornem o determinante da matriz de covariância amostral mínimo. O estimador de localização é então a média destes g pontos, enquanto o estimador de dispersão será sua matriz de covariância. Para manter um compromisso entre a eficiência e a robustez do método, o subconjunto é definido como g ≈ 0, 75 n, onde n indica o tamanho da amostra [Filzmoser et al., 2005].

O valor aproximado do ponto de ruptura do MCD é dado por (n − g)/n. Con- siderando g ≈ 0, 75 n, seu valor será 25%. O cálculo desse estimador torna a Distância de Mahalanobis robusta.

Os resultados do MCD foram obtidos por intermédio do pacote mvoutlier [Filz- moser & Gschwandtner, 2012], que está disponível no software estatístico R [R Development Core Team, 2012]. Ele realiza o cálculo do MCD com base em duas funções e, seus resultados serão representados por MCD-AQ e MCD-DD. Conforme descrito no trabalho de Santana Giroldo & Barroso [2008], a primeira função realiza um ajuste para evitar que os dados da calda sejam erroneamente classificados como outliers. A segunda função realiza um cálculo baseado na dis- tância de Mahalanobis clássica e na distância de Mahalanobis robusta (utilizando os estimadores MCD) para a definição dos outliers.

Max-Eigen Difference (MED): Ao contrário das outras técnicas, este método não utiliza a distância de Mahalanobis para identificar os outliers. O reconhecimento de anomalias é realizado por intermédio dos autovetores e autovalores da matriz de covariância, aos quais são aplicados à norma euclidiana [Gao et al., 2005; San- tana Giroldo & Barroso, 2008]. Primeiro o algoritmo calcula a média amostral, a matriz de covariância, os autovalores e os autovetores de todo o conjunto ana- lisado. Em seguida, o mesmo cálculo é realizado, porém, desconsiderando-se a amostra atualmente analisada. Após esse procedimento é realizado o cálculo da distância padronizada de cada amostra em relação ao conjunto total. Ao final,

14 Capítulo 2. Fundamentação teórica e trabalhos relacionados serão considerados outliers as amostras com o valor de MED muito diferente dos outros dados.

Documentos relacionados