• Nenhum resultado encontrado

An ´alise de componentes principais e estudo da qualidade dos dados

Neste trabalho utilizamos, para diferentes fins, duas importantes ferramentas estat´ısti- cas: an ´alise de componentes principais para auxiliar na reduc¸ ˜ao de dados multivari- ados; e o teste Kolmogorov-Smirnov para avaliar a qualidade dos dados reduzidos. Ambos os mecanismos ser ˜ao detalhados a seguir.

2.3.1

An ´alise de componentes principais - PCA

A transformac¸ ˜ao de componentes principais†(KRZANOWSKI, 1995; JACKSON, 2003),

tamb ´em conhecida como transformac¸ ˜ao de Karhunen-Lo `eve, ´e uma das ferramen- tas mais poderosas para o tratamento de dados multivariados. ´E uma transformac¸ ˜ao entre espac¸os γ-dimensionais, derivada da matriz de covari ˆancia dos dados de en- trada gerando um novo conjunto de dados, de modo que cada valor resultante ´e uma combinac¸ ˜ao linear dos valores originais. O n ´umero de componentes principais ´e igual ao n ´umero de dimens ˜oes dos dados originais e esses podem ser ordenados de acordo com a sua vari ˆancia. Com isso, o primeiro e ´ultimo componentes principais devem ter a maior e a menor vari ˆancia, respectivamente.

A propriedade mais importante do novo conjunto de dados gerado pelo PCA ´e que os dados n ˜ao apresentam correlac¸ ˜ao (JACKSON, 2003), garantindo dessa forma que n ˜ao haja redund ˆancia entre os dados e que seja obtido um novo conjunto de dados com

An ´alise de componentes principais ´e abreviada na literatura como PCA do ingl ˆes Principal Com- ponent Analysis

propriedades para an ´alise multivariada. A transformac¸ ˜ao de componentes principais pode ser descrita nas seguintes etapas:

1. Calcular Σ, a matriz de covari ˆancia dos dados (vamos supor que ela ´e definida positiva pois estamos tratando de vari ˆancias).

2. Decompor Σ nos autovetores U e autovaloresλ. Essa matriz ser ´a diagonaliz ´avel uma vez que a matriz de covari ˆancia ´e definida positiva (KRZANOWSKI, 1995). 3. Calcular o novo conjunto de dados, multiplicando o valor de cada vari ´avel pela

matriz dos autovetores.

Os autovalores representam o comprimento dos eixos dos componentes principais do conjunto de dados e s ˜ao medidos na unidade da vari ˆancia. Associado a cada autovalor, existe um vetor de m ´odulo unit ´ario chamado autovetor. Os elementos de cada autovetor s ˜ao fatores de ponderac¸ ˜ao que definem a contribuic¸ ˜ao da vari ´avel da matriz de dados original para um componente principal, numa combinac¸ ˜ao linear. Os autovetores representam as direc¸ ˜oes dos eixos das componentes principais.

O m ´etodo de componentes principais pode ser formulado da seguinte forma: dada uma matriz de dados originais V , com s vari ´aveis correlacionadas, aplicar PCA con- siste em calcular a matriz C, que possui s vari ´aveis n ˜ao correlacionadas, de forma que cada componente principal ser ´a calculado por

Ci= u′i[V −V ], (2.1)

onde para cada 1≤ i ≤ s, ui= (ui,1, . . . , ui,s) ´e o autovetor i da matriz de covari ˆancia dos

dados V .

Outra propriedade importante do PCA ´e que a equac¸ ˜ao (2.1) pode ser invertida res- taurando as vari ´aveis originais em func¸ ˜ao dos componentes principais. Para isso utili- zamos

V = V +U C, (2.2)

devido a U ser ortonormal (WINTERLE; STEINBRUCH, 1987), temos U−1= U′; com isso, dada a matriz C, os dados originais V podem ser unicamente determinados pela equac¸ ˜ao (2.2).

No contexto do nosso trabalho o PCA ´e utilizado para classificar os dados multivari- ados, de tal forma que escolhemos apenas os dados mais correlacionados para pro- pag ´a-los at ´e o sorvedouro.

2.3.2

Qualidade dos dados reduzidos

Ao efetuarmos a reduc¸ ˜ao dos dados ´e importante avaliar o quanto o dado reduzido representa o dado original. Nessa direc¸ ˜ao, duas an ´alises foram realizadas no nosso trabalho: a aproximac¸ ˜ao entre as distribuic¸ ˜oes de freq ¨u ˆencia dos dados originais e amostrados; e a discrep ˆancia entre os valores originais e amostrados.

Para a avaliac¸ ˜ao da aproximac¸ ˜ao entre as distribuic¸ ˜oes de freq ¨u ˆencia dos dados ori- ginais e amostrados utilizamos o teste de Kolmogorov-Smirnov (teste KS) (SIEGEL; CASTELLAN, 1988; RESCHENHOFER, 1997). Esse teste avalia se duas amostras V e V′t ˆem distribuic¸ ˜oes similares n ˜ao exigindo que as amostras sigam a distribuic¸ ˜ao nor- mal, ou seja, caso os valores amostrados sigam outra distribuic¸ ˜ao este teste tamb ´em pode ser utilizado. O teste KS ´e descrito a seguir:

1. Construir a distribuic¸ ˜ao acumulada Fn dos dois grupos V e V′usando a mesma classe para ambas as distribuic¸ ˜oes.

2. Determinar as diferenc¸as acumuladas para cada ponto da distribuic¸ ˜ao e consi- derar a maior das diferenc¸as (Dmax).

3. Computar o valor cr´ıtico,

Dcrit = yp(|V| + |V′|)/|V ||V′|

onde y ´e um valor tabulado e representa o n´ıvel de signific ˆancia do teste. 4. As amostras seguem a mesma distribuic¸ ˜ao se

Dmax ≤ Dcrit. (2.3)

Apenas como ilustrac¸ ˜ao, considere a figura 7 que apresenta a comparac¸ ˜ao entre as distribuic¸ ˜oes de freq ¨u ˆencia acumulada, com |V | = 256 e |V| = {log|V |,|V |/2}† onde V′ ⊂ V . Em ambos os casos, atrav´es do teste KS, temos que V′ segue a mesma distribuic¸ ˜ao de V .

Como o teste KS apenas identifica se duas amostras seguem a mesma distribuic¸ ˜ao, ´e importante avaliar se os conjuntos V e V′possuem a m ´edia de seus valores pr ´oximos. Para isso podemos calcular a maior dist ˆancia entre V e os valores do intervalo de confianc¸a IC= [vin f; vsup] de V . Os passos para essa avaliac¸ ˜ao s ˜ao descritos a seguir: †Em todo o trabalho, ao utilizarmos log x, estaremos sempre nos referindo ao logaritmo de x na base dois.

0.40 0.45 0.50 0.55 0.60 0.65 0.70

0.0

0.4

0.8

Função distribuição acumulada − |V| vs. log |V|

x

Fn(x)

(a) Comparando com log dos dados.

0.40 0.45 0.50 0.55 0.60 0.65 0.70

0.0

0.4

0.8

Função distribuição acumulada − |V| vs. |V|/2

x

Fn(x)

(b) Comparando com a metade dos dados.

FIGURA 7 – Func¸ ˜ao da distribuic¸ ˜ao acumulada para 256 valores.

1. Obter a m ´edia dos valores dos dados reduzidos e originais, que s ˜ao respectiva- mente V e V′.

2. Calcular o intervalo de confianc¸a IC com confianc¸a de 95% para V′.

3. Calcular o valor absoluto da maior diferenc¸a entre V e IC

ε = max{|vin f −V |,|vsup−V |}. (2.4)

Essas duas an ´alises s ˜ao utilizadas no nosso trabalho com o objetivo de identificar o comportamento dos fen ˆomenos monitorados e reportados pelos sensores ap ´os al- guma reduc¸ ˜ao ser efetuada.

Documentos relacionados