• Nenhum resultado encontrado

Modelos não supervisionados

3.5 Modelos não supervisionados

Nas seções anteriores, apresentamos alguns modelos supervisionados, nos quais uma variável re- sposta supervisiona o aprendizado sobre fenômeno de interesse. Em alguns problemas, nós não temos acesso à variável resposta, nos restando buscar informação sobre o fenômeno de interesse apenas a partir da correlação entre os preditores. Essa estratégia é chamada de análise não supervisionada e é geralmente utilizada para realizar agrupamentos e redução de dimensionalidade.

Em estudos de poluição do ar, modelos não supervisionados são utilizados principalmente para a detecção de fontes de poluentes, isto é, dadas as medidas de concentração de diversos poluentes ao longo de um período, formamos grupos com as emissões mais correlacionadas e, a partir de inventários de poluição e conhecimento teórico, identicamos as fontes representadas por cada grupo (Buhr et al.,1992;Chavent et al.,2009;Thurston e Spengler,1985). Em estudos epidemiológicos, essas técnicas também podem ser utilizadas para determinar as principais doenças responsáveis por internação em hospitais (Tecer,2009).

A seguir, apresentaremos a análise de componentes principais (Jollie,2002) e a análise fatorial (Child,2006), dois modelos não supervisionados bastante utilizados em estudos de poluição do ar.

3.5.1 Análise de componentes principais

Suponha que queiramos investigar a concentração de dois poluentes, digamos X1 e X2. Dada

uma amostra de tamanho n dessas variáveis, para explorar esses dados descritivamente, poderíamos construir um gráco de dispersão de X1 contra X2 e, a partir dele, observar tanto a variabilidade

desses poluentes quanto como sua correlação. Se eles apresentarem correlação positiva, teríamos indícios de que eles são gerados pela mesma fonte ou sob as mesmas condições atmosféricas.

Suponha agora que, em vez de 2 poluentes, tivéssemos 10. Para construir grácos de dispersão para todas as combinações dois a dois, precisaríamos analisar 45 grácos, sendo que cada um deles só traria uma pequena parte da informação contida nos dados, pois estaríamos ignorando possíveis interações entre as variáveis.

Em geral, para p poluentes, gostaríamos de uma maneira de visualizar o máximo possível da in- formação contida no espaço p-dimensional gerado pelos preditores X1, . . . , Xpem uma representação

(gráca) com poucas (duas) dimensões. Esse é o objetivo da análise de componentes principais. Dado um conjunto de preditores X1, X2, . . . , Xp, a análise de componentes principais visa en-

contrar uma projeção ortogonal Z1, Z2, . . . , Zp, tal que

V AR(Z1) ≥ V AR(Z2) ≥ · · · , V AR(Zp).

Isso implica que, em geral, com apenas as primeiras variáveis Z1, Z2, . . . , Zp, digamos Z1 e Z2,

podemos explicar a maior parte da variabilidade dos preditores X1, X2, . . . , Xp. Assim, Z1 e Z2

representariam em apenas 2 dimensões a maior parte da informação contida nos dados originais.

Cada variável Zi, chamada de i-ésima componente principal, é uma combinação linear dos

preditores X1, X2, . . . , Xp, isto é,

Zi= φ1iX1+ φ2iX2+ · · · φpiXp, (3.17)

pesos são normalizados, Pp

j=1φ2ji = 1, temos que φji < 1, para todo j = 1, . . . , p. Assim, os

φ1i, . . . , φpi próximos de 1 indicam preditores positivamente associados e cuja variabilidade está

sendo representada por Zi.

Como Z1, Z2, . . . , Zp representa uma projeção ortogonal, cada par de componentes (Zi, Zj)

é não correlacionado. Dessa forma, o componente Z2, por exemplo, é a combinação linear de

X1, X2, . . . , Xp de maior variância entre todas as combinações lineares que são não correlacionadas

com Z1. Isso quer dizer que as fontes de variação representadas por Z2 são não correlacionadas com

as encontradas em Z1.

Voltando ao nosso exemplo com os poluentes, se a análise de componentes principais indicasse os poluentes X1, X3e X5 como aqueles com maiores pesos para o componente Z1, então saberíamos

que esses são os poluentes que mais contribuem com a variação total dos dados e poderíamos estudar o que causa essa variação. Da mesma forma, se os poluentes X2, X3 e X4 são aqueles com maior

peso para o componente Z2, então sabemos que a causa da variabilidade desses poluentes é não

correlacionada com a anterior.

Os cálculos por trás da análise de componentes principais envolvem decomposição espectral (Nicholson, 2001), uma técnica de álgebra linear para decompor matrizes em função de seus au- tovetores e autovalores.

Na linguagem R, podemos realizar uma análise de componentes principais utilizando a função

prcomp()do pacote stats.

3.5.2 Análise Fatorial

Assim como a análise de componentes principais, a análise fatorial também pode ser utilizada para redução de dimensionalidade. A segunda técnica difere da primeira em dois pontos principais. Primeiro, a análise fatorial supõe que a variância e covariância contida em um conjunto de variáveis X1, X2, . . . , Xp podem ser explicadas por um conjunto menor de fatores latentes17. Se esses fatores

são denidos a priori, o modelo pode ser utilizado para testar teorias sobre a relação entre os fatores e as variáveis observadas. O segundo ponto diz respeito à inclusão de erros aleatórios. Enquanto a análise de componentes principais calcula um novo conjunto de variáveis que explica 100% da variabilidade das variáveis originais, a análise fatorial considera que parte da variabilidade das variáveis originais pode ser explicada pelos fatores latentes, mas uma outra parte é devida a ruído aleatório.

A análise fatorial é geralmente utilizada para avaliarmos fontes de poluição, sendo que cada fator representa uma fonte diferente. Podemos pensar em cada fonte como uma variável latente, que pode ser representada por uma combinação linear das concentrações observadas. A inclusão de erros aleatórios seria justicada, por exemplo, pela variação nas concentrações causadas por condições atmosféricas.

Dada uma amostra de tamanho n dos preditores X1, X2, . . . , Xp, a análise fatorial procura

estimar os pesos lij, i = 1, . . . , p e j = 1, . . . , m, tais que

Zik = li1F1k+ · · · limFmk+ ik,

sendo que, para a k-ésima observação da amostra, Zik= Xikσ− ¯iXi é o i-ésimo preditor normalizado,

Documentos relacionados