NORM - I MPUTAÇÃO M ÚLTIPLA - MÉTODOS DE TRATAMENTO DE DADOS FALTANTES

3. MÉTODOS DE TRATAMENTO DE DADOS FALTANTES

3.6 I MPUTAÇÃO M ÚLTIPLA

3.6.3 NORM

O NORM é um programa para o sistema operacional Windows (SCHAFER, 1999). O seu nome se refere à distribuição normal multivariada, ou seja, se refere ao modelo de distribuição dos dados utilizado para realizar a MI. Além de considerar a distribuição normal conjunta para as variáveis da base de dados a ser analisada, o NORM também supõe que o mecanismo associado aos dados faltantes é ignorável.

Os principais procedimentos do NORM são:

• Um algoritmo EM para estimação eficiente das médias, variâncias e covariâncias (ou correlações).

• Um procedimento de data augmentation (DA) para gerar as imputações múltiplas dos dados faltantes.

DA é um tipo especial de método baseado em Monte Carlo em cadeias de Markov, ou seja, é uma técnica de simulação iterativa. Em DA existem três tipos de quantidades: os dados observados, os dados faltantes e os parâmetros. Os dados faltantes e os parâmetros são desconhecidos. DA é também um procedimento bayesiano, portanto depende de uma distribuição a priori para os parâmetros desconhecidos

θ

(médias e matriz de covariância). A opção padrão do NORM é utilizar uma distribuição a priori não-informativa. Então, a densidade a priori para

θ

( ) , 2 / 1 + − ∑ p

onde Σ é a matriz de covariância e p é o número de variáveis no modelo (SCHAFER,

1999). Essa função é a densidade a priori não-informativa padrão para análises bayesianas envolvendo a distribuição normal multivariada.

42 Métodos de tratamento de dados faltantes • Passo I: imputar os dados faltantes através de sua distribuição condicional, considerando

os dados observados e os valores atuais dos parâmetros.

• Passo P: simular novos valores para os parâmetros através da distribuição posterior bayesiana, considerando os dados observados e a valores imputados no passo I.

Alternando entre essas duas etapas, estabelece-se uma cadeia de Markov que converge para uma distribuição estacionária, a distribuição conjunta dos dados faltantes e dos parâmetros dado o conjunto dos dados observados.

Segundo SCHAFER (1999), o algoritmo EM pode ser utilizado não só para obter as estimativas iniciais dos parâmetros, mas também para estimar o número de iterações necessárias do procedimento DA. Ele afirma que esse valor deve ser igual ou superior ao número de iterações necessárias para o algoritmo EM convergir.

3.7 Síntese do Capítulo

Este capítulo descreveu alguns dos métodos mais conhecidos para o tratamento de dados faltantes, assim como as vantagens e desvantagens de cada um desses métodos.

Basicamente, os métodos apresentados podem ser divididos em dois grupos: (i) aqueles que almejam predizer os parâmetros de interesse; e (ii) aqueles que almejam predizer os valores dos dados faltantes.

Logicamente, através dos métodos do segundo grupo, também é possível estimar os parâmetros de interesse. Mas o que é realmente interessante é que esse grupo de métodos viabiliza muito mais que somente análises estatísticas da base de dados. Como exemplo, citam-se os sistemas de recomendação.

No próximo capítulo, uma técnica chamada biclusterização será apresentada. Trata-se de uma técnica capaz de extrair subconjuntos de linhas e colunas de uma matriz de dados, de modo que os elementos desses subconjuntos compartilhem alguma correlação entre si. Desse modo, a biclusterização pode extrair informações relevantes de uma base de dados, as quais podem ser utilizadas para a construção de métodos de imputação, como será visto no Capítulo 5.

Capítulo 4

Biclusterização

Existem muitas técnicas de análise de dados e a clusterização é uma delas. Esta técnica pode ser definida como a organização ou separação de uma coleção de padrões – os dados – em grupos (os chamados clusters), baseando-se na similaridade ou na dissimilaridade existente entre eles, de modo que os padrões dentro de um cluster sejam mais similares entre si do que são com os padrões fora do cluster (padrões que pertencem a outros clusters) (DE CASTRO, 2006).

Dada uma matriz A, com M linhas, que representam os objetos, e N colunas, que representam os atributos, a técnica de clusterização irá agrupar estes objetos em c clusters, criados com base nos N atributos. Este procedimento, baseado em todos os atributos para a construção dos clusters, é razoável para os casos de matrizes com poucos atributos. Mas, nos casos de matrizes com muitos atributos, principalmente quando estes são heterogêneos, esse procedimento pode não ter um desempenho aceitável (TANAY et al., 2002). Além do mais, esta

técnica implica na associação de um objeto a apenas um cluster e, muitas vezes, isto não expressa a realidade, na qual um objeto pode fazer parte de nenhum, um ou mais de um agrupamento. É especialmente nestes aspectos que a biclusterização traz vantagens em relação à clusterização, pois esta pode agrupar os objetos com base em apenas um subconjunto de atributos, sendo que este subconjunto pode ser distinto para cada bicluster encontrado dentro da matriz de dados. Métodos de clusterização usuais não identificam adequadamente este tipo de correlação local (DE

FRANÇA et al., 2006; DE CASTRO et al., 2007a). Além disso, cada objeto pode fazer parte de mais

de um bicluster, e fazê-lo com base em um subconjunto distinto de atributos em cada bicluster. O termo biclusterização foi introduzido por MIRKIN (1996) para descrever a clusterização

simultânea dos conjuntos de linhas e colunas de uma matriz de dados. Mais recentemente, o termo foi utilizado por CHENG & CHURCH (2000) na análise de dados de expressão gênica, os quais foram os responsáveis pela popularização das técnicas de biclusterização com seu algoritmo denominado CC. Entretanto, HARTIGAN (1972) foi o primeiro a propor um algoritmo que realiza simultaneamente a clusterização de linhas e colunas de uma matriz de dados,

No documento Tratamento de dados faltantes empregando biclusterização com imputação múltipla (páginas 73-76)