Principais métodos de imputação - Avaliação de métodos de imputação na variável Receita das emp

3.2 Imputação

3.2.2 Principais métodos de imputação

A seguir, a partir deAlbieri[1989], será apresentada uma análise sucinta dos principais métodos

30 IMPUTAÇÃO E OUTRAS FORMAS DE LIDAR COM A NÃO-RESPOSTA 3.2

Método por Imputação Dedutiva - MID

Este método depende de alguma informação redundante dos dados de forma que a resposta

ausente seja explicada exatamente por uma informação auxiliar, ou seja, y_mi= f (zi). Um exemplo

disso ocorre quando um registro é obtido a partir da soma de uma série de parcelas e um desses

registros está ausente. Nesse caso, seria possível obtê-lo pela subtração do total das demais parcelas.

Um outro exemplo acontece quando, em uma pesquisa painel, uma variável permanece praticamente

inalterada ao longo do tempo e num dado momento encontra-se ausente, sendo possível imputá-la

do momento anterior ou posterior ao ausente.

Método por Imputação da Média Geral - MIMG

Este método atribui a média geral dos respondentes (¯yr) para todas as respostas ausentes. É a

forma determinística da função linear sem variáveis auxiliares, ou seja, ymi= βr0 = ¯yr.

Método por Imputação Aleatória Geral - MIAG

Este método atribui o valor y de um respondente selecionado aleatoriamente da amostra de

respondentes para cada resposta ausente. Este método seria a forma estocástica da função linear

sem variáveis auxiliares, ymi= ¯yr+ emi= yri0, para algum respondente i0.

Método por Imputação da Média Dentro de Classes - MIMDC

Este método considera a existência de classes de imputação formadas a partir de variáveis

auxiliares e dentro de cada classe a média dos respondentes da variável y é atribuída às respostas

ausentes da mesma classe, ou seja, ymci = ¯yrh para o i-ésimo não-respondente na classe c. Em

geral,o modelo pode ser representado por ymi= βr0+ k P j=1

βrczcmi, tal que zcmié a função indicadora

do i-ésimo não-respondente estar na classe c. Este método é um método determinístico.

Método por Imputação Aleatória Dentro de Classes- MIADC

Este método é semelhante ao MIAG, sendo que no presente método, ele é aplicado dentro de

classes. Tal método é o estocástico do MIMDC, sendo y_mhi = ¯yrc+ emci = yrci0, para alguma

empresa i0 pertencente à classe c.

Alternativamente, podemos usar a expressão ymji = βr0+

k P j=1

βrjzjmi+ emji, onde emji é sele-

cionado aleatoriamente dentro da classe de respondentes a qual o não-respondente i pertence. Este

3.2 IMPUTAÇÃO 31

Método por Imputação da Média de Regressão - MIMR

O método em questão usa os dados dos respondentes para regredir y em função das variá-

veis auxiliares. Dessa forma, os valores ausentes de y são imputados através da equação y_mi =

βr0+ k P j=1

βrjzjmi. As variáveis auxiliares podem ser tanto quantitativas quanto qualitativas e trans-

formações nas variáveis e uso de interações podem ser aplicadas se necessário. Este método é um

método determinístico.

Método por Imputação da Média de Regressão com Efeito Aleatório - MIMRE

Este método é a versão estocástica do MIMR, isto é, soma-se um resíduo aos valores preditos,

ou seja, y_mi= βr0+ k P j=1

βrjzjmi+ emi.

Método por Imputação Hot Deck Sequencial - MIHDS

Esse método considera a amostra dividida em classes. Para cada classe, é atribuído um único

valor para a variável y com o intuito de dar início ao processo que pode ser o valor de um respondente

de cada classe ou o valor médio da classe, obtido numa rodada anterior. A partir daí, os registros da

pesquisa são tratados sequencialmente. Se o registro seguinte tiver alguma resposta para a variável

y, este passa a ser o novo valor a ser utilizado na imputação, caso contrário será atribuído o valor

y previamente selecionado, e assim sucessivamente.

Se a disposição dos registros na base for aleatória, este método se assemelha ao MIADC à exceção

do início do processo. Se a ordem do processo criar autocorrelação positiva entre os registros, este

método propicia um grau de associação adicional.

Método por Imputação por Associação Flexível - MIAF

Esse é o nome utilizado para o método Hot Deck Modificado que consiste em agrupar res-

pondentes e não-respondentes em grandes classes de imputação construídas a partir de um grande

conjunto de variáveis auxiliares. A partir disso, os não-respondentes são associados aos respondentes

de forma hierárquica e quando um não-respondente não puder ser associado a um respondente na

classe inicial, essas classes são, então, agrupadas e a imputação é refeita num nível maior, menos

específico, de forma que a associação sempre ocorra. Esse método evita o uso múltiplo de doadores

32 IMPUTAÇÃO E OUTRAS FORMAS DE LIDAR COM A NÃO-RESPOSTA 3.2

Método por Imputação por Função Distância - MIFD

O método atribui o valor y do respondente mais próximo ao não-respondente em questão, tam-

bém chamado de vizinho mais próximo. A escolha desse vizinho mais próximo é feita através de uma

função de distância usando algumas variáveis auxiliares, podendo ser usadas variáveis quantitativas

ou qualitativas.

As variáveis auxiliares podem ser usadas para cálculo da distância entre os registros ou para cri-

ação de classes de imputação. As variáveis auxiliares podem ou não sofrer transformações. Quando

for o caso do uso de somente uma variável auxiliar, pode-se adotar como distância a diferença em

valor absoluto entre o valor do doador e do respondente, sendo o candidato à imputação aquele com

distância mínima. Quando várias variáveis auxiliares são utilizadas, tanto a questão das transfor-

mações quanto as do cálculo da distância são mais sensíveis. Uma possível solução é transformar

todas as variáveis auxiliares em seus postos.

Assim, a função distância seria dada por DP T_id = supv{Wv|P Tvi− P Tvd|}, tal que P Tvi é o

posto do não-respondente i e P T_vd é o posto do doador em potencial d para a variável v, e W_v é o

peso que representa a importância da variável v na função distância.

Outras possíveis alternativas podem ser baseadas na distância de Mahalanobis ou na função

distância por DM L_id= |zi− zd| que foi apresentada porSärndal e Lundström [2005].

Método de Imputação Múltipla - MIM

Little e Rubin [2002] também defendem um método de imputação que consiste na combinação

de duas ou mais técnicas distintas de imputação, sendo possível, então, combinar dois ou mais

modelos descritos anteriormente da maneira que for mais conveniente.

No documento Avaliação de métodos de imputação na variável Receita das empresas da Pesquisa Anual de Comércio - PAC-IBGE. João Carlos Silva Rodrigues (páginas 48-51)