3.2 Imputação
3.2.2 Principais métodos de imputação
A seguir, a partir deAlbieri[1989], será apresentada uma análise sucinta dos principais métodos
30 IMPUTAÇÃO E OUTRAS FORMAS DE LIDAR COM A NÃO-RESPOSTA 3.2
Método por Imputação Dedutiva - MID
Este método depende de alguma informação redundante dos dados de forma que a resposta
ausente seja explicada exatamente por uma informação auxiliar, ou seja, ymi= f (zi). Um exemplo
disso ocorre quando um registro é obtido a partir da soma de uma série de parcelas e um desses
registros está ausente. Nesse caso, seria possível obtê-lo pela subtração do total das demais parcelas.
Um outro exemplo acontece quando, em uma pesquisa painel, uma variável permanece praticamente
inalterada ao longo do tempo e num dado momento encontra-se ausente, sendo possível imputá-la
do momento anterior ou posterior ao ausente.
Método por Imputação da Média Geral - MIMG
Este método atribui a média geral dos respondentes (¯yr) para todas as respostas ausentes. É a
forma determinística da função linear sem variáveis auxiliares, ou seja, ymi= βr0 = ¯yr.
Método por Imputação Aleatória Geral - MIAG
Este método atribui o valor y de um respondente selecionado aleatoriamente da amostra de
respondentes para cada resposta ausente. Este método seria a forma estocástica da função linear
sem variáveis auxiliares, ymi= ¯yr+ emi= yri0, para algum respondente i0.
Método por Imputação da Média Dentro de Classes - MIMDC
Este método considera a existência de classes de imputação formadas a partir de variáveis
auxiliares e dentro de cada classe a média dos respondentes da variável y é atribuída às respostas
ausentes da mesma classe, ou seja, ymci = ¯yrh para o i-ésimo não-respondente na classe c. Em
geral,o modelo pode ser representado por ymi= βr0+ k P j=1
βrczcmi, tal que zcmié a função indicadora
do i-ésimo não-respondente estar na classe c. Este método é um método determinístico.
Método por Imputação Aleatória Dentro de Classes- MIADC
Este método é semelhante ao MIAG, sendo que no presente método, ele é aplicado dentro de
classes. Tal método é o estocástico do MIMDC, sendo ymhi = ¯yrc+ emci = yrci0, para alguma
empresa i0 pertencente à classe c.
Alternativamente, podemos usar a expressão ymji = βr0+
k P j=1
βrjzjmi+ emji, onde emji é sele-
cionado aleatoriamente dentro da classe de respondentes a qual o não-respondente i pertence. Este
3.2 IMPUTAÇÃO 31
Método por Imputação da Média de Regressão - MIMR
O método em questão usa os dados dos respondentes para regredir y em função das variá-
veis auxiliares. Dessa forma, os valores ausentes de y são imputados através da equação ymi =
βr0+ k P j=1
βrjzjmi. As variáveis auxiliares podem ser tanto quantitativas quanto qualitativas e trans-
formações nas variáveis e uso de interações podem ser aplicadas se necessário. Este método é um
método determinístico.
Método por Imputação da Média de Regressão com Efeito Aleatório - MIMRE
Este método é a versão estocástica do MIMR, isto é, soma-se um resíduo aos valores preditos,
ou seja, ymi= βr0+ k P j=1
βrjzjmi+ emi.
Método por Imputação Hot Deck Sequencial - MIHDS
Esse método considera a amostra dividida em classes. Para cada classe, é atribuído um único
valor para a variável y com o intuito de dar início ao processo que pode ser o valor de um respondente
de cada classe ou o valor médio da classe, obtido numa rodada anterior. A partir daí, os registros da
pesquisa são tratados sequencialmente. Se o registro seguinte tiver alguma resposta para a variável
y, este passa a ser o novo valor a ser utilizado na imputação, caso contrário será atribuído o valor
y previamente selecionado, e assim sucessivamente.
Se a disposição dos registros na base for aleatória, este método se assemelha ao MIADC à exceção
do início do processo. Se a ordem do processo criar autocorrelação positiva entre os registros, este
método propicia um grau de associação adicional.
Método por Imputação por Associação Flexível - MIAF
Esse é o nome utilizado para o método Hot Deck Modificado que consiste em agrupar res-
pondentes e não-respondentes em grandes classes de imputação construídas a partir de um grande
conjunto de variáveis auxiliares. A partir disso, os não-respondentes são associados aos respondentes
de forma hierárquica e quando um não-respondente não puder ser associado a um respondente na
classe inicial, essas classes são, então, agrupadas e a imputação é refeita num nível maior, menos
específico, de forma que a associação sempre ocorra. Esse método evita o uso múltiplo de doadores
32 IMPUTAÇÃO E OUTRAS FORMAS DE LIDAR COM A NÃO-RESPOSTA 3.2
Método por Imputação por Função Distância - MIFD
O método atribui o valor y do respondente mais próximo ao não-respondente em questão, tam-
bém chamado de vizinho mais próximo. A escolha desse vizinho mais próximo é feita através de uma
função de distância usando algumas variáveis auxiliares, podendo ser usadas variáveis quantitativas
ou qualitativas.
As variáveis auxiliares podem ser usadas para cálculo da distância entre os registros ou para cri-
ação de classes de imputação. As variáveis auxiliares podem ou não sofrer transformações. Quando
for o caso do uso de somente uma variável auxiliar, pode-se adotar como distância a diferença em
valor absoluto entre o valor do doador e do respondente, sendo o candidato à imputação aquele com
distância mínima. Quando várias variáveis auxiliares são utilizadas, tanto a questão das transfor-
mações quanto as do cálculo da distância são mais sensíveis. Uma possível solução é transformar
todas as variáveis auxiliares em seus postos.
Assim, a função distância seria dada por DP Tid = supv{Wv|P Tvi− P Tvd|}, tal que P Tvi é o
posto do não-respondente i e P Tvd é o posto do doador em potencial d para a variável v, e Wv é o
peso que representa a importância da variável v na função distância.
Outras possíveis alternativas podem ser baseadas na distância de Mahalanobis ou na função
distância por DM Lid= |zi− zd| que foi apresentada porSärndal e Lundström [2005].
Método de Imputação Múltipla - MIM
Little e Rubin [2002] também defendem um método de imputação que consiste na combinação
de duas ou mais técnicas distintas de imputação, sendo possível, então, combinar dois ou mais
modelos descritos anteriormente da maneira que for mais conveniente.