Paola da Silva Martins
Imputa¸
c˜
ao de Dados Faltantes
Niter´oi - RJ, Brasil
Universidade Federal Fluminense
Paola da Silva Martins
Imputa¸
c˜
ao de Dados Faltantes
Trabalho de Conclus˜ao de Curso
Monografia apresentada para obten¸c˜ao do grau de Bacharel em
Estat´ıstica pela Universidade Federal Fluminense.
Orientadora: Profa. J´essica Quintanilha Kubrusly
Coorientador: Prof. Joel Correa da Rosa
Niter´oi - RJ, Brasil
Universidade Federal Fluminense
Paola da Silva Martins
Imputa¸
c˜
ao de Dados Faltantes
Monografia de Projeto Final de Gradua¸c˜ao sob o t´ıtulo
“Im-puta¸c˜ao de Dados Faltantes”, defendida por Paola da Silva
Martins e aprovada em 17 de janeiro de 2017, na cidade de
Niter´oi, no Estado do Rio de Janeiro, pela banca examinadora
constitu´ıda pelos professores:
Profa. Dra. J´essica Quintanilha Kubrusly
Departamento de Estat´ıstica – UFF
Profa. Dra. Ana Beatriz Monteiro Fonseca
Departamento de Estat´ıstica – UFF
Profa. Dra. Ludmilla da Silva Viana Jacobson
Departamento de Estat´ıstica – UFF
Resumo
´
E muito comum em pesquisas depararmos com dados faltantes que podem ter
ocor-rido por diferentes motivos, por raz˜oes aleat´orias ou n˜ao, como por exemplo, um erro de
digita¸c˜ao ou um entrevistado que n˜ao responder uma pergunta pessoal. A raz˜ao para
um dado ser faltante ´e chamado de Mecanismo de Dados Faltantes que s˜ao
caracteri-zados em trˆes categorias diferentes: MCAR, MAR e MNAR. Esse trabalho apresenta
alguns m´etodos de Imputa¸c˜ao desses dados faltantes, ou seja, maneiras de substituir o
dado faltante por algum valor. Foram criados trˆes bancos sint´eticos completos e depois
foram exclu´ıdos alguns valores para serem faltantes de acordo com os trˆes mecanismos.
Para cada um desses bancos com dados faltantes foi feita a imputa¸c˜ao por m´etodos de
Imputa¸c˜ao Simples e M´ultipla. Ap´os a imputa¸c˜ao foram feitas an´alises estat´ısticas a fim
de comparar os resultados dessas an´alises com as do banco original e assim verificar qual
desses m´etodos de imputa¸c˜ao foi mais eficiente entre os testados. Esses resultados
mos-traram que o m´etodo de Imputa¸c˜ao M´ultipla pelo MICE foi bastante eficiente em dois
bancos e ineficiente para o outro banco. Os bancos que o m´etodo de Imputa¸c˜ao M´ultipla
MICE tiveram melhores resultados foram justamente aqueles em que as vari´aveis
assumi-ram alguma dependˆencia, j´a o banco em que as vari´aveis eram independentes o m´etodo
de imputa¸c˜ao com melhor resultado foi o m´etodo Ingˆenuo.
Palavras-chaves: M´etodos de Imputa¸c˜ao, Mecanismos de Dados Faltantes, Imputa¸c˜ao
Dedicat´
oria
Resiliˆencia:
1. Propriedade de um corpo de recuperar a sua forma original ap´os sofrer choque ou
deforma¸c˜ao.
2. Capacidade de superar, de recuperar de adversidades.
Esta ´e a defini¸c˜ao de uma das palavras mais bonitas do dicion´ario da l´ıngua
Portu-guesa. Com ela, dedico esse Projeto Final de Conclus˜ao de Curso `a todas as pessoas que
tˆem depress˜ao. Momentos dif´ıceis vir˜ao, muitas vezes nos sentimos sozinhos, mesmo se
estamos rodeados de pessoas. `As vezes, d´a vontade de desistir, ou de simplesmente sumir.
Muitas vezes pensam que n˜ao estamos nem a´ı para nossos deveres, quando na verdade, o
que mais queremos, ´e realizar essas atividades. Muitos dizem para nos esfor¸carmos mais,
quando na verdade estamos dando o nosso m´aximo, o nosso melhor. Tudo isso entre
outras coisas, nos deixam ainda mais para baixo. Mas ´e a´ı que vem a resiliˆencia. Quando
sofremos de todos esses males, ainda encontramos uma for¸ca, mesmo que pequena, para
superar todas essas adversidades. Ap´os tanta dor e sofrimento, parece que levamos um
choque contra um trator, e ficamos deformados. Mas a´ı, descobrimos de alguma maneira que somos fortes e capazes de superar e se recuperar a nossa forma original.
H´a um pouco mais de dois anos convivo com esses conflitos, mas pouco a pouco
estou aprendendo a super´a-los. Esse trabalho, ´e um dos exemplos concretos de que se
eu sou capaz de vencer, vocˆe tamb´em ´e. Aprendi que n˜ao ´e necess´ario que as pessoas te
entendam, elas n˜ao v˜ao te entender mesmo. Mas h´a aquelas pessoas que vocˆe pode ter
certeza que estar˜ao sempre ao seu lado, pois essas sim, te amam muito: a sua fam´ılia. E
al´em deles, h´a um Ser que mesmo que `as vezes vocˆe n˜ao o sinta, Ele jamais te abandona
e ainda te ama imensamente: Deus.
Agradecimentos
Tenho muito a agradecer a muitas pessoas que participaram de maneira significativa na minha caminhada durante a faculdade. A lista seria enorme, por isso destaco poucos nomes.
Primeiramente gostaria de agradecer a meus pais e irm˜aos por estarem sempre ao meu
lado e sempre apoiarem as minhas decis˜oes, e tamb´em por terem me orientado quando eu
n˜ao estava no rumo certo.
Agrade¸co aos amigos que fiz durante esses anos na UFF e permanecem at´e hoje. Ao
S´ergio e a Ana Maria Morais que foram os primeiros amigos que fiz. Ao grupo “Hein, Deu
Ruim”que apareceu logo em seguida. Cissa, Guilherme Malv˜ao, Nadine, Bruno Lucian,
Pablo, Everson, Natan e Dani. E aos agregados, Lucas Nariz e Guilherme Martins. Muitos
deles foram incans´aveis em me ajudar quando tive d´uvida, e at´e hoje s˜ao, quando ainda
tenho d´uvidas (em Estat´ıstica). Al´em de me fazerem rir quando eu precisava, de me
apoiarem quando era preciso, de me dar um ombro, para quando eu precisava chorar e um ouvido quando eu precisava desabafar.
Tamb´em agrade¸co aos amigos que em algum momento fizeram parte dessa caminhada,
mas que hoje j´a estamos em caminhos diferentes ent˜ao n˜ao nos encontramos mais. Cada
um aparece na nossa vida por algum motivo: uns vem por um per´ıodo, outros para toda a vida. Mas todos vem com algo que possa acrescentar na vida do outro. Por isso, sou grata!
Al´em de todos os amigos j´a citados, agrade¸co tamb´em aos “oper´arios de ´ultima hora”.
Esses s˜ao os amigos que fiz ao longo da faculdade e no ´ultimo ano. Espero que essas
amizades ainda perdurem por um bom tempo. Obrigada por me acolherem quando eu
voltei dos Estados Unidos e n˜ao conhecia ningu´em.
Agrade¸co tamb´em ao Deyvid, que tive o prazer e a felicidade de conhecer no ´ultimo
ano de faculdade. E isso s´o foi poss´ıvel pelas minhas escolhas anteriores de ir e vir da
faculdade algumas vezes. Sou grata pela sua aten¸c˜ao e compreens˜ao e ainda por ser meu
professor particular de Estat´ıstica. Obrigada por ser paciente. Sua calma acalma minha alma.
Agrade¸co as psic´ologas e aos psiquiatras que tive durante os ´ultimos anos, por me
ajudarem a enfrentar a depress˜ao e me auxiliarem em como superar as dificuldades de
todos os dias.
Agrade¸co ao professor Joel por ter me dado a oportunidade de trabalhar com ele em Nova Iorque, juntamente com a Sandra, e ainda por ele ter me apresentado o tema deste trabalho. Aprendi muito com os dois mesmo que em pouco tempo. Agrade¸co
tamb´em a professora J´essica por ter aceitado o desafio de me orientar neste trabalho e as
professoras Ana Beatriz e Ludmilla por aceitarem fazer parte da banca. Agrade¸co tamb´em
aos professores que tive na UFF por compartilharem seus conhecimentos comigo. Assim como os professores e coordenadores que eu tive no Baruch College, em Nova Iorque.
Por ´ultimo, mas n˜ao menos importante, muito pelo contr´ario, o mais importante,
agrade¸co a Deus por nunca me abandonar, mesmo nos momentos em que eu j´a n˜ao O
sentia mais. Ele permaneceu comigo todo o tempo e tenho certeza que foi Ele que me deu
for¸cas necess´arias para que eu n˜ao desistisse de nenhuma etapa da minha caminhada at´e
hoje.
Sem essas pessoas, meu caminho teria sido muito mais longo e dif´ıcil do que foi. Obrigada!
Sum´
ario
Lista de Figuras Lista de Tabelas 1 Introdu¸c˜ao p. 12 2 Objetivos p. 14 3 Materiais e M´etodos p. 15 3.1 Materiais . . . p. 153.2 Mecanismos de Dados Faltantes . . . p. 17
3.3 Imputa¸c˜ao Simples versus Imputa¸c˜ao M´ultipla . . . p. 19
3.4 M´etodo Ingˆenuo, um M´etodo de Imputa¸c˜ao Simples . . . p. 20
3.4.1 Substitui¸c˜ao a partir da M´edia ou Mediana . . . p. 20
3.4.2 Substitui¸c˜ao a partir da Moda ou Propor¸c˜ao . . . p. 21
3.5 Modelo de Regress˜ao, um M´etodo de Imputa¸c˜ao Simples . . . p. 21
3.5.1 Regress˜ao Linear . . . p. 21
3.5.2 Regress˜ao Log´ıstica . . . p. 24
3.6 MICE - Multiple Imputation Chained Equation, um M´etodo de Imputa¸c˜ao
M´ultipla . . . p. 26
3.6.1 O Algor´ıtmo MICE . . . p. 26
4 An´alise dos Resultados p. 29
4.1.1 Imputa¸c˜ao de Dados . . . p. 32
4.1.2 An´alise Estat´ıstica . . . p. 35
4.2 Resultados Para o Banco 2 . . . p. 37
4.2.1 Imputa¸c˜ao de Dados . . . p. 38
4.2.2 An´alise Estat´ıstica . . . p. 43
4.3 Resultados Para o Banco 3 . . . p. 44
4.3.1 Imputa¸c˜ao de Dados . . . p. 45
4.3.2 An´alise Estat´ıstica . . . p. 49
5 Conclus˜ao p. 51
Lista de Figuras
1 Banco 1 Gerado a Partir de Simula¸c˜ao . . . p. 15
2 Banco 2 Gerado a Partir de Simula¸c˜ao . . . p. 16
3 Banco 3 Gerado a Partir de Simula¸c˜ao . . . p. 17
4 Banco 1 Completo com 10% Sorteados Para Serem Faltantes . . . p. 31
5 Banco 1 - Dados Observados e Faltantes . . . p. 32
6 Banco 1 - Dados Imputados pela M´edia . . . p. 34
7 Banco 1 - Dados Imputados pela Regress˜ao Linear . . . p. 34
8 Banco 1 - Itera¸c˜oes Geradas pelo MICE . . . p. 35
9 Banco 1 - Dados Imputados pelo MICE . . . p. 36
10 Banco 2 Completo com 10% Sorteados Para Serem Faltantes . . . p. 38
11 Banco 2 - Dados Observados e Faltantes . . . p. 39
12 Banco 2 - Dados Imputados pela M´edia . . . p. 40
13 Banco 2 - Dados Imputados pela Regress˜ao Linear . . . p. 41
14 Banco 2 - Itera¸c˜oes Geradas pelo MICE . . . p. 42
15 Banco 2 - Dados Imputados pelo MICE . . . p. 42
16 Banco 3 Completo com 10% Sorteados para Serem Faltantes . . . p. 44
17 Banco 3 - Dados Observados e Faltantes . . . p. 45
18 Banco 3 - Dados Imputados pela Moda . . . p. 47
19 Banco 3 - Dados Imputados pela Regress˜ao Log´ıstica . . . p. 47
20 Banco 3 - Itera¸c˜oes Geradas pelo MICE . . . p. 48
Lista de Tabelas
1 Mecanismos de Dados Faltantes . . . p. 19
2 Erro Quadr´atico M´edio para o Banco 1 . . . p. 33
3 An´alises Para o Banco 1 - MCAR . . . p. 36
4 An´alises Para o Banco 1 - MAR . . . p. 36
5 An´alises Para o Banco 1 - MNAR . . . p. 36
6 Erro Quadr´atico M´edio Para o Banco 2 . . . p. 39
7 An´alises Para o Banco 2 - MCAR . . . p. 43
8 An´alises Para o Banco 2 - MAR . . . p. 43
9 An´alises Para o Banco 2 - MNAR . . . p. 43
10 Tabela de Sensibilidade e Especificidade Para o Banco 3 . . . p. 46
11 An´alises Para o Banco 3 - MCAR . . . p. 49
12 An´alises Para o Banco 3 - MAR . . . p. 50
12
1
Introdu¸
c˜
ao
A an´alise de dados demanda precau¸c˜ao durante todo o seu processo. Depois da coleta
de dados, dados faltantes provavelmente estar˜ao presentes, o que ´e muito comum em
diversos tipos de bancos de dados, especialmente em dados epidemiol´ogicos. As raz˜oes
para um dado ser faltante podem ser diversas, e s˜ao denominadas de Mecanismos de Dados
Faltantes. Por exemplo, um dado pode ser faltante por motivo totalmente aleat´orio,
como um erro de digita¸c˜ao, ou pode ser faltante por um motivo tendencioso, quando um
indiv´ıduo n˜ao responde uma pergunta pessoal.
As consequˆencias de se trabalhar com dados faltantes s˜ao diversas, uma delas ´e que a
an´alise estat´ıstica provavelmente ser´a viesada, ou seja, conter´a erros. Como esses valores
faltantes podem afetar essas an´alises ´e um ponto a ser levado em considera¸c˜ao. Eles
podem levar a uma decis˜ao errada e, al´em disso, os dados faltantes podem debilitar
completamente o poder da amostra.
Hoje em dia, muitos pesquisadores, para tentar solucionar o problema de dados
fal-tantes nos bancos de dados, decidem pela maneira mais simples e r´apida, que ´e a exclus˜ao
das linhas onde se encontram a observa¸c˜ao faltante. Por´em, essa ´e uma alternativa que
dependendo da quantidade de linhas exclu´ıdas, pode gerar distor¸c˜oes nos resultados das
an´alises.
Uma alternativa para esse pesquisador seria, em vez de excluir linhas do banco de
dados, tentar imputar os dados faltantes, isto ´e, atribuir valores para as observa¸c˜oes
faltantes. Existem diversos m´etodos para isso, que s˜ao divididos em duas categorias:
M´etodos de Imputa¸c˜ao Simples e M´ultipla. Os m´etodos de Imputa¸c˜ao Simples atribuem
um ´unico valor para cada dado faltante, j´a os de Imputa¸c˜ao M´ultipla atribuem diversos
valores para os mesmos. A ideia de imputar dados faltantes pelo m´etodo de Imputa¸c˜ao
M´ultipla ´e recente, e surge com Rubin [2] na d´ecada de 1980 a fim de minimizar o problema
da exclus˜ao de linhas com dados faltantes e tamb´em ser ainda mais eficiente que os casos
1 Introdu¸c˜ao 13
Este trabalho se prop˜oe a realizar um estudo em cima de trˆes bancos de dados
sint´eticos e com dados faltantes, cujo objetivo ´e comparar os resultados para diferentes
m´etodos de imputa¸c˜ao. Ser˜ao levados em considera¸c˜ao m´etodos de Imputa¸c˜ao Simples e
M´ultipla, al´em de diferentes Mecanismos de Dados Faltantes.
No Cap´ıtulo 2 ser˜ao apresentados os objetivos do trabalho. No Cap´ıtulo 3 ser˜ao
apresentados os materiais. Os resultados das an´alises deste trabalho se encontram no
14
2
Objetivos
O objetivo desse trabalho ´e comparar o desempenho de diferentes m´etodos de
im-puta¸c˜ao. Esses m´etodos s˜ao chamados de Imputa¸c˜ao Simples (abrangendo o m´etodo
ingˆenuo e o de regress˜ao) e Imputa¸c˜ao M´ultipla. Esses m´etodos ser˜ao trabalhados em
vari´aveis cont´ınuas e em vari´aveis bin´arias. Al´em disso, ser˜ao levados em considera¸c˜ao
trˆes mecanismos de dados faltantes, s˜ao eles: MCAR (Missing Completely at Random),
15
3
Materiais e M´
etodos
3.1
Materiais
Para este trabalho, foram criados trˆes bancos de dados sint´eticos, ou seja, bancos
fict´ıcios. Para o primeiro banco foram criadas duas vari´aveis aleat´orias independentes,
X1 ∼ Gama(α = 4, β = 2) e Y1 ∼ N ormal(µ = 0, σ = 1).
Na Figura 1 encontra-se o gr´afico das vari´aveis para o banco 1. Podemos comparar as
vari´aveis desse banco sint´etico com o seguinte poss´ıvel exemplo:
• X1 : Taxa da substˆancia X1 na corrente sanguinea.
• Y1 : Desvios da substˆancia Y1 a um valor de referˆencia desta substˆancia pr´e
deter-minado. 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 Banco Completo 1 X1 Y1
Figura 1: Banco 1 Gerado a Partir de Simula¸c˜ao
3.1 Materiais 16
onde
X2 ∼ Gama(α = 4, β = 2) e Y2 = X2+ e, com e ∼ N ormal(µ = 0, σ = 1).
Na Figura 2, encontra-se o gr´afico das vari´aveis para o banco 2. Podemos comparar as
vari´aveis desse banco sint´etico com o seguinte poss´ıvel exemplo:
• X2 : Comprimento de fibras de metal em cent´ımetro.
• Y2 : Varia¸c˜ao da resistˆencia da fibra expostos a temperatura K.
0 1 2 3 4 5 6 7 -2 0 2 4 6 Banco Completo 2 X2 Y2
Figura 2: Banco 2 Gerado a Partir de Simula¸c˜ao
Para o terceiro banco foram criadas duas vari´aveis, onde
X3 ∼ Gama(α = 4, β = 2) e Y3 ∼ Ber(p)
onde
p = 1
1 + e−(β0+β1X3i) com β0 = −7 e β1 = 4.
Na Figura 3, encontra-se o gr´afico das vari´aveis para o banco 3. Podemos comparar as
vari´aveis desse banco sint´etico com o seguinte poss´ıvel exemplo:
• X3 : Quantidade de sal´arios m´ınimos.
• Y3 : Sexo.
Todos os trˆes bancos contˆem as vari´aveis X e Y . A princ´ıpio, todos os valores s˜ao
3.2 Mecanismos de Dados Faltantes 17 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 Banco Completo 3 X3 Y3
Figura 3: Banco 3 Gerado a Partir de Simula¸c˜ao
dados faltantes. A partir desses bancos com observa¸c˜oes faltantes, foram feitas an´alises
estat´ısticas de acordo com a necessidade de cada banco, que ser´a melhor descrito no
Cap´ıtulo 4. Por´em, vale ressaltar, que o m´etodo de imputa¸c˜ao de dados faltantes tamb´em
pode ser aplicado em bancos onde os dados faltantes est˜ao em mais de uma vari´avel.
Ent˜ao na pr´atica, esses m´etodos de imputa¸c˜ao s˜ao muito mais abrangentes do que ser´a
tratado nesse trabalho.
3.2
Mecanismos de Dados Faltantes
Como todos pesquisadores podem observar, dados faltantes est˜ao presentes no
coti-diano de in´umeras pesquisas, experimentos, etc. Esses dados podem estar faltando por
diversos motivos. Citaremos a seguir, algumas poss´ıveis raz˜oes.
• Um estudo que ocorre durante determinado tempo, pessoas que participam desses
estudos podem simplesmente abandonar a pesquisa antes do t´ermino dela, seja
por-que mudou-se de cidade, morreu, n˜ao est´a mais interessado, ou mesmo n˜ao se sente
bem com o tipo de pesquisa.
• Pesquisas onde o entrevistado se recusa a responder alguma quest˜ao, ou n˜ao sabe a
resposta, ou acidentalmente pula um item.
• Estudos experimentais tˆem dados faltantes quando um pesquisador n˜ao consegue
coletar uma observa¸c˜ao. M´as condi¸c˜oes clim´aticas podem atrapalhar coletas de
3.2 Mecanismos de Dados Faltantes 18
estraga. Ou ainda problema na digita¸c˜ao dos dados ou o arquivo ´e detectado com
um v´ırus.
Os pesquisadores devem, ent˜ao, ficar atentos, pois, o risco de vi´es causado pelos dados
faltantes ir´a depender do porque eles estarem faltando.
Existem trˆes tipos de dados faltantes de acordo com Little e Rubin [3]: Missing
com-pletely at random (MCAR), faltantes completamente ao acaso (tradu¸c˜ao livre); Missing
at random (MAR), faltantes ao acaso (tradu¸c˜ao livre); Missing not at random (MNAR),
faltantes n˜ao ao acaso (tradu¸c˜ao livre).
O MCAR ocorre quando o valor faltante n˜ao depende dos dados observados e nem
dos n˜ao observados; ´e um evento aleat´orio. Esse tipo de dado faltante pode acontecer se
algu´em decide lan¸car uma moeda para decidir se uma quest˜ao deve ou n˜ao deve ser
res-pondida. Outro exemplo seria um tubo de amostra sangu´ınea do paciente que ´e derrubado
no laborat´orio acidentalmente.
O segundo mecanismo, MAR, acontece quando o dado faltante depende dos valores
observados, ou seja, uma vari´avel que contem os dados faltantes depende de uma vari´avel
com dados observados. Logo, a falta se refere a uma vari´avel particular. Por exemplo,
considere uma pesquisa na qual as mulheres s˜ao menos propensas a fornecer sua renda
pessoal. Se conhecermos o sexo de todos os sujeitos e tivermos a renda para algumas
mulheres, ent˜ao, a vari´avel renda, ser´a do tipo MAR, pois depende da vari´avel sexo. Outro
exemplo, homens provavelmente respondam sobre o seu peso mais do que mulheres, logo,
a vari´avel peso ´e MAR.
O ´ultimo dos trˆes mecanismos, MNAR, aparece em situa¸c˜oes onde existe uma raz˜ao
especifica para o dado faltante, ou seja, est´a relacionado aos valores n˜ao observados. ´E
bastante comum quando as pessoas n˜ao querem revelar algo muito pessoal. Por exemplo,
pessoas com depress˜ao talvez rejeitem preencher uma pesquisa sobre depress˜ao. Outro
exemplo, pessoas com sal´arios altos, talvez sejam propensas a n˜ao responder qual ´e o
sal´ario.
3.3 Imputa¸c˜ao Simples versus Imputa¸c˜ao M´ultipla 19
Tabela 1: Mecanismos de Dados Faltantes
MCAR MAR MNAR
Vari´avel (Item)
Sujeitos omitem respostas aleatoriamente
Sujeitos omitem respostas que podem ser consegui-das por outras vari´aveis
Sujeitos n˜ao respondem itens sem algum tipo de crit´erio
Indiv´ıduos ou sujeitos
Faltam dados de sujeitos aleatoriamente
Faltam dados de sujei-tos, mas que s˜ao relacio-nados com os dados de-mogr´aficos dispon´ıveis
Faltam dados de sujeitos e s˜ao relacionados com os dados demogr´aficos n˜ao medidos
Ocasi˜oes Sujeitos aleatoriamente n˜ao se apresentam na sess˜ao
Sujeitos que se desempe-nham mal na sess˜ao ante-rior, n˜ao se apresentam na sess˜ao seguinte
Sujeitos que est˜ao se
desempenhando mal na
sess˜ao atual, deixam de participar
Fonte: McKnight et al., 2007. [4]
3.3
Imputa¸
c˜
ao Simples versus Imputa¸
c˜
ao M´
ultipla
Uma maneira que se encontrou para solucionar o problema de dados faltantes foi o
m´etodo de imputa¸c˜ao. Imputa¸c˜ao quer dizer substitui¸c˜ao, ou seja, preencher os dados
faltantes por valores prov´aveis e assim, podem ser feitas an´alises estat´ısticas com um
banco de dado completo. Existem dois tipos de imputa¸c˜ao, a imputa¸c˜ao ´unica ou simples
e a m´ultipla. Al´em disso, existem diferentes m´etodos de imputa¸c˜ao de dados faltantes
de acordo com o tipo de dados. Por exemplo, dados cont´ınuos ser˜ao tratados de maneira
distinta de dados bin´arios.
Existem diversos m´etodos para a realiza¸c˜ao da imputa¸c˜ao simples. A imputa¸c˜ao
simples pode ser feita a partir da m´edia, mediana, estimativa de m´axima verossimilha¸ca e
at´e regress˜ao linear, por exemplo, dos dados existentes. ´E uma t´ecnica bastante utilizada
por ser bem atrativa e pela sua f´acil implementa¸c˜ao preenchendo os valores faltantes
por valores previstos, assumindo-os como valores verdadeiros. E cada valor faltante ser´a
preenchido por um ´unico valor, como dizem Little e Rubin [3]. Por´em, como desvantagem,
ela resulta em uma subestima¸c˜ao dos erros padr˜oes ou p-valores muito pequenos, ou seja,
superestima¸c˜ao da precis˜ao do estudo.
Para encontrar uma correta estima¸c˜ao para os erros padr˜oes e p-valores ´e necess´ario
3.4 M´etodo Ingˆenuo, um M´etodo de Imputa¸c˜ao Simples 20
com dados faltantes s˜ao estimadas. Isso poder´a ser feito n˜ao com uma imputa¸c˜ao ´unica,
mas sim com uma m´ultipla imputa¸c˜ao, onde cada dado faltante ´e imputado n vezes,
sendo assim, gerando n bancos de dados diferentes. Esse m´etodo da imputa¸c˜ao m´ultipla
foi sugerido por Donald Rubin na d´ecada de 1980 [2].
Ap´os obter os n bancos de dados completos a partir de t´ecnicas adequadas de
im-puta¸c˜ao, esses n bancos devem ser analisados separadamente por um m´etodo estat´ıstico
tradicional, como se os bancos estivessem realmente completos. S˜ao calculados desvios
padr˜oes para levar em conta a variabilidade dos resultados entre os novos bancos de dados.
Por fim, os resultados obtidos das an´alises dos n bancos s˜ao combinados adequadamente
para que possa ser feita a inferˆencia da imputa¸c˜ao repetida.
A principal diferen¸ca entre imputa¸c˜ao simples e a imputa¸c˜ao m´ultipla ´e que na
im-puta¸c˜ao simples s´o se gera um ´unico valor para cada dado faltante, e na imputa¸c˜ao
m´ultipla s˜ao gerados n valores para cada dado faltante. Uma das vantagens da imputa¸c˜ao
m´ultipla sobre a simples ´e que com a gera¸c˜ao de v´arios valores, aumenta-se a eficiˆencia
da estima¸c˜ao. Por´em, como desvantagem, ´e a falta de praticidade e o tempo que se leva
para gerar todos os n valores, pois, dependendo do tamanho de n, pode-se levar horas
(como ser´a visto mais adiante na Se¸c˜ao 3.6).
3.4
M´
etodo Ingˆ
enuo, um M´
etodo de Imputa¸
c˜
ao
Sim-ples
O m´etodo ingˆenuo ´e o mais simples de todos os m´etodos. Ele leva somente em
con-sidera¸c˜ao informa¸c˜oes da vari´avel que cont´em dados faltantes. Dessa maneira, ´e simples
completar os “espa¸cos em branco”num banco de dados; podendo ser feito a partir de alguns exemplos explicados a seguir.
3.4.1
Substitui¸
c˜
ao a partir da M´
edia ou Mediana
Esse m´etodo ´e usado quando o dado faltante diz respeito a uma vari´avel cont´ınua. Se
a vari´avel for cont´ınua, poder´a ser feita a imputa¸c˜ao atrav´es da m´edia, ou seja, cada valor
faltante na vari´avel Y ser´a preenchido com a m´edia dos valores observados da vari´avel Y .
3.5 Modelo de Regress˜ao, um M´etodo de Imputa¸c˜ao Simples 21
3.4.2
Substitui¸
c˜
ao a partir da Moda ou Propor¸
c˜
ao
Esse m´etodo ´e usado quando o dado faltante diz respeito a uma vari´avel bin´aria. Uma
alternativa para esse tipo de vari´avel ´e a utiliza¸c˜ao da moda, ou seja, preencher os dados
faltantes na vari´avel Y com a moda dos valores observados de Y .
A op¸c˜ao de preencher os dados faltantes com a propor¸c˜ao significa verificar a propor¸c˜ao
de cada categoria presente na vari´avel em quest˜ao e para cada valor faltante ser´a feito
um sorteio de forma que a probabilidade de sair uma categoria ´e igual a propor¸c˜ao da
categoria entre os valores observados.
3.5
Modelo de Regress˜
ao, um M´
etodo de Imputa¸
c˜
ao
Simples
Um modelo de regress˜ao busca definir uma rela¸c˜ao, atrav´es de uma equa¸c˜ao, entre
a m´edia de uma vari´avel aleat´oria yi, chamada de vari´avel resposta, e outras vari´aveis
conhecidas xij, j = 1, . . . , p, chamadas de vari´aveis explicativas. Assim, podem ser feitas
previs˜oes para a vari´avel resposta, supondo valores das vari´aveis explicativas, e ainda
avaliar uma poss´ıvel dependˆencia entre a vari´avel resposta e cada vari´avel explicativa.
O comportamento das vari´aveis dependentes e independentes pode se apresentar de
forma linear, quadr´atica, exponencial, entre outras. Sendo verificado atrav´es de um gr´afico
de dispers˜ao e uma curva.
Segundo Little e Rubin [3], para o preenchimento de dados faltantes utilizando um
modelo de regress˜ao, s˜ao calculadas previs˜oes a partir do modelo cuja vari´avel resposta,
Y , ´e aquela com dados faltantes e as vari´aveis explicativas s˜ao aquelas que possuem todos
os valores observados. O banco de treino para a cria¸c˜ao do modelo ser´a formado por todas
as linhas que possuem Y observado.
3.5.1
Regress˜
ao Linear
Esse m´etodo ´e usado quando a vari´avel resposta ´e uma vari´avel cont´ınua.
Segundo Davidson e Mackinnon [5], o modelo de Regress˜ao Linear Simples pode ser
representado pela seguinte equa¸c˜ao:
3.5 Modelo de Regress˜ao, um M´etodo de Imputa¸c˜ao Simples 22
onde yirepresenta a vari´avel dependente ou resposta, relacionada ao i-´essimo individuo da
amostra, e xi representa a vari´avel independente ou explicativa, relacionada ao i-´essimo
indiv´ıduo da amostra. Al´em disso, yi e xi assumem valores reais. E ui representa um
termo de erro aleat´orio.
A f´ormula apresentada acima ´e chamada de Regress˜ao Linear Simples porque a
vari´avel dependente est´a relacionada a uma ´unica vari´avel independente. Por´em, ainda
´e poss´ıvel que essa vari´avel dependente esteja relaciona a mais de uma vari´avel
indepen-dente, sendo assim chamada de Regress˜ao Linear M´ultipla e representada pela equa¸c˜ao:
yi = β0+ β1x1i+ β2x2i+ . . . + ui (3.2)
Cada parˆametro β da Equa¸c˜ao 3.2 ´e um parˆametro desconhecido e, para definir a
rela¸c˜ao entre a vari´avel resposta e as vari´aveis explicativas ´e preciso fazer inferˆencias
sobre eles, por exemplo encontrando estimativas adequadas para os parˆametros, testar
hip´oteses e ainda gerar intervalos de confian¸ca.
O termo de erro ui ´e uma vari´avel aleat´oria e possui algumas hip´oteses sobre ele.
Primeiro, podemos assumir que o valor esperado do termo de erro ´e nulo. Ou dado um
valor de xi, a esperan¸ca do termo de erro ´e nula, E[u|x] = 0. O termo de erro existe
pois normalmente ´e dif´ıcil e quase imposs´ıvel especificar ou observar todos os fatores que
determinam yi. Outra hip´otese sobre os termos de erro ´e que eles s˜ao vari´aveis aleat´orias
com distribui¸c˜ao normal, independentes e identicamente distribu´ıdas (iid) com variˆancia
constante, ou seja, ui ∼ N (0, σ2). Como o termo de erro ´e normal, yi tamb´em ser´a
uma vari´avel aleat´oria normal. Al´em disso, se o termo de erro tem distribui¸c˜ao normal o
modelo de Regress˜ao Linear ´e chamado de modelo de Regress˜ao Linear Cl´assico.
Estimador para β
Segundo Davidson e Mackinnon [5], o estimador ˆβ, n˜ao tendencioso, para cada
parˆametro β do modelo definido pela Equa¸c˜ao 3.2 ´e definido a seguir:
ˆ
β = (XTX)−1XTy, (3.3)
em que X ´e uma matriz de covari´aveis onde a primeira coluna ´e preenchida com 1’s e as
demais com as vari´aveis.
Al´em disso, ˆβ ´e o melhor estimador linear n˜ao viesado (MELNV), ou seja, entre os
3.5 Modelo de Regress˜ao, um M´etodo de Imputa¸c˜ao Simples 23
Inferˆencias para β: Intervalo de Confian¸ca e Teste de Wald
O intervalo de confian¸ca ´e um intervalo aleat´orio com alta probabilidade de conter
o parˆametro β. Al´em disso, ele est´a associado com outras t´ecnicas estat´ısticas como o
teste de hip´oteses.Tanto para o Modelo de Regress˜ao Simples quanto para o M´ultiplo, o
intervalo de confian¸ca para cada βk pode ser descrito como:
IC1−α(βk) = ˆ βk− tn−p,1−α2 q ˆ σ2(XTX)−1 kk; ˆβk+ tn−p,1−α2 q ˆ σ2(XTX)−1 kk (3.4)
onde n ´e o tamanho da amostra e p ´e o n´umero de vari´aveis independentes. Al´em disso,
ˆ
σ2(XTX)−1 ´e a matriz de variˆancias e covariˆancias do estimador ˆβ.
O Teste de Wald ´e um teste usado para verificar se as vari´aveis utilizadas no modelo
de regress˜ao est˜ao realmente contribuindo para a an´alise.
As hip´oteses do teste s˜ao:
(
H0 : βk= 0
H1 : βk6= 0
E as seguintes regras de decis˜ao podem ser encontradas em Davidson e Mackinnon
[5]: Se |t∗| 6 tn−p,1−α2 conclui H0 Se |t∗| > tn−p,1−α2 conclui H1 onde t∗ = ˆ βk q ˆ V ar( ˆβk) O Modelo de Previs˜ao
Dada a estimativa ˆβ, a estimativa pontual para a m´edia da vari´avel resposta, nesse
caso para ˆy, ´e dada por:
ˆ
y = X ˆβ (3.5)
3.5 Modelo de Regress˜ao, um M´etodo de Imputa¸c˜ao Simples 24
3.5.2
Regress˜
ao Log´ıstica
Esse m´etodo de Regress˜ao Log´ıstica ´e usado quando a vari´avel resposta ´e uma vari´avel
bin´aria. Por exemplo, a vari´avel tem como resposta “Sim”ou “N˜ao”, “0”ou “1”,
“Femi-nino”ou “Masculino”, entre outros, ou seja, s´o possuem duas op¸c˜oes como resposta. Com
isso, o modelo de Regress˜ao Linear n˜ao pode ser utilizado nesse tipo de problema, pois,
por exemplo, n˜ao se pode afirmar que uma vari´avel resposta bin´aria tenha distribui¸c˜ao
normal.
O Modelo Log´ıstico Simples ´e definido por Kutner [6] como:
yi = E[yi] + ui (3.6)
Onde yi ∼ Ber(πi), al´em disso a rela¸c˜ao suposta entre E[yi] = πi e a vari´avel
expli-cativa xi ´e: πi = 1 1 + e−(β0+β1xi) ou ln πi 1 − πi = β0+ β1xi (3.7)
Para o Modelo Log´ıstico M´ultiplo, a rela¸c˜ao que cria-se para yt = E[yt] + ut e as p
vari´aveis explicativas ´e:
πi = 1 1 + e−xT iβ = 1 1 + e−(β
0+ β1xi,1+ β2xi,2+ . . . + βpxi,p)
ou ln
πi
1 − πi
= xTi β = β0+ β1xi,1+ β2xi,2+ . . . + βpxi,p (3.8)
Estimador para β
A fun¸c˜ao de verossimilhan¸ca l est´a apresentada na Equa¸c˜ao 3.9. O estimador de
m´axima verossimilhan¸ca para o vetor de parˆamentros β ser´a o ponto de m´aximo dessa
fun¸c˜ao. Segundo Kutner [6], n˜ao existe f´ormula fechada para ele; ent˜ao, programas
es-tat´ısticos, como por exemplo o R, utilizam m´etodos num´ericos para achar essa estimativa.
l(β|y, x) = n X i=1 yi(xTi β) − n X i=1 ln1 + exTiβ (3.9)
Inferˆencias para β: Intervalo de Confian¸ca e Teste de Wald
Assim como no Modelo de Regress˜ao Linear, na Regress˜ao Log´ıstica tamb´em pode
3.5 Modelo de Regress˜ao, um M´etodo de Imputa¸c˜ao Simples 25
segundo Kutner [6]. O intervalo ser´a descrito como:
IC1−α(βk) = ˆ βk− z1−α2 q V ar( ˆβk); ˆβk+ z1−α2 q V ar( ˆβk) (3.10)
E as hip´oteses do Teste de Wald ser˜ao:
(
H0 : βk= 0
H1 : βk6= 0
Com as seguintes regras de decis˜ao:
Se |z∗| 6 z1−α 2 conclui H0 Se |z∗| > z1−α2 conclui H1 onde z∗ = ˆ βk q V ar( ˆβk)
Agora, o intervalo de confian¸ca para a m´edia da vari´avel resposta πt, seria:
IC1−α(πi) = 1 1 + eL; 1 1 + eU (3.11)
Onde L e U encontra-se a partir do intervalo de confian¸ca para xTi β:ˆ
IC1−α(πi) = xTiβˆ − z1−α2 q xT i V ar( ˆβ)xi; xTiβ + zˆ 1−α2 q xT i V ar( ˆβ)xi (3.12) O Modelo de Previs˜ao
Dada a estimativa ˆβ, a estimativa pontual para a m´edia da vari´avel resposta, nesse
caso para πi, ´e dada por:
ˆ πi = 1 1 + e−xT iβˆ = 1
1 + e−( ˆβ0+ ˆβ1xi,1+ ˆβ2xi,2+...+ ˆβp−1xi,p−1)
(3.13)
3.6 MICE - Multiple Imputation Chained Equation, um M´etodo de Imputa¸c˜ao M´ultipla 26
partir de um ponto de corte π? onde:
(
Se ˆπi ≥ π?, Yˆi = 1
Se ˆπi < π?, Yˆi = 0
(3.14)
Esse ponto de corte pode ser um valor determinado pelo pesquisador ou a partir da
Sensibilidade e da Especificidade que ajudam a medir o qu˜ao preciso ´e o modelo. Quanto
maior a sensibilidade ou quanto maior a especificidade melhor o modelo est´a ajustado.
A sensibilidade mede a capacidade do teste em identificar corretamente ˆyi = 1 entre
as observa¸c˜oes com yi = 1. A especificidade mede a capacidade do teste em identificar
corretamente ˆyi = 0 entre as observa¸c˜oes com yi = 0. Sendo assim, podemos definir que:
(
Sensibilidade = P (ˆyi = 1|yi = 1) = P (ˆyP (yi=1∩yi=1)
i=1)
Especif icidade = P (ˆyi = 0|yi = 0) = P (ˆyP (yi=0∩yi=0)i=0)
(3.15)
Os valores encontrados em ˆYi s˜ao os que ser˜ao imputados nos dados faltantes.
3.6
MICE - Multiple Imputation Chained Equation,
um M´
etodo de Imputa¸
c˜
ao M´
ultipla
Multiple Imputation Chained Equation (MICE) ´e um dos v´arios m´etodos que
abran-gem a Imputa¸c˜ao M´ultipla. Esse m´etodo ´e usado tanto quando o dado faltante diz respeito
a uma vari´avel cont´ınua quanto bin´aria. Al´em disso, deve-se assusmir que os dados
fal-tantes seguem o mecanismo MAR ou mesmo MNAR, como descrevem Molenberghs [7] e
van Buuren [1]. Por´em, caso os dados sejam MNAR, seriam necess´arios alguns ajustes,
que n˜ao ser˜ao tratados neste trabalho. Se o MICE for implementado quando os dados
seguirem os mecanismos MCAR, ocorrer´a estima¸c˜oes viesadas, por isso a importˆancia de
verificar bem o tipo de mecanismo que os dados seguem.
3.6.1
O Algor´ıtmo MICE
O algoritmo descrito abaixo se refere a quando a vari´avel em quest˜ao ´e cont´ınua.
Existem v´arias maneiras se fazer esse c´alculo no R [8] utilizando o pacote mice [1]. Por´em,
o m´etodo tratado nesta Se¸c˜ao, ser´a o chamado Predictive Mean Matching - PMM - que ´e
3.6 MICE - Multiple Imputation Chained Equation, um M´etodo de Imputa¸c˜ao M´ultipla 27
Gergo Vink [9] diz que, seja Y uma vari´avel com dados faltantes e X uma vari´avel
com dados completos:
1. No caso sem dados faltantes, estime uma Regress˜ao Linear de Y em X. Essa
regress˜ao produz um vetor de coeficientes estimados ˆβ = (XTX)−1XTy e uma
matriz de covariˆancia estimada Σ = ˆσ2(XTX)−1.
2. Fazer um sorteio gerando um novo conjunto de coeficientes β?, assumindo uma
distribui¸c˜ao Normal Multivariada com vetor de m´edias ˆβ e matriz de covariˆancia Σ .
Esta etapa ´e necess´aria para produzir variabilidade suficiente nos valores imputados
e ´e comum a todos os m´etodos “adequados”para imputa¸c˜ao m´ultipla.
3. Para todos os casos, tanto para aqueles com dados faltantes, quanto para os
obser-vados, gerar valores ˆY = β?
0 + β1?X.
4. Para cada caso com Y faltante (YF) identificar um conjunto de casos com Y
obser-vado (YO) tais que o valor de | ˆYF − ˆYO| seja pequeno. Entre as menores diferen¸cas,
sortear um ˆYO. O valor de YO referente ao ˆYO sorteado ser´a o valor imputado para
o YF.
5. Repita os passos 2 − 4 para cada conjunto de dados completo.
Quando a vari´avel com dados faltantes for bin´ario utiliza-se a Regress˜ao Log´ıstica,
como explica Azur [10] em seu algoritmo em 6 passos.
1. ´E feita uma imputa¸c˜ao simples, atrav´es da moda, para cada dado faltante.
2. Seja “var” uma vari´avel com dados faltantes, e j´a preenchidos. Desconsidere a(s)
imputa¸c˜ao(˜oes) feita(s) para essa vari´avel e esse(s) dado(s) volta(m) a ser faltante.
3. ´E ent˜ao ajustado um modelo de regress˜ao onde a vari´avel dependente ´e a vari´avel
“var” do passo 2, e as demais vari´aveis independentes. O modelo de regress˜ao
ajustado pode consistir em todas as vari´aveis do banco ou n˜ao.
4. Os valores faltantes para “var” s˜ao ent˜ao substitu´ıdos pelos valores imputados
atrav´es dos modelos de regress˜ao, j´a vistos na Se¸c˜ao 3.5. Para as vari´aveis
in-dependentes do modelo de regress˜ao e com dados faltantes, ser˜ao considerados os
3.6 MICE - Multiple Imputation Chained Equation, um M´etodo de Imputa¸c˜ao M´ultipla 28
5. Repita os passos 2-4 alterando a vari´avel “var” para a pr´oxima vari´avel com dados
faltantes. Uma itera¸c˜ao ou ciclo ´e conclu´ıdo quando todas as vari´aveis com dados
faltantes j´a foram preenchidas atrav´es de um modelo de regress˜ao.
6. Uma vez que conclu´ıdo um ciclo, volta-se para o passo 2 e se inicia um novo ciclo.
O n´umero de ciclos ´e especificado pelo pesquisador e cada imputa¸c˜ao ´e atualizada
em um novo ciclo. Cada ciclo corresponde a um banco de dados diferente.
Azur [10] diz que geralmente, cinco ciclos s˜ao escolhidos, por´em, esse n´umero pode
variar dependendo da quantidade de dados faltantes e vari´aveis presentes no banco de
dados original. O pesquisador pode definir um n´umero fixo de ciclos ou utilizar o padr˜ao
dos Softwares estat´ısticos. Um n´umero muito grande, talvez tamb´em n˜ao seja o indicado,
pois, dependendo do tamanho do modelo de imputa¸c˜ao, criar um ´unico banco de dados
29
4
An´
alise dos Resultados
Para a an´alise dos resultados foi feita uma simula¸c˜ao no Software R [8] para gerar
trˆes bancos de dados diferentes, cada um com duas vari´aveis: X e Y . Em cada banco
de dados, cada vari´avel possui 500 observa¸c˜oes. Todos os gr´aficos apresentados nesse
trabalho, foram feitos no Software R [8].
Para cada banco foram feitos trˆes sorteios para a vari´avel Y , a fim de selecionar 10%
das observa¸c˜oes para que sejam considerados dados faltantes. Cada um dos trˆes sorteios
seguiu a proposta de cada um dos trˆes mecanismos: MCAR, MAR e MNAR. Em seguida
foram feitas as imputa¸c˜oes dos dados atrav´es da Imputa¸c˜ao Simples (Ingenuo e Regress˜ao)
e Imputa¸c˜ao M´ultipla (MICE [1]).
A seguir veremos como foram selecionadas as linhas para as quais Y ser´a considerado
faltante em cada um dos trˆes mecanismos.
• MCAR: Sorteia-se 50 linhas do banco de dados.
• MAR: Sorteia-se 50 linhas do banco de dados tais que Xi < ¯X (ou Xi < mediana
de X para o banco 3)
• MNAR: Sorteia-se 50 linhas do banco de dados tais que Xi < ¯X (ou Xi < mediana
de X para o banco 3) e Yi < ¯Y (ou Yi = 0 para o banco 3)
Retomando aos poss´ıveis exemplos que poder´ıamos nos deparar no dia a dia citados
da Se¸c˜ao 3.1, temos para o banco 1:
• MCAR: Devido a falhas t´ecnicas do laborat´orio algumas amostras da substˆancias
Y1 foram consideradas impr´oprias para a an´alise.
• MAR: Por motivo desconhecido alguns indiv´ıduos que possuem baixa taxa da substˆancia
4 An´alise dos Resultados 30
• Tentando contornar o problema anterior, o Laborat´orio utilizou outro m´etodo para
a extra¸c˜ao das amostras das substˆancias X1 e Y1. Por´em, sabe-se que por este
m´etodo podem ocorrer problemas na coleta da substˆancia Y1 em indiv´ıduos com
baixas taxas da substˆancia X1 e da pr´opria substˆancia Y1.
Para o banco 2 as poss´ıveis situa¸c˜oes s˜ao:
• MCAR: Durante os experimentos para analisar o comportamento da varia¸c˜ao da
resistˆencia da fibra de metal de acordo com seu comprimento, algumas fibras se
par-tiram durante os testes, impossibilitando a observa¸c˜ao das varia¸c˜oes da resistˆencia.
• MAR: Um Especialista tentando contornar o problema das quebras das fibras propˆos
um teste menos rigoroso. Por´em, ap´os os testes verificou-se a quebra de algumas
fibras, mas todas tinhas comprimento pequeno. Desta forma n˜ao foi poss´ıvel
deter-minar a varia¸c˜ao da resistˆencia dessas fibras.
• MNAR: Um outro Especialista propˆos outra abordagem no intu´ıdo de contornar o
problema encontrado especialista anterior. Por´em, ainda sim observou que algumas
fibras se partiram durante o experimento. Mas observou que as fibras que se
rompe-ram al´em de possuir comprimentos menores, tamb´em haviam varia¸c˜ao de resistˆencia
pequenos ou negativos, segundo experimentos anteriores.
E para o banco 3 temos que:
• MCAR: Algumas pessoas saltaram a pergunta correspondente ao sexo.
• MAR: Pessoas com quantidade mais baixa de sal´ario tinham mais dificuldades em
responder o sexo.
• MNAR: Nesse estudo, mulheres que tinham sal´arios baixos n˜ao responderam as
quest˜oes correspondentes ao sexo e ao sal´ario.
Al´em das imputa¸c˜oes ser˜ao feitas an´alises estat´ısticas para cada um dos bancos, a
fim de comparar os resultados dos bancos imputados com os dos bancos originais. Essa
compara¸c˜ao ser´a feita visualmente, atrav´es de gr´aficos e tamb´em pelas an´alises estat´ısticas
feitas para respectivos bancos. Nas se¸c˜oes a seguir, ser˜ao apresentados os resultados para
4.1 Resultados Para o Banco 1 31
4.1
Resultados Para o Banco 1
Nessa Se¸c˜ao iremos descrever como o banco 1 ficou ap´os a sele¸c˜ao dos 50 valores
para serem faltantes de acordo com os trˆes mecanismos. Para uma melhor visualiza¸c˜ao
de como esses dados ficaram ap´os esses sorteios, foi feito o gr´afico da Figura 4, onde as
observa¸c˜oes mantidas est˜ao em azul claro e as que foram sorteadas para serem faltantes
est˜ao em vermelho.
Para o mecanismo MAR observamos que os valores faltantes est˜ao abaixo de ¯X1 =
1, 97. Para o mecanismo MNAR vemos que as observa¸c˜oes selecionadas est˜ao ainda mais
restritas por conta da dependˆencia tamb´em de Y1.
0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 X1 Y1
Banco Completo 1 - MCAR
(a) MCAR 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1
Banco Completo 1 - MAR
(b) MAR 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1
Banco Completo 1 - MNAR
(c) MNAR
Figura 4: Banco 1 Completo com 10% Sorteados Para Serem Faltantes
Al´em disso, foram criados os gr´aficos apresentados na Figura 5, criado com o aux´ılio
dos pacotes chron [11] e VIM [12] no Software R [8]. Os gr´aficos mostram como o banco
ficou sem os dados selecionados para serem faltantes e como ´e a distribui¸c˜ao dos dados
faltantes em cada banco. Os gr´aficos da Figura 5 nos dizem que os 50 (escrito em vermelho)
valores retirados pertenciam a vari´avel Y1. O valor 0 em vermelho escuro, diz que n˜ao tem
nenhuma linha em que estejam faltando dados em ambas vari´aveis, X1 e Y1, ao mesmo
4.1 Resultados Para o Banco 1 32
boxplots em azul s˜ao para os dados observados em X1 e em Y1 e em vermelho o boxplot
para os dados faltantes. ´E claro como essas observa¸c˜oes s˜ao diferentes para cada tipo de
mecanismo. Para o MCAR, por exemplo, observa-se alguns outliers.
50 0 0 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 X1 Y1
Banco 1 - Dados Observados e Faltantes - MCAR
(a) MCAR 50 0 0 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1
Banco 1 - Dados Observados e Faltantes - MAR
(b) MAR 50 0 0 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1
Banco 1 - Dados Observados e Faltantes - MNAR
(c) MNAR
Figura 5: Banco 1 - Dados Observados e Faltantes
As an´alises que ser˜ao feitas para o banco 1 s˜ao encontrar um intervalo de confian¸ca
para a m´edia de Y1 e um teste para as hip´oteses:
(
H0 : µY1 = 0
H1 : µY1 6= 0
4.1.1
Imputa¸
c˜
ao de Dados
Ap´os a imputa¸c˜ao dos dados faltantes pelos trˆes m´etodos j´a citados, foi calculado o
Erro M´edio Quadr´atico (EQM), que podemos descrever da seguinte maneira:
Seja yi o valor real (original) de uma vari´avel y em um banco de dados e ˆyi o valor do
dado faltante j´a preenchido por algum m´etodo de Imputa¸c˜ao, ent˜ao
n P i=1
(yi − ˆyi)2
n ,
4.1 Resultados Para o Banco 1 33
Dessa maneira, ´e poss´ıvel verificar qual dos m´etodos de Imputa¸c˜ao apresenta o menor
erro. Quanto menor o erro, mais pr´oximo do banco original o novo banco gerado pela
imputa¸c˜ao ´e. Para o m´etodo MICE, foi calculado o EQM para todas as cinco itera¸c˜oes.
Pode-se observar esses valores na Tabela 2, onde encontramos o menor EQM para o
m´etodo de Imputa¸c˜ao Simples, Ingˆenuo, em todos os trˆes mecanismos.
Tabela 2: Erro Quadr´atico M´edio para o Banco 1
M´etodo de Imputa¸c˜ao MCAR MAR MNAR
Ingˆenuo 1,2764 1,0436 1,0478 Regress˜ao Linear 1, 2773 1, 0445 1, 1579 MICE 1 2, 5189 4, 6234 2, 4287 MICE 2 3, 0071 2, 0704 4, 1688 MICE 3 2, 8301 1, 7227 3, 2005 MICE 4 3, 0682 3, 9125 4, 9232 MICE 5 2, 9881 4, 741 3, 0443
Por´em, olhar para o EQM n˜ao ´e a ´unica maneira e nem ´e suficiente para dizer qual
m´etodo ´e o mais eficiente. Por isso, outra t´ecnica utilizada para observar a eficiˆencia de
cada m´etodo ´e atrav´es de an´alises de gr´aficos.
Ap´os a imputa¸c˜ao feita atrav´es do M´etodo Ingˆenuo para o banco 1, observa-se que a
m´edia da vari´avel Y1 est´a em torno de zero. Na Figura 6 as observa¸c˜oes em azul claro s˜ao
as do banco original, em vermelho s˜ao os dados faltantes e as em azul escuro s˜ao os dados
imputados pela m´edia. Nestas mesmas figuras, vemos que os valores imputados n˜ao s˜ao
pr´oximos aos faltantes reais.
Para a imputa¸c˜ao atrav´es da Regress˜ao Linear, temos os seguintes gr´aficos
represen-tados na Figura 7. Para o banco 1, onde as vari´aveis aleat´orias s˜ao independentes, a
Regress˜ao Linear n˜ao funciona muito bem. Isso acontece devido ao fato de que o β n˜ao ´e
significativo, o que significa que o intervalo de confian¸ca de β cont´em o valor 0. Por´em,
se exclu´ıssemos esse β, as retas seriam exatamente iguais `as retas imputadas a partir da
m´edia. Vemos um pouco de inclina¸c˜ao negativa quando o mecanismo foi MNAR.
Para o MICE, utilizamos o padr˜ao de m = 5, que representa o n´umero de bancos
de dados gerados, ou seja, o n´umero de imputa¸c˜ao feita para cada vari´avel e o m´etodo
utilizado dentro do MICE foi o PMM.
Para a Figura 8 foi necess´aria a utiliza¸c˜ao do pacote lattice [13], al´em do mice [1]. Na
Figura 8 temos para cada um dos bancos com dados faltantes, as suas respectivas cinco
4.1 Resultados Para o Banco 1 34 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1
Banco 1 - Dados Imputados pela Média - MCAR
(a) MCAR 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1
Banco 1 - Dados Imputados pela Média - MAR
(b) MAR 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1
Banco 1 - Dados Imputados pela Média - MNAR
(c) MNAR
Figura 6: Banco 1 - Dados Imputados pela M´edia
0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1
Banco 1 - Dados Imputados pela Regressão Linear - MCAR
(a) MCAR 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1
Banco 1 - Dados Imputados pela Regressão Linear - MAR
(b) MAR 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1
Banco 1 - Dados Imputados pela Regressão Linear - MNAR
(c) MNAR
4.1 Resultados Para o Banco 1 35
O primeiro gr´afico, sem as imputa¸c˜oes, ´e a representa¸c˜ao dos bancos com os dados faltantes
antes de inicializar as imputa¸c˜oes.
X1 Y1 -3 -2 -1 0 1 2 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 -3 -2 -1 0 1 2 5 (a) MCAR X1 Y1 -3 -2 -1 0 1 2 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 -3 -2 -1 0 1 2 5 (b) MAR X1 Y1 -2 0 2 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 -2 0 2 5 (c) MNAR
Figura 8: Banco 1 - Itera¸c˜oes Geradas pelo MICE
Podemos observar melhor essas imputa¸c˜oes nos gr´aficos da Figura 9 onde em
verme-lho s˜ao os dados faltantes, por´em conhecidos, e em azul escuro, s˜ao os valores imputados.
Como o MICE gera 5 bancos diferentes, para os mecanismos MCAR e MNAR foram
esco-lhidos o banco da primeira itera¸c˜ao para fazer essa representatividade e para o mecanismo
MAR foi escolhido a terceira itera¸c˜ao. Essa escolha foi baseada no menor EQM, vistas
na Tabela 2.
4.1.2
An´
alise Estat´ıstica
Ap´os as imputa¸c˜oes feitas, foram feitas as an´alises j´a citadas no in´ıcio da Se¸c˜ao 4.1.
Os resultados dessas an´alises encontram-se nas Tabelas 3, 4 e 5.
Podemos observar pela Tabela 5 que, para o mecanismo MNAR, todos os m´etodos
de imputa¸c˜ao tiveram um resultado n˜ao muito bom. Isso pode ser conclu´ıdo quando
comparados os p-valores do banco original com os p-valores dos demais bancos.
4.1 Resultados Para o Banco 1 36 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1
Banco 1 - Dados Imputados pelo MICE - MCAR
(a) MCAR - 1a Itera¸c˜ao
0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1
Banco 1 - Dados Imputados pelo MICE - MAR
(b) MAR - 3a Itera¸c˜ao 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1
Banco 1 - Dados Imputados pelo MICE - MNAR
(c) MNAR - 1a Itera¸c˜ao
Figura 9: Banco 1 - Dados Imputados pelo MICE
Tabela 3: An´alises Para o Banco 1 - MCAR
Ingˆenuo Regress˜ao Linear MICE Banco Original
IC(95%) [-0,1387; 0,0312] [−0, 1388; 0, 0311] [−0, 1426; 0, 0819] [−0, 1451; 0, 0361]
p-valor (T. de Wald) 0,2142 0, 2134 0, 1011 0, 2375
Tabela 4: An´alises Para o Banco 1 - MAR
Ingˆenuo Regress˜ao Linear MICE Banco Original
IC(95%) [-0,1324; 0,0396] [−0, 1320; 0, 0400] [−0, 1697; 0, 0866] [−0, 1451; 0, 0361]
p-valor (T. de Wald) 0,29 0, 294 0, 5104 0, 2375
Tabela 5: An´alises Para o Banco 1 - MNAR
Ingˆenuo Regress˜ao Linear MICE Banco Original
IC95%) [−0, 0586; 0, 1140] [−0, 0526; 0, 1200] [-0,0803; 0,1914] [−0, 1451; 0, 0361]
4.2 Resultados Para o Banco 2 37
3 e 4, os resultados obtidos pelos m´etodos Ingˆenuo e Regress˜ao Linear foram razoavelmente
pr´oximos aos resultados do Banco Original, o que mostra um bom desempenho desses dois
m´etodos de imputa¸c˜ao. Al´em disso, esses dois m´etodos de imputa¸c˜ao tiveram resultados
muito pr´oximos um do outro. O que ´e razo´avel, pois pela independˆencia entre as vari´aveis
X1 e Y1 o modelo ajustado pela Regress˜ao Linear deve ser tal que ˆβ1 ≈ 0 e ˆβ0 ≈ ¯Y1. Com
isso as previs˜oes de Y1 pelo modelo de Regress˜ao Linear ficam muito pr´oximo de ¯Y1, que
´e exatamente o m´etodo Ingˆenuo.
Analisando as Tabelas 3, 4 e 5 percebemos que o m´etodo de imputa¸c˜ao MICE n˜ao teve
bom desempenho para nenhum dos trˆes mecanismos. Mesmo para o mecanismo MAR,
para o qual o MICE foi desenvolvido, pois obteve o pior resultado quando analisado os p-valores (para o MNAR, ele teve o melhor p-valor, mas ainda assim, muito ruim, como
dito anteriormente). Provavelmente isso ´e justificado pela independˆencia das vari´aveis
aleat´orias X1 e Y1.
4.2
Resultados Para o Banco 2
Nessa Se¸c˜ao iremos descrever como o banco 2 ficou ap´os a sele¸c˜ao dos 50 valores para
serem faltantes de acordo com os trˆes mecanismos. Para uma melhor visualiza¸c˜ao de
como esses dados ficaram ap´os esses sorteios, foram feitos os gr´aficos da Figura 10, onde
as observa¸c˜oes mantidas est˜ao em azul claro e as que foram sorteadas para serem faltantes
4.2 Resultados Para o Banco 2 38 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2
Banco Completo 2 - MCAR
(a) MCAR 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2
Banco Completo 2 - MAR
(b) MAR 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2
Banco Completo 2 - MNAR
(c) MNAR
Figura 10: Banco 2 Completo com 10% Sorteados Para Serem Faltantes
Os gr´aficos da Figura 11 nos dizem que os 50 (em vermelho) valores retirados
perten-ciam a vari´avel Y2. O valor 0 em vermelho escuro, diz que n˜ao tem nenhuma linha em que
estejam faltando dados em ambas vari´aveis X2 e Y2, ao mesmo tempo. E o outro valor
0 em vermelho, diz que n˜ao existe dados faltantes em X2. Os boxplots em azul s˜ao para
os dados observados em X2 e em Y2, em vermelho o boxplot para os dados faltantes. ´E
claro como essas observa¸c˜oes faltantes s˜ao diferentes para cada tipo de mecanismo. Para
o MCAR, por exemplo, observa-se alguns outliers.
A an´alise escolhida para ser realizada no banco 2 foi ajustar um modelo de Regress˜ao
Linear para as vari´aveis X2 e Y2. Como resultado dessa regress˜ao vamos comparar as
estimativas para β0 e β1 e seus respectivos desvio-padr˜ao, p−valor para o teste Wald para
cada coeficiente e o R2 da regress˜ao.
4.2.1
Imputa¸
c˜
ao de Dados
Para o banco 2 tamb´em foi calculado o Erro Quadr´atico M´edio para os trˆes m´etodos
de imputa¸c˜ao, para cada um dos trˆes mecanismos. Pode-se observar esses valores na
4.2 Resultados Para o Banco 2 39 50 0 0 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2
Banco 2 - Dados Observados e Faltantes - MCAR
(a) MCAR 50 0 0 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2
Banco 2 - Dados Observados e Faltantes - MAR
(b) MAR 50 0 0 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2
Banco 2 - Dados Observados e Faltantes - MNAR
(c) MNAR
Figura 11: Banco 2 - Dados Observados e Faltantes
mecanismos: MCAR, MAR e MNAR. A justificativa para isso ´e que como os dados vˆem
de uma Regress˜ao Linear, o modelo de Regress˜ao Linear ´e uma maneira eficiente para
estimar Y2 dado X2.
Tabela 6: Erro Quadr´atico M´edio Para o Banco 2
M´etodo de Imputa¸c˜ao MCAR MAR MNAR
Ingˆenuo 2, 3443 1, 8209 2.3147 Regress˜ao Linear 1,2773 1,0445 0,7385 MICE 1 2, 5259 2, 0107 1, 2704 MICE 2 2, 0584 2, 3725 1, 7423 MICE 3 1, 6734 2, 206 1, 6918 MICE 4 2, 1175 1, 8691 1, 9538 MICE 5 2, 3829 2, 098 1, 6247
Agora, utilizando a t´ecnica de observa¸c˜oes dos gr´aficos dos dados imputados, obtemos
os resultados que se seguem. Ap´os a imputa¸c˜ao feita atrav´es da m´edia para o banco 2,
observa-se que a m´edia da vari´avel Y2 est´a em torno de dois. Como s˜ao apenas 10% dos
valores escolhidos para serem faltantes, n˜ao vemos grande varia¸c˜ao entre as m´edias de Y2
4.2 Resultados Para o Banco 2 40
Na Figura 12 as observa¸c˜oes em azul claro, s˜ao as do banco original, em vermelho s˜ao
os dados faltantes, por´em conhecidos e as em azul escuro s˜ao os dados imputados pela
m´edia. Nestas mesmas figuras, vemos que os valores imputados n˜ao s˜ao muito pr´oximos
aos reais em nenhum dos trˆes mecanismos.
0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2
Banco 2 - Dados Imputados pela Média - MCAR
(a) MCAR 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2
Banco 2 - Dados Imputados pela Média - MAR
(b) MAR 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2
Banco 2 - Dados Imputados pela Média - MNAR
(c) MNAR
Figura 12: Banco 2 - Dados Imputados pela M´edia
Para a imputa¸c˜ao atrav´es da Regress˜ao Linear, temos os gr´aficos representados na
Figura 13. Enquanto para o banco 1, a regress˜ao n˜ao funcionou muito bem, para o banco
2, onde as duas vari´aveis s˜ao definidas por uma Regress˜ao Linear, observa-se uma reta
4.2 Resultados Para o Banco 2 41 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2
Banco 2 - Dados Imputados pela Regressão Linear - MCAR
(a) MCAR 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2
Banco 2 - Dados Imputados pela Regressão Linear - MAR
(b) MAR 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2
Banco 2 - Dados Imputados pela Regressão Linear - MNAR
(c) MNAR
Figura 13: Banco 2 - Dados Imputados pela Regress˜ao Linear
Assim como no banco 1, para o m´etodo de imputa¸c˜ao m´ultipla, MICE, no banco 2,
tamb´em utilizamos o padr˜ao de m = 5, que representa o n´umero de bancos de dados
gerados, ou seja, o n´umero de imputa¸c˜ao feita para cada vari´avel e o m´etodo utilizado
tamb´em foi o PMM, pois ainda estamos tratando de vari´aveis cont´ınuas.
Na Figura 14 temos para cada um dos bancos com dados faltantes, as suas respectivas
cinco itera¸c˜oes. Assim, em azul claro s˜ao os dados observados e em azul escuro, as
imputa¸c˜oes. O primeiro gr´afico, sem as imputa¸c˜oes, ´e a representa¸c˜ao dos bancos com os
dados faltantes antes de inicializar as imputa¸c˜oes.
Podemos observar melhor essas imputa¸c˜oes na Figura 15 onde em vermelho s˜ao os
dados faltantes, por´em conhecidos, e em azul escuro, s˜ao os valores imputados. Como
o MICE gera 5 bancos diferentes, para os mecanismos MCAR, MAR e MNAR foram
escolhidos respectivamente os bancos da terceira, quarta e primeira itera¸c˜ao para fazer
essa representatividade. Essa escolha foi baseada no menor EQM, vistas na Tabela 6.
Observa-se que a imputa¸c˜ao realizada pelo MICE apresenta valores bem espalhados,
4.2 Resultados Para o Banco 2 42 X2 Y2 -2 0 2 4 6 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 -2 0 2 4 6 5 (a) MCAR X2 Y2 -2 0 2 4 6 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 -2 0 2 4 6 5 (b) MAR X2 Y2 -2 0 2 4 6 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 -2 0 2 4 6 5 (c) MNAR
Figura 14: Banco 2 - Itera¸c˜oes Geradas pelo MICE
0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2
Banco 2 - Dados Imputados pelo MICE - MCAR
(a) MCAR - 3a Itera¸c˜ao
0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2
Banco 2 - Dados Imputados pelo MICE - MAR
(b) MAR - 4a Itera¸c˜ao 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2
Banco 2 - Dados Imputados pelo MICE - MNAR
(c) MNAR - 1a Itera¸c˜ao
4.2 Resultados Para o Banco 2 43
4.2.2
An´
alise Estat´ıstica
Ap´os as imputa¸c˜oes feitas, foram feitas as an´alises j´a citadas no in´ıcio do Cap´ıtulo 4.
Os resultados dessas an´alises encontram-se nas Tabelas 7, 8 e 9.
Tabela 7: An´alises Para o Banco 2 - MCAR
Ingˆenuo Regress˜ao Linear MICE Banco Original
ˆ β0 0, 1836 -0,0701 −0, 0745 −0, 0579 ˆ β1 0, 8856 1,0082 1, 0113 1, 0017 Desvio Padr˜ao ( ˆβ0) 0,1026 0, 0973 0, 1064 0, 1038 Desvio Padr˜ao ( ˆβ1) 0,0465 0, 0441 0, 0494 0, 047 p-valor ( ˆβ0) 0, 0742 0, 4713 0,4843 0, 5768 p-valor ( ˆβ1) < 0, 0001 < 0, 0001 < 0, 0001 < 0, 0001 R2 0, 4215 0, 5123 0,4895 0, 477
Tabela 8: An´alises Para o Banco 2 - MAR
Ingˆenuo Regress˜ao Linear MICE Banco Original
ˆ β0 0, 1519 −0, 0347 -0,0444 −0, 0579 ˆ β1 0, 9341 0, 9943 0,9984 1, 0017 Desvio Padr˜ao ( ˆβ0) 0,1013 0, 0985 0, 1148 0, 1038 Desvio Padr˜ao ( ˆβ1) 0,0459 0, 0446 0, 0497 0, 047 p-valor ( ˆβ0) 0, 1343 0, 7249 0,6996 0, 5768 p-valor ( ˆβ1) < 0, 0001 < 0, 0001 < 0, 0001 < 0, 0001 R2 0, 4543 0, 4991 0,4772 0, 477
Tabela 9: An´alises Para o Banco 2 - MNAR
Ingˆenuo Regress˜ao Linear MICE Banco Original
ˆ β0 0, 3058 0, 0724 0,0405 −0, 0579 ˆ β1 0, 8858 0, 9641 0,9775 1, 0017 Desvio Padr˜ao ( ˆβ0) 0,1036 0, 1003 0, 1196 0, 1038 Desvio Padr˜ao ( ˆβ1) 0,047 0, 0454 0, 051 0, 047 p-valor ( ˆβ0) 0, 0033 0,4707 0, 7359 0, 5768 p-valor ( ˆβ1) < 0, 0001 < 0, 0001 < 0, 0001 < 0, 0001 R2 0, 4168 0,4748 0, 4573 0, 477
Observando as Tabelas 7, 8 e 9, vemos que o m´etodo Ingˆenuo teve o pior resultado.
4.3 Resultados Para o Banco 3 44
mecanismos esse p-valor foi muito pequeno para o m´etodo Ingˆenuo, quando comparado
com o p-valor do banco original.
Os resultados obtidos para os m´etodos de Regress˜ao Linear e MICE foram bem
pa-recidos entre eles. Ambos os m´etodos de imputa¸c˜ao tiveram bons resultados. Vale o
destaque para o MICE quando o mecanismo usado foi MAR.
Vale ressaltar que, com a exce¸c˜ao do m´etodo Ingˆenuo, os resultados da an´alise
es-tat´ıstica s˜ao bem semelhantes quando comparados os resultados do banco original com os
outros dois m´etodos de imputa¸c˜ao.
4.3
Resultados Para o Banco 3
Nessa Se¸c˜ao iremos descrever como o banco 3 ficou ap´os a sele¸c˜ao dos 50 valores para
serem faltantes de acordo com os trˆes mecanismos. Para uma melhor visualiza¸c˜ao de como
esses dados ficaram ap´os esses sorteios,, foram feitos os gr´aficos da Figura 16 abaixo, onde
as observa¸c˜oes mantidas est˜ao em azul claro e as que foram sorteadas para serem faltantes
est˜ao em vermelho. 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3
Banco Completo 3 - MCAR
(a) MCAR 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3
Banco Completo 3 - MAR
(b) MAR 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3
Banco Completo 3 - MNAR
(c) MNAR
4.3 Resultados Para o Banco 3 45
A Figura 17 nos diz que os 50 (em vermelho) valores retirados pertenciam a vari´avel
Y3. O valor 0 em vermelho escuro, diz que n˜ao tem nenhuma linha em que estejam faltando
dados em ambas vari´aveis X3 e Y3, ao mesmo tempo. E o outro valor 0 em vermelho, diz
que n˜ao existe dados faltantes em X3.
50 0 0 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3
Banco 3 - Dados Observados e Faltantes - MCAR
(a) MCAR 50 0 0 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3
Banco 3 - Dados Observados e Faltantes - MAR
(b) MAR 50 0 0 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3
Banco 3 - Dados Observados e Faltantes - MNAR
(c) MNAR
Figura 17: Banco 3 - Dados Observados e Faltantes
A an´alise feita para o banco 3 foi ajustar um modelo de Regress˜ao Log´ıstica para
as vari´aveis X3 e Y3. Como resultado vamos comparar as estimativas para β0 e β1 seus
respectivos desvios-padr˜oes, os p-valores e Intervalos de Confian¸ca.
4.3.1
Imputa¸
c˜
ao de Dados
Quando os dados s˜ao bin´arios, n˜ao faz sentido calcular o EQM, como foi calculado
para os bancos 1 e 2. Por isso, ap´os a imputa¸c˜ao dos dados faltantes pelos trˆes m´etodos j´a
citados, foram encontradas a Sensibilidade (S) e a Especificidade (E) para cada m´etodo,
a fim de verificar qual dos m´etodos apresenta melhor ajuste. Para o m´etodo MICE, foram
4.3 Resultados Para o Banco 3 46
O ponto de corte escolhido foi de 0, 5, ent˜ao temos que:
(
Se πˆi ≥ 0, 5, Yˆ3i = 1
Se πˆi < 0, 5, Yˆ3i = 0
(4.1)
Tabela 10: Tabela de Sensibilidade e Especificidade Para o Banco 3
MCAR MAR MNAR
M´etodo de Imputa¸c˜ao S E S E S E Ingˆenuo 1 0 1 0 0 0 Regress˜ao Log´ıstica 0, 82 0, 73 0 1 − 1 MICE 1 0, 86 0, 67 0, 33 0, 89 − 0, 8 MICE 2 0, 79 0, 68 0, 33 0, 91 − 0, 86 MICE 3 0, 82 0, 73 0, 17 0, 82 − 0, 88 MICE 4 0, 93 0, 67 0, 5 0, 84 − 0, 84 MICE 5 0, 79 0, 59 0, 33 0, 89 − 0, 86
Os valores em “-”s˜ao indeterminados, ou seja, o numerador e o denominador s˜ao zero.
Vemos ent˜ao, na Tabela 10 que os mecanismos MAR e MNAR possuem alta
especi-ficidade para os m´etodos de Regress˜ao Log´ıstica e MICE. Enquanto para o mecanismo
MCAR, ele possui maior sensibilidade nos trˆes m´etodos de Imputa¸c˜ao.
Agora, utilizando a t´ecnica de observa¸c˜oes dos gr´aficos dos dados imputados, obtemos
os resultados que se seguem para a imputa¸c˜ao atrav´es da moda para o banco 3, nos
mecanismos MCAR, MAR e MNAR. Na Figura 18 as observa¸c˜oes em azul claro, s˜ao
as do banco original, em vermelho s˜ao os dados faltantes e as em azul escuro s˜ao os
dados imputados pela moda. Nesta mesma figura, vemos que os valores imputados n˜ao
s˜ao pr´oximos aos reais. Como a moda foi 0, para todos os trˆes mecanismos, os valores
imputados para os trˆes foi sempre o mesmo, causando um erro grotesco, principalmente
quando o mecanismo eram MAR e MNAR.
Para a imputa¸c˜ao atrav´es da Regress˜ao Log´ıstica, temos os seguintes gr´aficos
repre-sentados na figura 19. Observamos que ´e um m´etodo bastante eficiente quando escolhemos
um ponto de corte de 0, 5, j´a explicado na equa¸c˜ao 4.1. O mecanismo MNAR obteve o
melhor resultado, dentre os trˆes mecanismos, onde conseguiu prever todos os 50 valores
de maneira correta. O pior dos trˆes foi o MCAR, mas que tamb´em n˜ao deixou muito a
desejar, pois acertou 39 de 50. Ent˜ao, vemos que o modelo encontrado para cada um dos
4.3 Resultados Para o Banco 3 47 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3
Banco 3 - Dados Imputados pela Moda - MCAR
(a) MCAR 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3
Banco 3 - Dados Imputados pela Moda - MAR
(b) MAR 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3
Banco 3 - Dados Imputados pela Moda - MNAR
(c) MNAR
Figura 18: Banco 3 - Dados Imputados pela Moda
0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3
Banco 3 - Dados Imputados pela Regressão Logística - MCAR
(a) MCAR 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3
Banco 3 - Dados Imputados pela Regressão Logística - MAR
(b) MAR 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3
Banco 3 - Dados Imputados pela Regressão Logística - MNAR
(c) MNAR
4.3 Resultados Para o Banco 3 48
Para o m´etodo de imputa¸c˜ao m´ultipla, MICE, no banco 3, utilizamos o padr˜ao de
m = 5, que representa o n´umero de bancos de dados gerados, ou seja, o n´umero de
imputa¸c˜ao feita para cada vari´avel e o m´etodo utilizado foi o logreg, pois Y3 ´e uma
vari´avel bin´aria. Na figura 20 temos para cada um dos bancos com dados faltantes, as
suas respectivas cinco itera¸c˜oes. Assim, em azul claro s˜ao os dados observados e em azul
escuro, as imputa¸c˜oes. O primeiro gr´afico, sem as imputa¸c˜oes, ´e a representa¸c˜ao dos
bancos com os dados faltantes antes de inicializar as imputa¸c˜oes.
X3 Y3 0 1 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 0 1 5 (a) MCAR X3 Y3 0 1 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 0 1 5 (b) MAR X3 Y3 0 1 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 0 1 5 (c) MNAR
Figura 20: Banco 3 - Itera¸c˜oes Geradas pelo MICE
Podemos comparar melhor os dados imputados com os dados faltantes na Figura 21
onde em vermelho s˜ao os dados faltantes, por´em conhecidos, e em azul escuro, s˜ao os
valores imputados. Como o MICE gera 5 bancos diferentes, para os trˆes mecanismos
MCAR, MAR e MNAR foram escolhidos o banco da quarta, segunda e terceira itera¸c˜ao,
respectivamente para fazer essa representatividade, pois foram os que apresentaram mais acertos segundo a Tabela 10.