Imputação de dados faltantes

(1)

Paola da Silva Martins

Imputa¸

c˜

ao de Dados Faltantes

Niter´oi - RJ, Brasil

(2)

Universidade Federal Fluminense

Paola da Silva Martins

Imputa¸

c˜

ao de Dados Faltantes

Trabalho de Conclus˜ao de Curso

Monografia apresentada para obten¸c˜ao do grau de Bacharel em

Estat´ıstica pela Universidade Federal Fluminense.

Orientadora: Profa_{. J´}_{essica Quintanilha Kubrusly}

Coorientador: Prof. Joel Correa da Rosa

Niter´oi - RJ, Brasil

(3)

Universidade Federal Fluminense

Paola da Silva Martins

Imputa¸

c˜

ao de Dados Faltantes

Monografia de Projeto Final de Gradua¸c˜ao sob o t´ıtulo

“Im-puta¸c˜ao de Dados Faltantes”, defendida por Paola da Silva

Martins e aprovada em 17 de janeiro de 2017, na cidade de

Niter´oi, no Estado do Rio de Janeiro, pela banca examinadora

constitu´ıda pelos professores:

Profa. Dra. J´essica Quintanilha Kubrusly

Departamento de Estat´ıstica – UFF

Profa. Dra. Ana Beatriz Monteiro Fonseca

Profa_{. Dr}a_{. Ludmilla da Silva Viana Jacobson}

(4)

(5)

Resumo

´

E muito comum em pesquisas depararmos com dados faltantes que podem ter

ocor-rido por diferentes motivos, por razões aleatórias ou não, como por exemplo, um erro de

digita¸cão ou um entrevistado que não responder uma pergunta pessoal. A razão para

um dado ser faltante ´e chamado de Mecanismo de Dados Faltantes que s˜ao

caracteri-zados em trˆes categorias diferentes: MCAR, MAR e MNAR. Esse trabalho apresenta

alguns m´etodos de Imputa¸c˜ao desses dados faltantes, ou seja, maneiras de substituir o

dado faltante por algum valor. Foram criados trˆes bancos sint´eticos completos e depois

foram exclu´ıdos alguns valores para serem faltantes de acordo com os trˆes mecanismos.

Para cada um desses bancos com dados faltantes foi feita a imputa¸c˜ao por m´etodos de

Imputa¸cão Simples e Múltipla. Após a imputa¸cão foram feitas análises estat´ısticas a fim

de comparar os resultados dessas an´alises com as do banco original e assim verificar qual

desses m´etodos de imputa¸c˜ao foi mais eficiente entre os testados. Esses resultados

mos-traram que o método de Imputa¸cão Múltipla pelo MICE foi bastante eficiente em dois

bancos e ineficiente para o outro banco. Os bancos que o método de Imputa¸cão Múltipla

MICE tiveram melhores resultados foram justamente aqueles em que as vari´aveis

assumi-ram alguma dependência, já o banco em que as variáveis eram independentes o método

de imputa¸cão com melhor resultado foi o método Ingênuo.

Palavras-chaves: Métodos de Imputa¸cão, Mecanismos de Dados Faltantes, Imputa¸cão

(6)

Dedicat´

oria

Resiliˆencia:

1. Propriedade de um corpo de recuperar a sua forma original ap´os sofrer choque ou

deforma¸c˜ao.

2. Capacidade de superar, de recuperar de adversidades.

Esta é a defini¸cão de uma das palavras mais bonitas do dicionário da l´ıngua

Portu-guesa. Com ela, dedico esse Projeto Final de Conclus˜ao de Curso `a todas as pessoas que

têm depressão. Momentos dif´ıceis virão, muitas vezes nos sentimos sozinhos, mesmo se

estamos rodeados de pessoas. `As vezes, d´a vontade de desistir, ou de simplesmente sumir.

Muitas vezes pensam que n˜ao estamos nem a´ı para nossos deveres, quando na verdade, o

que mais queremos, ´e realizar essas atividades. Muitos dizem para nos esfor¸carmos mais,

quando na verdade estamos dando o nosso m´aximo, o nosso melhor. Tudo isso entre

outras coisas, nos deixam ainda mais para baixo. Mas ´e a´ı que vem a resiliˆencia. Quando

sofremos de todos esses males, ainda encontramos uma for¸ca, mesmo que pequena, para

superar todas essas adversidades. Ap´os tanta dor e sofrimento, parece que levamos um

choque contra um trator, e ficamos deformados. Mas a´ı, descobrimos de alguma maneira que somos fortes e capazes de superar e se recuperar a nossa forma original.

H´a um pouco mais de dois anos convivo com esses conflitos, mas pouco a pouco

estou aprendendo a super´a-los. Esse trabalho, ´e um dos exemplos concretos de que se

eu sou capaz de vencer, você também é. Aprendi que não é necessário que as pessoas te

entendam, elas não vão te entender mesmo. Mas há aquelas pessoas que você pode ter

certeza que estar˜ao sempre ao seu lado, pois essas sim, te amam muito: a sua fam´ılia. E

além deles, há um Ser que mesmo que às vezes você não o sinta, Ele jamais te abandona

e ainda te ama imensamente: Deus.

(7)

Agradecimentos

Tenho muito a agradecer a muitas pessoas que participaram de maneira significativa na minha caminhada durante a faculdade. A lista seria enorme, por isso destaco poucos nomes.

Primeiramente gostaria de agradecer a meus pais e irm˜aos por estarem sempre ao meu

lado e sempre apoiarem as minhas decis˜oes, e tamb´em por terem me orientado quando eu

n˜ao estava no rumo certo.

Agrade¸co aos amigos que fiz durante esses anos na UFF e permanecem at´e hoje. Ao

S´ergio e a Ana Maria Morais que foram os primeiros amigos que fiz. Ao grupo “Hein, Deu

Ruim”que apareceu logo em seguida. Cissa, Guilherme Malv˜ao, Nadine, Bruno Lucian,

Pablo, Everson, Natan e Dani. E aos agregados, Lucas Nariz e Guilherme Martins. Muitos

deles foram incansáveis em me ajudar quando tive dúvida, e até hoje são, quando ainda

tenho d´uvidas (em Estat´ıstica). Al´em de me fazerem rir quando eu precisava, de me

apoiarem quando era preciso, de me dar um ombro, para quando eu precisava chorar e um ouvido quando eu precisava desabafar.

Tamb´em agrade¸co aos amigos que em algum momento fizeram parte dessa caminhada,

mas que hoje já estamos em caminhos diferentes então não nos encontramos mais. Cada

um aparece na nossa vida por algum motivo: uns vem por um per´ıodo, outros para toda a vida. Mas todos vem com algo que possa acrescentar na vida do outro. Por isso, sou grata!

Além de todos os amigos já citados, agrade¸co também aos “operários de última hora”.

Esses s˜ao os amigos que fiz ao longo da faculdade e no ´ultimo ano. Espero que essas

amizades ainda perdurem por um bom tempo. Obrigada por me acolherem quando eu

voltei dos Estados Unidos e n˜ao conhecia ningu´em.

Agrade¸co tamb´em ao Deyvid, que tive o prazer e a felicidade de conhecer no ´ultimo

ano de faculdade. E isso s´o foi poss´ıvel pelas minhas escolhas anteriores de ir e vir da

faculdade algumas vezes. Sou grata pela sua aten¸c˜ao e compreens˜ao e ainda por ser meu

professor particular de Estat´ıstica. Obrigada por ser paciente. Sua calma acalma minha alma.

(8)

Agrade¸co as psic´ologas e aos psiquiatras que tive durante os ´ultimos anos, por me

ajudarem a enfrentar a depress˜ao e me auxiliarem em como superar as dificuldades de

todos os dias.

Agrade¸co ao professor Joel por ter me dado a oportunidade de trabalhar com ele em Nova Iorque, juntamente com a Sandra, e ainda por ele ter me apresentado o tema deste trabalho. Aprendi muito com os dois mesmo que em pouco tempo. Agrade¸co

tamb´em a professora J´essica por ter aceitado o desafio de me orientar neste trabalho e as

professoras Ana Beatriz e Ludmilla por aceitarem fazer parte da banca. Agrade¸co tamb´em

aos professores que tive na UFF por compartilharem seus conhecimentos comigo. Assim como os professores e coordenadores que eu tive no Baruch College, em Nova Iorque.

Por último, mas não menos importante, muito pelo contrário, o mais importante,

agrade¸co a Deus por nunca me abandonar, mesmo nos momentos em que eu j´a n˜ao O

sentia mais. Ele permaneceu comigo todo o tempo e tenho certeza que foi Ele que me deu

for¸cas necessárias para que eu não desistisse de nenhuma etapa da minha caminhada até

hoje.

Sem essas pessoas, meu caminho teria sido muito mais longo e dif´ıcil do que foi. Obrigada!

(9)

Sum´

ario

Lista de Figuras Lista de Tabelas 1 Introdu¸c˜ao p. 12 2 Objetivos p. 14 3 Materiais e M´etodos p. 15 3.1 Materiais . . . p. 15

3.2 Mecanismos de Dados Faltantes . . . p. 17

3.3 Imputa¸cão Simples versus Imputa¸cão Múltipla . . . p. 19

3.4 Método Ingênuo, um Método de Imputa¸cão Simples . . . p. 20

3.4.1 Substitui¸c˜ao a partir da M´edia ou Mediana . . . p. 20

3.4.2 Substitui¸c˜ao a partir da Moda ou Propor¸c˜ao . . . p. 21

3.5 Modelo de Regressão, um Método de Imputa¸cão Simples . . . p. 21

3.5.1 Regress˜ao Linear . . . p. 21

3.5.2 Regress˜ao Log´ıstica . . . p. 24

3.6 MICE - Multiple Imputation Chained Equation, um M´etodo de Imputa¸c˜ao

M´ultipla . . . p. 26

3.6.1 O Algor´ıtmo MICE . . . p. 26

4 An´alise dos Resultados p. 29

(10)

4.1.1 Imputa¸c˜ao de Dados . . . p. 32

4.1.2 An´alise Estat´ıstica . . . p. 35

4.2 Resultados Para o Banco 2 . . . p. 37

4.3 Resultados Para o Banco 3 . . . p. 44

5 Conclus˜ao p. 51

(11)

Lista de Figuras

1 Banco 1 Gerado a Partir de Simula¸c˜ao . . . p. 15

4 Banco 1 Completo com 10% Sorteados Para Serem Faltantes . . . p. 31

5 Banco 1 - Dados Observados e Faltantes . . . p. 32

6 Banco 1 - Dados Imputados pela M´edia . . . p. 34

7 Banco 1 - Dados Imputados pela Regress˜ao Linear . . . p. 34

8 Banco 1 - Itera¸c˜oes Geradas pelo MICE . . . p. 35

9 Banco 1 - Dados Imputados pelo MICE . . . p. 36

10 Banco 2 Completo com 10% Sorteados Para Serem Faltantes . . . p. 38

12 Banco 2 - Dados Imputados pela M´edia . . . p. 40

13 Banco 2 - Dados Imputados pela Regress˜ao Linear . . . p. 41

15 Banco 2 - Dados Imputados pelo MICE . . . p. 42

16 Banco 3 Completo com 10% Sorteados para Serem Faltantes . . . p. 44

18 Banco 3 - Dados Imputados pela Moda . . . p. 47

19 Banco 3 - Dados Imputados pela Regress˜ao Log´ıstica . . . p. 47

(12)

Lista de Tabelas

1 Mecanismos de Dados Faltantes . . . p. 19

2 Erro Quadr´atico M´edio para o Banco 1 . . . p. 33

3 An´alises Para o Banco 1 - MCAR . . . p. 36

4 An´alises Para o Banco 1 - MAR . . . p. 36

5 An´alises Para o Banco 1 - MNAR . . . p. 36

6 Erro Quadr´atico M´edio Para o Banco 2 . . . p. 39

9 An´alises Para o Banco 2 - MNAR . . . p. 43

10 Tabela de Sensibilidade e Especificidade Para o Banco 3 . . . p. 46

(13)

12

1 Introdu¸

c˜

ao

A an´alise de dados demanda precau¸c˜ao durante todo o seu processo. Depois da coleta

de dados, dados faltantes provavelmente estar˜ao presentes, o que ´e muito comum em

diversos tipos de bancos de dados, especialmente em dados epidemiol´ogicos. As raz˜oes

para um dado ser faltante podem ser diversas, e s˜ao denominadas de Mecanismos de Dados

Faltantes. Por exemplo, um dado pode ser faltante por motivo totalmente aleat´orio,

como um erro de digita¸c˜ao, ou pode ser faltante por um motivo tendencioso, quando um

indiv´ıduo n˜ao responde uma pergunta pessoal.

As consequências de se trabalhar com dados faltantes são diversas, uma delas é que a

análise estat´ıstica provavelmente será viesada, ou seja, conterá erros. Como esses valores

faltantes podem afetar essas análises é um ponto a ser levado em considera¸cão. Eles

podem levar a uma decis˜ao errada e, al´em disso, os dados faltantes podem debilitar

completamente o poder da amostra.

Hoje em dia, muitos pesquisadores, para tentar solucionar o problema de dados

fal-tantes nos bancos de dados, decidem pela maneira mais simples e rápida, que é a exclusão

das linhas onde se encontram a observa¸cão faltante. Porém, essa é uma alternativa que

dependendo da quantidade de linhas exclu´ıdas, pode gerar distor¸c˜oes nos resultados das

an´alises.

Uma alternativa para esse pesquisador seria, em vez de excluir linhas do banco de

dados, tentar imputar os dados faltantes, isto ´e, atribuir valores para as observa¸c˜oes

faltantes. Existem diversos m´etodos para isso, que s˜ao divididos em duas categorias:

Métodos de Imputa¸cão Simples e Múltipla. Os métodos de Imputa¸cão Simples atribuem

um único valor para cada dado faltante, já os de Imputa¸cão Múltipla atribuem diversos

valores para os mesmos. A ideia de imputar dados faltantes pelo m´etodo de Imputa¸c˜ao

Múltipla é recente, e surge com Rubin [2] na década de 1980 a fim de minimizar o problema

da exclus˜ao de linhas com dados faltantes e tamb´em ser ainda mais eficiente que os casos

(14)

1 Introdu¸c˜ao 13

Este trabalho se prop˜oe a realizar um estudo em cima de trˆes bancos de dados

sint´eticos e com dados faltantes, cujo objetivo ´e comparar os resultados para diferentes

métodos de imputa¸cão. Serão levados em considera¸cão métodos de Imputa¸cão Simples e

M´ultipla, al´em de diferentes Mecanismos de Dados Faltantes.

No Cap´ıtulo 2 ser˜ao apresentados os objetivos do trabalho. No Cap´ıtulo 3 ser˜ao

apresentados os materiais. Os resultados das an´alises deste trabalho se encontram no

(15)

14

2 Objetivos

O objetivo desse trabalho ´e comparar o desempenho de diferentes m´etodos de

im-puta¸cão. Esses métodos são chamados de Imputa¸cão Simples (abrangendo o método

ingênuo e o de regressão) e Imputa¸cão Múltipla. Esses métodos serão trabalhados em

variáveis cont´ınuas e em variáveis binárias. Além disso, serão levados em considera¸cão

trˆes mecanismos de dados faltantes, s˜ao eles: MCAR (Missing Completely at Random),

(16)

15

3 Materiais e M´

etodos

3.1 Materiais

Para este trabalho, foram criados trˆes bancos de dados sint´eticos, ou seja, bancos

fict´ıcios. Para o primeiro banco foram criadas duas vari´aveis aleat´orias independentes,

X1 ∼ Gama(α = 4, β = 2) e Y1 ∼ N ormal(µ = 0, σ = 1).

Na Figura 1 encontra-se o gr´afico das vari´aveis para o banco 1. Podemos comparar as

vari´aveis desse banco sint´etico com o seguinte poss´ıvel exemplo:

• X1 : Taxa da substˆancia X1 na corrente sanguinea.

• Y1 : Desvios da substância Y1 a um valor de referência desta substância pré

deter-minado. 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 Banco Completo 1 X1 Y1

Figura 1: Banco 1 Gerado a Partir de Simula¸c˜ao

(17)

3.1 Materiais 16

onde

X2 ∼ Gama(α = 4, β = 2) e Y2 = X2+ e, com e ∼ N ormal(µ = 0, σ = 1).

Na Figura 2, encontra-se o gr´afico das vari´aveis para o banco 2. Podemos comparar as

• X2 : Comprimento de fibras de metal em cent´ımetro.

• Y2 : Varia¸c˜ao da resistˆencia da fibra expostos a temperatura K.

0 1 2 3 4 5 6 7 -2 0 2 4 6 Banco Completo 2 X2 Y2

Para o terceiro banco foram criadas duas vari´aveis, onde

X3 ∼ Gama(α = 4, β = 2) e Y3 ∼ Ber(p)

onde

p = 1

1 + e−(β0+β1X_3i) com β0 = −7 e β1 = 4.

Na Figura 3, encontra-se o gr´afico das vari´aveis para o banco 3. Podemos comparar as

• X3 : Quantidade de sal´arios m´ınimos.

• Y3 : Sexo.

Todos os três bancos contêm as variáveis X e Y . A princ´ıpio, todos os valores são

(18)

3.2 Mecanismos de Dados Faltantes 17 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 Banco Completo 3 X3 Y3

dados faltantes. A partir desses bancos com observa¸c˜oes faltantes, foram feitas an´alises

estat´ısticas de acordo com a necessidade de cada banco, que ser´a melhor descrito no

Cap´ıtulo 4. Porém, vale ressaltar, que o método de imputa¸cão de dados faltantes também

pode ser aplicado em bancos onde os dados faltantes est˜ao em mais de uma vari´avel.

Então na prática, esses métodos de imputa¸cão são muito mais abrangentes do que será

tratado nesse trabalho.

3.2 Mecanismos de Dados Faltantes

Como todos pesquisadores podem observar, dados faltantes est˜ao presentes no

coti-diano de in´umeras pesquisas, experimentos, etc. Esses dados podem estar faltando por

diversos motivos. Citaremos a seguir, algumas poss´ıveis raz˜oes.

• Um estudo que ocorre durante determinado tempo, pessoas que participam desses

estudos podem simplesmente abandonar a pesquisa antes do t´ermino dela, seja

por-que mudou-se de cidade, morreu, não está mais interessado, ou mesmo não se sente

bem com o tipo de pesquisa.

• Pesquisas onde o entrevistado se recusa a responder alguma quest˜ao, ou n˜ao sabe a

resposta, ou acidentalmente pula um item.

• Estudos experimentais tˆem dados faltantes quando um pesquisador n˜ao consegue

coletar uma observa¸cão. Más condi¸cões climáticas podem atrapalhar coletas de

(19)

3.2 Mecanismos de Dados Faltantes 18

estraga. Ou ainda problema na digita¸c˜ao dos dados ou o arquivo ´e detectado com

um v´ırus.

Os pesquisadores devem, ent˜ao, ficar atentos, pois, o risco de vi´es causado pelos dados

faltantes ir´a depender do porque eles estarem faltando.

Existem trˆes tipos de dados faltantes de acordo com Little e Rubin [3]: Missing

com-pletely at random (MCAR), faltantes completamente ao acaso (tradu¸c˜ao livre); Missing

at random (MAR), faltantes ao acaso (tradu¸c˜ao livre); Missing not at random (MNAR),

faltantes n˜ao ao acaso (tradu¸c˜ao livre).

O MCAR ocorre quando o valor faltante n˜ao depende dos dados observados e nem

dos não observados; é um evento aleatório. Esse tipo de dado faltante pode acontecer se

alguém decide lan¸car uma moeda para decidir se uma questão deve ou não deve ser

res-pondida. Outro exemplo seria um tubo de amostra sangu´ınea do paciente que ´e derrubado

no laborat´orio acidentalmente.

O segundo mecanismo, MAR, acontece quando o dado faltante depende dos valores

observados, ou seja, uma vari´avel que contem os dados faltantes depende de uma vari´avel

com dados observados. Logo, a falta se refere a uma vari´avel particular. Por exemplo,

considere uma pesquisa na qual as mulheres s˜ao menos propensas a fornecer sua renda

pessoal. Se conhecermos o sexo de todos os sujeitos e tivermos a renda para algumas

mulheres, então, a variável renda, será do tipo MAR, pois depende da variável sexo. Outro

exemplo, homens provavelmente respondam sobre o seu peso mais do que mulheres, logo,

a vari´avel peso ´e MAR.

O último dos três mecanismos, MNAR, aparece em situa¸cões onde existe uma razão

especifica para o dado faltante, ou seja, está relacionado aos valores não observados. É

bastante comum quando as pessoas n˜ao querem revelar algo muito pessoal. Por exemplo,

pessoas com depress˜ao talvez rejeitem preencher uma pesquisa sobre depress˜ao. Outro

exemplo, pessoas com salários altos, talvez sejam propensas a não responder qual é o

sal´ario.

(20)

3.3 Imputa¸cão Simples versus Imputa¸cão Múltipla 19

Tabela 1: Mecanismos de Dados Faltantes

MCAR MAR MNAR

Vari´avel (Item)

Sujeitos omitem respostas aleatoriamente

Sujeitos omitem respostas que podem ser consegui-das por outras vari´aveis

Sujeitos n˜ao respondem itens sem algum tipo de crit´erio

Indiv´ıduos ou sujeitos

Faltam dados de sujeitos aleatoriamente

Faltam dados de sujei-tos, mas que s˜ao relacio-nados com os dados de-mogr´aficos dispon´ıveis

Faltam dados de sujeitos e são relacionados com os dados demográficos não medidos

Ocasiões Sujeitos aleatoriamente não se apresentam na sessão

Sujeitos que se desempe-nham mal na sessão ante-rior, não se apresentam na sessão seguinte

Sujeitos que est˜ao se

desempenhando mal na

sess˜ao atual, deixam de participar

Fonte: McKnight et al., 2007. [4]

3.3 Imputa¸

c˜

ao Simples versus Imputa¸

c˜

ao M´

ultipla

Uma maneira que se encontrou para solucionar o problema de dados faltantes foi o

método de imputa¸cão. Imputa¸cão quer dizer substitui¸cão, ou seja, preencher os dados

faltantes por valores prov´aveis e assim, podem ser feitas an´alises estat´ısticas com um

banco de dado completo. Existem dois tipos de imputa¸cão, a imputa¸cão única ou simples

e a múltipla. Além disso, existem diferentes métodos de imputa¸cão de dados faltantes

de acordo com o tipo de dados. Por exemplo, dados cont´ınuos ser˜ao tratados de maneira

distinta de dados bin´arios.

Existem diversos métodos para a realiza¸cão da imputa¸cão simples. A imputa¸cão

simples pode ser feita a partir da m´edia, mediana, estimativa de m´axima verossimilha¸ca e

até regressão linear, por exemplo, dos dados existentes. É uma técnica bastante utilizada

por ser bem atrativa e pela sua f´acil implementa¸c˜ao preenchendo os valores faltantes

por valores previstos, assumindo-os como valores verdadeiros. E cada valor faltante ser´a

preenchido por um ´unico valor, como dizem Little e Rubin [3]. Por´em, como desvantagem,

ela resulta em uma subestima¸c˜ao dos erros padr˜oes ou p-valores muito pequenos, ou seja,

superestima¸c˜ao da precis˜ao do estudo.

Para encontrar uma correta estima¸cão para os erros padrões e p-valores é necessário

(21)

3.4 Método Ingênuo, um Método de Imputa¸cão Simples 20

com dados faltantes são estimadas. Isso poderá ser feito não com uma imputa¸cão única,

mas sim com uma múltipla imputa¸cão, onde cada dado faltante é imputado n vezes,

sendo assim, gerando n bancos de dados diferentes. Esse método da imputa¸cão múltipla

foi sugerido por Donald Rubin na d´ecada de 1980 [2].

Ap´os obter os n bancos de dados completos a partir de t´ecnicas adequadas de

im-puta¸c˜ao, esses n bancos devem ser analisados separadamente por um m´etodo estat´ıstico

tradicional, como se os bancos estivessem realmente completos. S˜ao calculados desvios

padr˜oes para levar em conta a variabilidade dos resultados entre os novos bancos de dados.

Por fim, os resultados obtidos das an´alises dos n bancos s˜ao combinados adequadamente

para que possa ser feita a inferˆencia da imputa¸c˜ao repetida.

A principal diferen¸ca entre imputa¸cão simples e a imputa¸cão múltipla é que na

im-puta¸cão simples só se gera um único valor para cada dado faltante, e na imputa¸cão

múltipla são gerados n valores para cada dado faltante. Uma das vantagens da imputa¸cão

múltipla sobre a simples é que com a gera¸cão de vários valores, aumenta-se a eficiência

da estima¸cão. Porém, como desvantagem, é a falta de praticidade e o tempo que se leva

para gerar todos os n valores, pois, dependendo do tamanho de n, pode-se levar horas

(como ser´a visto mais adiante na Se¸c˜ao 3.6).

3.4 M´

etodo Ingˆ

enuo, um M´

etodo de Imputa¸

c˜

ao

Sim-ples

O método ingênuo é o mais simples de todos os métodos. Ele leva somente em

con-sidera¸cão informa¸cões da variável que contém dados faltantes. Dessa maneira, é simples

completar os “espa¸cos em branco”num banco de dados; podendo ser feito a partir de alguns exemplos explicados a seguir.

3.4.1 Substitui¸

c˜

ao a partir da M´

edia ou Mediana

Esse método é usado quando o dado faltante diz respeito a uma variável cont´ınua. Se

a variável for cont´ınua, poderá ser feita a imputa¸cão através da média, ou seja, cada valor

faltante na variável Y será preenchido com a média dos valores observados da variável Y .

(22)

3.5 Modelo de Regressão, um Método de Imputa¸cão Simples 21

3.4.2 Substitui¸

c˜

ao a partir da Moda ou Propor¸

c˜

ao

Esse método é usado quando o dado faltante diz respeito a uma variável binária. Uma

alternativa para esse tipo de variável é a utiliza¸cão da moda, ou seja, preencher os dados

faltantes na vari´avel Y com a moda dos valores observados de Y .

A op¸cão de preencher os dados faltantes com a propor¸cão significa verificar a propor¸cão

de cada categoria presente na variável em questão e para cada valor faltante será feito

um sorteio de forma que a probabilidade de sair uma categoria ´e igual a propor¸c˜ao da

categoria entre os valores observados.

3.5 Modelo de Regress˜

ao, um M´

etodo de Imputa¸

c˜

ao

Simples

Um modelo de regressão busca definir uma rela¸cão, através de uma equa¸cão, entre

a média de uma variável aleatória yi, chamada de variável resposta, e outras variáveis

conhecidas xij, j = 1, . . . , p, chamadas de vari´aveis explicativas. Assim, podem ser feitas

previsões para a variável resposta, supondo valores das variáveis explicativas, e ainda

avaliar uma poss´ıvel dependência entre a variável resposta e cada variável explicativa.

O comportamento das vari´aveis dependentes e independentes pode se apresentar de

forma linear, quadrática, exponencial, entre outras. Sendo verificado através de um gráfico

de dispers˜ao e uma curva.

Segundo Little e Rubin [3], para o preenchimento de dados faltantes utilizando um

modelo de regressão, são calculadas previsões a partir do modelo cuja variável resposta,

Y , é aquela com dados faltantes e as variáveis explicativas são aquelas que possuem todos

os valores observados. O banco de treino para a cria¸c˜ao do modelo ser´a formado por todas

as linhas que possuem Y observado.

3.5.1 Regress˜

ao Linear

Esse método é usado quando a variável resposta é uma variável cont´ınua.

Segundo Davidson e Mackinnon [5], o modelo de Regress˜ao Linear Simples pode ser

representado pela seguinte equa¸c˜ao:

(23)

onde yirepresenta a vari´avel dependente ou resposta, relacionada ao i-´essimo individuo da

amostra, e xi representa a vari´avel independente ou explicativa, relacionada ao i-´essimo

indiv´ıduo da amostra. Al´em disso, yi e xi assumem valores reais. E ui representa um

termo de erro aleat´orio.

A fórmula apresentada acima é chamada de Regressão Linear Simples porque a

variável dependente está relacionada a uma única variável independente. Porém, ainda

é poss´ıvel que essa variável dependente esteja relaciona a mais de uma variável

indepen-dente, sendo assim chamada de Regressão Linear Múltipla e representada pela equa¸cão:

yi = β0+ β1x1i+ β2x2i+ . . . + ui (3.2)

Cada parâmetro β da Equa¸cão 3.2 é um parâmetro desconhecido e, para definir a

rela¸cão entre a variável resposta e as variáveis explicativas é preciso fazer inferências

sobre eles, por exemplo encontrando estimativas adequadas para os parˆametros, testar

hip´oteses e ainda gerar intervalos de confian¸ca.

O termo de erro ui é uma variável aleatória e possui algumas hipóteses sobre ele.

Primeiro, podemos assumir que o valor esperado do termo de erro ´e nulo. Ou dado um

valor de xi, a esperan¸ca do termo de erro ´e nula, E[u|x] = 0. O termo de erro existe

pois normalmente ´e dif´ıcil e quase imposs´ıvel especificar ou observar todos os fatores que

determinam yi. Outra hipótese sobre os termos de erro é que eles são variáveis aleatórias

com distribui¸c˜ao normal, independentes e identicamente distribu´ıdas (iid) com variˆancia

constante, ou seja, ui ∼ N (0, σ2). Como o termo de erro é normal, yi também será

uma variável aleatória normal. Além disso, se o termo de erro tem distribui¸cão normal o

modelo de Regressão Linear é chamado de modelo de Regressão Linear Clássico.

Estimador para β

Segundo Davidson e Mackinnon [5], o estimador ˆβ, n˜ao tendencioso, para cada

parâmetro β do modelo definido pela Equa¸cão 3.2 é definido a seguir:

ˆ

β = (XTX)−1XTy, (3.3)

em que X é uma matriz de covariáveis onde a primeira coluna é preenchida com 1’s e as

demais com as vari´aveis.

Além disso, ˆβ é o melhor estimador linear não viesado (MELNV), ou seja, entre os

(24)

Inferˆencias para β: Intervalo de Confian¸ca e Teste de Wald

O intervalo de confian¸ca ´e um intervalo aleat´orio com alta probabilidade de conter

o parâmetro β. Além disso, ele está associado com outras técnicas estat´ısticas como o

teste de hipóteses.Tanto para o Modelo de Regressão Simples quanto para o Múltiplo, o

intervalo de confian¸ca para cada βk pode ser descrito como:

IC1−α(βk) = ˆ βk− tn−p,1−α₂ q ˆ σ2_(XT_X)−1 kk; ˆβk+ tn−p,1−α₂ q ˆ σ2_(XT_X)−1 kk (3.4)

onde n é o tamanho da amostra e p é o número de variáveis independentes. Além disso,

ˆ

σ2_(XT_X)−1 _´_{e a matriz de variˆ}_{ancias e covariˆ}_{ancias do estimador ˆ}_β.

O Teste de Wald ´e um teste usado para verificar se as vari´aveis utilizadas no modelo

de regressão estão realmente contribuindo para a análise.

As hip´oteses do teste s˜ao:

(

H0 : βk= 0

H1 : βk6= 0

E as seguintes regras de decis˜ao podem ser encontradas em Davidson e Mackinnon

[5]: Se |t∗_{| 6 t}n−p,1−α₂ conclui H0 Se |t∗| > tn−p,1−α₂ conclui H1 onde t∗ = ˆ βk q ˆ V ar( ˆβk) O Modelo de Previs˜ao

Dada a estimativa ˆβ, a estimativa pontual para a m´edia da vari´avel resposta, nesse

caso para ˆy, ´e dada por:

ˆ

y = X ˆβ (3.5)

(25)

3.5.2 Regress˜

ao Log´ıstica

Esse método de Regressão Log´ıstica é usado quando a variável resposta é uma variável

binária. Por exemplo, a variável tem como resposta “Sim”ou “Não”, “0”ou “1”,

“Femi-nino”ou “Masculino”, entre outros, ou seja, s´o possuem duas op¸c˜oes como resposta. Com

isso, o modelo de Regress˜ao Linear n˜ao pode ser utilizado nesse tipo de problema, pois,

por exemplo, não se pode afirmar que uma variável resposta binária tenha distribui¸cão

normal.

O Modelo Log´ıstico Simples ´e definido por Kutner [6] como:

yi = E[yi] + ui (3.6)

Onde yi ∼ Ber(πi), além disso a rela¸cão suposta entre E[yi] = πi e a variável

expli-cativa xi ´e: πi = 1 1 + e−(β0+β1xi) ou ln πi 1 − πi = β0+ β1xi (3.7)

Para o Modelo Log´ıstico M´ultiplo, a rela¸c˜ao que cria-se para yt = E[yt] + ut e as p

vari´aveis explicativas ´e:

πi = 1 1 + e−xT iβ = 1 1 + e−_(β

0+ β1xi,1+ β2xi,2+ . . . + βpxi,p)

ou ln

πi

1 − πi

= xT_i β = β0+ β1xi,1+ β2xi,2+ . . . + βpxi,p (3.8)

Estimador para β

A fun¸cão de verossimilhan¸ca l está apresentada na Equa¸cão 3.9. O estimador de

máxima verossimilhan¸ca para o vetor de parâmentros β será o ponto de máximo dessa

fun¸cão. Segundo Kutner [6], não existe fórmula fechada para ele; então, programas

es-tat´ısticos, como por exemplo o R, utilizam m´etodos num´ericos para achar essa estimativa.

l(β|y, x) = n X i=1 yi(xTi β) − n X i=1 ln1 + exTiβ (3.9)

Inferˆencias para β: Intervalo de Confian¸ca e Teste de Wald

Assim como no Modelo de Regressão Linear, na Regressão Log´ıstica também pode

(26)

segundo Kutner [6]. O intervalo ser´a descrito como:

IC1−α(βk) = ˆ βk− z1−α₂ q V ar( ˆβk); ˆβk+ z1−α₂ q V ar( ˆβk) (3.10)

E as hip´oteses do Teste de Wald ser˜ao:

(

H0 : βk= 0

H1 : βk6= 0

Com as seguintes regras de decis˜ao:

Se |z∗_{| 6 z}1−α 2 conclui H0 Se |z∗| > z1−α₂ conclui H1 onde z∗ = ˆ βk q V ar( ˆβk)

Agora, o intervalo de confian¸ca para a m´edia da vari´avel resposta πt, seria:

IC1−α(πi) = 1 1 + eL; 1 1 + eU (3.11)

Onde L e U encontra-se a partir do intervalo de confian¸ca para xT_i β:ˆ

IC1−α(πi) = xT_iβˆ − z1−α₂ q xT i V ar( ˆβ)xi; xTiβ + zˆ 1−α₂ q xT i V ar( ˆβ)xi (3.12) O Modelo de Previs˜ao

Dada a estimativa ˆβ, a estimativa pontual para a m´edia da vari´avel resposta, nesse

caso para πi, ´e dada por:

ˆ πi = 1 1 + e−xT iβˆ = 1

1 + e−( ˆβ0+ ˆβ1xi,1+ ˆβ2xi,2+...+ ˆβp−1xi,p−1)

(3.13)

(27)

3.6 MICE - Multiple Imputation Chained Equation, um Método de Imputa¸cão Múltipla 26

partir de um ponto de corte π? onde:

(

Se ˆπi ≥ π?, Yˆi = 1

Se ˆπi < π?, Yˆi = 0

(3.14)

Esse ponto de corte pode ser um valor determinado pelo pesquisador ou a partir da

Sensibilidade e da Especificidade que ajudam a medir o qu˜ao preciso ´e o modelo. Quanto

maior a sensibilidade ou quanto maior a especificidade melhor o modelo est´a ajustado.

A sensibilidade mede a capacidade do teste em identificar corretamente ˆyi = 1 entre

as observa¸c˜oes com yi = 1. A especificidade mede a capacidade do teste em identificar

corretamente ˆyi = 0 entre as observa¸c˜oes com yi = 0. Sendo assim, podemos definir que:

(

Sensibilidade = P (ˆyi = 1|yi = 1) = P (ˆy_{P (y}i=1∩yi=1)

i=1)

Especif icidade = P (ˆyi = 0|yi = 0) = P (ˆy_{P (y}i=0∩y_i₌₀₎i=0)

(3.15)

Os valores encontrados em ˆYi s˜ao os que ser˜ao imputados nos dados faltantes.

3.6 MICE - Multiple Imputation Chained Equation,

um M´

etodo de Imputa¸

c˜

ao M´

ultipla

Multiple Imputation Chained Equation (MICE) é um dos vários métodos que

abran-gem a Imputa¸cão Múltipla. Esse método é usado tanto quando o dado faltante diz respeito

a uma variável cont´ınua quanto binária. Além disso, deve-se assusmir que os dados

fal-tantes seguem o mecanismo MAR ou mesmo MNAR, como descrevem Molenberghs [7] e

van Buuren [1]. Por´em, caso os dados sejam MNAR, seriam necess´arios alguns ajustes,

que n˜ao ser˜ao tratados neste trabalho. Se o MICE for implementado quando os dados

seguirem os mecanismos MCAR, ocorrerá estima¸cões viesadas, por isso a importância de

verificar bem o tipo de mecanismo que os dados seguem.

3.6.1 O Algor´ıtmo MICE

O algoritmo descrito abaixo se refere a quando a variável em questão é cont´ınua.

Existem várias maneiras se fazer esse cálculo no R [8] utilizando o pacote mice [1]. Porém,

o método tratado nesta Se¸cão, será o chamado Predictive Mean Matching - PMM - que é

(28)

Gergo Vink [9] diz que, seja Y uma vari´avel com dados faltantes e X uma vari´avel

com dados completos:

1. No caso sem dados faltantes, estime uma Regress˜ao Linear de Y em X. Essa

regress˜ao produz um vetor de coeficientes estimados ˆβ = (XT_X)−1_XT_{y e uma}

matriz de covariˆancia estimada Σ = ˆσ2(XTX)−1.

2. Fazer um sorteio gerando um novo conjunto de coeficientes β?, assumindo uma

distribui¸cão Normal Multivariada com vetor de médias ˆβ e matriz de covariância Σ .

Esta etapa ´e necess´aria para produzir variabilidade suficiente nos valores imputados

e é comum a todos os métodos “adequados”para imputa¸cão múltipla.

3. Para todos os casos, tanto para aqueles com dados faltantes, quanto para os

obser-vados, gerar valores ˆY = β?

0 + β1?X.

4. Para cada caso com Y faltante (YF) identificar um conjunto de casos com Y

obser-vado (YO) tais que o valor de | ˆYF − ˆYO| seja pequeno. Entre as menores diferen¸cas,

sortear um ˆYO. O valor de YO referente ao ˆYO sorteado ser´a o valor imputado para

o YF.

5. Repita os passos 2 − 4 para cada conjunto de dados completo.

Quando a variável com dados faltantes for binário utiliza-se a Regressão Log´ıstica,

como explica Azur [10] em seu algoritmo em 6 passos.

1. É feita uma imputa¸cão simples, através da moda, para cada dado faltante.

2. Seja “var” uma vari´avel com dados faltantes, e j´a preenchidos. Desconsidere a(s)

imputa¸cão(ões) feita(s) para essa variável e esse(s) dado(s) volta(m) a ser faltante.

3. É então ajustado um modelo de regressão onde a variável dependente é a variável

“var” do passo 2, e as demais vari´aveis independentes. O modelo de regress˜ao

ajustado pode consistir em todas as vari´aveis do banco ou n˜ao.

4. Os valores faltantes para “var” s˜ao ent˜ao substitu´ıdos pelos valores imputados

através dos modelos de regressão, já vistos na Se¸cão 3.5. Para as variáveis

in-dependentes do modelo de regress˜ao e com dados faltantes, ser˜ao considerados os

(29)

5. Repita os passos 2-4 alterando a variável “var” para a próxima variável com dados

faltantes. Uma itera¸cão ou ciclo é conclu´ıdo quando todas as variáveis com dados

faltantes já foram preenchidas através de um modelo de regressão.

6. Uma vez que conclu´ıdo um ciclo, volta-se para o passo 2 e se inicia um novo ciclo.

O número de ciclos é especificado pelo pesquisador e cada imputa¸cão é atualizada

em um novo ciclo. Cada ciclo corresponde a um banco de dados diferente.

Azur [10] diz que geralmente, cinco ciclos são escolhidos, porém, esse número pode

variar dependendo da quantidade de dados faltantes e vari´aveis presentes no banco de

dados original. O pesquisador pode definir um n´umero fixo de ciclos ou utilizar o padr˜ao

dos Softwares estat´ısticos. Um número muito grande, talvez também não seja o indicado,

pois, dependendo do tamanho do modelo de imputa¸c˜ao, criar um ´unico banco de dados

(30)

29

4 An´

alise dos Resultados

Para a an´alise dos resultados foi feita uma simula¸c˜ao no Software R [8] para gerar

trˆes bancos de dados diferentes, cada um com duas vari´aveis: X e Y . Em cada banco

de dados, cada variável possui 500 observa¸cões. Todos os gráficos apresentados nesse

trabalho, foram feitos no Software R [8].

Para cada banco foram feitos trˆes sorteios para a vari´avel Y , a fim de selecionar 10%

das observa¸c˜oes para que sejam considerados dados faltantes. Cada um dos trˆes sorteios

seguiu a proposta de cada um dos trˆes mecanismos: MCAR, MAR e MNAR. Em seguida

foram feitas as imputa¸cões dos dados através da Imputa¸cão Simples (Ingenuo e Regressão)

e Imputa¸c˜ao M´ultipla (MICE [1]).

A seguir veremos como foram selecionadas as linhas para as quais Y ser´a considerado

faltante em cada um dos trˆes mecanismos.

• MCAR: Sorteia-se 50 linhas do banco de dados.

• MAR: Sorteia-se 50 linhas do banco de dados tais que Xi < ¯X (ou Xi < mediana

de X para o banco 3)

• MNAR: Sorteia-se 50 linhas do banco de dados tais que Xi < ¯X (ou Xi < mediana

de X para o banco 3) e Yi < ¯Y (ou Yi = 0 para o banco 3)

Retomando aos poss´ıveis exemplos que poder´ıamos nos deparar no dia a dia citados

da Se¸c˜ao 3.1, temos para o banco 1:

• MCAR: Devido a falhas técnicas do laboratório algumas amostras da substâncias

Y1 foram consideradas impr´oprias para a an´alise.

• MAR: Por motivo desconhecido alguns indiv´ıduos que possuem baixa taxa da substˆancia

(31)

4 An´alise dos Resultados 30

• Tentando contornar o problema anterior, o Laborat´orio utilizou outro m´etodo para

a extra¸cão das amostras das substâncias X1 e Y1. Porém, sabe-se que por este

m´etodo podem ocorrer problemas na coleta da substˆancia Y1 em indiv´ıduos com

baixas taxas da substância X1 e da própria substância Y1.

Para o banco 2 as poss´ıveis situa¸c˜oes s˜ao:

• MCAR: Durante os experimentos para analisar o comportamento da varia¸c˜ao da

resistˆencia da fibra de metal de acordo com seu comprimento, algumas fibras se

par-tiram durante os testes, impossibilitando a observa¸cão das varia¸cões da resistência.

• MAR: Um Especialista tentando contornar o problema das quebras das fibras propˆos

um teste menos rigoroso. Por´em, ap´os os testes verificou-se a quebra de algumas

fibras, mas todas tinhas comprimento pequeno. Desta forma n˜ao foi poss´ıvel

deter-minar a varia¸c˜ao da resistˆencia dessas fibras.

• MNAR: Um outro Especialista propˆos outra abordagem no intu´ıdo de contornar o

problema encontrado especialista anterior. Por´em, ainda sim observou que algumas

fibras se partiram durante o experimento. Mas observou que as fibras que se

rompe-ram além de possuir comprimentos menores, também haviam varia¸cão de resistência

pequenos ou negativos, segundo experimentos anteriores.

E para o banco 3 temos que:

• MCAR: Algumas pessoas saltaram a pergunta correspondente ao sexo.

• MAR: Pessoas com quantidade mais baixa de sal´ario tinham mais dificuldades em

responder o sexo.

• MNAR: Nesse estudo, mulheres que tinham sal´arios baixos n˜ao responderam as

quest˜oes correspondentes ao sexo e ao sal´ario.

Além das imputa¸cões serão feitas análises estat´ısticas para cada um dos bancos, a

fim de comparar os resultados dos bancos imputados com os dos bancos originais. Essa

compara¸cão será feita visualmente, através de gráficos e também pelas análises estat´ısticas

feitas para respectivos bancos. Nas se¸c˜oes a seguir, ser˜ao apresentados os resultados para

(32)

4.1 Resultados Para o Banco 1 31

4.1 Resultados Para o Banco 1

Nessa Se¸cão iremos descrever como o banco 1 ficou após a sele¸cão dos 50 valores

para serem faltantes de acordo com os trˆes mecanismos. Para uma melhor visualiza¸c˜ao

de como esses dados ficaram ap´os esses sorteios, foi feito o gr´afico da Figura 4, onde as

observa¸c˜oes mantidas est˜ao em azul claro e as que foram sorteadas para serem faltantes

est˜ao em vermelho.

Para o mecanismo MAR observamos que os valores faltantes est˜ao abaixo de ¯X1 =

1, 97. Para o mecanismo MNAR vemos que as observa¸c˜oes selecionadas est˜ao ainda mais

restritas por conta da dependˆencia tamb´em de Y1.

0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 X1 Y1

Banco Completo 1 - MCAR

(a) MCAR 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco Completo 1 - MAR

(b) MAR 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco Completo 1 - MNAR

(c) MNAR

Figura 4: Banco 1 Completo com 10% Sorteados Para Serem Faltantes

Al´em disso, foram criados os gr´aficos apresentados na Figura 5, criado com o aux´ılio

dos pacotes chron [11] e VIM [12] no Software R [8]. Os gr´aficos mostram como o banco

ficou sem os dados selecionados para serem faltantes e como ´e a distribui¸c˜ao dos dados

faltantes em cada banco. Os gr´aficos da Figura 5 nos dizem que os 50 (escrito em vermelho)

valores retirados pertenciam a vari´avel Y1. O valor 0 em vermelho escuro, diz que n˜ao tem

nenhuma linha em que estejam faltando dados em ambas vari´aveis, X1 e Y1, ao mesmo

(33)

boxplots em azul s˜ao para os dados observados em X1 e em Y1 e em vermelho o boxplot

para os dados faltantes. É claro como essas observa¸cões são diferentes para cada tipo de

mecanismo. Para o MCAR, por exemplo, observa-se alguns outliers.

50 0 0 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 X1 Y1

Banco 1 - Dados Observados e Faltantes - MCAR

(a) MCAR 50 0 0 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco 1 - Dados Observados e Faltantes - MAR

(b) MAR 50 0 0 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco 1 - Dados Observados e Faltantes - MNAR

(c) MNAR

Figura 5: Banco 1 - Dados Observados e Faltantes

As análises que serão feitas para o banco 1 são encontrar um intervalo de confian¸ca

para a m´edia de Y1 e um teste para as hip´oteses:

(

H0 : µY1 = 0

H1 : µY1 6= 0

4.1.1 Imputa¸

c˜

ao de Dados

Após a imputa¸cão dos dados faltantes pelos três métodos já citados, foi calculado o

Erro M´edio Quadr´atico (EQM), que podemos descrever da seguinte maneira:

Seja yi o valor real (original) de uma vari´avel y em um banco de dados e ˆyi o valor do

dado faltante já preenchido por algum método de Imputa¸cão, então

n P i=1

(yi − ˆyi)2

n ,

(34)

Dessa maneira, é poss´ıvel verificar qual dos métodos de Imputa¸cão apresenta o menor

erro. Quanto menor o erro, mais pr´oximo do banco original o novo banco gerado pela

imputa¸cão é. Para o método MICE, foi calculado o EQM para todas as cinco itera¸cões.

Pode-se observar esses valores na Tabela 2, onde encontramos o menor EQM para o

método de Imputa¸cão Simples, Ingênuo, em todos os três mecanismos.

Tabela 2: Erro Quadr´atico M´edio para o Banco 1

M´etodo de Imputa¸c˜ao MCAR MAR MNAR

Ingˆenuo 1,2764 1,0436 1,0478 Regress˜ao Linear 1, 2773 1, 0445 1, 1579 MICE 1 2, 5189 4, 6234 2, 4287 MICE 2 3, 0071 2, 0704 4, 1688 MICE 3 2, 8301 1, 7227 3, 2005 MICE 4 3, 0682 3, 9125 4, 9232 MICE 5 2, 9881 4, 741 3, 0443

Porém, olhar para o EQM não é a única maneira e nem é suficiente para dizer qual

método é o mais eficiente. Por isso, outra técnica utilizada para observar a eficiência de

cada método é através de análises de gráficos.

Após a imputa¸cão feita através do Método Ingênuo para o banco 1, observa-se que a

média da variável Y1 está em torno de zero. Na Figura 6 as observa¸cões em azul claro são

as do banco original, em vermelho s˜ao os dados faltantes e as em azul escuro s˜ao os dados

imputados pela média. Nestas mesmas figuras, vemos que os valores imputados não são

pr´oximos aos faltantes reais.

Para a imputa¸cão através da Regressão Linear, temos os seguintes gráficos

represen-tados na Figura 7. Para o banco 1, onde as variáveis aleatórias são independentes, a

Regressão Linear não funciona muito bem. Isso acontece devido ao fato de que o β não é

significativo, o que significa que o intervalo de confian¸ca de β cont´em o valor 0. Por´em,

se exclu´ıssemos esse β, as retas seriam exatamente iguais `as retas imputadas a partir da

m´edia. Vemos um pouco de inclina¸c˜ao negativa quando o mecanismo foi MNAR.

Para o MICE, utilizamos o padr˜ao de m = 5, que representa o n´umero de bancos

de dados gerados, ou seja, o número de imputa¸cão feita para cada variável e o método

utilizado dentro do MICE foi o PMM.

Para a Figura 8 foi necessária a utiliza¸cão do pacote lattice [13], além do mice [1]. Na

Figura 8 temos para cada um dos bancos com dados faltantes, as suas respectivas cinco

(35)

4.1 Resultados Para o Banco 1 34 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco 1 - Dados Imputados pela Média - MCAR

(a) MCAR 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco 1 - Dados Imputados pela Média - MAR

(b) MAR 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco 1 - Dados Imputados pela Média - MNAR

(c) MNAR

Figura 6: Banco 1 - Dados Imputados pela M´edia

0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco 1 - Dados Imputados pela Regressão Linear - MCAR

(a) MCAR 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco 1 - Dados Imputados pela Regressão Linear - MAR

(b) MAR 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco 1 - Dados Imputados pela Regressão Linear - MNAR

(c) MNAR

(36)

O primeiro gráfico, sem as imputa¸cões, é a representa¸cão dos bancos com os dados faltantes

antes de inicializar as imputa¸c˜oes.

X1 Y1 -3 -2 -1 0 1 2 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 -3 -2 -1 0 1 2 5 (a) MCAR X1 Y1 -3 -2 -1 0 1 2 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 -3 -2 -1 0 1 2 5 (b) MAR X1 Y1 -2 0 2 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 -2 0 2 5 (c) MNAR

Figura 8: Banco 1 - Itera¸c˜oes Geradas pelo MICE

Podemos observar melhor essas imputa¸c˜oes nos gr´aficos da Figura 9 onde em

verme-lho são os dados faltantes, porém conhecidos, e em azul escuro, são os valores imputados.

Como o MICE gera 5 bancos diferentes, para os mecanismos MCAR e MNAR foram

esco-lhidos o banco da primeira itera¸c˜ao para fazer essa representatividade e para o mecanismo

MAR foi escolhido a terceira itera¸c˜ao. Essa escolha foi baseada no menor EQM, vistas

na Tabela 2.

4.1.2 An´

alise Estat´ıstica

Após as imputa¸cões feitas, foram feitas as análises já citadas no in´ıcio da Se¸cão 4.1.

Os resultados dessas an´alises encontram-se nas Tabelas 3, 4 e 5.

Podemos observar pela Tabela 5 que, para o mecanismo MNAR, todos os m´etodos

de imputa¸c˜ao tiveram um resultado n˜ao muito bom. Isso pode ser conclu´ıdo quando

comparados os p-valores do banco original com os p-valores dos demais bancos.

(37)

4.1 Resultados Para o Banco 1 36 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco 1 - Dados Imputados pelo MICE - MCAR

(a) MCAR - 1a _Itera¸c˜_ao

0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco 1 - Dados Imputados pelo MICE - MAR

(b) MAR - 3a _Itera¸_c˜_ao 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco 1 - Dados Imputados pelo MICE - MNAR

(c) MNAR - 1a Itera¸c˜ao

Figura 9: Banco 1 - Dados Imputados pelo MICE

Tabela 3: An´alises Para o Banco 1 - MCAR

Ingˆenuo Regress˜ao Linear MICE Banco Original

IC(95%) [-0,1387; 0,0312] [−0, 1388; 0, 0311] [−0, 1426; 0, 0819] [−0, 1451; 0, 0361]

p-valor (T. de Wald) 0,2142 0, 2134 0, 1011 0, 2375

Tabela 4: An´alises Para o Banco 1 - MAR

IC(95%) [-0,1324; 0,0396] [−0, 1320; 0, 0400] [−0, 1697; 0, 0866] [−0, 1451; 0, 0361]

p-valor (T. de Wald) 0,29 0, 294 0, 5104 0, 2375

Tabela 5: An´alises Para o Banco 1 - MNAR

IC95%) [−0, 0586; 0, 1140] [−0, 0526; 0, 1200] [-0,0803; 0,1914] [−0, 1451; 0, 0361]

(38)

3 e 4, os resultados obtidos pelos métodos Ingênuo e Regressão Linear foram razoavelmente

pr´oximos aos resultados do Banco Original, o que mostra um bom desempenho desses dois

métodos de imputa¸cão. Além disso, esses dois métodos de imputa¸cão tiveram resultados

muito próximos um do outro. O que é razoável, pois pela independência entre as variáveis

X1 e Y1 o modelo ajustado pela Regress˜ao Linear deve ser tal que ˆβ1 ≈ 0 e ˆβ0 ≈ ¯Y1. Com

isso as previsões de Y1 pelo modelo de Regressão Linear ficam muito próximo de ¯Y1, que

é exatamente o método Ingênuo.

Analisando as Tabelas 3, 4 e 5 percebemos que o método de imputa¸cão MICE não teve

bom desempenho para nenhum dos trˆes mecanismos. Mesmo para o mecanismo MAR,

para o qual o MICE foi desenvolvido, pois obteve o pior resultado quando analisado os p-valores (para o MNAR, ele teve o melhor p-valor, mas ainda assim, muito ruim, como

dito anteriormente). Provavelmente isso é justificado pela independência das variáveis

aleat´orias X1 e Y1.

4.2 Resultados Para o Banco 2

Nessa Se¸cão iremos descrever como o banco 2 ficou após a sele¸cão dos 50 valores para

serem faltantes de acordo com os trˆes mecanismos. Para uma melhor visualiza¸c˜ao de

como esses dados ficaram ap´os esses sorteios, foram feitos os gr´aficos da Figura 10, onde

as observa¸c˜oes mantidas est˜ao em azul claro e as que foram sorteadas para serem faltantes

(39)

4.2 Resultados Para o Banco 2 38 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

(a) MCAR 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

(b) MAR 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

(c) MNAR

Figura 10: Banco 2 Completo com 10% Sorteados Para Serem Faltantes

Os gr´aficos da Figura 11 nos dizem que os 50 (em vermelho) valores retirados

perten-ciam a vari´avel Y2. O valor 0 em vermelho escuro, diz que n˜ao tem nenhuma linha em que

estejam faltando dados em ambas vari´aveis X2 e Y2, ao mesmo tempo. E o outro valor

0 em vermelho, diz que n˜ao existe dados faltantes em X2. Os boxplots em azul s˜ao para

os dados observados em X2 e em Y2, em vermelho o boxplot para os dados faltantes. ´E

claro como essas observa¸c˜oes faltantes s˜ao diferentes para cada tipo de mecanismo. Para

o MCAR, por exemplo, observa-se alguns outliers.

A an´alise escolhida para ser realizada no banco 2 foi ajustar um modelo de Regress˜ao

Linear para as vari´aveis X2 e Y2. Como resultado dessa regress˜ao vamos comparar as

estimativas para β0 e β1 e seus respectivos desvio-padr˜ao, p−valor para o teste Wald para

cada coeficiente e o R2 _{da regress˜}_ao.

4.2.1 Imputa¸

c˜

ao de Dados

Para o banco 2 também foi calculado o Erro Quadrático Médio para os três métodos

de imputa¸c˜ao, para cada um dos trˆes mecanismos. Pode-se observar esses valores na

(40)

4.2 Resultados Para o Banco 2 39 50 0 0 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

(a) MCAR 50 0 0 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

(b) MAR 50 0 0 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

(c) MNAR

mecanismos: MCAR, MAR e MNAR. A justificativa para isso ´e que como os dados vˆem

de uma Regressão Linear, o modelo de Regressão Linear é uma maneira eficiente para

estimar Y2 dado X2.

Tabela 6: Erro Quadr´atico M´edio Para o Banco 2

M´etodo de Imputa¸c˜ao MCAR MAR MNAR

Ingˆenuo 2, 3443 1, 8209 2.3147 Regress˜ao Linear 1,2773 1,0445 0,7385 MICE 1 2, 5259 2, 0107 1, 2704 MICE 2 2, 0584 2, 3725 1, 7423 MICE 3 1, 6734 2, 206 1, 6918 MICE 4 2, 1175 1, 8691 1, 9538 MICE 5 2, 3829 2, 098 1, 6247

Agora, utilizando a técnica de observa¸cões dos gráficos dos dados imputados, obtemos

os resultados que se seguem. Após a imputa¸cão feita através da média para o banco 2,

observa-se que a média da variável Y2 está em torno de dois. Como são apenas 10% dos

valores escolhidos para serem faltantes, não vemos grande varia¸cão entre as médias de Y2

(41)

Na Figura 12 as observa¸cões em azul claro, são as do banco original, em vermelho são

os dados faltantes, por´em conhecidos e as em azul escuro s˜ao os dados imputados pela

média. Nestas mesmas figuras, vemos que os valores imputados não são muito próximos

aos reais em nenhum dos trˆes mecanismos.

0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

Banco 2 - Dados Imputados pela Média - MCAR

(a) MCAR 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

Banco 2 - Dados Imputados pela Média - MAR

(b) MAR 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

Banco 2 - Dados Imputados pela Média - MNAR

(c) MNAR

Figura 12: Banco 2 - Dados Imputados pela M´edia

Para a imputa¸cão através da Regressão Linear, temos os gráficos representados na

Figura 13. Enquanto para o banco 1, a regress˜ao n˜ao funcionou muito bem, para o banco

2, onde as duas variáveis são definidas por uma Regressão Linear, observa-se uma reta

(42)

4.2 Resultados Para o Banco 2 41 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

Banco 2 - Dados Imputados pela Regressão Linear - MCAR

(a) MCAR 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

Banco 2 - Dados Imputados pela Regressão Linear - MAR

(b) MAR 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

Banco 2 - Dados Imputados pela Regressão Linear - MNAR

(c) MNAR

Figura 13: Banco 2 - Dados Imputados pela Regress˜ao Linear

Assim como no banco 1, para o método de imputa¸cão múltipla, MICE, no banco 2,

também utilizamos o padrão de m = 5, que representa o número de bancos de dados

gerados, ou seja, o número de imputa¸cão feita para cada variável e o método utilizado

tamb´em foi o PMM, pois ainda estamos tratando de vari´aveis cont´ınuas.

Na Figura 14 temos para cada um dos bancos com dados faltantes, as suas respectivas

cinco itera¸c˜oes. Assim, em azul claro s˜ao os dados observados e em azul escuro, as

imputa¸cões. O primeiro gráfico, sem as imputa¸cões, é a representa¸cão dos bancos com os

dados faltantes antes de inicializar as imputa¸c˜oes.

Podemos observar melhor essas imputa¸c˜oes na Figura 15 onde em vermelho s˜ao os

dados faltantes, por´em conhecidos, e em azul escuro, s˜ao os valores imputados. Como

o MICE gera 5 bancos diferentes, para os mecanismos MCAR, MAR e MNAR foram

escolhidos respectivamente os bancos da terceira, quarta e primeira itera¸c˜ao para fazer

essa representatividade. Essa escolha foi baseada no menor EQM, vistas na Tabela 6.

Observa-se que a imputa¸c˜ao realizada pelo MICE apresenta valores bem espalhados,

(43)

4.2 Resultados Para o Banco 2 42 X2 Y2 -2 0 2 4 6 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 -2 0 2 4 6 5 (a) MCAR X2 Y2 -2 0 2 4 6 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 -2 0 2 4 6 5 (b) MAR X2 Y2 -2 0 2 4 6 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 -2 0 2 4 6 5 (c) MNAR

0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

Banco 2 - Dados Imputados pelo MICE - MCAR

(a) MCAR - 3a _Itera¸_c˜_ao

0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

Banco 2 - Dados Imputados pelo MICE - MAR

(b) MAR - 4a _Itera¸_c˜_ao 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

Banco 2 - Dados Imputados pelo MICE - MNAR

(c) MNAR - 1a _Itera¸_c˜_ao

(44)

4.2.2 An´

alise Estat´ıstica

Após as imputa¸cões feitas, foram feitas as análises já citadas no in´ıcio do Cap´ıtulo 4.

Os resultados dessas an´alises encontram-se nas Tabelas 7, 8 e 9.

Tabela 7: An´alises Para o Banco 2 - MCAR

ˆ β0 0, 1836 -0,0701 −0, 0745 −0, 0579 ˆ β1 0, 8856 1,0082 1, 0113 1, 0017 Desvio Padr˜ao ( ˆβ0) 0,1026 0, 0973 0, 1064 0, 1038 Desvio Padr˜ao ( ˆβ1) 0,0465 0, 0441 0, 0494 0, 047 p-valor ( ˆβ0) 0, 0742 0, 4713 0,4843 0, 5768 p-valor ( ˆβ1) < 0, 0001 < 0, 0001 < 0, 0001 < 0, 0001 R2 _{0, 4215} _{0, 5123} _0,4895 _{0, 477}

Tabela 8: An´alises Para o Banco 2 - MAR

ˆ β0 0, 1519 −0, 0347 -0,0444 −0, 0579 ˆ β1 0, 9341 0, 9943 0,9984 1, 0017 Desvio Padr˜ao ( ˆβ0) 0,1013 0, 0985 0, 1148 0, 1038 Desvio Padr˜ao ( ˆβ1) 0,0459 0, 0446 0, 0497 0, 047 p-valor ( ˆβ0) 0, 1343 0, 7249 0,6996 0, 5768 p-valor ( ˆβ1) < 0, 0001 < 0, 0001 < 0, 0001 < 0, 0001 R2 0, 4543 0, 4991 0,4772 0, 477

Tabela 9: An´alises Para o Banco 2 - MNAR

ˆ β0 0, 3058 0, 0724 0,0405 −0, 0579 ˆ β1 0, 8858 0, 9641 0,9775 1, 0017 Desvio Padr˜ao ( ˆβ0) 0,1036 0, 1003 0, 1196 0, 1038 Desvio Padr˜ao ( ˆβ1) 0,047 0, 0454 0, 051 0, 047 p-valor ( ˆβ0) 0, 0033 0,4707 0, 7359 0, 5768 p-valor ( ˆβ1) < 0, 0001 < 0, 0001 < 0, 0001 < 0, 0001 R2 0, 4168 0,4748 0, 4573 0, 477

Observando as Tabelas 7, 8 e 9, vemos que o m´etodo Ingˆenuo teve o pior resultado.

(45)

mecanismos esse p-valor foi muito pequeno para o m´etodo Ingˆenuo, quando comparado

com o p-valor do banco original.

Os resultados obtidos para os m´etodos de Regress˜ao Linear e MICE foram bem

pa-recidos entre eles. Ambos os m´etodos de imputa¸c˜ao tiveram bons resultados. Vale o

destaque para o MICE quando o mecanismo usado foi MAR.

Vale ressaltar que, com a exce¸cão do método Ingênuo, os resultados da análise

es-tat´ıstica s˜ao bem semelhantes quando comparados os resultados do banco original com os

outros dois m´etodos de imputa¸c˜ao.

4.3 Resultados Para o Banco 3

Nessa Se¸cão iremos descrever como o banco 3 ficou após a sele¸cão dos 50 valores para

serem faltantes de acordo com os trˆes mecanismos. Para uma melhor visualiza¸c˜ao de como

esses dados ficaram ap´os esses sorteios,, foram feitos os gr´aficos da Figura 16 abaixo, onde

as observa¸c˜oes mantidas est˜ao em azul claro e as que foram sorteadas para serem faltantes

est˜ao em vermelho. 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3

(a) MCAR 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3

(b) MAR 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3

(c) MNAR

(46)

A Figura 17 nos diz que os 50 (em vermelho) valores retirados pertenciam a vari´avel

Y3. O valor 0 em vermelho escuro, diz que n˜ao tem nenhuma linha em que estejam faltando

dados em ambas vari´aveis X3 e Y3, ao mesmo tempo. E o outro valor 0 em vermelho, diz

que n˜ao existe dados faltantes em X3.

50 0 0 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3

(a) MCAR 50 0 0 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3

(b) MAR 50 0 0 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3

(c) MNAR

A an´alise feita para o banco 3 foi ajustar um modelo de Regress˜ao Log´ıstica para

as vari´aveis X3 e Y3. Como resultado vamos comparar as estimativas para β0 e β1 seus

respectivos desvios-padr˜oes, os p-valores e Intervalos de Confian¸ca.

4.3.1 Imputa¸

c˜

ao de Dados

Quando os dados são binários, não faz sentido calcular o EQM, como foi calculado

para os bancos 1 e 2. Por isso, após a imputa¸cão dos dados faltantes pelos três métodos já

citados, foram encontradas a Sensibilidade (S) e a Especificidade (E) para cada m´etodo,

a fim de verificar qual dos m´etodos apresenta melhor ajuste. Para o m´etodo MICE, foram

(47)

O ponto de corte escolhido foi de 0, 5, ent˜ao temos que:

(

Se πˆi ≥ 0, 5, Yˆ3i = 1

Se πˆi < 0, 5, Yˆ3i = 0

(4.1)

Tabela 10: Tabela de Sensibilidade e Especificidade Para o Banco 3

MCAR MAR MNAR

Método de Imputa¸cão S E S E S E Ingênuo 1 0 1 0 0 0 Regressão Log´ıstica 0, 82 0, 73 0 1 − 1 MICE 1 0, 86 0, 67 0, 33 0, 89 − 0, 8 MICE 2 0, 79 0, 68 0, 33 0, 91 − 0, 86 MICE 3 0, 82 0, 73 0, 17 0, 82 − 0, 88 MICE 4 0, 93 0, 67 0, 5 0, 84 − 0, 84 MICE 5 0, 79 0, 59 0, 33 0, 89 − 0, 86

Os valores em “-”s˜ao indeterminados, ou seja, o numerador e o denominador s˜ao zero.

Vemos ent˜ao, na Tabela 10 que os mecanismos MAR e MNAR possuem alta

especi-ficidade para os m´etodos de Regress˜ao Log´ıstica e MICE. Enquanto para o mecanismo

MCAR, ele possui maior sensibilidade nos três métodos de Imputa¸cão.

Agora, utilizando a técnica de observa¸cões dos gráficos dos dados imputados, obtemos

os resultados que se seguem para a imputa¸c˜ao atrav´es da moda para o banco 3, nos

mecanismos MCAR, MAR e MNAR. Na Figura 18 as observa¸c˜oes em azul claro, s˜ao

as do banco original, em vermelho s˜ao os dados faltantes e as em azul escuro s˜ao os

dados imputados pela moda. Nesta mesma figura, vemos que os valores imputados n˜ao

são próximos aos reais. Como a moda foi 0, para todos os três mecanismos, os valores

imputados para os trˆes foi sempre o mesmo, causando um erro grotesco, principalmente

quando o mecanismo eram MAR e MNAR.

Para a imputa¸cão através da Regressão Log´ıstica, temos os seguintes gráficos

repre-sentados na figura 19. Observamos que ´e um m´etodo bastante eficiente quando escolhemos

um ponto de corte de 0, 5, j´a explicado na equa¸c˜ao 4.1. O mecanismo MNAR obteve o

melhor resultado, dentre os trˆes mecanismos, onde conseguiu prever todos os 50 valores

de maneira correta. O pior dos três foi o MCAR, mas que também não deixou muito a

desejar, pois acertou 39 de 50. Ent˜ao, vemos que o modelo encontrado para cada um dos

(48)

4.3 Resultados Para o Banco 3 47 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3

Banco 3 - Dados Imputados pela Moda - MCAR

(a) MCAR 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3

Banco 3 - Dados Imputados pela Moda - MAR

(b) MAR 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3

Banco 3 - Dados Imputados pela Moda - MNAR

(c) MNAR

Figura 18: Banco 3 - Dados Imputados pela Moda

0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3

Banco 3 - Dados Imputados pela Regressão Logística - MCAR

(a) MCAR 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3

Banco 3 - Dados Imputados pela Regressão Logística - MAR

(b) MAR 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3

Banco 3 - Dados Imputados pela Regressão Logística - MNAR

(c) MNAR

(49)

Para o método de imputa¸cão múltipla, MICE, no banco 3, utilizamos o padrão de

m = 5, que representa o n´umero de bancos de dados gerados, ou seja, o n´umero de

imputa¸cão feita para cada variável e o método utilizado foi o logreg, pois Y3 é uma

vari´avel bin´aria. Na figura 20 temos para cada um dos bancos com dados faltantes, as

suas respectivas cinco itera¸c˜oes. Assim, em azul claro s˜ao os dados observados e em azul

escuro, as imputa¸cões. O primeiro gráfico, sem as imputa¸cões, é a representa¸cão dos

bancos com os dados faltantes antes de inicializar as imputa¸c˜oes.

X3 Y3 0 1 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 0 1 5 (a) MCAR X3 Y3 0 1 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 0 1 5 (b) MAR X3 Y3 0 1 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 0 1 5 (c) MNAR

Podemos comparar melhor os dados imputados com os dados faltantes na Figura 21

onde em vermelho são os dados faltantes, porém conhecidos, e em azul escuro, são os

valores imputados. Como o MICE gera 5 bancos diferentes, para os trˆes mecanismos

MCAR, MAR e MNAR foram escolhidos o banco da quarta, segunda e terceira itera¸c˜ao,

respectivamente para fazer essa representatividade, pois foram os que apresentaram mais acertos segundo a Tabela 10.