• Nenhum resultado encontrado

Imputação de dados faltantes

N/A
N/A
Protected

Academic year: 2021

Share "Imputação de dados faltantes"

Copied!
54
0
0

Texto

(1)

Paola da Silva Martins

Imputa¸

ao de Dados Faltantes

Niter´oi - RJ, Brasil

(2)

Universidade Federal Fluminense

Paola da Silva Martins

Imputa¸

ao de Dados Faltantes

Trabalho de Conclus˜ao de Curso

Monografia apresentada para obten¸c˜ao do grau de Bacharel em

Estat´ıstica pela Universidade Federal Fluminense.

Orientadora: Profa. J´essica Quintanilha Kubrusly

Coorientador: Prof. Joel Correa da Rosa

Niter´oi - RJ, Brasil

(3)

Universidade Federal Fluminense

Paola da Silva Martins

Imputa¸

ao de Dados Faltantes

Monografia de Projeto Final de Gradua¸c˜ao sob o t´ıtulo

“Im-puta¸c˜ao de Dados Faltantes”, defendida por Paola da Silva

Martins e aprovada em 17 de janeiro de 2017, na cidade de

Niter´oi, no Estado do Rio de Janeiro, pela banca examinadora

constitu´ıda pelos professores:

Profa. Dra. J´essica Quintanilha Kubrusly

Departamento de Estat´ıstica – UFF

Profa. Dra. Ana Beatriz Monteiro Fonseca

Departamento de Estat´ıstica – UFF

Profa. Dra. Ludmilla da Silva Viana Jacobson

Departamento de Estat´ıstica – UFF

(4)
(5)

Resumo

´

E muito comum em pesquisas depararmos com dados faltantes que podem ter

ocor-rido por diferentes motivos, por raz˜oes aleat´orias ou n˜ao, como por exemplo, um erro de

digita¸c˜ao ou um entrevistado que n˜ao responder uma pergunta pessoal. A raz˜ao para

um dado ser faltante ´e chamado de Mecanismo de Dados Faltantes que s˜ao

caracteri-zados em trˆes categorias diferentes: MCAR, MAR e MNAR. Esse trabalho apresenta

alguns m´etodos de Imputa¸c˜ao desses dados faltantes, ou seja, maneiras de substituir o

dado faltante por algum valor. Foram criados trˆes bancos sint´eticos completos e depois

foram exclu´ıdos alguns valores para serem faltantes de acordo com os trˆes mecanismos.

Para cada um desses bancos com dados faltantes foi feita a imputa¸c˜ao por m´etodos de

Imputa¸c˜ao Simples e M´ultipla. Ap´os a imputa¸c˜ao foram feitas an´alises estat´ısticas a fim

de comparar os resultados dessas an´alises com as do banco original e assim verificar qual

desses m´etodos de imputa¸c˜ao foi mais eficiente entre os testados. Esses resultados

mos-traram que o m´etodo de Imputa¸c˜ao M´ultipla pelo MICE foi bastante eficiente em dois

bancos e ineficiente para o outro banco. Os bancos que o m´etodo de Imputa¸c˜ao M´ultipla

MICE tiveram melhores resultados foram justamente aqueles em que as vari´aveis

assumi-ram alguma dependˆencia, j´a o banco em que as vari´aveis eram independentes o m´etodo

de imputa¸c˜ao com melhor resultado foi o m´etodo Ingˆenuo.

Palavras-chaves: M´etodos de Imputa¸c˜ao, Mecanismos de Dados Faltantes, Imputa¸c˜ao

(6)

Dedicat´

oria

Resiliˆencia:

1. Propriedade de um corpo de recuperar a sua forma original ap´os sofrer choque ou

deforma¸c˜ao.

2. Capacidade de superar, de recuperar de adversidades.

Esta ´e a defini¸c˜ao de uma das palavras mais bonitas do dicion´ario da l´ıngua

Portu-guesa. Com ela, dedico esse Projeto Final de Conclus˜ao de Curso `a todas as pessoas que

tˆem depress˜ao. Momentos dif´ıceis vir˜ao, muitas vezes nos sentimos sozinhos, mesmo se

estamos rodeados de pessoas. `As vezes, d´a vontade de desistir, ou de simplesmente sumir.

Muitas vezes pensam que n˜ao estamos nem a´ı para nossos deveres, quando na verdade, o

que mais queremos, ´e realizar essas atividades. Muitos dizem para nos esfor¸carmos mais,

quando na verdade estamos dando o nosso m´aximo, o nosso melhor. Tudo isso entre

outras coisas, nos deixam ainda mais para baixo. Mas ´e a´ı que vem a resiliˆencia. Quando

sofremos de todos esses males, ainda encontramos uma for¸ca, mesmo que pequena, para

superar todas essas adversidades. Ap´os tanta dor e sofrimento, parece que levamos um

choque contra um trator, e ficamos deformados. Mas a´ı, descobrimos de alguma maneira que somos fortes e capazes de superar e se recuperar a nossa forma original.

H´a um pouco mais de dois anos convivo com esses conflitos, mas pouco a pouco

estou aprendendo a super´a-los. Esse trabalho, ´e um dos exemplos concretos de que se

eu sou capaz de vencer, vocˆe tamb´em ´e. Aprendi que n˜ao ´e necess´ario que as pessoas te

entendam, elas n˜ao v˜ao te entender mesmo. Mas h´a aquelas pessoas que vocˆe pode ter

certeza que estar˜ao sempre ao seu lado, pois essas sim, te amam muito: a sua fam´ılia. E

al´em deles, h´a um Ser que mesmo que `as vezes vocˆe n˜ao o sinta, Ele jamais te abandona

e ainda te ama imensamente: Deus.

(7)

Agradecimentos

Tenho muito a agradecer a muitas pessoas que participaram de maneira significativa na minha caminhada durante a faculdade. A lista seria enorme, por isso destaco poucos nomes.

Primeiramente gostaria de agradecer a meus pais e irm˜aos por estarem sempre ao meu

lado e sempre apoiarem as minhas decis˜oes, e tamb´em por terem me orientado quando eu

n˜ao estava no rumo certo.

Agrade¸co aos amigos que fiz durante esses anos na UFF e permanecem at´e hoje. Ao

S´ergio e a Ana Maria Morais que foram os primeiros amigos que fiz. Ao grupo “Hein, Deu

Ruim”que apareceu logo em seguida. Cissa, Guilherme Malv˜ao, Nadine, Bruno Lucian,

Pablo, Everson, Natan e Dani. E aos agregados, Lucas Nariz e Guilherme Martins. Muitos

deles foram incans´aveis em me ajudar quando tive d´uvida, e at´e hoje s˜ao, quando ainda

tenho d´uvidas (em Estat´ıstica). Al´em de me fazerem rir quando eu precisava, de me

apoiarem quando era preciso, de me dar um ombro, para quando eu precisava chorar e um ouvido quando eu precisava desabafar.

Tamb´em agrade¸co aos amigos que em algum momento fizeram parte dessa caminhada,

mas que hoje j´a estamos em caminhos diferentes ent˜ao n˜ao nos encontramos mais. Cada

um aparece na nossa vida por algum motivo: uns vem por um per´ıodo, outros para toda a vida. Mas todos vem com algo que possa acrescentar na vida do outro. Por isso, sou grata!

Al´em de todos os amigos j´a citados, agrade¸co tamb´em aos “oper´arios de ´ultima hora”.

Esses s˜ao os amigos que fiz ao longo da faculdade e no ´ultimo ano. Espero que essas

amizades ainda perdurem por um bom tempo. Obrigada por me acolherem quando eu

voltei dos Estados Unidos e n˜ao conhecia ningu´em.

Agrade¸co tamb´em ao Deyvid, que tive o prazer e a felicidade de conhecer no ´ultimo

ano de faculdade. E isso s´o foi poss´ıvel pelas minhas escolhas anteriores de ir e vir da

faculdade algumas vezes. Sou grata pela sua aten¸c˜ao e compreens˜ao e ainda por ser meu

professor particular de Estat´ıstica. Obrigada por ser paciente. Sua calma acalma minha alma.

(8)

Agrade¸co as psic´ologas e aos psiquiatras que tive durante os ´ultimos anos, por me

ajudarem a enfrentar a depress˜ao e me auxiliarem em como superar as dificuldades de

todos os dias.

Agrade¸co ao professor Joel por ter me dado a oportunidade de trabalhar com ele em Nova Iorque, juntamente com a Sandra, e ainda por ele ter me apresentado o tema deste trabalho. Aprendi muito com os dois mesmo que em pouco tempo. Agrade¸co

tamb´em a professora J´essica por ter aceitado o desafio de me orientar neste trabalho e as

professoras Ana Beatriz e Ludmilla por aceitarem fazer parte da banca. Agrade¸co tamb´em

aos professores que tive na UFF por compartilharem seus conhecimentos comigo. Assim como os professores e coordenadores que eu tive no Baruch College, em Nova Iorque.

Por ´ultimo, mas n˜ao menos importante, muito pelo contr´ario, o mais importante,

agrade¸co a Deus por nunca me abandonar, mesmo nos momentos em que eu j´a n˜ao O

sentia mais. Ele permaneceu comigo todo o tempo e tenho certeza que foi Ele que me deu

for¸cas necess´arias para que eu n˜ao desistisse de nenhuma etapa da minha caminhada at´e

hoje.

Sem essas pessoas, meu caminho teria sido muito mais longo e dif´ıcil do que foi. Obrigada!

(9)

Sum´

ario

Lista de Figuras Lista de Tabelas 1 Introdu¸c˜ao p. 12 2 Objetivos p. 14 3 Materiais e M´etodos p. 15 3.1 Materiais . . . p. 15

3.2 Mecanismos de Dados Faltantes . . . p. 17

3.3 Imputa¸c˜ao Simples versus Imputa¸c˜ao M´ultipla . . . p. 19

3.4 M´etodo Ingˆenuo, um M´etodo de Imputa¸c˜ao Simples . . . p. 20

3.4.1 Substitui¸c˜ao a partir da M´edia ou Mediana . . . p. 20

3.4.2 Substitui¸c˜ao a partir da Moda ou Propor¸c˜ao . . . p. 21

3.5 Modelo de Regress˜ao, um M´etodo de Imputa¸c˜ao Simples . . . p. 21

3.5.1 Regress˜ao Linear . . . p. 21

3.5.2 Regress˜ao Log´ıstica . . . p. 24

3.6 MICE - Multiple Imputation Chained Equation, um M´etodo de Imputa¸c˜ao

M´ultipla . . . p. 26

3.6.1 O Algor´ıtmo MICE . . . p. 26

4 An´alise dos Resultados p. 29

(10)

4.1.1 Imputa¸c˜ao de Dados . . . p. 32

4.1.2 An´alise Estat´ıstica . . . p. 35

4.2 Resultados Para o Banco 2 . . . p. 37

4.2.1 Imputa¸c˜ao de Dados . . . p. 38

4.2.2 An´alise Estat´ıstica . . . p. 43

4.3 Resultados Para o Banco 3 . . . p. 44

4.3.1 Imputa¸c˜ao de Dados . . . p. 45

4.3.2 An´alise Estat´ıstica . . . p. 49

5 Conclus˜ao p. 51

(11)

Lista de Figuras

1 Banco 1 Gerado a Partir de Simula¸c˜ao . . . p. 15

2 Banco 2 Gerado a Partir de Simula¸c˜ao . . . p. 16

3 Banco 3 Gerado a Partir de Simula¸c˜ao . . . p. 17

4 Banco 1 Completo com 10% Sorteados Para Serem Faltantes . . . p. 31

5 Banco 1 - Dados Observados e Faltantes . . . p. 32

6 Banco 1 - Dados Imputados pela M´edia . . . p. 34

7 Banco 1 - Dados Imputados pela Regress˜ao Linear . . . p. 34

8 Banco 1 - Itera¸c˜oes Geradas pelo MICE . . . p. 35

9 Banco 1 - Dados Imputados pelo MICE . . . p. 36

10 Banco 2 Completo com 10% Sorteados Para Serem Faltantes . . . p. 38

11 Banco 2 - Dados Observados e Faltantes . . . p. 39

12 Banco 2 - Dados Imputados pela M´edia . . . p. 40

13 Banco 2 - Dados Imputados pela Regress˜ao Linear . . . p. 41

14 Banco 2 - Itera¸c˜oes Geradas pelo MICE . . . p. 42

15 Banco 2 - Dados Imputados pelo MICE . . . p. 42

16 Banco 3 Completo com 10% Sorteados para Serem Faltantes . . . p. 44

17 Banco 3 - Dados Observados e Faltantes . . . p. 45

18 Banco 3 - Dados Imputados pela Moda . . . p. 47

19 Banco 3 - Dados Imputados pela Regress˜ao Log´ıstica . . . p. 47

20 Banco 3 - Itera¸c˜oes Geradas pelo MICE . . . p. 48

(12)

Lista de Tabelas

1 Mecanismos de Dados Faltantes . . . p. 19

2 Erro Quadr´atico M´edio para o Banco 1 . . . p. 33

3 An´alises Para o Banco 1 - MCAR . . . p. 36

4 An´alises Para o Banco 1 - MAR . . . p. 36

5 An´alises Para o Banco 1 - MNAR . . . p. 36

6 Erro Quadr´atico M´edio Para o Banco 2 . . . p. 39

7 An´alises Para o Banco 2 - MCAR . . . p. 43

8 An´alises Para o Banco 2 - MAR . . . p. 43

9 An´alises Para o Banco 2 - MNAR . . . p. 43

10 Tabela de Sensibilidade e Especificidade Para o Banco 3 . . . p. 46

11 An´alises Para o Banco 3 - MCAR . . . p. 49

12 An´alises Para o Banco 3 - MAR . . . p. 50

(13)

12

1

Introdu¸

ao

A an´alise de dados demanda precau¸c˜ao durante todo o seu processo. Depois da coleta

de dados, dados faltantes provavelmente estar˜ao presentes, o que ´e muito comum em

diversos tipos de bancos de dados, especialmente em dados epidemiol´ogicos. As raz˜oes

para um dado ser faltante podem ser diversas, e s˜ao denominadas de Mecanismos de Dados

Faltantes. Por exemplo, um dado pode ser faltante por motivo totalmente aleat´orio,

como um erro de digita¸c˜ao, ou pode ser faltante por um motivo tendencioso, quando um

indiv´ıduo n˜ao responde uma pergunta pessoal.

As consequˆencias de se trabalhar com dados faltantes s˜ao diversas, uma delas ´e que a

an´alise estat´ıstica provavelmente ser´a viesada, ou seja, conter´a erros. Como esses valores

faltantes podem afetar essas an´alises ´e um ponto a ser levado em considera¸c˜ao. Eles

podem levar a uma decis˜ao errada e, al´em disso, os dados faltantes podem debilitar

completamente o poder da amostra.

Hoje em dia, muitos pesquisadores, para tentar solucionar o problema de dados

fal-tantes nos bancos de dados, decidem pela maneira mais simples e r´apida, que ´e a exclus˜ao

das linhas onde se encontram a observa¸c˜ao faltante. Por´em, essa ´e uma alternativa que

dependendo da quantidade de linhas exclu´ıdas, pode gerar distor¸c˜oes nos resultados das

an´alises.

Uma alternativa para esse pesquisador seria, em vez de excluir linhas do banco de

dados, tentar imputar os dados faltantes, isto ´e, atribuir valores para as observa¸c˜oes

faltantes. Existem diversos m´etodos para isso, que s˜ao divididos em duas categorias:

M´etodos de Imputa¸c˜ao Simples e M´ultipla. Os m´etodos de Imputa¸c˜ao Simples atribuem

um ´unico valor para cada dado faltante, j´a os de Imputa¸c˜ao M´ultipla atribuem diversos

valores para os mesmos. A ideia de imputar dados faltantes pelo m´etodo de Imputa¸c˜ao

M´ultipla ´e recente, e surge com Rubin [2] na d´ecada de 1980 a fim de minimizar o problema

da exclus˜ao de linhas com dados faltantes e tamb´em ser ainda mais eficiente que os casos

(14)

1 Introdu¸c˜ao 13

Este trabalho se prop˜oe a realizar um estudo em cima de trˆes bancos de dados

sint´eticos e com dados faltantes, cujo objetivo ´e comparar os resultados para diferentes

m´etodos de imputa¸c˜ao. Ser˜ao levados em considera¸c˜ao m´etodos de Imputa¸c˜ao Simples e

M´ultipla, al´em de diferentes Mecanismos de Dados Faltantes.

No Cap´ıtulo 2 ser˜ao apresentados os objetivos do trabalho. No Cap´ıtulo 3 ser˜ao

apresentados os materiais. Os resultados das an´alises deste trabalho se encontram no

(15)

14

2

Objetivos

O objetivo desse trabalho ´e comparar o desempenho de diferentes m´etodos de

im-puta¸c˜ao. Esses m´etodos s˜ao chamados de Imputa¸c˜ao Simples (abrangendo o m´etodo

ingˆenuo e o de regress˜ao) e Imputa¸c˜ao M´ultipla. Esses m´etodos ser˜ao trabalhados em

vari´aveis cont´ınuas e em vari´aveis bin´arias. Al´em disso, ser˜ao levados em considera¸c˜ao

trˆes mecanismos de dados faltantes, s˜ao eles: MCAR (Missing Completely at Random),

(16)

15

3

Materiais e M´

etodos

3.1

Materiais

Para este trabalho, foram criados trˆes bancos de dados sint´eticos, ou seja, bancos

fict´ıcios. Para o primeiro banco foram criadas duas vari´aveis aleat´orias independentes,

X1 ∼ Gama(α = 4, β = 2) e Y1 ∼ N ormal(µ = 0, σ = 1).

Na Figura 1 encontra-se o gr´afico das vari´aveis para o banco 1. Podemos comparar as

vari´aveis desse banco sint´etico com o seguinte poss´ıvel exemplo:

• X1 : Taxa da substˆancia X1 na corrente sanguinea.

• Y1 : Desvios da substˆancia Y1 a um valor de referˆencia desta substˆancia pr´e

deter-minado. 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 Banco Completo 1 X1 Y1

Figura 1: Banco 1 Gerado a Partir de Simula¸c˜ao

(17)

3.1 Materiais 16

onde

X2 ∼ Gama(α = 4, β = 2) e Y2 = X2+ e, com e ∼ N ormal(µ = 0, σ = 1).

Na Figura 2, encontra-se o gr´afico das vari´aveis para o banco 2. Podemos comparar as

vari´aveis desse banco sint´etico com o seguinte poss´ıvel exemplo:

• X2 : Comprimento de fibras de metal em cent´ımetro.

• Y2 : Varia¸c˜ao da resistˆencia da fibra expostos a temperatura K.

0 1 2 3 4 5 6 7 -2 0 2 4 6 Banco Completo 2 X2 Y2

Figura 2: Banco 2 Gerado a Partir de Simula¸c˜ao

Para o terceiro banco foram criadas duas vari´aveis, onde

X3 ∼ Gama(α = 4, β = 2) e Y3 ∼ Ber(p)

onde

p = 1

1 + e−(β0+β1X3i) com β0 = −7 e β1 = 4.

Na Figura 3, encontra-se o gr´afico das vari´aveis para o banco 3. Podemos comparar as

vari´aveis desse banco sint´etico com o seguinte poss´ıvel exemplo:

• X3 : Quantidade de sal´arios m´ınimos.

• Y3 : Sexo.

Todos os trˆes bancos contˆem as vari´aveis X e Y . A princ´ıpio, todos os valores s˜ao

(18)

3.2 Mecanismos de Dados Faltantes 17 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 Banco Completo 3 X3 Y3

Figura 3: Banco 3 Gerado a Partir de Simula¸c˜ao

dados faltantes. A partir desses bancos com observa¸c˜oes faltantes, foram feitas an´alises

estat´ısticas de acordo com a necessidade de cada banco, que ser´a melhor descrito no

Cap´ıtulo 4. Por´em, vale ressaltar, que o m´etodo de imputa¸c˜ao de dados faltantes tamb´em

pode ser aplicado em bancos onde os dados faltantes est˜ao em mais de uma vari´avel.

Ent˜ao na pr´atica, esses m´etodos de imputa¸c˜ao s˜ao muito mais abrangentes do que ser´a

tratado nesse trabalho.

3.2

Mecanismos de Dados Faltantes

Como todos pesquisadores podem observar, dados faltantes est˜ao presentes no

coti-diano de in´umeras pesquisas, experimentos, etc. Esses dados podem estar faltando por

diversos motivos. Citaremos a seguir, algumas poss´ıveis raz˜oes.

• Um estudo que ocorre durante determinado tempo, pessoas que participam desses

estudos podem simplesmente abandonar a pesquisa antes do t´ermino dela, seja

por-que mudou-se de cidade, morreu, n˜ao est´a mais interessado, ou mesmo n˜ao se sente

bem com o tipo de pesquisa.

• Pesquisas onde o entrevistado se recusa a responder alguma quest˜ao, ou n˜ao sabe a

resposta, ou acidentalmente pula um item.

• Estudos experimentais tˆem dados faltantes quando um pesquisador n˜ao consegue

coletar uma observa¸c˜ao. M´as condi¸c˜oes clim´aticas podem atrapalhar coletas de

(19)

3.2 Mecanismos de Dados Faltantes 18

estraga. Ou ainda problema na digita¸c˜ao dos dados ou o arquivo ´e detectado com

um v´ırus.

Os pesquisadores devem, ent˜ao, ficar atentos, pois, o risco de vi´es causado pelos dados

faltantes ir´a depender do porque eles estarem faltando.

Existem trˆes tipos de dados faltantes de acordo com Little e Rubin [3]: Missing

com-pletely at random (MCAR), faltantes completamente ao acaso (tradu¸c˜ao livre); Missing

at random (MAR), faltantes ao acaso (tradu¸c˜ao livre); Missing not at random (MNAR),

faltantes n˜ao ao acaso (tradu¸c˜ao livre).

O MCAR ocorre quando o valor faltante n˜ao depende dos dados observados e nem

dos n˜ao observados; ´e um evento aleat´orio. Esse tipo de dado faltante pode acontecer se

algu´em decide lan¸car uma moeda para decidir se uma quest˜ao deve ou n˜ao deve ser

res-pondida. Outro exemplo seria um tubo de amostra sangu´ınea do paciente que ´e derrubado

no laborat´orio acidentalmente.

O segundo mecanismo, MAR, acontece quando o dado faltante depende dos valores

observados, ou seja, uma vari´avel que contem os dados faltantes depende de uma vari´avel

com dados observados. Logo, a falta se refere a uma vari´avel particular. Por exemplo,

considere uma pesquisa na qual as mulheres s˜ao menos propensas a fornecer sua renda

pessoal. Se conhecermos o sexo de todos os sujeitos e tivermos a renda para algumas

mulheres, ent˜ao, a vari´avel renda, ser´a do tipo MAR, pois depende da vari´avel sexo. Outro

exemplo, homens provavelmente respondam sobre o seu peso mais do que mulheres, logo,

a vari´avel peso ´e MAR.

O ´ultimo dos trˆes mecanismos, MNAR, aparece em situa¸c˜oes onde existe uma raz˜ao

especifica para o dado faltante, ou seja, est´a relacionado aos valores n˜ao observados. ´E

bastante comum quando as pessoas n˜ao querem revelar algo muito pessoal. Por exemplo,

pessoas com depress˜ao talvez rejeitem preencher uma pesquisa sobre depress˜ao. Outro

exemplo, pessoas com sal´arios altos, talvez sejam propensas a n˜ao responder qual ´e o

sal´ario.

(20)

3.3 Imputa¸c˜ao Simples versus Imputa¸c˜ao M´ultipla 19

Tabela 1: Mecanismos de Dados Faltantes

MCAR MAR MNAR

Vari´avel (Item)

Sujeitos omitem respostas aleatoriamente

Sujeitos omitem respostas que podem ser consegui-das por outras vari´aveis

Sujeitos n˜ao respondem itens sem algum tipo de crit´erio

Indiv´ıduos ou sujeitos

Faltam dados de sujeitos aleatoriamente

Faltam dados de sujei-tos, mas que s˜ao relacio-nados com os dados de-mogr´aficos dispon´ıveis

Faltam dados de sujeitos e s˜ao relacionados com os dados demogr´aficos n˜ao medidos

Ocasi˜oes Sujeitos aleatoriamente n˜ao se apresentam na sess˜ao

Sujeitos que se desempe-nham mal na sess˜ao ante-rior, n˜ao se apresentam na sess˜ao seguinte

Sujeitos que est˜ao se

desempenhando mal na

sess˜ao atual, deixam de participar

Fonte: McKnight et al., 2007. [4]

3.3

Imputa¸

ao Simples versus Imputa¸

ao M´

ultipla

Uma maneira que se encontrou para solucionar o problema de dados faltantes foi o

m´etodo de imputa¸c˜ao. Imputa¸c˜ao quer dizer substitui¸c˜ao, ou seja, preencher os dados

faltantes por valores prov´aveis e assim, podem ser feitas an´alises estat´ısticas com um

banco de dado completo. Existem dois tipos de imputa¸c˜ao, a imputa¸c˜ao ´unica ou simples

e a m´ultipla. Al´em disso, existem diferentes m´etodos de imputa¸c˜ao de dados faltantes

de acordo com o tipo de dados. Por exemplo, dados cont´ınuos ser˜ao tratados de maneira

distinta de dados bin´arios.

Existem diversos m´etodos para a realiza¸c˜ao da imputa¸c˜ao simples. A imputa¸c˜ao

simples pode ser feita a partir da m´edia, mediana, estimativa de m´axima verossimilha¸ca e

at´e regress˜ao linear, por exemplo, dos dados existentes. ´E uma t´ecnica bastante utilizada

por ser bem atrativa e pela sua f´acil implementa¸c˜ao preenchendo os valores faltantes

por valores previstos, assumindo-os como valores verdadeiros. E cada valor faltante ser´a

preenchido por um ´unico valor, como dizem Little e Rubin [3]. Por´em, como desvantagem,

ela resulta em uma subestima¸c˜ao dos erros padr˜oes ou p-valores muito pequenos, ou seja,

superestima¸c˜ao da precis˜ao do estudo.

Para encontrar uma correta estima¸c˜ao para os erros padr˜oes e p-valores ´e necess´ario

(21)

3.4 M´etodo Ingˆenuo, um M´etodo de Imputa¸c˜ao Simples 20

com dados faltantes s˜ao estimadas. Isso poder´a ser feito n˜ao com uma imputa¸c˜ao ´unica,

mas sim com uma m´ultipla imputa¸c˜ao, onde cada dado faltante ´e imputado n vezes,

sendo assim, gerando n bancos de dados diferentes. Esse m´etodo da imputa¸c˜ao m´ultipla

foi sugerido por Donald Rubin na d´ecada de 1980 [2].

Ap´os obter os n bancos de dados completos a partir de t´ecnicas adequadas de

im-puta¸c˜ao, esses n bancos devem ser analisados separadamente por um m´etodo estat´ıstico

tradicional, como se os bancos estivessem realmente completos. S˜ao calculados desvios

padr˜oes para levar em conta a variabilidade dos resultados entre os novos bancos de dados.

Por fim, os resultados obtidos das an´alises dos n bancos s˜ao combinados adequadamente

para que possa ser feita a inferˆencia da imputa¸c˜ao repetida.

A principal diferen¸ca entre imputa¸c˜ao simples e a imputa¸c˜ao m´ultipla ´e que na

im-puta¸c˜ao simples s´o se gera um ´unico valor para cada dado faltante, e na imputa¸c˜ao

m´ultipla s˜ao gerados n valores para cada dado faltante. Uma das vantagens da imputa¸c˜ao

m´ultipla sobre a simples ´e que com a gera¸c˜ao de v´arios valores, aumenta-se a eficiˆencia

da estima¸c˜ao. Por´em, como desvantagem, ´e a falta de praticidade e o tempo que se leva

para gerar todos os n valores, pois, dependendo do tamanho de n, pode-se levar horas

(como ser´a visto mais adiante na Se¸c˜ao 3.6).

3.4

etodo Ingˆ

enuo, um M´

etodo de Imputa¸

ao

Sim-ples

O m´etodo ingˆenuo ´e o mais simples de todos os m´etodos. Ele leva somente em

con-sidera¸c˜ao informa¸c˜oes da vari´avel que cont´em dados faltantes. Dessa maneira, ´e simples

completar os “espa¸cos em branco”num banco de dados; podendo ser feito a partir de alguns exemplos explicados a seguir.

3.4.1

Substitui¸

ao a partir da M´

edia ou Mediana

Esse m´etodo ´e usado quando o dado faltante diz respeito a uma vari´avel cont´ınua. Se

a vari´avel for cont´ınua, poder´a ser feita a imputa¸c˜ao atrav´es da m´edia, ou seja, cada valor

faltante na vari´avel Y ser´a preenchido com a m´edia dos valores observados da vari´avel Y .

(22)

3.5 Modelo de Regress˜ao, um M´etodo de Imputa¸c˜ao Simples 21

3.4.2

Substitui¸

ao a partir da Moda ou Propor¸

ao

Esse m´etodo ´e usado quando o dado faltante diz respeito a uma vari´avel bin´aria. Uma

alternativa para esse tipo de vari´avel ´e a utiliza¸c˜ao da moda, ou seja, preencher os dados

faltantes na vari´avel Y com a moda dos valores observados de Y .

A op¸c˜ao de preencher os dados faltantes com a propor¸c˜ao significa verificar a propor¸c˜ao

de cada categoria presente na vari´avel em quest˜ao e para cada valor faltante ser´a feito

um sorteio de forma que a probabilidade de sair uma categoria ´e igual a propor¸c˜ao da

categoria entre os valores observados.

3.5

Modelo de Regress˜

ao, um M´

etodo de Imputa¸

ao

Simples

Um modelo de regress˜ao busca definir uma rela¸c˜ao, atrav´es de uma equa¸c˜ao, entre

a m´edia de uma vari´avel aleat´oria yi, chamada de vari´avel resposta, e outras vari´aveis

conhecidas xij, j = 1, . . . , p, chamadas de vari´aveis explicativas. Assim, podem ser feitas

previs˜oes para a vari´avel resposta, supondo valores das vari´aveis explicativas, e ainda

avaliar uma poss´ıvel dependˆencia entre a vari´avel resposta e cada vari´avel explicativa.

O comportamento das vari´aveis dependentes e independentes pode se apresentar de

forma linear, quadr´atica, exponencial, entre outras. Sendo verificado atrav´es de um gr´afico

de dispers˜ao e uma curva.

Segundo Little e Rubin [3], para o preenchimento de dados faltantes utilizando um

modelo de regress˜ao, s˜ao calculadas previs˜oes a partir do modelo cuja vari´avel resposta,

Y , ´e aquela com dados faltantes e as vari´aveis explicativas s˜ao aquelas que possuem todos

os valores observados. O banco de treino para a cria¸c˜ao do modelo ser´a formado por todas

as linhas que possuem Y observado.

3.5.1

Regress˜

ao Linear

Esse m´etodo ´e usado quando a vari´avel resposta ´e uma vari´avel cont´ınua.

Segundo Davidson e Mackinnon [5], o modelo de Regress˜ao Linear Simples pode ser

representado pela seguinte equa¸c˜ao:

(23)

3.5 Modelo de Regress˜ao, um M´etodo de Imputa¸c˜ao Simples 22

onde yirepresenta a vari´avel dependente ou resposta, relacionada ao i-´essimo individuo da

amostra, e xi representa a vari´avel independente ou explicativa, relacionada ao i-´essimo

indiv´ıduo da amostra. Al´em disso, yi e xi assumem valores reais. E ui representa um

termo de erro aleat´orio.

A f´ormula apresentada acima ´e chamada de Regress˜ao Linear Simples porque a

vari´avel dependente est´a relacionada a uma ´unica vari´avel independente. Por´em, ainda

´e poss´ıvel que essa vari´avel dependente esteja relaciona a mais de uma vari´avel

indepen-dente, sendo assim chamada de Regress˜ao Linear M´ultipla e representada pela equa¸c˜ao:

yi = β0+ β1x1i+ β2x2i+ . . . + ui (3.2)

Cada parˆametro β da Equa¸c˜ao 3.2 ´e um parˆametro desconhecido e, para definir a

rela¸c˜ao entre a vari´avel resposta e as vari´aveis explicativas ´e preciso fazer inferˆencias

sobre eles, por exemplo encontrando estimativas adequadas para os parˆametros, testar

hip´oteses e ainda gerar intervalos de confian¸ca.

O termo de erro ui ´e uma vari´avel aleat´oria e possui algumas hip´oteses sobre ele.

Primeiro, podemos assumir que o valor esperado do termo de erro ´e nulo. Ou dado um

valor de xi, a esperan¸ca do termo de erro ´e nula, E[u|x] = 0. O termo de erro existe

pois normalmente ´e dif´ıcil e quase imposs´ıvel especificar ou observar todos os fatores que

determinam yi. Outra hip´otese sobre os termos de erro ´e que eles s˜ao vari´aveis aleat´orias

com distribui¸c˜ao normal, independentes e identicamente distribu´ıdas (iid) com variˆancia

constante, ou seja, ui ∼ N (0, σ2). Como o termo de erro ´e normal, yi tamb´em ser´a

uma vari´avel aleat´oria normal. Al´em disso, se o termo de erro tem distribui¸c˜ao normal o

modelo de Regress˜ao Linear ´e chamado de modelo de Regress˜ao Linear Cl´assico.

Estimador para β

Segundo Davidson e Mackinnon [5], o estimador ˆβ, n˜ao tendencioso, para cada

parˆametro β do modelo definido pela Equa¸c˜ao 3.2 ´e definido a seguir:

ˆ

β = (XTX)−1XTy, (3.3)

em que X ´e uma matriz de covari´aveis onde a primeira coluna ´e preenchida com 1’s e as

demais com as vari´aveis.

Al´em disso, ˆβ ´e o melhor estimador linear n˜ao viesado (MELNV), ou seja, entre os

(24)

3.5 Modelo de Regress˜ao, um M´etodo de Imputa¸c˜ao Simples 23

Inferˆencias para β: Intervalo de Confian¸ca e Teste de Wald

O intervalo de confian¸ca ´e um intervalo aleat´orio com alta probabilidade de conter

o parˆametro β. Al´em disso, ele est´a associado com outras t´ecnicas estat´ısticas como o

teste de hip´oteses.Tanto para o Modelo de Regress˜ao Simples quanto para o M´ultiplo, o

intervalo de confian¸ca para cada βk pode ser descrito como:

IC1−α(βk) =  ˆ βk− tn−p,1−α2 q ˆ σ2(XTX)−1 kk; ˆβk+ tn−p,1−α2 q ˆ σ2(XTX)−1 kk  (3.4)

onde n ´e o tamanho da amostra e p ´e o n´umero de vari´aveis independentes. Al´em disso,

ˆ

σ2(XTX)−1 ´e a matriz de variˆancias e covariˆancias do estimador ˆβ.

O Teste de Wald ´e um teste usado para verificar se as vari´aveis utilizadas no modelo

de regress˜ao est˜ao realmente contribuindo para a an´alise.

As hip´oteses do teste s˜ao:

(

H0 : βk= 0

H1 : βk6= 0

E as seguintes regras de decis˜ao podem ser encontradas em Davidson e Mackinnon

[5]: Se |t∗| 6 tn−p,1−α2 conclui H0 Se |t∗| > tn−p,1−α2 conclui H1 onde t∗ = ˆ βk q ˆ V ar( ˆβk) O Modelo de Previs˜ao

Dada a estimativa ˆβ, a estimativa pontual para a m´edia da vari´avel resposta, nesse

caso para ˆy, ´e dada por:

ˆ

y = X ˆβ (3.5)

(25)

3.5 Modelo de Regress˜ao, um M´etodo de Imputa¸c˜ao Simples 24

3.5.2

Regress˜

ao Log´ıstica

Esse m´etodo de Regress˜ao Log´ıstica ´e usado quando a vari´avel resposta ´e uma vari´avel

bin´aria. Por exemplo, a vari´avel tem como resposta “Sim”ou “N˜ao”, “0”ou “1”,

“Femi-nino”ou “Masculino”, entre outros, ou seja, s´o possuem duas op¸c˜oes como resposta. Com

isso, o modelo de Regress˜ao Linear n˜ao pode ser utilizado nesse tipo de problema, pois,

por exemplo, n˜ao se pode afirmar que uma vari´avel resposta bin´aria tenha distribui¸c˜ao

normal.

O Modelo Log´ıstico Simples ´e definido por Kutner [6] como:

yi = E[yi] + ui (3.6)

Onde yi ∼ Ber(πi), al´em disso a rela¸c˜ao suposta entre E[yi] = πi e a vari´avel

expli-cativa xi ´e: πi = 1 1 + e−(β0+β1xi) ou ln  πi 1 − πi  = β0+ β1xi (3.7)

Para o Modelo Log´ıstico M´ultiplo, a rela¸c˜ao que cria-se para yt = E[yt] + ut e as p

vari´aveis explicativas ´e:

πi = 1 1 + e−xT iβ = 1 1 + e−

0+ β1xi,1+ β2xi,2+ . . . + βpxi,p)

ou ln

 πi

1 − πi



= xTi β = β0+ β1xi,1+ β2xi,2+ . . . + βpxi,p (3.8)

Estimador para β

A fun¸c˜ao de verossimilhan¸ca l est´a apresentada na Equa¸c˜ao 3.9. O estimador de

m´axima verossimilhan¸ca para o vetor de parˆamentros β ser´a o ponto de m´aximo dessa

fun¸c˜ao. Segundo Kutner [6], n˜ao existe f´ormula fechada para ele; ent˜ao, programas

es-tat´ısticos, como por exemplo o R, utilizam m´etodos num´ericos para achar essa estimativa.

l(β|y, x) = n X i=1 yi(xTi β) − n X i=1 ln1 + exTiβ  (3.9)

Inferˆencias para β: Intervalo de Confian¸ca e Teste de Wald

Assim como no Modelo de Regress˜ao Linear, na Regress˜ao Log´ıstica tamb´em pode

(26)

3.5 Modelo de Regress˜ao, um M´etodo de Imputa¸c˜ao Simples 25

segundo Kutner [6]. O intervalo ser´a descrito como:

IC1−α(βk) =  ˆ βk− z1−α2 q V ar( ˆβk); ˆβk+ z1−α2 q V ar( ˆβk)  (3.10)

E as hip´oteses do Teste de Wald ser˜ao:

(

H0 : βk= 0

H1 : βk6= 0

Com as seguintes regras de decis˜ao:

Se |z∗| 6 z1−α 2 conclui H0 Se |z∗| > z1−α2 conclui H1 onde z∗ = ˆ βk q V ar( ˆβk)

Agora, o intervalo de confian¸ca para a m´edia da vari´avel resposta πt, seria:

IC1−α(πi) =  1 1 + eL; 1 1 + eU  (3.11)

Onde L e U encontra-se a partir do intervalo de confian¸ca para xTi β:ˆ

IC1−α(πi) =  xTiβˆ − z1−α2 q xT i V ar( ˆβ)xi; xTiβ + zˆ 1−α2 q xT i V ar( ˆβ)xi  (3.12) O Modelo de Previs˜ao

Dada a estimativa ˆβ, a estimativa pontual para a m´edia da vari´avel resposta, nesse

caso para πi, ´e dada por:

ˆ πi = 1 1 + e−xT iβˆ = 1

1 + e−( ˆβ0+ ˆβ1xi,1+ ˆβ2xi,2+...+ ˆβp−1xi,p−1)

(3.13)

(27)

3.6 MICE - Multiple Imputation Chained Equation, um M´etodo de Imputa¸c˜ao M´ultipla 26

partir de um ponto de corte π? onde:

(

Se ˆπi ≥ π?, Yˆi = 1

Se ˆπi < π?, Yˆi = 0

(3.14)

Esse ponto de corte pode ser um valor determinado pelo pesquisador ou a partir da

Sensibilidade e da Especificidade que ajudam a medir o qu˜ao preciso ´e o modelo. Quanto

maior a sensibilidade ou quanto maior a especificidade melhor o modelo est´a ajustado.

A sensibilidade mede a capacidade do teste em identificar corretamente ˆyi = 1 entre

as observa¸c˜oes com yi = 1. A especificidade mede a capacidade do teste em identificar

corretamente ˆyi = 0 entre as observa¸c˜oes com yi = 0. Sendo assim, podemos definir que:

(

Sensibilidade = P (ˆyi = 1|yi = 1) = P (ˆyP (yi=1∩yi=1)

i=1)

Especif icidade = P (ˆyi = 0|yi = 0) = P (ˆyP (yi=0∩yi=0)i=0)

(3.15)

Os valores encontrados em ˆYi s˜ao os que ser˜ao imputados nos dados faltantes.

3.6

MICE - Multiple Imputation Chained Equation,

um M´

etodo de Imputa¸

ao M´

ultipla

Multiple Imputation Chained Equation (MICE) ´e um dos v´arios m´etodos que

abran-gem a Imputa¸c˜ao M´ultipla. Esse m´etodo ´e usado tanto quando o dado faltante diz respeito

a uma vari´avel cont´ınua quanto bin´aria. Al´em disso, deve-se assusmir que os dados

fal-tantes seguem o mecanismo MAR ou mesmo MNAR, como descrevem Molenberghs [7] e

van Buuren [1]. Por´em, caso os dados sejam MNAR, seriam necess´arios alguns ajustes,

que n˜ao ser˜ao tratados neste trabalho. Se o MICE for implementado quando os dados

seguirem os mecanismos MCAR, ocorrer´a estima¸c˜oes viesadas, por isso a importˆancia de

verificar bem o tipo de mecanismo que os dados seguem.

3.6.1

O Algor´ıtmo MICE

O algoritmo descrito abaixo se refere a quando a vari´avel em quest˜ao ´e cont´ınua.

Existem v´arias maneiras se fazer esse c´alculo no R [8] utilizando o pacote mice [1]. Por´em,

o m´etodo tratado nesta Se¸c˜ao, ser´a o chamado Predictive Mean Matching - PMM - que ´e

(28)

3.6 MICE - Multiple Imputation Chained Equation, um M´etodo de Imputa¸c˜ao M´ultipla 27

Gergo Vink [9] diz que, seja Y uma vari´avel com dados faltantes e X uma vari´avel

com dados completos:

1. No caso sem dados faltantes, estime uma Regress˜ao Linear de Y em X. Essa

regress˜ao produz um vetor de coeficientes estimados ˆβ = (XTX)−1XTy e uma

matriz de covariˆancia estimada Σ = ˆσ2(XTX)−1.

2. Fazer um sorteio gerando um novo conjunto de coeficientes β?, assumindo uma

distribui¸c˜ao Normal Multivariada com vetor de m´edias ˆβ e matriz de covariˆancia Σ .

Esta etapa ´e necess´aria para produzir variabilidade suficiente nos valores imputados

e ´e comum a todos os m´etodos “adequados”para imputa¸c˜ao m´ultipla.

3. Para todos os casos, tanto para aqueles com dados faltantes, quanto para os

obser-vados, gerar valores ˆY = β?

0 + β1?X.

4. Para cada caso com Y faltante (YF) identificar um conjunto de casos com Y

obser-vado (YO) tais que o valor de | ˆYF − ˆYO| seja pequeno. Entre as menores diferen¸cas,

sortear um ˆYO. O valor de YO referente ao ˆYO sorteado ser´a o valor imputado para

o YF.

5. Repita os passos 2 − 4 para cada conjunto de dados completo.

Quando a vari´avel com dados faltantes for bin´ario utiliza-se a Regress˜ao Log´ıstica,

como explica Azur [10] em seu algoritmo em 6 passos.

1. ´E feita uma imputa¸c˜ao simples, atrav´es da moda, para cada dado faltante.

2. Seja “var” uma vari´avel com dados faltantes, e j´a preenchidos. Desconsidere a(s)

imputa¸c˜ao(˜oes) feita(s) para essa vari´avel e esse(s) dado(s) volta(m) a ser faltante.

3. ´E ent˜ao ajustado um modelo de regress˜ao onde a vari´avel dependente ´e a vari´avel

“var” do passo 2, e as demais vari´aveis independentes. O modelo de regress˜ao

ajustado pode consistir em todas as vari´aveis do banco ou n˜ao.

4. Os valores faltantes para “var” s˜ao ent˜ao substitu´ıdos pelos valores imputados

atrav´es dos modelos de regress˜ao, j´a vistos na Se¸c˜ao 3.5. Para as vari´aveis

in-dependentes do modelo de regress˜ao e com dados faltantes, ser˜ao considerados os

(29)

3.6 MICE - Multiple Imputation Chained Equation, um M´etodo de Imputa¸c˜ao M´ultipla 28

5. Repita os passos 2-4 alterando a vari´avel “var” para a pr´oxima vari´avel com dados

faltantes. Uma itera¸c˜ao ou ciclo ´e conclu´ıdo quando todas as vari´aveis com dados

faltantes j´a foram preenchidas atrav´es de um modelo de regress˜ao.

6. Uma vez que conclu´ıdo um ciclo, volta-se para o passo 2 e se inicia um novo ciclo.

O n´umero de ciclos ´e especificado pelo pesquisador e cada imputa¸c˜ao ´e atualizada

em um novo ciclo. Cada ciclo corresponde a um banco de dados diferente.

Azur [10] diz que geralmente, cinco ciclos s˜ao escolhidos, por´em, esse n´umero pode

variar dependendo da quantidade de dados faltantes e vari´aveis presentes no banco de

dados original. O pesquisador pode definir um n´umero fixo de ciclos ou utilizar o padr˜ao

dos Softwares estat´ısticos. Um n´umero muito grande, talvez tamb´em n˜ao seja o indicado,

pois, dependendo do tamanho do modelo de imputa¸c˜ao, criar um ´unico banco de dados

(30)

29

4

An´

alise dos Resultados

Para a an´alise dos resultados foi feita uma simula¸c˜ao no Software R [8] para gerar

trˆes bancos de dados diferentes, cada um com duas vari´aveis: X e Y . Em cada banco

de dados, cada vari´avel possui 500 observa¸c˜oes. Todos os gr´aficos apresentados nesse

trabalho, foram feitos no Software R [8].

Para cada banco foram feitos trˆes sorteios para a vari´avel Y , a fim de selecionar 10%

das observa¸c˜oes para que sejam considerados dados faltantes. Cada um dos trˆes sorteios

seguiu a proposta de cada um dos trˆes mecanismos: MCAR, MAR e MNAR. Em seguida

foram feitas as imputa¸c˜oes dos dados atrav´es da Imputa¸c˜ao Simples (Ingenuo e Regress˜ao)

e Imputa¸c˜ao M´ultipla (MICE [1]).

A seguir veremos como foram selecionadas as linhas para as quais Y ser´a considerado

faltante em cada um dos trˆes mecanismos.

• MCAR: Sorteia-se 50 linhas do banco de dados.

• MAR: Sorteia-se 50 linhas do banco de dados tais que Xi < ¯X (ou Xi < mediana

de X para o banco 3)

• MNAR: Sorteia-se 50 linhas do banco de dados tais que Xi < ¯X (ou Xi < mediana

de X para o banco 3) e Yi < ¯Y (ou Yi = 0 para o banco 3)

Retomando aos poss´ıveis exemplos que poder´ıamos nos deparar no dia a dia citados

da Se¸c˜ao 3.1, temos para o banco 1:

• MCAR: Devido a falhas t´ecnicas do laborat´orio algumas amostras da substˆancias

Y1 foram consideradas impr´oprias para a an´alise.

• MAR: Por motivo desconhecido alguns indiv´ıduos que possuem baixa taxa da substˆancia

(31)

4 An´alise dos Resultados 30

• Tentando contornar o problema anterior, o Laborat´orio utilizou outro m´etodo para

a extra¸c˜ao das amostras das substˆancias X1 e Y1. Por´em, sabe-se que por este

m´etodo podem ocorrer problemas na coleta da substˆancia Y1 em indiv´ıduos com

baixas taxas da substˆancia X1 e da pr´opria substˆancia Y1.

Para o banco 2 as poss´ıveis situa¸c˜oes s˜ao:

• MCAR: Durante os experimentos para analisar o comportamento da varia¸c˜ao da

resistˆencia da fibra de metal de acordo com seu comprimento, algumas fibras se

par-tiram durante os testes, impossibilitando a observa¸c˜ao das varia¸c˜oes da resistˆencia.

• MAR: Um Especialista tentando contornar o problema das quebras das fibras propˆos

um teste menos rigoroso. Por´em, ap´os os testes verificou-se a quebra de algumas

fibras, mas todas tinhas comprimento pequeno. Desta forma n˜ao foi poss´ıvel

deter-minar a varia¸c˜ao da resistˆencia dessas fibras.

• MNAR: Um outro Especialista propˆos outra abordagem no intu´ıdo de contornar o

problema encontrado especialista anterior. Por´em, ainda sim observou que algumas

fibras se partiram durante o experimento. Mas observou que as fibras que se

rompe-ram al´em de possuir comprimentos menores, tamb´em haviam varia¸c˜ao de resistˆencia

pequenos ou negativos, segundo experimentos anteriores.

E para o banco 3 temos que:

• MCAR: Algumas pessoas saltaram a pergunta correspondente ao sexo.

• MAR: Pessoas com quantidade mais baixa de sal´ario tinham mais dificuldades em

responder o sexo.

• MNAR: Nesse estudo, mulheres que tinham sal´arios baixos n˜ao responderam as

quest˜oes correspondentes ao sexo e ao sal´ario.

Al´em das imputa¸c˜oes ser˜ao feitas an´alises estat´ısticas para cada um dos bancos, a

fim de comparar os resultados dos bancos imputados com os dos bancos originais. Essa

compara¸c˜ao ser´a feita visualmente, atrav´es de gr´aficos e tamb´em pelas an´alises estat´ısticas

feitas para respectivos bancos. Nas se¸c˜oes a seguir, ser˜ao apresentados os resultados para

(32)

4.1 Resultados Para o Banco 1 31

4.1

Resultados Para o Banco 1

Nessa Se¸c˜ao iremos descrever como o banco 1 ficou ap´os a sele¸c˜ao dos 50 valores

para serem faltantes de acordo com os trˆes mecanismos. Para uma melhor visualiza¸c˜ao

de como esses dados ficaram ap´os esses sorteios, foi feito o gr´afico da Figura 4, onde as

observa¸c˜oes mantidas est˜ao em azul claro e as que foram sorteadas para serem faltantes

est˜ao em vermelho.

Para o mecanismo MAR observamos que os valores faltantes est˜ao abaixo de ¯X1 =

1, 97. Para o mecanismo MNAR vemos que as observa¸c˜oes selecionadas est˜ao ainda mais

restritas por conta da dependˆencia tamb´em de Y1.

0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 X1 Y1

Banco Completo 1 - MCAR

(a) MCAR 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco Completo 1 - MAR

(b) MAR 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco Completo 1 - MNAR

(c) MNAR

Figura 4: Banco 1 Completo com 10% Sorteados Para Serem Faltantes

Al´em disso, foram criados os gr´aficos apresentados na Figura 5, criado com o aux´ılio

dos pacotes chron [11] e VIM [12] no Software R [8]. Os gr´aficos mostram como o banco

ficou sem os dados selecionados para serem faltantes e como ´e a distribui¸c˜ao dos dados

faltantes em cada banco. Os gr´aficos da Figura 5 nos dizem que os 50 (escrito em vermelho)

valores retirados pertenciam a vari´avel Y1. O valor 0 em vermelho escuro, diz que n˜ao tem

nenhuma linha em que estejam faltando dados em ambas vari´aveis, X1 e Y1, ao mesmo

(33)

4.1 Resultados Para o Banco 1 32

boxplots em azul s˜ao para os dados observados em X1 e em Y1 e em vermelho o boxplot

para os dados faltantes. ´E claro como essas observa¸c˜oes s˜ao diferentes para cada tipo de

mecanismo. Para o MCAR, por exemplo, observa-se alguns outliers.

50 0 0 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 X1 Y1

Banco 1 - Dados Observados e Faltantes - MCAR

(a) MCAR 50 0 0 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco 1 - Dados Observados e Faltantes - MAR

(b) MAR 50 0 0 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco 1 - Dados Observados e Faltantes - MNAR

(c) MNAR

Figura 5: Banco 1 - Dados Observados e Faltantes

As an´alises que ser˜ao feitas para o banco 1 s˜ao encontrar um intervalo de confian¸ca

para a m´edia de Y1 e um teste para as hip´oteses:

(

H0 : µY1 = 0

H1 : µY1 6= 0

4.1.1

Imputa¸

ao de Dados

Ap´os a imputa¸c˜ao dos dados faltantes pelos trˆes m´etodos j´a citados, foi calculado o

Erro M´edio Quadr´atico (EQM), que podemos descrever da seguinte maneira:

Seja yi o valor real (original) de uma vari´avel y em um banco de dados e ˆyi o valor do

dado faltante j´a preenchido por algum m´etodo de Imputa¸c˜ao, ent˜ao

n P i=1

(yi − ˆyi)2

n ,

(34)

4.1 Resultados Para o Banco 1 33

Dessa maneira, ´e poss´ıvel verificar qual dos m´etodos de Imputa¸c˜ao apresenta o menor

erro. Quanto menor o erro, mais pr´oximo do banco original o novo banco gerado pela

imputa¸c˜ao ´e. Para o m´etodo MICE, foi calculado o EQM para todas as cinco itera¸c˜oes.

Pode-se observar esses valores na Tabela 2, onde encontramos o menor EQM para o

m´etodo de Imputa¸c˜ao Simples, Ingˆenuo, em todos os trˆes mecanismos.

Tabela 2: Erro Quadr´atico M´edio para o Banco 1

M´etodo de Imputa¸c˜ao MCAR MAR MNAR

Ingˆenuo 1,2764 1,0436 1,0478 Regress˜ao Linear 1, 2773 1, 0445 1, 1579 MICE 1 2, 5189 4, 6234 2, 4287 MICE 2 3, 0071 2, 0704 4, 1688 MICE 3 2, 8301 1, 7227 3, 2005 MICE 4 3, 0682 3, 9125 4, 9232 MICE 5 2, 9881 4, 741 3, 0443

Por´em, olhar para o EQM n˜ao ´e a ´unica maneira e nem ´e suficiente para dizer qual

m´etodo ´e o mais eficiente. Por isso, outra t´ecnica utilizada para observar a eficiˆencia de

cada m´etodo ´e atrav´es de an´alises de gr´aficos.

Ap´os a imputa¸c˜ao feita atrav´es do M´etodo Ingˆenuo para o banco 1, observa-se que a

m´edia da vari´avel Y1 est´a em torno de zero. Na Figura 6 as observa¸c˜oes em azul claro s˜ao

as do banco original, em vermelho s˜ao os dados faltantes e as em azul escuro s˜ao os dados

imputados pela m´edia. Nestas mesmas figuras, vemos que os valores imputados n˜ao s˜ao

pr´oximos aos faltantes reais.

Para a imputa¸c˜ao atrav´es da Regress˜ao Linear, temos os seguintes gr´aficos

represen-tados na Figura 7. Para o banco 1, onde as vari´aveis aleat´orias s˜ao independentes, a

Regress˜ao Linear n˜ao funciona muito bem. Isso acontece devido ao fato de que o β n˜ao ´e

significativo, o que significa que o intervalo de confian¸ca de β cont´em o valor 0. Por´em,

se exclu´ıssemos esse β, as retas seriam exatamente iguais `as retas imputadas a partir da

m´edia. Vemos um pouco de inclina¸c˜ao negativa quando o mecanismo foi MNAR.

Para o MICE, utilizamos o padr˜ao de m = 5, que representa o n´umero de bancos

de dados gerados, ou seja, o n´umero de imputa¸c˜ao feita para cada vari´avel e o m´etodo

utilizado dentro do MICE foi o PMM.

Para a Figura 8 foi necess´aria a utiliza¸c˜ao do pacote lattice [13], al´em do mice [1]. Na

Figura 8 temos para cada um dos bancos com dados faltantes, as suas respectivas cinco

(35)

4.1 Resultados Para o Banco 1 34 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco 1 - Dados Imputados pela Média - MCAR

(a) MCAR 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco 1 - Dados Imputados pela Média - MAR

(b) MAR 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco 1 - Dados Imputados pela Média - MNAR

(c) MNAR

Figura 6: Banco 1 - Dados Imputados pela M´edia

0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco 1 - Dados Imputados pela Regressão Linear - MCAR

(a) MCAR 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco 1 - Dados Imputados pela Regressão Linear - MAR

(b) MAR 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco 1 - Dados Imputados pela Regressão Linear - MNAR

(c) MNAR

(36)

4.1 Resultados Para o Banco 1 35

O primeiro gr´afico, sem as imputa¸c˜oes, ´e a representa¸c˜ao dos bancos com os dados faltantes

antes de inicializar as imputa¸c˜oes.

X1 Y1 -3 -2 -1 0 1 2 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 -3 -2 -1 0 1 2 5 (a) MCAR X1 Y1 -3 -2 -1 0 1 2 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 -3 -2 -1 0 1 2 5 (b) MAR X1 Y1 -2 0 2 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 -2 0 2 5 (c) MNAR

Figura 8: Banco 1 - Itera¸c˜oes Geradas pelo MICE

Podemos observar melhor essas imputa¸c˜oes nos gr´aficos da Figura 9 onde em

verme-lho s˜ao os dados faltantes, por´em conhecidos, e em azul escuro, s˜ao os valores imputados.

Como o MICE gera 5 bancos diferentes, para os mecanismos MCAR e MNAR foram

esco-lhidos o banco da primeira itera¸c˜ao para fazer essa representatividade e para o mecanismo

MAR foi escolhido a terceira itera¸c˜ao. Essa escolha foi baseada no menor EQM, vistas

na Tabela 2.

4.1.2

An´

alise Estat´ıstica

Ap´os as imputa¸c˜oes feitas, foram feitas as an´alises j´a citadas no in´ıcio da Se¸c˜ao 4.1.

Os resultados dessas an´alises encontram-se nas Tabelas 3, 4 e 5.

Podemos observar pela Tabela 5 que, para o mecanismo MNAR, todos os m´etodos

de imputa¸c˜ao tiveram um resultado n˜ao muito bom. Isso pode ser conclu´ıdo quando

comparados os p-valores do banco original com os p-valores dos demais bancos.

(37)

4.1 Resultados Para o Banco 1 36 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco 1 - Dados Imputados pelo MICE - MCAR

(a) MCAR - 1a Itera¸c˜ao

0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco 1 - Dados Imputados pelo MICE - MAR

(b) MAR - 3a Itera¸ao 0 1 2 3 4 5 6 7 -3 -2 -1 0 1 2 3 X1 Y1

Banco 1 - Dados Imputados pelo MICE - MNAR

(c) MNAR - 1a Itera¸c˜ao

Figura 9: Banco 1 - Dados Imputados pelo MICE

Tabela 3: An´alises Para o Banco 1 - MCAR

Ingˆenuo Regress˜ao Linear MICE Banco Original

IC(95%) [-0,1387; 0,0312] [−0, 1388; 0, 0311] [−0, 1426; 0, 0819] [−0, 1451; 0, 0361]

p-valor (T. de Wald) 0,2142 0, 2134 0, 1011 0, 2375

Tabela 4: An´alises Para o Banco 1 - MAR

Ingˆenuo Regress˜ao Linear MICE Banco Original

IC(95%) [-0,1324; 0,0396] [−0, 1320; 0, 0400] [−0, 1697; 0, 0866] [−0, 1451; 0, 0361]

p-valor (T. de Wald) 0,29 0, 294 0, 5104 0, 2375

Tabela 5: An´alises Para o Banco 1 - MNAR

Ingˆenuo Regress˜ao Linear MICE Banco Original

IC95%) [−0, 0586; 0, 1140] [−0, 0526; 0, 1200] [-0,0803; 0,1914] [−0, 1451; 0, 0361]

(38)

4.2 Resultados Para o Banco 2 37

3 e 4, os resultados obtidos pelos m´etodos Ingˆenuo e Regress˜ao Linear foram razoavelmente

pr´oximos aos resultados do Banco Original, o que mostra um bom desempenho desses dois

m´etodos de imputa¸c˜ao. Al´em disso, esses dois m´etodos de imputa¸c˜ao tiveram resultados

muito pr´oximos um do outro. O que ´e razo´avel, pois pela independˆencia entre as vari´aveis

X1 e Y1 o modelo ajustado pela Regress˜ao Linear deve ser tal que ˆβ1 ≈ 0 e ˆβ0 ≈ ¯Y1. Com

isso as previs˜oes de Y1 pelo modelo de Regress˜ao Linear ficam muito pr´oximo de ¯Y1, que

´e exatamente o m´etodo Ingˆenuo.

Analisando as Tabelas 3, 4 e 5 percebemos que o m´etodo de imputa¸c˜ao MICE n˜ao teve

bom desempenho para nenhum dos trˆes mecanismos. Mesmo para o mecanismo MAR,

para o qual o MICE foi desenvolvido, pois obteve o pior resultado quando analisado os p-valores (para o MNAR, ele teve o melhor p-valor, mas ainda assim, muito ruim, como

dito anteriormente). Provavelmente isso ´e justificado pela independˆencia das vari´aveis

aleat´orias X1 e Y1.

4.2

Resultados Para o Banco 2

Nessa Se¸c˜ao iremos descrever como o banco 2 ficou ap´os a sele¸c˜ao dos 50 valores para

serem faltantes de acordo com os trˆes mecanismos. Para uma melhor visualiza¸c˜ao de

como esses dados ficaram ap´os esses sorteios, foram feitos os gr´aficos da Figura 10, onde

as observa¸c˜oes mantidas est˜ao em azul claro e as que foram sorteadas para serem faltantes

(39)

4.2 Resultados Para o Banco 2 38 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

Banco Completo 2 - MCAR

(a) MCAR 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

Banco Completo 2 - MAR

(b) MAR 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

Banco Completo 2 - MNAR

(c) MNAR

Figura 10: Banco 2 Completo com 10% Sorteados Para Serem Faltantes

Os gr´aficos da Figura 11 nos dizem que os 50 (em vermelho) valores retirados

perten-ciam a vari´avel Y2. O valor 0 em vermelho escuro, diz que n˜ao tem nenhuma linha em que

estejam faltando dados em ambas vari´aveis X2 e Y2, ao mesmo tempo. E o outro valor

0 em vermelho, diz que n˜ao existe dados faltantes em X2. Os boxplots em azul s˜ao para

os dados observados em X2 e em Y2, em vermelho o boxplot para os dados faltantes. ´E

claro como essas observa¸c˜oes faltantes s˜ao diferentes para cada tipo de mecanismo. Para

o MCAR, por exemplo, observa-se alguns outliers.

A an´alise escolhida para ser realizada no banco 2 foi ajustar um modelo de Regress˜ao

Linear para as vari´aveis X2 e Y2. Como resultado dessa regress˜ao vamos comparar as

estimativas para β0 e β1 e seus respectivos desvio-padr˜ao, p−valor para o teste Wald para

cada coeficiente e o R2 da regress˜ao.

4.2.1

Imputa¸

ao de Dados

Para o banco 2 tamb´em foi calculado o Erro Quadr´atico M´edio para os trˆes m´etodos

de imputa¸c˜ao, para cada um dos trˆes mecanismos. Pode-se observar esses valores na

(40)

4.2 Resultados Para o Banco 2 39 50 0 0 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

Banco 2 - Dados Observados e Faltantes - MCAR

(a) MCAR 50 0 0 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

Banco 2 - Dados Observados e Faltantes - MAR

(b) MAR 50 0 0 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

Banco 2 - Dados Observados e Faltantes - MNAR

(c) MNAR

Figura 11: Banco 2 - Dados Observados e Faltantes

mecanismos: MCAR, MAR e MNAR. A justificativa para isso ´e que como os dados vˆem

de uma Regress˜ao Linear, o modelo de Regress˜ao Linear ´e uma maneira eficiente para

estimar Y2 dado X2.

Tabela 6: Erro Quadr´atico M´edio Para o Banco 2

M´etodo de Imputa¸c˜ao MCAR MAR MNAR

Ingˆenuo 2, 3443 1, 8209 2.3147 Regress˜ao Linear 1,2773 1,0445 0,7385 MICE 1 2, 5259 2, 0107 1, 2704 MICE 2 2, 0584 2, 3725 1, 7423 MICE 3 1, 6734 2, 206 1, 6918 MICE 4 2, 1175 1, 8691 1, 9538 MICE 5 2, 3829 2, 098 1, 6247

Agora, utilizando a t´ecnica de observa¸c˜oes dos gr´aficos dos dados imputados, obtemos

os resultados que se seguem. Ap´os a imputa¸c˜ao feita atrav´es da m´edia para o banco 2,

observa-se que a m´edia da vari´avel Y2 est´a em torno de dois. Como s˜ao apenas 10% dos

valores escolhidos para serem faltantes, n˜ao vemos grande varia¸c˜ao entre as m´edias de Y2

(41)

4.2 Resultados Para o Banco 2 40

Na Figura 12 as observa¸c˜oes em azul claro, s˜ao as do banco original, em vermelho s˜ao

os dados faltantes, por´em conhecidos e as em azul escuro s˜ao os dados imputados pela

m´edia. Nestas mesmas figuras, vemos que os valores imputados n˜ao s˜ao muito pr´oximos

aos reais em nenhum dos trˆes mecanismos.

0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

Banco 2 - Dados Imputados pela Média - MCAR

(a) MCAR 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

Banco 2 - Dados Imputados pela Média - MAR

(b) MAR 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

Banco 2 - Dados Imputados pela Média - MNAR

(c) MNAR

Figura 12: Banco 2 - Dados Imputados pela M´edia

Para a imputa¸c˜ao atrav´es da Regress˜ao Linear, temos os gr´aficos representados na

Figura 13. Enquanto para o banco 1, a regress˜ao n˜ao funcionou muito bem, para o banco

2, onde as duas vari´aveis s˜ao definidas por uma Regress˜ao Linear, observa-se uma reta

(42)

4.2 Resultados Para o Banco 2 41 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

Banco 2 - Dados Imputados pela Regressão Linear - MCAR

(a) MCAR 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

Banco 2 - Dados Imputados pela Regressão Linear - MAR

(b) MAR 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

Banco 2 - Dados Imputados pela Regressão Linear - MNAR

(c) MNAR

Figura 13: Banco 2 - Dados Imputados pela Regress˜ao Linear

Assim como no banco 1, para o m´etodo de imputa¸c˜ao m´ultipla, MICE, no banco 2,

tamb´em utilizamos o padr˜ao de m = 5, que representa o n´umero de bancos de dados

gerados, ou seja, o n´umero de imputa¸c˜ao feita para cada vari´avel e o m´etodo utilizado

tamb´em foi o PMM, pois ainda estamos tratando de vari´aveis cont´ınuas.

Na Figura 14 temos para cada um dos bancos com dados faltantes, as suas respectivas

cinco itera¸c˜oes. Assim, em azul claro s˜ao os dados observados e em azul escuro, as

imputa¸c˜oes. O primeiro gr´afico, sem as imputa¸c˜oes, ´e a representa¸c˜ao dos bancos com os

dados faltantes antes de inicializar as imputa¸c˜oes.

Podemos observar melhor essas imputa¸c˜oes na Figura 15 onde em vermelho s˜ao os

dados faltantes, por´em conhecidos, e em azul escuro, s˜ao os valores imputados. Como

o MICE gera 5 bancos diferentes, para os mecanismos MCAR, MAR e MNAR foram

escolhidos respectivamente os bancos da terceira, quarta e primeira itera¸c˜ao para fazer

essa representatividade. Essa escolha foi baseada no menor EQM, vistas na Tabela 6.

Observa-se que a imputa¸c˜ao realizada pelo MICE apresenta valores bem espalhados,

(43)

4.2 Resultados Para o Banco 2 42 X2 Y2 -2 0 2 4 6 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 -2 0 2 4 6 5 (a) MCAR X2 Y2 -2 0 2 4 6 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 -2 0 2 4 6 5 (b) MAR X2 Y2 -2 0 2 4 6 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 -2 0 2 4 6 5 (c) MNAR

Figura 14: Banco 2 - Itera¸c˜oes Geradas pelo MICE

0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

Banco 2 - Dados Imputados pelo MICE - MCAR

(a) MCAR - 3a Itera¸ao

0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

Banco 2 - Dados Imputados pelo MICE - MAR

(b) MAR - 4a Itera¸ao 0 1 2 3 4 5 6 7 -2 0 2 4 6 X2 Y2

Banco 2 - Dados Imputados pelo MICE - MNAR

(c) MNAR - 1a Itera¸ao

(44)

4.2 Resultados Para o Banco 2 43

4.2.2

An´

alise Estat´ıstica

Ap´os as imputa¸c˜oes feitas, foram feitas as an´alises j´a citadas no in´ıcio do Cap´ıtulo 4.

Os resultados dessas an´alises encontram-se nas Tabelas 7, 8 e 9.

Tabela 7: An´alises Para o Banco 2 - MCAR

Ingˆenuo Regress˜ao Linear MICE Banco Original

ˆ β0 0, 1836 -0,0701 −0, 0745 −0, 0579 ˆ β1 0, 8856 1,0082 1, 0113 1, 0017 Desvio Padr˜ao ( ˆβ0) 0,1026 0, 0973 0, 1064 0, 1038 Desvio Padr˜ao ( ˆβ1) 0,0465 0, 0441 0, 0494 0, 047 p-valor ( ˆβ0) 0, 0742 0, 4713 0,4843 0, 5768 p-valor ( ˆβ1) < 0, 0001 < 0, 0001 < 0, 0001 < 0, 0001 R2 0, 4215 0, 5123 0,4895 0, 477

Tabela 8: An´alises Para o Banco 2 - MAR

Ingˆenuo Regress˜ao Linear MICE Banco Original

ˆ β0 0, 1519 −0, 0347 -0,0444 −0, 0579 ˆ β1 0, 9341 0, 9943 0,9984 1, 0017 Desvio Padr˜ao ( ˆβ0) 0,1013 0, 0985 0, 1148 0, 1038 Desvio Padr˜ao ( ˆβ1) 0,0459 0, 0446 0, 0497 0, 047 p-valor ( ˆβ0) 0, 1343 0, 7249 0,6996 0, 5768 p-valor ( ˆβ1) < 0, 0001 < 0, 0001 < 0, 0001 < 0, 0001 R2 0, 4543 0, 4991 0,4772 0, 477

Tabela 9: An´alises Para o Banco 2 - MNAR

Ingˆenuo Regress˜ao Linear MICE Banco Original

ˆ β0 0, 3058 0, 0724 0,0405 −0, 0579 ˆ β1 0, 8858 0, 9641 0,9775 1, 0017 Desvio Padr˜ao ( ˆβ0) 0,1036 0, 1003 0, 1196 0, 1038 Desvio Padr˜ao ( ˆβ1) 0,047 0, 0454 0, 051 0, 047 p-valor ( ˆβ0) 0, 0033 0,4707 0, 7359 0, 5768 p-valor ( ˆβ1) < 0, 0001 < 0, 0001 < 0, 0001 < 0, 0001 R2 0, 4168 0,4748 0, 4573 0, 477

Observando as Tabelas 7, 8 e 9, vemos que o m´etodo Ingˆenuo teve o pior resultado.

(45)

4.3 Resultados Para o Banco 3 44

mecanismos esse p-valor foi muito pequeno para o m´etodo Ingˆenuo, quando comparado

com o p-valor do banco original.

Os resultados obtidos para os m´etodos de Regress˜ao Linear e MICE foram bem

pa-recidos entre eles. Ambos os m´etodos de imputa¸c˜ao tiveram bons resultados. Vale o

destaque para o MICE quando o mecanismo usado foi MAR.

Vale ressaltar que, com a exce¸c˜ao do m´etodo Ingˆenuo, os resultados da an´alise

es-tat´ıstica s˜ao bem semelhantes quando comparados os resultados do banco original com os

outros dois m´etodos de imputa¸c˜ao.

4.3

Resultados Para o Banco 3

Nessa Se¸c˜ao iremos descrever como o banco 3 ficou ap´os a sele¸c˜ao dos 50 valores para

serem faltantes de acordo com os trˆes mecanismos. Para uma melhor visualiza¸c˜ao de como

esses dados ficaram ap´os esses sorteios,, foram feitos os gr´aficos da Figura 16 abaixo, onde

as observa¸c˜oes mantidas est˜ao em azul claro e as que foram sorteadas para serem faltantes

est˜ao em vermelho. 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3

Banco Completo 3 - MCAR

(a) MCAR 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3

Banco Completo 3 - MAR

(b) MAR 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3

Banco Completo 3 - MNAR

(c) MNAR

(46)

4.3 Resultados Para o Banco 3 45

A Figura 17 nos diz que os 50 (em vermelho) valores retirados pertenciam a vari´avel

Y3. O valor 0 em vermelho escuro, diz que n˜ao tem nenhuma linha em que estejam faltando

dados em ambas vari´aveis X3 e Y3, ao mesmo tempo. E o outro valor 0 em vermelho, diz

que n˜ao existe dados faltantes em X3.

50 0 0 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3

Banco 3 - Dados Observados e Faltantes - MCAR

(a) MCAR 50 0 0 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3

Banco 3 - Dados Observados e Faltantes - MAR

(b) MAR 50 0 0 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3

Banco 3 - Dados Observados e Faltantes - MNAR

(c) MNAR

Figura 17: Banco 3 - Dados Observados e Faltantes

A an´alise feita para o banco 3 foi ajustar um modelo de Regress˜ao Log´ıstica para

as vari´aveis X3 e Y3. Como resultado vamos comparar as estimativas para β0 e β1 seus

respectivos desvios-padr˜oes, os p-valores e Intervalos de Confian¸ca.

4.3.1

Imputa¸

ao de Dados

Quando os dados s˜ao bin´arios, n˜ao faz sentido calcular o EQM, como foi calculado

para os bancos 1 e 2. Por isso, ap´os a imputa¸c˜ao dos dados faltantes pelos trˆes m´etodos j´a

citados, foram encontradas a Sensibilidade (S) e a Especificidade (E) para cada m´etodo,

a fim de verificar qual dos m´etodos apresenta melhor ajuste. Para o m´etodo MICE, foram

(47)

4.3 Resultados Para o Banco 3 46

O ponto de corte escolhido foi de 0, 5, ent˜ao temos que:

(

Se πˆi ≥ 0, 5, Yˆ3i = 1

Se πˆi < 0, 5, Yˆ3i = 0

(4.1)

Tabela 10: Tabela de Sensibilidade e Especificidade Para o Banco 3

MCAR MAR MNAR

M´etodo de Imputa¸c˜ao S E S E S E Ingˆenuo 1 0 1 0 0 0 Regress˜ao Log´ıstica 0, 82 0, 73 0 1 − 1 MICE 1 0, 86 0, 67 0, 33 0, 89 − 0, 8 MICE 2 0, 79 0, 68 0, 33 0, 91 − 0, 86 MICE 3 0, 82 0, 73 0, 17 0, 82 − 0, 88 MICE 4 0, 93 0, 67 0, 5 0, 84 − 0, 84 MICE 5 0, 79 0, 59 0, 33 0, 89 − 0, 86

Os valores em “-”s˜ao indeterminados, ou seja, o numerador e o denominador s˜ao zero.

Vemos ent˜ao, na Tabela 10 que os mecanismos MAR e MNAR possuem alta

especi-ficidade para os m´etodos de Regress˜ao Log´ıstica e MICE. Enquanto para o mecanismo

MCAR, ele possui maior sensibilidade nos trˆes m´etodos de Imputa¸c˜ao.

Agora, utilizando a t´ecnica de observa¸c˜oes dos gr´aficos dos dados imputados, obtemos

os resultados que se seguem para a imputa¸c˜ao atrav´es da moda para o banco 3, nos

mecanismos MCAR, MAR e MNAR. Na Figura 18 as observa¸c˜oes em azul claro, s˜ao

as do banco original, em vermelho s˜ao os dados faltantes e as em azul escuro s˜ao os

dados imputados pela moda. Nesta mesma figura, vemos que os valores imputados n˜ao

s˜ao pr´oximos aos reais. Como a moda foi 0, para todos os trˆes mecanismos, os valores

imputados para os trˆes foi sempre o mesmo, causando um erro grotesco, principalmente

quando o mecanismo eram MAR e MNAR.

Para a imputa¸c˜ao atrav´es da Regress˜ao Log´ıstica, temos os seguintes gr´aficos

repre-sentados na figura 19. Observamos que ´e um m´etodo bastante eficiente quando escolhemos

um ponto de corte de 0, 5, j´a explicado na equa¸c˜ao 4.1. O mecanismo MNAR obteve o

melhor resultado, dentre os trˆes mecanismos, onde conseguiu prever todos os 50 valores

de maneira correta. O pior dos trˆes foi o MCAR, mas que tamb´em n˜ao deixou muito a

desejar, pois acertou 39 de 50. Ent˜ao, vemos que o modelo encontrado para cada um dos

(48)

4.3 Resultados Para o Banco 3 47 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3

Banco 3 - Dados Imputados pela Moda - MCAR

(a) MCAR 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3

Banco 3 - Dados Imputados pela Moda - MAR

(b) MAR 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3

Banco 3 - Dados Imputados pela Moda - MNAR

(c) MNAR

Figura 18: Banco 3 - Dados Imputados pela Moda

0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3

Banco 3 - Dados Imputados pela Regressão Logística - MCAR

(a) MCAR 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3

Banco 3 - Dados Imputados pela Regressão Logística - MAR

(b) MAR 0 1 2 3 4 5 6 7 0.0 0.2 0.4 0.6 0.8 1.0 X3 Y3

Banco 3 - Dados Imputados pela Regressão Logística - MNAR

(c) MNAR

(49)

4.3 Resultados Para o Banco 3 48

Para o m´etodo de imputa¸c˜ao m´ultipla, MICE, no banco 3, utilizamos o padr˜ao de

m = 5, que representa o n´umero de bancos de dados gerados, ou seja, o n´umero de

imputa¸c˜ao feita para cada vari´avel e o m´etodo utilizado foi o logreg, pois Y3 ´e uma

vari´avel bin´aria. Na figura 20 temos para cada um dos bancos com dados faltantes, as

suas respectivas cinco itera¸c˜oes. Assim, em azul claro s˜ao os dados observados e em azul

escuro, as imputa¸c˜oes. O primeiro gr´afico, sem as imputa¸c˜oes, ´e a representa¸c˜ao dos

bancos com os dados faltantes antes de inicializar as imputa¸c˜oes.

X3 Y3 0 1 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 0 1 5 (a) MCAR X3 Y3 0 1 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 0 1 5 (b) MAR X3 Y3 0 1 0 0 2 4 6 1 2 0 2 4 6 3 4 0 2 4 6 0 1 5 (c) MNAR

Figura 20: Banco 3 - Itera¸c˜oes Geradas pelo MICE

Podemos comparar melhor os dados imputados com os dados faltantes na Figura 21

onde em vermelho s˜ao os dados faltantes, por´em conhecidos, e em azul escuro, s˜ao os

valores imputados. Como o MICE gera 5 bancos diferentes, para os trˆes mecanismos

MCAR, MAR e MNAR foram escolhidos o banco da quarta, segunda e terceira itera¸c˜ao,

respectivamente para fazer essa representatividade, pois foram os que apresentaram mais acertos segundo a Tabela 10.

Referências

Documentos relacionados

Para reverter essa situa~ão, o setor tel que se tornar aais eficiente e versátil no trata.ento dos recursos florestais.. Pelas suas características tecnológicas, as quais perlitel

São por demais conhecidas as dificuldades de se incorporar a Amazônia à dinâmica de desenvolvimento nacional, ora por culpa do modelo estabelecido, ora pela falta de tecnologia ou

No final, os EUA viram a maioria das questões que tinham de ser resolvidas no sentido da criação de um tribunal que lhe fosse aceitável serem estabelecidas em sentido oposto, pelo

Taking into account the theoretical framework we have presented as relevant for understanding the organization, expression and social impact of these civic movements, grounded on

Outra surpresa fica por conta do registro sonoro: se num primeiro momento o som da narração do filme sobre pôquer, que se sobrepõe aos outros ruídos da trilha, sugere o ponto de

Neste tipo de situações, os valores da propriedade cuisine da classe Restaurant deixam de ser apenas “valores” sem semântica a apresentar (possivelmente) numa caixa

Mestrado em Administração e Gestão Pública, começo por fazer uma breve apresentação histórica do surgimento de estruturas da Administração Central com competências em matéria

Posteriormente, em Junho de 1999, ingressei no grupo Efacec, onde fui responsável pela elaboração de projetos e propostas para a construção de Estações de Tratamento