• Nenhum resultado encontrado

Modelo de regressão linear mistura de escala normal com ponto de mudança : estimação e diagnóstico

N/A
N/A
Protected

Academic year: 2021

Share "Modelo de regressão linear mistura de escala normal com ponto de mudança : estimação e diagnóstico"

Copied!
160
0
0

Texto

(1)

Modelo de Regressão Linear Mistura de Es ala

Normal om Ponto de Mudança: Estimação e

Diagnósti o

CAMPINAS

(2)
(3)

Instituto de Matemáti a, Estatísti a

e Computação Cientí a

Carlos Alberto Huaira Contreras

Modelo de Regressão Linear Mistura de Es ala

Normal om Ponto de Mudança: Estimação e

Diagnósti o

Dissertaçãoapresentada aoInstitutode

Matemá-ti a,Estatísti aeComputaçãoCientí ada

Uni-versidade Estadual de Campinas omo partedos

requisitos exigidos para a obtenção do título de

Mestre emEstatísti a.

Orientador Prof. Dr. Filidor Edilfonso Vil aLabra

Esteexemplar orrespondeáversãofinalda

dis-sertação defendida pelo aluno Carlos Alberto

Huaira Contreras, e orientada pelo Prof. Dr.

Filidor Edilfonso Vil a Labra.

Assinatura do Orientador

Campinas

(4)
(5)
(6)
(7)

Linear models are widely used in statisti s to des ribe the relationship between a response

variableandoneormoreexplanatoryvariables,whereusuallyitisassumedtheerrorsarenormally

distributed. Moreover, inlinearregression modelisassumed that the samelinear modelholds for

the wholedata set, but this isnot always valid. The modelmay hangeaftera spe i point, and

so alinear model with a hange point would be appropriatefor data set.

The main obje tive of work is to study some aspe t of estimation and analysis of diagnosti s in

the regression linear with hange point model under s ale mixture of normal distributions. The

analysis of diagnosti s is based on the works of Cook (1986) and Zhu

&

Lee (2001). The results obtained represent a extension of some results obtained in the literature; see for example Chen

(1998) and Osorio

&

Galea (2006). Finally, simulation studies are investigated through Monte Carlo simulationsand numeri alexamplesare presented to illustratethe proposed results.

Keywords: EM Algorithm; Mahalanobis Distan e; S ale Mixtures of Normal Distributions;

Lo al Inuen e; Linear Models; Change Point.

Resumo

Modelos lineares são frequentemente usados em estatísti a para des rever a relação entre uma

variável resposta e uma ou mais variáveis expli ativas, onde geralmente os erros são assumidos

omo normalmente distribuídos. Além disso, em modelos de regressão linear assume-se que o

mesmo modelo linear é válido para todo o onjunto de dados. O modelo pode mudar após um

pontoespe í o eassim um modelolinear omum pontode mudançapoderáser apropriado para

o onjunto de dados.

Oprin ipalobjetivodestetrabalhoéestudaralgunsaspe tosdeestimaçãoeanálisedediagnósti o

em modelos de regressão linear om ponto de mudança sob distribuições de mistura de es ala

normal. A análise de diagnósti o é baseada nos trabalhos de Cook (1986) e Zhu

&

Lee (2001). Osresultados obtidosrepresentam uma extensão de algunsresultados apresentados naliteratura,

verporexemplo Chen (1998)e Osorio

&

Galea (2006). Finalmente, estudos de simulação através de simulaçõesMonte Carlo são realizados e exemplos numéri ossão apresentados para ilustraros

resultados propostos.

Palavras- have: Algoritmo EM; Distân ia de Mahalanobis; Distribuições Mistura de Es ala

(8)
(9)

1 Introdução 1

1.1 Motivação . . . 2

1.2 Objetivodo Trabalho . . . 3

1.3 Organizaçãodo Trabalho . . . 4

2 Prin ipais Con eitos 5 2.1 Modelo de Regressão om Ponto de Mudança . . . 5

2.1.1 OProblema de Ponto de Mudança . . . 5

2.1.2 Modelo de Regressão Linear Normal om Ponto de Mudança . . . 7

2.1.3 Modelo de Regressão Linear t de Student om Ponto de Mudança . . . 9

2.2 OAlgoritmo EM . . . 10

2.3 UmExemplo em Regressão Linear Simples . . . 13

2.4 Distribuições de Mistura de Es ala Normal . . . 17

2.4.1 Denição eNotação. . . 17

2.4.2 Representação Esto ásti a . . . 17

2.4.3 Propriedades . . . 18

2.4.4 Algumas DistribuiçõesEspe i as . . . 19

3 Modelosde RegressãoLinearMisturade Es alaNormal omPontodeMudança 23 3.1 Modelo de Regressão Linear . . . 24

3.2 Funçãode Verossimilhança . . . 24

3.3 Matriz de Informação Observada . . . 25

3.4 Determinação de Ponto de Mudança . . . 27

3.5 Mudançanos Coe ientes de Regressão . . . 28

3.5.1 Espe i ação doModelo . . . 28 3.5.2 Derivadas Par iaisde

ℓ(θ)

. . . 29 3.5.3 OAlgoritmo EM . . . 30 3.5.4 Estudos de Simulação . . . 33 3.6 Mudançana Variân ia . . . 42 3.6.1 Espe i ação doModelo . . . 42 3.6.2 Derivadas Par iaisde

ℓ(θ)

. . . 43 3.6.3 OAlgoritmo EM . . . 44

(10)

3.6.4 Estudos de Simulação . . . 47

3.7 Mudançanos Coe ientes de Regressão e Variân ia . . . 56

3.7.1 Espe i ação doModelo . . . 56

3.7.2 Derivadas Par iaisde

ℓ(θ)

. . . 57

3.7.3 OAlgoritmo EM . . . 58

3.7.4 Estudos de Simulação . . . 61

4 Diagnósti odeInuên iaemmodelosderegressãoMEN ompontodemudança 71 4.1 Diagnósti ode Inuên ia . . . 71

4.2 Inuên iaLo al . . . 72

4.3 Inuên iaLo alem MRL-MEN-PM nos Coe ientes de Regressão . . . 73

4.3.1 Matriz Hessiana . . . 73

4.3.2 Esquemas de Perturbação . . . 74

4.3.3 Estudos de Simulação . . . 76

4.4 Inuên iaLo alem MRL-MEN-PM naVariân ia . . . 85

4.4.1 Matriz Hessiana . . . 85

4.4.2 Esquemas de Perturbação . . . 85

4.4.3 Estudos de Simulação . . . 88

4.5 Inuên iaLo alem MRL-MEN-PM nos Coe ientes de Regressão e Variân ia . . . 90

4.5.1 Matriz Hessiana . . . 90

4.5.2 Esquemas de Perturbação . . . 94

4.5.3 Estudos de Simulação . . . 97

5 Apli ações 103 5.1 Conjunto de Dados Holbert . . . 103

5.2 Conjunto de Dados Ibope . . . 111

6 Considerações Finais 129 6.1 Con lusões . . . 129

6.2 Perspe tivas Para TrabalhosFuturos . . . 130

(11)

Aos meus irmãos Ana Patri ia e Julio.

Á minha esposa Rosália e ao meu lho Gael.

(12)
(13)

Ao professor FilidorVil aLabrapela onança,sugestões, apoioeorientaçãona elaboração deste trabalho.

Á professora Camila Borelli Zeller pela sua onstante olaboração e sugestões para a obtenção dos resultados obtidos.

Ao Departamento de Estatísti aIMECC-UNICAMP pela oportunidadeofere ida.

Ao IBOPE Midia peladisponibilização dos dados utilizadosneste trabalho.

Aminha familia,tantobrasileiraquantoperuana,quede diversasmaneirasmeen orajaram para ompletar esta etapa de vida.

(14)
(15)

2.1 Ajustede modelosde regressão Normale tde Student para dados simulados

onsi-derando diversas suposições. . . 15

2.2 Valores

SIC

dos modelosderegressão NormaletdeStudentajustadossobredados simulados. . . 16

2.3 Diagramapara lassesde distribuiçõesde probabilidade simétri as . . . 18

2.4 Algumas distribuições que ompõem a lasse de Mistura de Es ala Normal (linha

heia) omo alternativaspara

N(−2, 0.5)

,

N(0, 1)

e

N(3, 2)

(linhapontillada). . . . 21 3.1 Frequên ias absolutas das posiçõesdos pontosde mudançaestimados nas amostras

MonteCarlosimuladasnomodelode regressão linear ommudançanos oe ientes

de regressão. . . 39

3.2 Apli açãodo ritério SIC sobre uma amostra MonteCarlo simulada,onde oponto

de mudança estimado é

k = 20

, no modelo de regressão linear om mudança nos oe ientes de regressão. . . 40

3.3 Resultado de simulações sobre otimização do parâmetro

ν

das distribuições t de Student,Slash eNormalContaminadanomodelode regressão linear ommudança

nos oe ientes de regressão. . . 41

3.4 Frequên ias absolutas das posiçõesdos pontosde mudançaestimados nas amostras

MonteCarlo simuladas nomodelo de regressão linear om mudançana variân ia. . 53

3.5 Apli açãodo ritério SIC sobre uma amostra MonteCarlo simulada,onde oponto

de mudança estimado é

k = 20

, no modelo de regressão linear om mudança na variân ia. . . 54

3.6 Resultado de simulações sobre otimização do parâmetro

ν

das distribuições t de Student,Slash eNormalContaminadanomodelode regressão linear ommudança

navariân ia. . . 55

3.7 Frequên ias absolutas das posiçõesdos pontosde mudançaestimados nas amostras

MonteCarlosimuladasnomodelode regressão linear ommudançanos oe ientes

de regressão e variân ia. . . 67

3.8 Apli açãodo ritério SIC sobre uma amostra MonteCarlo simulada,onde oponto

de mudança estimado é

k = 20

, no modelo de regressão linear om mudança nos oe ientes de regressão e variân ia. . . 68

(16)

3.9 Resultado de simulações sobre otimização do parâmetro

ν

das distribuições t de Student,Slash eNormalContaminadanomodelode regressão linear ommudança

nos oe ientes de regressão evariân ia. . . 69

4.1 Mudanças relativas nas estimativas dos parâmetros do modelo de regressão linear

Mistura de Es ala normal om ponto de mudança nos oe ientes de regressão

onsiderandodistribuiçõesNormal,tde Student,SlasheNormalContaminadapara

diferentes valores de ontaminação

naobservação 10. . . 78 4.2 Mudanças relativas nas estimativas dos parâmetros do modelo de regressão linear

Mistura de Es ala normal om ponto de mudança nos oe ientes de regressão

onsiderandodistribuiçõesNormal,tde Student,SlasheNormalContaminadapara

diferentes valores de ontaminação

nas observações 10e 30. . . 79 4.3 Grá o de

M(0)

para perturbação da variável expli ativa no modelo de regressão

linear ommudançanos oe ientes deregressão, onsiderandomar asde referên ia

propostaporLee

&

Xu(2004),onde

c

= 3

eviasimulaçõesMonteCarlosobdiversas

distribuiçõesque onformama lasse de Mistura de Es ala Normal. . . 82

4.4 Grá o de

M(0)

para perturbação da variável resposta no modelo de regressão linear ommudançanos oe ientes deregressão, onsiderandomar asde referên ia

proposta por Lee

&

Xu (2004) onde

c

= 3

e e via simulações Monte Carlo sob

diversas distribuiçõesque onformama lasse de Mistura de Es ala Normal. . . 83

4.5 Mudanças relativas nas estimativas dos parâmetros do modelo de regressão linear

Misturade Es alanormal om pontode mudança navariân ia onsiderando

distri-buiçõesNormal, t de Student,Slash eNormal Contaminadapara diferentes valores

de ontaminação

naobservação 10. . . 89 4.6 Mudanças relativas nas estimativas dos parâmetros do modelo de regressão linear

Misturade Es alanormal om pontode mudança navariân ia onsiderando

distri-buiçõesNormal, t de Student,Slash eNormal Contaminadapara diferentes valores

de ontaminação

nas observações 10e 30. . . 90 4.7 Grá o de

M(0)

para perturbação da variável expli ativa no modelo de regressão

linear om mudança na variân ia, onsiderando mar as de referên ia proposta por

Lee

&

Xu(2004)onde

c

= 3

eviasimulaçõesMonteCarlosobdiversasdistribuições

que onformam a lasse de Mistura de Es ala Normal.. . . 92

4.8 Grá ode

M(0)

paraperturbaçãodavariávelrespostanomodeloderegressãolinear om mudança na variân ia, onsiderando mar as de referên ia proposta por Lee

&

Xu (2004)onde

c

= 3

evia simulaçõesMonte Carlo sob diversas distribuiçõesque

onformama lasse de Mistura de Es ala Normal. . . 93

4.9 Mudanças relativas nas estimativas dos parâmetros do modelo de regressão linear

Mistura de Es ala normal om ponto de mudança nos oe ientes de regressão e

variân ia onsiderando distribuiçõesNormal, t de Student, Slash e Normal

(17)

4.10 Mudanças relativas nas estimativas dos parâmetros do modelo de regressão linear

Mistura de Es ala normal om ponto de mudança nos oe ientes de regressão e

variân ia onsiderando distribuiçõesNormal, t de Student, Slash e Normal

Conta-minadapara diferentes valores de ontaminação

nas observações10 e30. . . 99 4.11 Grá o de

M(0)

para perturbação da variável expli ativa no modelo de regressão

linear om mudança nos oe ientes de regressão e variân ia, onsiderandomar as

de referên ia proposta por Lee

&

Xu (2004) onde

c

= 3

e via simulações Monte

Carlosobdiversas distribuiçõesque onformama lassedeMisturade Es alaNormal.101

4.12 Grá o de

M(0)

para perturbação da variável resposta no modelo de regressão linear om mudança nos oe ientes de regressão e variân ia, onsiderandomar as

de referên ia proposta por Lee

&

Xu (2004) onde

c

= 3

e via simulações Monte

Carlosobdiversas distribuiçõesque onformama lassedeMisturade Es alaNormal.102

5.1 Dados Holbert:

SIC

para ajustes om diversas distribuições. Modelo de regressão om mudançanos oe ientes de regressão. . . 105

5.2 DadosHolbert: Ajuste domodelo de regressão om ponto de mudançanos

oe i-entes de regressão sob distribuição Normal Contaminada. . . 106

5.3 Dados Holbert:

SIC

para ajustes om diversas distribuições. Modelo de regressão om mudançanos oe ientes de regressão e variân ia. . . 107

5.4 Dados Holbert: Distân ia de Mahalanobis para o modelo de regressão om ponto

de mudança nos oe ientes de regressão e variân ia sob distintas distribuições,

onsiderando

ξ = 0.95

. . . 109 5.5 DadosHolbert: Distân iade Mahalanobisversus

q

i

paraomodelode regressão om

pontode mudançanos oe ientes de regressão evariân iasobdistintasdistribuições.109

5.6 Dados Holbert: Grá os

M(0)

onsiderando esquema ponderação de asos na se-gundasituaçãoespe ial para modelosde regressão ompontode mudançanos

oe- ientes de regressão e variân ia sob distintasdistribuições onsideradas. . . 110

5.7 Dados Holbert: Grá os

M(0)

onsiderando esquema perturbação da variável ex-pli ativa na segunda situação espe ial para modelos de regressão om ponto de

mudança nos oe ientes de regressão e variân ia sob distintas distribuições

onsi-deradas. . . 111

5.8 Dados Holbert: Grá os

M(0)

onsiderando esquema perturbação da variável res-postanasegundasituaçãoespe ialparamodelosderegressão ompontodemudança

nos oe ientes de regressão evariân ia sob distintasdistribuições onsideradas. . . 112

5.9 DadosIbope 01: Medições de audiên ia via instrumentosMeter (MET) e Caderno

(CAD)porobservações ordenadas segundo horário de medição.. . . 114

5.10 DadosIbope 01:

SIC

paraajustes om diversas distribuições. Modelo de regressão om mudançanos oe ientes de regressão. . . 115

5.11 DadosIbope 01: Ajustedomodelode regressão om pontode mudançanos

oe i-entes de regressão sob distribuição t de Student. . . 116

5.12 Dados Ibope 01: Distân ia de Mahalanobis para o modelo de regressão om ponto

de mudança nos oe ientes de regressão sob distintas distribuições, onsiderando

(18)

5.13 Dados Ibope 01: Distân ia de Mahalanobis versus

q

i

para o modelo de regressão om ponto de mudança nos oe ientes de regressão sob distintas distribuições. . . . 117

5.14 Dados Ibope 01: Grá os

M(0)

onsiderando esquema ponderação de asos na primeira situação espe ial para modelos de regressão om ponto de mudança nos

oe ientes de regressão sob distintasdistribuições onsideradas. . . 118

5.15 DadosIbope 01: Grá os

M(0)

onsiderando esquema perturbação da variável ex-pli ativa na segunda situação espe ial para modelos de regressão om ponto de

mudançanos oe ientes de regressão sob distintasdistribuições onsideradas. . . . 119

5.16 DadosIbope01: Grá os

M(0)

onsiderandoesquema perturbação davariável res-postanasegundasituaçãoespe ialparamodelosderegressão ompontodemudança

nos oe ientes de regressão sob distintas distribuições onsideradas.. . . 120

5.17 DadosIbope 02: Medições de audiên ia via instrumentosMeter (MET) e Caderno

(CAD)porobservações ordenadas segundo horário de medição.. . . 121

5.18 DadosIbope 02:

SIC

paraajustes om diversas distribuições. Modelo de regressão om mudançana variân ia.. . . 122

5.19 DadosIbope02: Ajustedomodeloderegressão ompontode mudançanavariân ia

sob distribuição tde Student. . . 123

5.20 Dados Ibope 02: Distân ia de Mahalanobis para o modelo de regressão om ponto

de mudança navariân ia sob distintasdistribuições, onsiderando

ξ = 0.95

. . . 124 5.21 Dados Ibope 02: Distân ia de Mahalanobis versus

q

i

para o modelo de regressão

om ponto de mudança navariân ia sob distintasdistribuições. . . 124

5.22 Dados Ibope 02: Grá os

M(0)

onsiderando esquema ponderação de asos na primeira situação espe ial para modelos de regressão om ponto de mudança na

variân iasob distintas distribuições onsideradas. . . 125

5.23 DadosIbope 02: Grá os

M(0)

onsiderando esquema perturbação da variável ex-pli ativa na segunda situação espe ial para modelos de regressão om ponto de

mudançana variân iasob distintas distribuições onsideradas. . . 126

5.24 DadosIbope02: Grá os

M(0)

onsiderandoesquema perturbação davariável res-postanasegundasituaçãoespe ialparamodelosderegressão ompontodemudança

(19)

2.1 Dadossimulados para modelo de regressão linear simples proposto. . . 14

2.2 Quatrodistribuiçõesde Mistura de Es ala Normal univariadas.. . . 19

3.1 Esperanças ondi ionais

q(d

i

)

das distribuiçõesestudadas. . . 32 3.2 Médiase desviospadrão(d.p) das estimativasdos parâmetrosdomodelode

regres-são linear om mudança nos oe ientes de regressão Normal, onsiderando 100 e

1000amostrassimuladasediversos tamanhosde amostra(

n

)eposiçãodopontode mudança(

k

). . . 34 3.3 Médias e desvios padrão (d.p) das estimativas dos parâmetros do modelo de

re-gressão linear om mudança nos oe ientes de regressão t de Student (

ν = 2

), onsiderando100 e 1000 amostras simuladase diversos tamanhos de amostra(

n

)e posição doponto de mudança (

k

). . . 35 3.4 Médiase desviospadrão(d.p) das estimativasdos parâmetrosdomodelode

regres-são linear om mudança nos oe ientes de regressão Slash (

ν = 4

), onsiderando 100 e 1000 amostras simuladas e diversos tamanhos de amostra (

n

) e posição do pontode mudança (

k

). . . 36 3.5 Médias e desvios padrão (d.p) das estimativas dos parâmetros do modelo de

re-gressão linear om mudança nos oe ientes de regressão Normal Contaminada

(

ν = 0.2, γ = 0.3

), onsiderando100 e1000amostrassimuladasediversostamanhos de amostra(

n

) eposição do pontode mudança(

k

). . . 37 3.6 Médiase desviospadrão(d.p) das estimativasdos parâmetrosdomodelode

regres-são linear om mudança na variân ia Normal, onsiderando 100 e 1000 amostras

simuladase diversos tamanhos de amostra(

n

)e posição dopontode mudança(

k

).. 48 3.7 Médias e desvios padrão (d.p) das estimativas dos parâmetros do modelo de

re-gressão linear om mudança navariân ia t de Student (

ν = 2

), onsiderando 100 e 1000amostrassimuladasediversos tamanhosde amostra(

n

)eposiçãodopontode mudança(

k

). . . 49 3.8 Médias e desvios padrão (d.p) das estimativas dos parâmetros do modelo de

re-gressão linear om mudança na variân ia Slash (

ν = 4

), onsiderando 100 e 1000 amostrassimuladase diversos tamanhos de amostra(

n

)e posição dopontode mu-dança (

k

). . . 50

(20)

3.9 Médias e desvios padrão (d.p) das estimativas dos parâmetros do modelo de

re-gressão linear om mudança navariân iaNormal Contaminada (

ν = 0.2, γ = 0.3

), onsiderando100 e 1000 amostras simuladase diversos tamanhos de amostra(

n

)e posição doponto de mudança (

k

). . . 51 3.10 Médiase desviospadrão(d.p) das estimativasdos parâmetrosdomodelode

regres-são linear om mudança nos oe ientes de regressão e variân ia Normal,

onside-rando100 e1000amostrassimuladase diversos tamanhosde amostra(

n

)eposição doponto de mudança(

k

). . . 63 3.11 Médias e desvios padrão (d.p) das estimativas dos parâmetros do modelo de

re-gressão linear om mudança nos oe ientes de regressão e variân ia t de Student

(

ν = 2

), onsiderando100e 1000amostrassimuladasediversos tamanhosde amos-tra(

n

) e posição doponto de mudança (

k

).. . . 64 3.12 Médiase desviospadrão(d.p) das estimativasdos parâmetrosdomodelode

regres-são linear om mudança nos oe ientes de regressão e variân ia Slash (

ν = 4

), onsiderando100 e 1000 amostras simuladase diversos tamanhos de amostra(

n

)e posição doponto de mudança (

k

). . . 65 3.13 Médiase desviospadrão(d.p) das estimativasdos parâmetrosdomodelode

regres-são linear om mudança nos oe ientes de regressão e variân ia Normal

Contami-nada (

ν = 0.2, γ = 0.3

), onsiderando 100 e 1000 amostras simuladas e diversos tamanhos de amostra (

n

) eposiçãodo pontode mudança(

k

). . . 66 4.1 Resultados para diagnósti o de inuên ia no MRL om mudança nos oe ientes

de regressão onsiderando100 amostrassimuladas para ada uma das distribuições

de Misturade Es alaNormal estudadas: Normal (N),tde Student (t), Slash(Sl) e

Normal Contaminada(NC). . . 84

4.2 Resultados para diagnósti os de inuên ia no modelo de regressão linear om

mu-dança na variân ia onsiderando 100 amostras simuladas para ada uma das

dis-tribuições de Mistura de Es ala Normal estudadas: Normal (N), t de Student (t),

Slash (Sl) e NormalContaminada(NC). . . 91

4.3 Resultados para diagnósti os de inuên ia no modelo de regressão linear om

mu-dançanos oe ientesde regressãoevariân ia onsiderando100amostrassimuladas

para ada uma das distribuições de Mistura de Es ala Normal estudadas: Normal

(N),t de Student (t), Slash (Sl) e Normal Contaminada(NC). . . 100

5.1 DadosHolbert: Resultados para ritério

SIC

para modelo de regressão linear om mudançanos oe ientes de regressão. . . 104

5.2 DadosHolbert: Estimativadosparâmetrosparaosmodelosde regressão omponto

de mudança nos oe ientes de regressão sob distintasdistribuições. . . 106

5.3 DadosHolbert: Resultados para ritério

SIC

para modelo de regressão linear om mudançanos oe ientes de regressão e variân ia. . . 107

5.4 Dados Holbert: Estimativa dos parâmetros para modelos de regressão om ponto

(21)

5.5 DadosIbope01: Resultados para ritério

SIC

para modelode regressão linear om

mudançanos oe ientes de regressão. . . 113

5.6 Dados Ibope 01: Estimativados parâmetros para modelos de regressão om ponto de mudança nos oe ientes de regressão sob distintasdistribuições. . . 116

5.7 DadosIbope02: Resultados para ritério

SIC

para modelode regressão linear om mudançana variân ia. . . 119

5.8 Dados Ibope 02: Estimativados parâmetros para modelos de regressão om ponto de mudança navariân ia sob distintasdistribuições. . . 121

A.1 Dadosde volume de vendas de mer ado de ações. . . 136

A.2 Dadosde audiên ias de televisão (Parte 1). . . 137

(22)
(23)

Introdução

Os modelos estatísti os são onstruídos para expli ar de forma aproximada a estrutura de

um onjunto de dados mediante uma relação fun ional que melhor se ajuste ao padrão das

ara terísti as medidas. Estes modelos estatísti os deverão satisfazer ertas suposições para que

seja onsiderada uma boa aproximação. De forma lássi a, modelos de regressão linear - omo

todos os modelos lineares - são baseados na denominada teoria normal. Assim, uma suposição

rotineira do modelo é que tanto os erros omo os efeitos aleatórios são normalmente

distribuí-dos. Sob esta suposição, a inferên ia estatísti a para os parâmetros é amplamente onhe ida e

en ontra-sedisponívelenumaamplavariedadedeprogramas omputa ionaisdeanáliseestatísti a,

vejaporexemplo,Cohen

&

Cohen(2008)eEveritt

&

Hothorn(2010)paraapli açõesnosistemaR. Em muitas áreas de pesquisa, é de interesse expli ar omo um onjunto de variáveis

denomi-nadas independentes (denidas a partir de um experimento ontrolado ou por uma base teóri a

previamentedenida)afeta- onjuntaouindividualmente-umavariáveldenominadadependente.

Os hamadosmodelosde regressão(Draper

&

Smith,1998)são ferramentasestatísti as utilizadas muito frequentemente para este m. A literaturain lui exemplos de regressão lineare não linear,

alibração, regressão inversa, dentre outros e as suas apli ações podem ser vistas em diferentes

áreas de investigação tais omo Medi ina, Ciên ias So iais, E onometría, Geologia, Quími a,

Engenharia, dentre outras.

Uma situação parti ular o orre quando o onjunto de observações pode ser indexado por

alguma variável (tempo, espaço ou outra variável que indique uma ordem), e é possível observar

queapartirde ertopontodestaindexaçãoadistribuiçãodestasobservaçõesmuda. Estasituação

ara terizaum problemade pontode mudança(GomesdeSouza,2004). Logo, pode-seespe i ar

modelos de regressão linear om mudançanos parâmetros apartir de uma

k

-ésima observação de um onjuntode observações indexada.

Quando opontodemudançaédes onhe idoeointeresseédete tareestimareste,Chen(1998)

sugereumametodologiaqueutilizaoCritériode Informaçãode S hwarz (

SIC

)de formare ursiva sobretodosospossíveispontosdo onjuntodedadospassíveisdeser opontodemudança. Chen

&

(24)

Gupta(2001)apresentam umametodologiageralpara deteçãode pontosde mudançaemmodelos

om diversas estruturas, assim, quando um ponto de mudança está presente e é des onhe ido,

a estrutura do modelo muda a partir desta

k

-ésima observação onsiderada, e três formas de mudança nas estruturas dos modelos podem o orrer: (1) A variân ia do modelo onsiderado é

onstante no onjunto total de dados e a mudança se produz somentenos parâmetros do modelo

de regressão,

(2) A mudança se produz na variân ia do modelo e os parâmetros do modelo de regressão são

onstantes no onjuntototal de dados, e

(3)A mudançaafetaa variân ia eos parâmetros domodelo de regressão.

Como foi dito anteriormente, a teoria de inferên ia estatísti a sobre modelos de regressão foi

amplamente desenvolvida em torno da distribuição normal, isto justi ado por algumas boas

propriedades estatísti as. No entanto, a inferên ia baseada no modelo normal sofre de falta de

robustez no sentido de ser muito sensível quando existem observações aberrantes (outliers) ou

quandoosdados provémde umadistribuição om audasmais pesadasqueadistribuiçãonormal.

Embora seja frequente o uso de transformações sobre avariável resposta om o m de aproximar

a uma distribuição normal (ou ao menos pro urar simetria), sugere-se bus ar um modelo teóri o

mais onveniente quando istoé possível. Assim, relaxar asuposição de normalidadepara estimar

os parâmetrosdo modelo tornou-se uma alternativainteressante.

O uso de distribuições simétri as om audas mais pesadas que a distribuição normal tem-se

mostrado úteis para reduzir a inuên ia dos "outliers"sobre as estimativas de máxima

verossi-milhança. Uma lasse de distribuições denominada de Mistura de Es ala Normal (Andrews

&

Mallows, 1974) ofere e alternativas neste sentido. Esta lasse ontém as distribuições normal, t

de Student, slash, normal ontaminada, dentre outras. etem sido estudada om grande interesse

nos últimos anos.

Assim, neste trabalho, onsideramos o modelo de regressão linear, onde é assumido que os

modelos onsiderados apresentam um ponto de mudança e as observações seguem uma

distribui-ção na lasse Mistura de Es ala Normal. Considerando que a posição do ponto de mudança é

des onhe ida, serão en ontrados os estimadores de máxima verossimilhança para as três formas

de mudançanas estruturas do modelo des ritas anteriormente. Adi ionalmente, será apresentado

um pro edimento re ursivo que onsidera o ritério de informação de S hwarz para estimar um

ponto de mudança des onhe ido. As estimativas de máxima verossimilhança serão obtidas via

o algoritmo EM, e a programação do algoritmo e do pro edimento re ursivo para determinação

do ponto de mudançasão implemetados no sistema R.Finalmente, é onsiderado um enfoque de

análise de diagnósti o (Cook,1986) baseado nametodologiade Zhu

&

Lee (2001).

1.1 Motivação

Estadissertaçãoémotivadaporumproblemarealqueestárel ionadoapro edimentosde medição

(25)

a relação entre os resultados de audiên ia obtidos a partir do uso de instrumentos eletrni os de

medição e os obtidos a partir do método manual de preen himento de questionário. Devido aos

avanços te nológi os o orridos nos últimos anos, os pro edimentos de medição são ada vez mais

automatizados e in orporam novas utilidades que fazem que suas ara terísti as sejam melhores

que seus prede essores (que na maioria de asos empregavam muitos pro essos manuais). É

natural então queestes novos pro edimentos substituam os antigos.

Quando uma mudançanos pro edimentos de medição é realizada, éimportante onhe er qual

é o efeito que esta mudança irá ausar, e na grande maioria de vezes é pre iso en ontrar uma

relação numéri a entre valores de medição obtidos pelonovo pro edimento e o antigo. A relação

numéri aem questão é impres indívelquandoas mediçõessão realizadasde forma ontínua epor

algumarazãotorna-sene essário manter ohistóri odas medições, ouquando opro edimentoserá

implantadoem etapase poralgum tempose onviverá om os dois pro edimentos.

Épre isoentão,estimarvaloresde mediçãoparanovopro edimentoobtidoapartirdos valores

de medição do antigo pro edimento. Para isto, foi sele ionado um período de tempo no qual

os dois pro edimentos de medição são utilizados para aferir em duas amostras representativas

da área de obertura estudada, e a partir destes dados se onstrói um modelo de regressão que

explique a mediçãopelo pro edimentonovoem função dopro edimentoantigo.

Para o aso espe í o que motiva esta dissertação, sabe-se que os valores das medições são

realizadas de forma ontínuae que ada mediçãopossa ser identi ada e ordenada por esta

iden-ti ação, obtendo assim uma base de dados indexada. Adi ionalmente, devido a ertas ondições

onhe idas, é de esperar que a partir de um erto valor desta indexação os valores das medições

sejam diferentes e produzam uma mudança na estrutura da relação do modelo de regressão,

propondo assim a utilização de um modelo de regressão om um ponto de mudança. Por outro

lado, apresença de dadosaberrantes nas mediçõessugereautilizaçãode modelosrobustos. Desta

forma, serão onsideradas distribuições simétri as om audas mais pesadas que a distribuição

normal,espe i amenteserão onsideradasasdistribuiçõesda lassede MisturadeEs alaNormal.

1.2 Objetivo do Trabalho

Oobjetivodopresente trabalhoé apresentarum estudode estimação ediagnósti o noModelode

Regressão Linear (MRL) om um ponto de mudança, onde os erros seguem uma distribuição na

lasse Mistura de Es ala Normal (MEN).A estimação dos parâmetros ea determinaçãodoponto

de mudançasão tratados om detalhes e são inspirados nos trabalhos de Chen (1998) eOsorio

&

Galea (2006). Quatro distribuições de probabilidade que formam parte da lasse de Mistura de

Es ala Normal são utilizadas na obtenção de resultados espe í os. Os resultados obtidos serão

apli adossobre dados simulados ereais.

(26)

i) Desenvolver aestimação pormáxima verossimilhança para modelosde regressão linear

mis-tura de es ala normal que apresentam um ponto de mudança e apresentar a estimação de

parâmetrosmedianteoalgoritmoEMpara adaumdos três asosde mudança onsiderados;

ii) Considerar um método para determinar a existên ia de um ponto de mudança e a posição

deste no onjunto de dados a partir de Critério de Informação de S hwarz, para todos os

modelos estudados;

iii) Abordaroproblemadeinuên ialo alnosmodelosestudados onsiderandoalgunsesquemas

de perturbaçãoe seguindo a metodologiade Zhu

&

Lee (2001);

iv) Avaliaros resultados obtidos apartir de estudos de simulaçãode Monte Carlo;

v) Apli ar os resultados obtidosem onjuntos de dados reais. Um dos quais orresponde a um

onjunto onhe ido dentro da literatura estatísti a e para o qual existem alguns resultados

emsituaçõesespe í as (Holbert,1982).

1.3 Organização do Trabalho

A presente dissertação ontêm seis apítulos e um apêndi e que ontêm os dados das apli ações.

Os apítulos são organizados omosegue abaixo.

No Capítulo 2, apresenta-se uma revisão dos prin ipais on eitos que serão tratados nesta

dissertação. O on eito de ponto de mudan a em modelos lássi os de regressão linear e a

estimação de parâmetros via algoritmo EM são introduzidos para estes modelos. Finalmente,

resultados importantes rela ionados à lasse de distribuições de Mistura de Es ala Normal são

apresentados.

No Capítulo 3, estuda-se os modelos de regressão linear (MRL) onsiderando um ponto

de mudança e om erros distribuídos por distribuições da lasse de Mistura de Es ala Normal

(MEN). A espe i ação do modelo, a estimação de máxima verossimilhança dos parâmetros,

o algoritmo EM orrespondente e a forma de determinação do ponto de mudança a partir de

Critério de Informação de S hwarz (

SIC

) são apresentados para os diversos modelos onsidera-dos. Estudosdesimulaçãoedis ussõessobreosresultadossãoapresentadosemtodas assituações.

OCapítulo4 édedi ado aoestudode diagnósti o noMRL om pontode mudançabaseado na

metodologiade Zhu

&

Lee (2001). Resultados e dis ussões para alguns esquemas de perturbação são apresentados.

No Capítulo5, apresenta-se apli ações sobretrês onjuntos de dados reais.

Finalmente, no Capítulo 6 apresentamos as onsiderações nais e on lusões deste trabalho,

(27)

Prin ipais Con eitos

Neste apítulo,apresentamos osprin ipais on eitos queserãotratadosnesta dissertação.

Pri-meiramente, des revemos o modelo de regressão linear om a presença de um ponto de mudança

e om erros distribuídos normalmente e posteriormente erros om distribuição t de Student.

Se-guidamente, apresenta-se uma des rição doalgoritmoEM usadonaestimaçãodos parâmetrosdos

modelosestudados nopresentetrabalho. Finalmente,uma revisãodas distribuiçõesde Misturade

Es ala Normal para o aso univariado é onsiderada.

2.1 Modelo de Regressão om Ponto de Mudança

Nesta seção, des revemos o problema de presença de um ponto de mudança nos modelos de

re-gressão. Consideramos duas situações, para os modelos de regressão, estudadas por Chen (1998)

e Osorio

&

Galea (2006); quando os erros seguem uma distribuiçãonormal om média zero e va-riân ia onstante e uma extensão que onsidera uma distribuição t de Student om média zero e

variân ia onstante, respe tivamente. Em ambas situações a mudança o orre nos parâmetros de

regressão.

2.1.1 O Problema de Ponto de Mudança

Intuitivamente pode-se onsiderar que qualquer onjunto de observações ne essariamente

orde-nadas por alguma ara terísti a onhe ida (de tempo, de espaço ou outra qualquer), apresenta

um problema de ponto de mudança se a distribuição das observações muda após um ponto

determinadoe des onhe ido deste ordenamento.

Uma denição formal para este problema é en ontrado em Gomes de Souza (2004): dada

uma sequên ia de variáveis aleatórias (ou vetores aleatórios)

x

1

,

x

2

,... om distribuições de probabilidade dadas por

f

1

,

f

2

... respe tivamente onde os índi es 1,2,... indi am uma ordem (por exemplo, instantes de tempo). Se diz que o ponto

k

( orrespondente ao índi e

k

) é o ponto de mudança des onhe ido dessa sequên ia se

f

1

= f

2

= ... = f

k

6= f

k+1

= f

k+2

= ...

(28)

Deve-se ter laro que a sequên ia denida não ne essariamente está referida a intervalos de

tempoqueestejam distribuídosigualmenteesimaqualquerformade ordemdosdados. Poroutro

lado, é possível generalizara denição para mais de um ponto de mudança.

As várias ara terísti aspelas quaisosproblemasde pontode mudançapodem ser lasi ados

são apresentadas porBrodsky

&

Darkhovsky (1993), estas estão referidas logoabaixo.

(1) Ao métododeobtenção de dados,quepodemser separadosemduassituações: sequen iais e

de tamanhode amostraxado. Nospro edimentossequen iais, pornão existirum tamanho

de amostra determinado, a veri ação de homogeniedade de

f

deve ser feita quando ada novaobservaçãoérealizada,osdadosdeverãoser examinadosa adanovaobservaçãoquanto

à hipótese de homogeneidade. Quando temos uma amostra xa o pro esso de obtenção de

dados é ompletado antes dahipótese de homogeneidade de

f

ser testada.

(2) À informação a priori sobre

f

i

, de onde os problemas de ponto de mudança podem ser onsideradosparamétri os, semi-paramétri osou não paramétri os.

(3) Às ara terísti asdos dados,determinando modelos omtempo ontínuooudis reto, uni ou

multidimensionaisou om observaçõesdependentes ouindependentes.

(4) Ao tipo de mudança, que podem ser de dois tipos: Os de mudança abrupta omo por

exemplo um modelo da forma

Y

i

= α

1

+ β

1

X

i

, para

i = 1, . . . , k

e

Y

i

= α

2

+ β

2

X

i

, para

i = k + 1, . . . , n

(onde

X

i

ne essariamente mantém uma ordem respeito ao indexador); e os modelos om mudança gradual ou sem des ontinuidade onde dado

X

1

≤ X

2

≤ ... ≤ X

n

existe

λ (X

k

< λ < X

k+1

)

talque

Y

i

= α

1

+ β

1

λ = α

2

+ β

2

λ

, estes modelos são onhe idos também omo regressão segmentada.

(5) Ao número de mudanças, onde podemos ter modelos om um úni o ponto de mudança ou

múltiplos pontos de mudança.

A respeito da inferên ia sobre os modelos om ponto de mudança, devem ser onsiderados os

seguintes aspe tos: Determinaraexistên ia doponto(ou pontos) de mudança, lo alizara posição

deste ponto (ou pontos), estimar todos os parâmetros de interesse do modelo e realizar análises

preditivas.

Dentro da literatura estatísti a, o problema de ponto de mudança tem sido estudado om

muito interesse ao longo dos anos. Estudos sobre problemas de ponto de mudança na média

sobre uma sequên ia de variáveis aleatórias normais são tratados por Cherno

&

Za ks (1964), Gardner(1969),Srivastava(1975),Worsley (1979)eSrivastava

&

Worsley(1986). Horváth(1993) e Chen

&

Gupta (1995) estendem este estudo para mudança simultânea na média e variân ia, sempre sobredistribuiçõesnormais davariável aleatória. Mais re entemente Bhatti (2000)utiliza

algunstestes onhe idosnoproblema de pontode mudançanavariân iade sequên iade variáveis

(29)

No que se refere aos modelos de regressão linear, muitos estudos na literatura estatísti a

foram desenvolvidos onsiderando o problema de ponto de mudança sobre o modelo lássi o que

asssume normalidade dos erros aleatórios. Quandt (1958, 1960) intoduz o método de máxima

verossimilhança para estimar e testar parâmetros de modelos de regressão segmentada. Ferreira

(1975),Chin Choy

&

Broemeling(1980)e Holbert (1982)realizamestudosdesde opontode vista bayesiano. Brown et al. (1975) e Hofri hter (2007)usam o métodode residuais re ursivos para a

deteção de pontosde mudançaem modelos de regressão linear múltipla. Hawkins (1989) utilizao

riterio de união-interseção. Kim

&

Siegmund (1989) e Kim (1994) utilizam o teste de razão de verossimilhançaparadeteçãodepontosdemudança. Csörg®

&

Horváth(1997)apresentam propri-edadesassintóti as de métodos de deteção de pontodemudança. O uso de Criteriode Informação

de S hwarz (S hwarz, 1978) para determinação de ponto de mudança em modelos de regressão

linear éapresentado porChen (1998)eChen

&

Gupta(1997, 1999, 2001). Osorio

&

Galea(2006) utilizamo ritério de Informação de S hwarz (

SIC

),na determinaçãodopontode mudançanum modeloderegressãolinearondeoserrossãodistribuídosdea ordoaumadistribuiçãotdeStudent.

Nas seguintes subseções, apresentamos a metodologia des rita por Chen (1998) e a extensão

apresentada por Osorio

&

Galea (2006) para o modelo robusto t de Student. Em ambos asos onsidera-se amudançanos parâmetros de regressão evariân ia onstante.

2.1.2 Modelo de Regressão Linear Normal om Ponto de Mudança

Considerando o modelo de regressão:

Y

i

= x

i

β

+ ǫ

i

,

(2.1)

onde

β

=

0

, β

1

, ..., β

p−1

)

é um vetor e parâmetros des onhe idos de dimensão

p

,

x

i

= (1, x

1i

, ..., x

1(p−1)

)

é a

i

-ésima linha da matriz de desenho

X

de dimensão

n × p, (n > p)

e os erros aleatórios

ǫ

1

,...,

ǫ

n

são independentes e identi amente distribuídos omo

ǫ

i

iid

∼ N(0, σ

2

)

,

i = 1, . . . , n

, onde

σ

2

é um parâmetro des onhe ido maiorque zero.

Considerando que o ponto de mudança en ontra-se na posição

k

, não onhe ida, tem-se que

Y

i

∼ N(x

i

β

1

, σ

2

)

, para

i = 1, . . . , k

e

Y

i

∼ N(x

i

β

2

, σ

2

)

, para

i = k + 1, . . . , n

, ouseja, pontode mudança namédia dadistribuição davariável resposta.

Chen (1998) aborda oproblema de veri ar a existên ia de um ponto de mudançano modelo

de regressão (2.1) e determinar a posição deste. Para isto, onsidera-se um teste de hipótese da

forma

H

0

:

Y

i

= x

i

β

+ ǫ

i

,

i = 1, . . . , n,

H

1

:



Y

i

= x

i

β

1

+ ǫ

i

,

i = 1, . . . , k,

Y

i

= x

i

β

2

+ ǫ

i

,

i = k + 1, . . . , n,

(2.2)

(30)

a hipótese alternativa que identi a um modelo de regressão om um ponto de mudança na

observação

k

.

Quando a posição do ponto de mudança não é onhe ida,

H

1

deverá onsiderar uma oleção de modelos om ponto de mudança que onsidera as posições

p, ..., n − p

e o objetivo neste aso será sele ionar um modelo desta oleção.

AmetodologiaparaaseleçãopropostaporChen(1998)usaoCritériodeInformaçãodeS hwarz

(

SIC

)denido omo

SIC = −2 ℓ(b

θ) + s log n,

(2.3)

onde

ℓ(b

θ)

orresponde à função de log-verossimilhançaavaliada naestimativade máxima verossi-milhança

bθ = ( c

β

, b

σ

2

)

,

s

é onúmerode parâmetros domodelo e

n

éo tamanhode amostra. Os ritériosde de isãoadotados são osseguintes:

O modelo onsiderado apresenta um ponto de mudança, que equivale a rejeitar a hipó-tese nula, se

SIC(n) > min{SIC(k), para k = p, ..., n − p}.

(2.4)

Quando a hipótese nula é rejeitada, a posição estimada do ponto de mudança via máxima verossimilhança orresponde ao valor

bk

quesatisfaz

SIC(b

k) = min{SIC(k) : k = p, ..., n − p}.

(2.5) Comomen ionadoemOsorio

&

Galea(2006),amaximizaçãodafunçãode log-verossimilhança equivaleà minimizaçãodo Critériode Informaçãode S hwarz.

Sob a hipótese nulaos estimadores de máxima verossimilhançados parâmetros são

b

β

= (X

X)

−1

X

Y

e

σ

b

2

=

1

n

(Y − Xb

β)

(Y − Xb

β).

O ritériode informação de S hwarz,

SIC(n)

,pode ser expressado omo

SIC(n) = −2 ℓ

0

(b

β

, b

σ

2

) + (p + 1) log n

= n log[(Y − Xb

β)

(Y − Xb

β

)] + n (log 2π + 1) + (p + 1 − n) log n.

Sob a hipótesealternativaos estimadoresde máxima verossimilhançados parâmetros

onside-rados podem ser expressados omo

c

β

1

= (X

1

X

1

)

−1

X

1

Y

1

,

β

c

2

= (X

2

X

2

)

−1

X

2

Y

2

e

b

σ

2

=

1

n

[(Y

1

− X

1

β

c

1

)

(Y

1

− X

1

β

c

1

) + (Y

2

− X

2

β

c

2

)

(Y

2

− X

2

β

c

2

)].

(31)

Neste aso, o ritério de informação de S hwarz,

SIC(k)

, édado por

SIC(k) = −2 ℓ

k

(c

β

1

, c

β

2

, b

σ

2

) + (2p + 1) log n

= n log[(Y − Xc

β

1

)

(Y − Xc

β

1

) + (Y − Xc

β

2

)

(Y − Xc

β

2

)]

+n (log 2π + 1) + (2p + 1 − n) log n,

onde

k = p, ..., n − p

,

X

1

é uma partição da matriz

X

que onsidera as

k

primeiras linhas,

Y

1

é uma partição dovetor

Y

que onsidera as

k

primeirasobservações,

X

2

é uma partição damatriz

X

que onsidera as

n − k

últimaslinhas e

Y

2

é uma partiçãodo vetor

Y

que onsidera as

n − k

últimas observações.

2.1.3 Modelo de Regressão Linear t de Student om Ponto de Mudança

Osorio

&

Galea (2006) propõem um modelo de regressão linear t de Student, onde os erros aleatórios

ǫ

1

,...,

ǫ

n

domodelo onsideradoem(2.1) são independentes eidenti amentedistribuídas omo

ǫ

i

iid

∼ t(0, σ

2

, ν)

, para

i = 1, . . . , n

,onde

σ

2

éum parâmetro des onhe ido e

ν

são osgrausde liberdade dadistribuição t de Student.Assim, quando o ponto de mudança en onta-se na posição

k

não onhe ida tem-se que

Y

i

∼ t(x

i

β

1

, σ

2

, ν)

, para

i = 1, . . . , k

e

Y

i

∼ t(x

i

β

2

, σ

2

, ν)

, para

i = k + 1, . . . , n

.

Considerando o omentário de Fernández

&

Steel (1999) sobre os graus de liberdade

ν

, estes serão onsiderados onhe idos e omo sugerido por Lange et al. (1989) uma avaliação de vários

possíveis valores de

ν

deverá ser feita para es olher o que maximize a função de verossimilhança. Quando

ν → ∞

a distribuição t de Student onverge à normal e os resultados apresentados por Chen (1998) podem ser obtidos.

A estimação de máxima verossimilhança sob hipótese nula onsidera a função de

log-verossimilhançadada por

0

(β, σ

2

) = n log G(ν) −

n

2

log σ

2

ν + 1

2

n

X

i=1

log{1 + d

i

/ν},

onde

d

i

=

(Y

i

− x

i

β

)

2

σ

2

,

i = 1, . . . , n

e

G(ν) =

Γ(

ν+1

2

)

πν Γ(

ν

2

)

.

As funções es ore são

U(β) =

1

σ

2

n

X

i=1

q

i

(Y

i

− x

i

β)x

i

=

1

σ

2

X

Q

(Y − Xβ)

e

U(σ

2

) = −

n

2

+

1

4

n

X

i=1

q

i

(Y

i

− x

i

β)

2

= −

n

2

+

1

4

V

Q

(β),

onde

V

Q

(β) = (Y − Xβ)

Q

(Y − Xβ),

com

(32)

Q

= diag(q

1

, ..., q

n

),

e

q

i

=

ν + 1

ν + d

i

,

i = 1, . . . , n

.

Neste aso, o ritério de informaçãode S hwarz,

SIC(n)

,pode ser es rito omo

SIC(n) = −2 n log G(ν) + n log b

σ

2

+ (ν + 1)

n

X

i=1

log{1 + d

i

/ν} + (p + 1) log n.

Os resultados equivalentes ao onsiderar a hipótese alternativasão:

k

1

, β

2

, σ

2

) = n log G(ν) −

n

2

log σ

2

ν + 1

2

[

k

X

i=1

log{1 + d

1i

/ν} +

n

X

i=k+1

log{1 + d

2i

/ν}],

U(β

1

) =

1

σ

2

X

1

V

1

(Y

1

− X

1

β

1

),

U(β

2

) =

1

σ

2

X

2

V

2

(Y

2

− X

2

β

2

),

e

U(σ

2

) = −

n

2

+

1

4

[V

Q

1

1

) + V

Q

2

2

)],

onde

V

Q

1

1

) = (Y

1

− X

1

β

1

)

Q

1

(Y

1

− X

1

β

1

), V

Q

2

2

) = (Y

2

− X

2

β

2

)

Q

2

(Y

2

− X

2

β

2

),

com Q

1

= diag(q

1

, ..., q

k

) e Q

2

= diag(q

k+1

, ..., q

n

)

SIC(k) = −2 n log G(ν) + n log b

σ

2

+ (ν + 1) [

k

X

i=1

log{1 + d

1i

/ν}

+

n

X

i=k+1

log{1 + d

2i

/ν} ] + (2p + 1) log n,

onde

d

1i

=

(Y

i

− x

i

β

1

)

2

σ

2

, i = 1, . . . , k,

d

2i

=

(Y

i

− x

i

β

2

)

2

σ

2

, i = k + 1, . . . , n,

Sobambashipóteses,observa-sequeasequaçõesdeverossimilhança orrespondemaumsistema

deequaçõesnãolinearepodeser resolvidoviamétodosnuméri os. Napróximaseção,des revemos

o algoritmoEM ea apli açãodeste para estimação domodelo de regressão linear tde Student.

2.2 O Algoritmo EM

Nas últimas dé adas o desenvolvimento de algoritmos omputa ionais orientados à realização de

estimações de parâmetros tem sido um tema re orrente na bibliograa e desde então, muitas

apli açõesemdiversas áreas temsido apresentadas. Um grandenúmero destasestão rela ionadas

a inferên iae modelagemrobustasobre onjuntosde dadossimétri os. O algoritmoEM

(Demps-ter, Laird

&

Rubin, 1977) é um pro esso iterativo muito utilizado e e iente na estimação de parâmetros de modelos om dados in ompletos a partir da maximizaçãodas funções de máxima

(33)

simpli adaaoutilizaraformulaçãode dadosaumentados, também hamadode dados ompletos.

Estes dados são a união dos dados denominados in ompletos que são observados e os dados

denominadosperdidos.

Uma espe i ação doalgoritmoéa seguinte: Seja

y

o

e

y

f

que denotam osdados observados e faltantes, respe tivamente. Denota-se omo

y

c

= (y

o

, y

f

)

os dados ompletos que omportam os dadosobservadosefaltantes onjuntamente. Sejam

f (y

c

|θ)

afunçãode verossimilhançadosdados ompletos,

c

(θ|y

c

) = log(f (y

c

|θ))

,

θ

∈ Θ

, a função de log-verossimilhançados dados ompletos e

Q(θ|b

θ)

o valor esperado da log-verossimilhança dos dados ompletos ondi ionado aos dados observados

y

o

e osparâmetros estimados atuais. Temos que:

Q(θ|b

θ) = E[ℓ

c

(θ|y

c

)|y

o

, b

θ],

(2.6)

onde

são os parâmetros estimados usados na avaliação da esperança ondi ional e

θ

são as estimativasatualizadas, obtidas pelamaximizaçãode

Q

.

CadaiteraçãodoalgoritmoEMé ompostapordoispassos: O ál ulodaesperança ondi ional

(E), e a maximização(M).Assim, para a

r

-ésima iteraçãotemos: Passo E: Cal ular

Q(θ|b

θ

(r−1)

)

omo uma função de

(r−1)

e os dadosobservados; Passo M: En ontrar

(r)

,tal que,

Q(b

θ

(r)

|b

θ

(r−1)

) = Maxθ

∈Θ

Q(θ|b

θ

(r−1)

)

.

Os dois passos são repetidos quantas vezes seja ne essário. A onvergên ia é assegurada uma

vez que oalgoritmogarante oaumento daverossimilhançaem ada iteração,istoé, asfunçõesde

verossimilhançaobservada

ℓ(θ|y

o

)

obtidasviaoalgoritmoEMnas iterações(

r

)e(

r + 1

) guardam a seguinte relação

ℓ(θ

(r)

|y

o

) ≤ ℓ(θ

(r+1)

|y

o

)

, o que permite armar que o algoritmo geralmente onverge a um máximo lo al ou global da função de log-verossimilhança. A veri ação que o

máximoverdadeiro éal ançadosempre deveser realizada, aoque sere omendarodar várias vezes

as iteraçõesdo algoritmoEM om diferentes valores ini iais.

OpassoMnoalgoritmoEMpodeser substituídoporumpro essode maximização ondi ional

(CM) de alguma função dos parâmetros que estão sendo estimados. Este algoritmo foi proposto

por Meng

&

Rubin (1993) e é denominado algoritmo de maximização ondi ional de esperança (ECM). Neste aso, maximiza-se a função Q sujeita a restrições em

θ

, tornando o algoritmo omputa ionalmentemais simples.

AseguirapresentamososalgoritmosEMsugeridosporOsorio

&

Galea(2006)paraaestimação de parâmetros do modelode regressão linear t de Student.

Quando omodelonão apresentapontode mudança, afunçãode log-verossimilhança obser-vada pode ser es rita omo

(34)

0

(Y|ν; θ) = −

n

2

log(2 π σ

2

) +

1

2

log |Q| −

1

2

V

Q

(β).

O algoritmo EM maximiza a função de log-verossimilhança anterior de forma iterativa. A

seguir são des ritos os dois passos para a

r

-ésima iteração: Passo E: Partindo de uma estimativa ini ial

(r−1)

= ( c

β

(r−1)

, b

σ

2

(r−1)

)

, al ula-se os pesos

q

i

(r)

a partir daesperança ondi ional

E(U

i

|Y

i

; b

θ

(r−1)

) = q

i

(r)

=

ν + 1

ν + d

(r−1)

i

,

onde

d

(r−1)

i

=

(Y

i

− x

i

β

c

(r−1)

)

2

b

σ

2

(r−1)

i = 1, . . . , n.

PassoM:Usandoospesosobtidosnopassoanterior,asestimativasdemáximaverossimilhança

podem ser es ritas omo

b

β

(r)

= (X

Q

(r)

X

)

−1

X

Q

(r)

Y

,

σ

b

2

(r)

=

1

n

(Y − Xβ

(r)

)

Q

(r)

(Y − Xβ

(r)

),

onde

Q

(r)

= diag(q

(r)

1

, ..., q

(r)

n

).

Quando o modelo emquestão apresenta ponto de mudança naposição

k

, a função de log-verossimilhançaobservada é

k

(Y|ν; θ) = −

n

2

log 2 π σ

2

+

1

2

log |Q

1

| −

1

2

V

Q

1

1

) +

1

2

log |Q

2

| −

1

2

V

Q

2

2

).

Neste aso, osdois passos do algoritmoEM na

r

-ésimaiteração são des ritos omo: Passo E: Partindo de uma estimativa ini ial

(r−1)

= ( c

β

1

(r−1)

, c

β

2

(r−1)

, b

σ

2

(r−1)

)

, al ula-se os pesos

q

(r−1)

i

apartir daesperança ondi ional

E(U

i

|Y

i

; θ

(r−1)

) = q

i

(r−1)

=

ν + 1

ν + d

(r−1)

i

,

onde

d

i

=

(Y

i

− x

i

β

c

1

(r−1)

)

2

b

σ

2

(r−1)

i = 1, . . . , k,

(Y

i

− x

i

β

c

2

(r−1)

)

2

b

σ

2

(r−1)

i = k + 1, . . . , n.

Passo M:Usando os pesos obtidos nopasso anterior,as estimativas,nestaetapa, são obtidas

(35)

c

β

1

(r)

= (X

1

Q

1

(r)

X

1

)

−1

X

1

Q

1

(r)

Y

1

,

c

β

2

(r)

= (X

2

Q

2

(r)

X

2

)

−1

X

2

Q

2

(r)

Y

2

e

b

σ

2

(r)

=

1

n

[(Y

1

− X

1

β

(r)

1

)

Q

1

(r)

(Y

1

− X

1

β

(r)

1

) + (Y

2

− X

2

β

(r)

2

)

Q

2

(r)

(Y

2

− X

2

β

(r)

2

)],

om

Q

1

(r)

= diag(q

1

(r)

, ..., q

(r)

k

),

Q

2

(r)

= diag(q

(r)

k+1

, ..., q

(r)

n

)

e onsiderandoque

X

1

éuma partição damatriz

X

que onsidera as

k

primeiraslinhas,

Y

1

é uma partiçãodo vetor

Y

que onsidera as

k

primeirasobservações,

X

2

é uma partição damatriz

X

que onsidera as

n − k

últimas linhas e

Y

2

é uma partiçãodovetor

Y

que onsidera as

n − k

últimas observações.

Em ambas situações, ospassos E e M são repetidos até o onvergên ia do algoritmo.

2.3 Um Exemplo em Regressão Linear Simples

A seguir apresentamos a apli açãodos resultados mostrados nas duas seções anteriores sobre um

onjuntode dadossimulados. Osdiversos resultados são omparados.

1) Conjunto de dados simulados

É onsiderada uma amostra de tamanho20 do modelo de regressão

y

i

= β

0

+ β

1

x

i

+ e

i

, onde os erros

e

i

seguem uma distribuição t de Student om 2 graus de liberdade para

i = 1, . . . , n

. Considera-seadi ionalmenteque o onjunto de dadosapresentaum pontode mudançanaposição

10. Assim, osmodelosquegeramasobservaçõesapresentadas naTabela2.1foramdenidos omo

y

i

= 2 + 0.5 x

i

+ e

i

,

i = 1, ..., 10,

y

i

= 4 + 1, 5 x

i

+ e

i

,

i = 11, ..., 20.

2) Ajuste dos modelos

Primeiramente, assume-se que a distribuição dos erros do modelo segue uma normal om

média zero e variân ia des onhe ida para

i = 1, . . . , n

. O onjunto de dados é ajustado a partir de um modelo de regressão linear simples utilizandoos resultados apresentados porChen (1998).

Quando não se onsidera a existên ia de um ponto de mudança os resultados sob hipótese nula

são utilizados. A reta obtida por este ajusteé mostrada naparte (a) daFigura2.1.

Mantendo a suposição que a distribuição dos erros dos modelos ajustados segue uma normal

om média zero e variân ia des onhe ida para

i = 1, . . . , n

e onsiderando desta vez que existe uma ponto de mudança onhe ido na posição 10, o onjunto de dados deve ser ajustado

utilizandoos resultados sob hipótese alternativa,obtendo duas retas. Levando em onsideraçãoa

(36)

Tabela2.1: Dados simuladospara modelode regressão linear simples proposto.

Indi adorde Indexação VariávelY VariávelX

1 7.68 9.84 2 8.25 9.68 3 4.16 7.87 4 20.53 5.53 5 5.48 4.47 6 4.57 3.25 7 7.34 9.26 8 0.97 9.78 9 3.28 5.64 10 11.60 8.61 11 32.99 18.95 12 31.63 18.09 13 21.42 11.36 14 31.04 17.18 15 24.47 14.32 16 32.19 19.04 17 28.94 15.90 18 21.46 10.39 19 19.80 10.43 20 27.95 16.41

segundautilizandoosúltimosdezdados. Asretasobtidassãomostradasnaparte(b)daFigura2.1.

Observe que nas duas situações anteriores as estimações de máxima verossimilhança dos

parâmetrosderegressão sãoosmesmosqueosobtidosaoutilizarométododemínimosquadrados.

Para o asodomodelo ompontode mudançadevem onsideraraspartiçõesadequadas de XeY.

Ao onsiderar queos erros seguem uma distribuiçãot de Student om dois graus de liberdade

para

i = 1, . . . , n

, os resultados para os modelosde regressão robustos apresentados por Osorio

&

Galea (2006) serão utilizados. Novamente, os resultados sob hipótese nula são utilizados quando

seassumequenãoexiste umpontodemudançaeosresultadossob hipótesealternativa om

k

=10 são onsiderados ao assumir a existên ia de um ponto de mudança nessa posição. O algoritmo

EM é utilizadopara aestimação dos parâmetros emambas situações.

As partes ( ) e (d) da Figura 2.1 apresentam as retas ajustadas ao onsiderar os modelos

robustos. O primeiro orrespondeao ajuste para um modelode regressão tde Student sem ponto

de mudança e o último para um modelo de regressão t de Student om ponto de mudança na

posição 10.

3) Apli ação da metodologia para determinação de ponto de mudança

A Figura2.2apresentaosresultados daapli açãodametodologiapara determinaçãode ponto

de mudançaque usa o ritériode informaçãode S hwarz, (

SIC

), proposto por Chen (1998) para osmodelos de regressão normale tde Student (Osorio

&

Galea, 2006). Observa-se que emambas

(37)

0

5

10

15

20

0

10

20

30

40

a) Modelo Normal sem ponto de mudança

Variável X

V

ar

v

el Y

Y= −5.002+1.972 X

0

5

10

15

20

0

10

20

30

40

b) Modelo Normal com ponto de mudança

Variável X

V

ar

v

el Y

Y= 8.636−0.169 X

Y= 5.214+1.445 X

0

5

10

15

20

0

10

20

30

40

c) Modelo t−Student sem ponto de mudança

Variável X

V

ar

v

el Y

Y= −5.075+2.026 X

0

5

10

15

20

0

10

20

30

40

d) Modelo t−Student com ponto de mudança

Variável X

V

ar

v

el Y

Y= 2.891+0.485 X

Y= 4.914+1.466 X

Figura 2.1: Ajuste de modelos de regressão Normal e t de Student para dados simulados

onsi-derando diversas suposições.

situaçõesidenti a-seopontode mudançanaposição10. Omenorvalorapresenta-se no

SIC(10)

domodelode regressão tde Student. Aapli açãodametologiaproposta levaaes olhadomodelo

que reeteas ara terísti asdo onjunto de dados simulado.

(38)

5

10

15

20

100

110

120

130

140

a) Distribuição Normal

Posição de mudança

SIC

5

10

15

20

100

110

120

130

140

b) Distribuição t−Student

Posição de mudança

SIC

Figura2.2: Valores

SIC

dos modelosde regressão Normal e t de Student ajustados sobre dados simulados.

Osmodelos de regressão linearquenão onsideramum pontode mudança aptamatendên ia

da relação, no entanto, os ajustes para os dados om valores extremos apresentam maiores

diferenças om os valores ajustados. É intuitivo que isso a onteça, pois ao onsiderar os dados

omo um úni o onjunto (o quenão ondiz om a simulaçãorealizada), aúni a reta que ajustará

os dados será menos pre isa nos dados mais extremos, assim a avaliação sob a presença de um

ponto de mudança torna-seimportante.

Ao observar os ajustes do modelo de regressão normal om ponto de mudança na posição 10,

a primeirareta mostra uma relaçãonegativa(o valorde

β

12

énegativo, o que difere da estrutura da simulação), isto devido prin ipalmente à observação número 10 do onjunto que ausa um

efeito de alavan a no ajuste. Assim, onsiderar um modelo de regressão normal não é a melhor

opção quando dados aberrantes estão presentes em um onjunto de dados. Esta situação não

o orre quando é onsiderado o modelo de regressão t de Student. De fato, onsiderar modelos

de regressão robustos torna-se uma opção para des rever melhor a relação entre variáveis de um

onjuntode dados.

Finalmente, ametodologiaparadeteção de um pontode mudançaque onsidera o

SIC

éuma boa alternativapara este m.

Referências

Documentos relacionados

Eles argumentam que áreas desmatadas sob domínio público na Amazônia oferecem uma oportunidade única para o Brasil implementar o refl orestamento em larga escala recorrendo

Regeneration of deforested areas in undesignated lands is not as common as in protected territory, but the extent of forest regrowth seen in 2014 shows that it is certainly

Antes porém me identifico com a abertura da noção conceitual de pansexualidade, a qual pode ser vista/lida como intensa manifestação sociocultural de uma sexualidade

Desta forma, a qualidade higiênico-sanitária das tábuas de manipulação dos Laboratórios de Técnica Dietética, Tecnologia de Alimentos e Gastronomia e das

As Despesas Gerais e Administrativas (G&amp;A) foram reduzidas em 50 bps como percentual da receita líquida no 3T12, na comparação com o 3T11, em virtude de alavancagem

Assim, este trabalho propõe uma técnica de controle que se baseia na realimentação das componentes da corrente do estator no referencial dq síncrono, capaz de garantir o

Se você vai para o mundo da fantasia e não está consciente de que está lá, você está se alienando da realidade (fugindo da realidade), você não está no aqui e

Mineração de conhecimento interativa em níveis diferentes de abstração: Como é  difícil  prever  o  que  exatamente  pode  ser  descoberto  de  um  banco