Modelo de Regressão Linear Mistura de Es ala
Normal om Ponto de Mudança: Estimação e
Diagnósti o
CAMPINAS
Instituto de Matemáti a, Estatísti a
e Computação Cientí a
Carlos Alberto Huaira Contreras
Modelo de Regressão Linear Mistura de Es ala
Normal om Ponto de Mudança: Estimação e
Diagnósti o
Dissertaçãoapresentada aoInstitutode
Matemá-ti a,Estatísti aeComputaçãoCientí ada
Uni-versidade Estadual de Campinas omo partedos
requisitos exigidos para a obtenção do título de
Mestre emEstatísti a.
Orientador Prof. Dr. Filidor Edilfonso Vil aLabra
Esteexemplar orrespondeáversãofinalda
dis-sertação defendida pelo aluno Carlos Alberto
Huaira Contreras, e orientada pelo Prof. Dr.
Filidor Edilfonso Vil a Labra.
Assinatura do Orientador
Campinas
Linear models are widely used in statisti s to des ribe the relationship between a response
variableandoneormoreexplanatoryvariables,whereusuallyitisassumedtheerrorsarenormally
distributed. Moreover, inlinearregression modelisassumed that the samelinear modelholds for
the wholedata set, but this isnot always valid. The modelmay hangeaftera spe i point, and
so alinear model with a hange point would be appropriatefor data set.
The main obje tive of work is to study some aspe t of estimation and analysis of diagnosti s in
the regression linear with hange point model under s ale mixture of normal distributions. The
analysis of diagnosti s is based on the works of Cook (1986) and Zhu
&
Lee (2001). The results obtained represent a extension of some results obtained in the literature; see for example Chen(1998) and Osorio
&
Galea (2006). Finally, simulation studies are investigated through Monte Carlo simulationsand numeri alexamplesare presented to illustratethe proposed results.Keywords: EM Algorithm; Mahalanobis Distan e; S ale Mixtures of Normal Distributions;
Lo al Inuen e; Linear Models; Change Point.
Resumo
Modelos lineares são frequentemente usados em estatísti a para des rever a relação entre uma
variável resposta e uma ou mais variáveis expli ativas, onde geralmente os erros são assumidos
omo normalmente distribuídos. Além disso, em modelos de regressão linear assume-se que o
mesmo modelo linear é válido para todo o onjunto de dados. O modelo pode mudar após um
pontoespe í o eassim um modelolinear omum pontode mudançapoderáser apropriado para
o onjunto de dados.
Oprin ipalobjetivodestetrabalhoéestudaralgunsaspe tosdeestimaçãoeanálisedediagnósti o
em modelos de regressão linear om ponto de mudança sob distribuições de mistura de es ala
normal. A análise de diagnósti o é baseada nos trabalhos de Cook (1986) e Zhu
&
Lee (2001). Osresultados obtidosrepresentam uma extensão de algunsresultados apresentados naliteratura,verporexemplo Chen (1998)e Osorio
&
Galea (2006). Finalmente, estudos de simulação através de simulaçõesMonte Carlo são realizados e exemplos numéri ossão apresentados para ilustrarosresultados propostos.
Palavras- have: Algoritmo EM; Distân ia de Mahalanobis; Distribuições Mistura de Es ala
1 Introdução 1
1.1 Motivação . . . 2
1.2 Objetivodo Trabalho . . . 3
1.3 Organizaçãodo Trabalho . . . 4
2 Prin ipais Con eitos 5 2.1 Modelo de Regressão om Ponto de Mudança . . . 5
2.1.1 OProblema de Ponto de Mudança . . . 5
2.1.2 Modelo de Regressão Linear Normal om Ponto de Mudança . . . 7
2.1.3 Modelo de Regressão Linear t de Student om Ponto de Mudança . . . 9
2.2 OAlgoritmo EM . . . 10
2.3 UmExemplo em Regressão Linear Simples . . . 13
2.4 Distribuições de Mistura de Es ala Normal . . . 17
2.4.1 Denição eNotação. . . 17
2.4.2 Representação Esto ásti a . . . 17
2.4.3 Propriedades . . . 18
2.4.4 Algumas DistribuiçõesEspe i as . . . 19
3 Modelosde RegressãoLinearMisturade Es alaNormal omPontodeMudança 23 3.1 Modelo de Regressão Linear . . . 24
3.2 Funçãode Verossimilhança . . . 24
3.3 Matriz de Informação Observada . . . 25
3.4 Determinação de Ponto de Mudança . . . 27
3.5 Mudançanos Coe ientes de Regressão . . . 28
3.5.1 Espe i ação doModelo . . . 28 3.5.2 Derivadas Par iaisde
ℓ(θ)
. . . 29 3.5.3 OAlgoritmo EM . . . 30 3.5.4 Estudos de Simulação . . . 33 3.6 Mudançana Variân ia . . . 42 3.6.1 Espe i ação doModelo . . . 42 3.6.2 Derivadas Par iaisdeℓ(θ)
. . . 43 3.6.3 OAlgoritmo EM . . . 443.6.4 Estudos de Simulação . . . 47
3.7 Mudançanos Coe ientes de Regressão e Variân ia . . . 56
3.7.1 Espe i ação doModelo . . . 56
3.7.2 Derivadas Par iaisde
ℓ(θ)
. . . 573.7.3 OAlgoritmo EM . . . 58
3.7.4 Estudos de Simulação . . . 61
4 Diagnósti odeInuên iaemmodelosderegressãoMEN ompontodemudança 71 4.1 Diagnósti ode Inuên ia . . . 71
4.2 Inuên iaLo al . . . 72
4.3 Inuên iaLo alem MRL-MEN-PM nos Coe ientes de Regressão . . . 73
4.3.1 Matriz Hessiana . . . 73
4.3.2 Esquemas de Perturbação . . . 74
4.3.3 Estudos de Simulação . . . 76
4.4 Inuên iaLo alem MRL-MEN-PM naVariân ia . . . 85
4.4.1 Matriz Hessiana . . . 85
4.4.2 Esquemas de Perturbação . . . 85
4.4.3 Estudos de Simulação . . . 88
4.5 Inuên iaLo alem MRL-MEN-PM nos Coe ientes de Regressão e Variân ia . . . 90
4.5.1 Matriz Hessiana . . . 90
4.5.2 Esquemas de Perturbação . . . 94
4.5.3 Estudos de Simulação . . . 97
5 Apli ações 103 5.1 Conjunto de Dados Holbert . . . 103
5.2 Conjunto de Dados Ibope . . . 111
6 Considerações Finais 129 6.1 Con lusões . . . 129
6.2 Perspe tivas Para TrabalhosFuturos . . . 130
Aos meus irmãos Ana Patri ia e Julio.
Á minha esposa Rosália e ao meu lho Gael.
•
Ao professor FilidorVil aLabrapela onança,sugestões, apoioeorientaçãona elaboração deste trabalho.•
Á professora Camila Borelli Zeller pela sua onstante olaboração e sugestões para a obtenção dos resultados obtidos.•
Ao Departamento de Estatísti aIMECC-UNICAMP pela oportunidadeofere ida.•
Ao IBOPE Midia peladisponibilização dos dados utilizadosneste trabalho.•
Aminha familia,tantobrasileiraquantoperuana,quede diversasmaneirasmeen orajaram para ompletar esta etapa de vida.2.1 Ajustede modelosde regressão Normale tde Student para dados simulados
onsi-derando diversas suposições. . . 15
2.2 Valores
SIC
dos modelosderegressão NormaletdeStudentajustadossobredados simulados. . . 162.3 Diagramapara lassesde distribuiçõesde probabilidade simétri as . . . 18
2.4 Algumas distribuições que ompõem a lasse de Mistura de Es ala Normal (linha
heia) omo alternativaspara
N(−2, 0.5)
,N(0, 1)
eN(3, 2)
(linhapontillada). . . . 21 3.1 Frequên ias absolutas das posiçõesdos pontosde mudançaestimados nas amostrasMonteCarlosimuladasnomodelode regressão linear ommudançanos oe ientes
de regressão. . . 39
3.2 Apli açãodo ritério SIC sobre uma amostra MonteCarlo simulada,onde oponto
de mudança estimado é
k = 20
, no modelo de regressão linear om mudança nos oe ientes de regressão. . . 403.3 Resultado de simulações sobre otimização do parâmetro
ν
das distribuições t de Student,Slash eNormalContaminadanomodelode regressão linear ommudançanos oe ientes de regressão. . . 41
3.4 Frequên ias absolutas das posiçõesdos pontosde mudançaestimados nas amostras
MonteCarlo simuladas nomodelo de regressão linear om mudançana variân ia. . 53
3.5 Apli açãodo ritério SIC sobre uma amostra MonteCarlo simulada,onde oponto
de mudança estimado é
k = 20
, no modelo de regressão linear om mudança na variân ia. . . 543.6 Resultado de simulações sobre otimização do parâmetro
ν
das distribuições t de Student,Slash eNormalContaminadanomodelode regressão linear ommudançanavariân ia. . . 55
3.7 Frequên ias absolutas das posiçõesdos pontosde mudançaestimados nas amostras
MonteCarlosimuladasnomodelode regressão linear ommudançanos oe ientes
de regressão e variân ia. . . 67
3.8 Apli açãodo ritério SIC sobre uma amostra MonteCarlo simulada,onde oponto
de mudança estimado é
k = 20
, no modelo de regressão linear om mudança nos oe ientes de regressão e variân ia. . . 683.9 Resultado de simulações sobre otimização do parâmetro
ν
das distribuições t de Student,Slash eNormalContaminadanomodelode regressão linear ommudançanos oe ientes de regressão evariân ia. . . 69
4.1 Mudanças relativas nas estimativas dos parâmetros do modelo de regressão linear
Mistura de Es ala normal om ponto de mudança nos oe ientes de regressão
onsiderandodistribuiçõesNormal,tde Student,SlasheNormalContaminadapara
diferentes valores de ontaminação
ℑ
naobservação 10. . . 78 4.2 Mudanças relativas nas estimativas dos parâmetros do modelo de regressão linearMistura de Es ala normal om ponto de mudança nos oe ientes de regressão
onsiderandodistribuiçõesNormal,tde Student,SlasheNormalContaminadapara
diferentes valores de ontaminação
ℑ
nas observações 10e 30. . . 79 4.3 Grá o deM(0)
para perturbação da variável expli ativa no modelo de regressãolinear ommudançanos oe ientes deregressão, onsiderandomar asde referên ia
propostaporLee
&
Xu(2004),ondec
∗
= 3
eviasimulaçõesMonteCarlosobdiversas
distribuiçõesque onformama lasse de Mistura de Es ala Normal. . . 82
4.4 Grá o de
M(0)
para perturbação da variável resposta no modelo de regressão linear ommudançanos oe ientes deregressão, onsiderandomar asde referên iaproposta por Lee
&
Xu (2004) ondec
∗
= 3
e e via simulações Monte Carlo sob
diversas distribuiçõesque onformama lasse de Mistura de Es ala Normal. . . 83
4.5 Mudanças relativas nas estimativas dos parâmetros do modelo de regressão linear
Misturade Es alanormal om pontode mudança navariân ia onsiderando
distri-buiçõesNormal, t de Student,Slash eNormal Contaminadapara diferentes valores
de ontaminação
ℑ
naobservação 10. . . 89 4.6 Mudanças relativas nas estimativas dos parâmetros do modelo de regressão linearMisturade Es alanormal om pontode mudança navariân ia onsiderando
distri-buiçõesNormal, t de Student,Slash eNormal Contaminadapara diferentes valores
de ontaminação
ℑ
nas observações 10e 30. . . 90 4.7 Grá o deM(0)
para perturbação da variável expli ativa no modelo de regressãolinear om mudança na variân ia, onsiderando mar as de referên ia proposta por
Lee
&
Xu(2004)ondec
∗
= 3
eviasimulaçõesMonteCarlosobdiversasdistribuições
que onformam a lasse de Mistura de Es ala Normal.. . . 92
4.8 Grá ode
M(0)
paraperturbaçãodavariávelrespostanomodeloderegressãolinear om mudança na variân ia, onsiderando mar as de referên ia proposta por Lee&
Xu (2004)ondec
∗
= 3
evia simulaçõesMonte Carlo sob diversas distribuiçõesque
onformama lasse de Mistura de Es ala Normal. . . 93
4.9 Mudanças relativas nas estimativas dos parâmetros do modelo de regressão linear
Mistura de Es ala normal om ponto de mudança nos oe ientes de regressão e
variân ia onsiderando distribuiçõesNormal, t de Student, Slash e Normal
4.10 Mudanças relativas nas estimativas dos parâmetros do modelo de regressão linear
Mistura de Es ala normal om ponto de mudança nos oe ientes de regressão e
variân ia onsiderando distribuiçõesNormal, t de Student, Slash e Normal
Conta-minadapara diferentes valores de ontaminação
ℑ
nas observações10 e30. . . 99 4.11 Grá o deM(0)
para perturbação da variável expli ativa no modelo de regressãolinear om mudança nos oe ientes de regressão e variân ia, onsiderandomar as
de referên ia proposta por Lee
&
Xu (2004) ondec
∗
= 3
e via simulações Monte
Carlosobdiversas distribuiçõesque onformama lassedeMisturade Es alaNormal.101
4.12 Grá o de
M(0)
para perturbação da variável resposta no modelo de regressão linear om mudança nos oe ientes de regressão e variân ia, onsiderandomar asde referên ia proposta por Lee
&
Xu (2004) ondec
∗
= 3
e via simulações Monte
Carlosobdiversas distribuiçõesque onformama lassedeMisturade Es alaNormal.102
5.1 Dados Holbert:
SIC
para ajustes om diversas distribuições. Modelo de regressão om mudançanos oe ientes de regressão. . . 1055.2 DadosHolbert: Ajuste domodelo de regressão om ponto de mudançanos
oe i-entes de regressão sob distribuição Normal Contaminada. . . 106
5.3 Dados Holbert:
SIC
para ajustes om diversas distribuições. Modelo de regressão om mudançanos oe ientes de regressão e variân ia. . . 1075.4 Dados Holbert: Distân ia de Mahalanobis para o modelo de regressão om ponto
de mudança nos oe ientes de regressão e variân ia sob distintas distribuições,
onsiderando
ξ = 0.95
. . . 109 5.5 DadosHolbert: Distân iade Mahalanobisversusq
i
paraomodelode regressão ompontode mudançanos oe ientes de regressão evariân iasobdistintasdistribuições.109
5.6 Dados Holbert: Grá os
M(0)
onsiderando esquema ponderação de asos na se-gundasituaçãoespe ial para modelosde regressão ompontode mudançanosoe- ientes de regressão e variân ia sob distintasdistribuições onsideradas. . . 110
5.7 Dados Holbert: Grá os
M(0)
onsiderando esquema perturbação da variável ex-pli ativa na segunda situação espe ial para modelos de regressão om ponto demudança nos oe ientes de regressão e variân ia sob distintas distribuições
onsi-deradas. . . 111
5.8 Dados Holbert: Grá os
M(0)
onsiderando esquema perturbação da variável res-postanasegundasituaçãoespe ialparamodelosderegressão ompontodemudançanos oe ientes de regressão evariân ia sob distintasdistribuições onsideradas. . . 112
5.9 DadosIbope 01: Medições de audiên ia via instrumentosMeter (MET) e Caderno
(CAD)porobservações ordenadas segundo horário de medição.. . . 114
5.10 DadosIbope 01:
SIC
paraajustes om diversas distribuições. Modelo de regressão om mudançanos oe ientes de regressão. . . 1155.11 DadosIbope 01: Ajustedomodelode regressão om pontode mudançanos
oe i-entes de regressão sob distribuição t de Student. . . 116
5.12 Dados Ibope 01: Distân ia de Mahalanobis para o modelo de regressão om ponto
de mudança nos oe ientes de regressão sob distintas distribuições, onsiderando
5.13 Dados Ibope 01: Distân ia de Mahalanobis versus
q
i
para o modelo de regressão om ponto de mudança nos oe ientes de regressão sob distintas distribuições. . . . 1175.14 Dados Ibope 01: Grá os
M(0)
onsiderando esquema ponderação de asos na primeira situação espe ial para modelos de regressão om ponto de mudança nosoe ientes de regressão sob distintasdistribuições onsideradas. . . 118
5.15 DadosIbope 01: Grá os
M(0)
onsiderando esquema perturbação da variável ex-pli ativa na segunda situação espe ial para modelos de regressão om ponto demudançanos oe ientes de regressão sob distintasdistribuições onsideradas. . . . 119
5.16 DadosIbope01: Grá os
M(0)
onsiderandoesquema perturbação davariável res-postanasegundasituaçãoespe ialparamodelosderegressão ompontodemudançanos oe ientes de regressão sob distintas distribuições onsideradas.. . . 120
5.17 DadosIbope 02: Medições de audiên ia via instrumentosMeter (MET) e Caderno
(CAD)porobservações ordenadas segundo horário de medição.. . . 121
5.18 DadosIbope 02:
SIC
paraajustes om diversas distribuições. Modelo de regressão om mudançana variân ia.. . . 1225.19 DadosIbope02: Ajustedomodeloderegressão ompontode mudançanavariân ia
sob distribuição tde Student. . . 123
5.20 Dados Ibope 02: Distân ia de Mahalanobis para o modelo de regressão om ponto
de mudança navariân ia sob distintasdistribuições, onsiderando
ξ = 0.95
. . . 124 5.21 Dados Ibope 02: Distân ia de Mahalanobis versusq
i
para o modelo de regressãoom ponto de mudança navariân ia sob distintasdistribuições. . . 124
5.22 Dados Ibope 02: Grá os
M(0)
onsiderando esquema ponderação de asos na primeira situação espe ial para modelos de regressão om ponto de mudança navariân iasob distintas distribuições onsideradas. . . 125
5.23 DadosIbope 02: Grá os
M(0)
onsiderando esquema perturbação da variável ex-pli ativa na segunda situação espe ial para modelos de regressão om ponto demudançana variân iasob distintas distribuições onsideradas. . . 126
5.24 DadosIbope02: Grá os
M(0)
onsiderandoesquema perturbação davariável res-postanasegundasituaçãoespe ialparamodelosderegressão ompontodemudança2.1 Dadossimulados para modelo de regressão linear simples proposto. . . 14
2.2 Quatrodistribuiçõesde Mistura de Es ala Normal univariadas.. . . 19
3.1 Esperanças ondi ionais
q(d
i
)
das distribuiçõesestudadas. . . 32 3.2 Médiase desviospadrão(d.p) das estimativasdos parâmetrosdomodeloderegres-são linear om mudança nos oe ientes de regressão Normal, onsiderando 100 e
1000amostrassimuladasediversos tamanhosde amostra(
n
)eposiçãodopontode mudança(k
). . . 34 3.3 Médias e desvios padrão (d.p) das estimativas dos parâmetros do modelo dere-gressão linear om mudança nos oe ientes de regressão t de Student (
ν = 2
), onsiderando100 e 1000 amostras simuladase diversos tamanhos de amostra(n
)e posição doponto de mudança (k
). . . 35 3.4 Médiase desviospadrão(d.p) das estimativasdos parâmetrosdomodeloderegres-são linear om mudança nos oe ientes de regressão Slash (
ν = 4
), onsiderando 100 e 1000 amostras simuladas e diversos tamanhos de amostra (n
) e posição do pontode mudança (k
). . . 36 3.5 Médias e desvios padrão (d.p) das estimativas dos parâmetros do modelo dere-gressão linear om mudança nos oe ientes de regressão Normal Contaminada
(
ν = 0.2, γ = 0.3
), onsiderando100 e1000amostrassimuladasediversostamanhos de amostra(n
) eposição do pontode mudança(k
). . . 37 3.6 Médiase desviospadrão(d.p) das estimativasdos parâmetrosdomodeloderegres-são linear om mudança na variân ia Normal, onsiderando 100 e 1000 amostras
simuladase diversos tamanhos de amostra(
n
)e posição dopontode mudança(k
).. 48 3.7 Médias e desvios padrão (d.p) das estimativas dos parâmetros do modelo dere-gressão linear om mudança navariân ia t de Student (
ν = 2
), onsiderando 100 e 1000amostrassimuladasediversos tamanhosde amostra(n
)eposiçãodopontode mudança(k
). . . 49 3.8 Médias e desvios padrão (d.p) das estimativas dos parâmetros do modelo dere-gressão linear om mudança na variân ia Slash (
ν = 4
), onsiderando 100 e 1000 amostrassimuladase diversos tamanhos de amostra(n
)e posição dopontode mu-dança (k
). . . 503.9 Médias e desvios padrão (d.p) das estimativas dos parâmetros do modelo de
re-gressão linear om mudança navariân iaNormal Contaminada (
ν = 0.2, γ = 0.3
), onsiderando100 e 1000 amostras simuladase diversos tamanhos de amostra(n
)e posição doponto de mudança (k
). . . 51 3.10 Médiase desviospadrão(d.p) das estimativasdos parâmetrosdomodeloderegres-são linear om mudança nos oe ientes de regressão e variân ia Normal,
onside-rando100 e1000amostrassimuladase diversos tamanhosde amostra(
n
)eposição doponto de mudança(k
). . . 63 3.11 Médias e desvios padrão (d.p) das estimativas dos parâmetros do modelo dere-gressão linear om mudança nos oe ientes de regressão e variân ia t de Student
(
ν = 2
), onsiderando100e 1000amostrassimuladasediversos tamanhosde amos-tra(n
) e posição doponto de mudança (k
).. . . 64 3.12 Médiase desviospadrão(d.p) das estimativasdos parâmetrosdomodeloderegres-são linear om mudança nos oe ientes de regressão e variân ia Slash (
ν = 4
), onsiderando100 e 1000 amostras simuladase diversos tamanhos de amostra(n
)e posição doponto de mudança (k
). . . 65 3.13 Médiase desviospadrão(d.p) das estimativasdos parâmetrosdomodeloderegres-são linear om mudança nos oe ientes de regressão e variân ia Normal
Contami-nada (
ν = 0.2, γ = 0.3
), onsiderando 100 e 1000 amostras simuladas e diversos tamanhos de amostra (n
) eposiçãodo pontode mudança(k
). . . 66 4.1 Resultados para diagnósti o de inuên ia no MRL om mudança nos oe ientesde regressão onsiderando100 amostrassimuladas para ada uma das distribuições
de Misturade Es alaNormal estudadas: Normal (N),tde Student (t), Slash(Sl) e
Normal Contaminada(NC). . . 84
4.2 Resultados para diagnósti os de inuên ia no modelo de regressão linear om
mu-dança na variân ia onsiderando 100 amostras simuladas para ada uma das
dis-tribuições de Mistura de Es ala Normal estudadas: Normal (N), t de Student (t),
Slash (Sl) e NormalContaminada(NC). . . 91
4.3 Resultados para diagnósti os de inuên ia no modelo de regressão linear om
mu-dançanos oe ientesde regressãoevariân ia onsiderando100amostrassimuladas
para ada uma das distribuições de Mistura de Es ala Normal estudadas: Normal
(N),t de Student (t), Slash (Sl) e Normal Contaminada(NC). . . 100
5.1 DadosHolbert: Resultados para ritério
SIC
para modelo de regressão linear om mudançanos oe ientes de regressão. . . 1045.2 DadosHolbert: Estimativadosparâmetrosparaosmodelosde regressão omponto
de mudança nos oe ientes de regressão sob distintasdistribuições. . . 106
5.3 DadosHolbert: Resultados para ritério
SIC
para modelo de regressão linear om mudançanos oe ientes de regressão e variân ia. . . 1075.4 Dados Holbert: Estimativa dos parâmetros para modelos de regressão om ponto
5.5 DadosIbope01: Resultados para ritério
SIC
para modelode regressão linear ommudançanos oe ientes de regressão. . . 113
5.6 Dados Ibope 01: Estimativados parâmetros para modelos de regressão om ponto de mudança nos oe ientes de regressão sob distintasdistribuições. . . 116
5.7 DadosIbope02: Resultados para ritério
SIC
para modelode regressão linear om mudançana variân ia. . . 1195.8 Dados Ibope 02: Estimativados parâmetros para modelos de regressão om ponto de mudança navariân ia sob distintasdistribuições. . . 121
A.1 Dadosde volume de vendas de mer ado de ações. . . 136
A.2 Dadosde audiên ias de televisão (Parte 1). . . 137
Introdução
Os modelos estatísti os são onstruídos para expli ar de forma aproximada a estrutura de
um onjunto de dados mediante uma relação fun ional que melhor se ajuste ao padrão das
ara terísti as medidas. Estes modelos estatísti os deverão satisfazer ertas suposições para que
seja onsiderada uma boa aproximação. De forma lássi a, modelos de regressão linear - omo
todos os modelos lineares - são baseados na denominada teoria normal. Assim, uma suposição
rotineira do modelo é que tanto os erros omo os efeitos aleatórios são normalmente
distribuí-dos. Sob esta suposição, a inferên ia estatísti a para os parâmetros é amplamente onhe ida e
en ontra-sedisponívelenumaamplavariedadedeprogramas omputa ionaisdeanáliseestatísti a,
vejaporexemplo,Cohen
&
Cohen(2008)eEveritt&
Hothorn(2010)paraapli açõesnosistemaR. Em muitas áreas de pesquisa, é de interesse expli ar omo um onjunto de variáveisdenomi-nadas independentes (denidas a partir de um experimento ontrolado ou por uma base teóri a
previamentedenida)afeta- onjuntaouindividualmente-umavariáveldenominadadependente.
Os hamadosmodelosde regressão(Draper
&
Smith,1998)são ferramentasestatísti as utilizadas muito frequentemente para este m. A literaturain lui exemplos de regressão lineare não linear,alibração, regressão inversa, dentre outros e as suas apli ações podem ser vistas em diferentes
áreas de investigação tais omo Medi ina, Ciên ias So iais, E onometría, Geologia, Quími a,
Engenharia, dentre outras.
Uma situação parti ular o orre quando o onjunto de observações pode ser indexado por
alguma variável (tempo, espaço ou outra variável que indique uma ordem), e é possível observar
queapartirde ertopontodestaindexaçãoadistribuiçãodestasobservaçõesmuda. Estasituação
ara terizaum problemade pontode mudança(GomesdeSouza,2004). Logo, pode-seespe i ar
modelos de regressão linear om mudançanos parâmetros apartir de uma
k
-ésima observação de um onjuntode observações indexada.Quando opontodemudançaédes onhe idoeointeresseédete tareestimareste,Chen(1998)
sugereumametodologiaqueutilizaoCritériode Informaçãode S hwarz (
SIC
)de formare ursiva sobretodosospossíveispontosdo onjuntodedadospassíveisdeser opontodemudança. Chen&
Gupta(2001)apresentam umametodologiageralpara deteçãode pontosde mudançaemmodelos
om diversas estruturas, assim, quando um ponto de mudança está presente e é des onhe ido,
a estrutura do modelo muda a partir desta
k
-ésima observação onsiderada, e três formas de mudança nas estruturas dos modelos podem o orrer: (1) A variân ia do modelo onsiderado éonstante no onjunto total de dados e a mudança se produz somentenos parâmetros do modelo
de regressão,
(2) A mudança se produz na variân ia do modelo e os parâmetros do modelo de regressão são
onstantes no onjuntototal de dados, e
(3)A mudançaafetaa variân ia eos parâmetros domodelo de regressão.
Como foi dito anteriormente, a teoria de inferên ia estatísti a sobre modelos de regressão foi
amplamente desenvolvida em torno da distribuição normal, isto justi ado por algumas boas
propriedades estatísti as. No entanto, a inferên ia baseada no modelo normal sofre de falta de
robustez no sentido de ser muito sensível quando existem observações aberrantes (outliers) ou
quandoosdados provémde umadistribuição om audasmais pesadasqueadistribuiçãonormal.
Embora seja frequente o uso de transformações sobre avariável resposta om o m de aproximar
a uma distribuição normal (ou ao menos pro urar simetria), sugere-se bus ar um modelo teóri o
mais onveniente quando istoé possível. Assim, relaxar asuposição de normalidadepara estimar
os parâmetrosdo modelo tornou-se uma alternativainteressante.
O uso de distribuições simétri as om audas mais pesadas que a distribuição normal tem-se
mostrado úteis para reduzir a inuên ia dos "outliers"sobre as estimativas de máxima
verossi-milhança. Uma lasse de distribuições denominada de Mistura de Es ala Normal (Andrews
&
Mallows, 1974) ofere e alternativas neste sentido. Esta lasse ontém as distribuições normal, tde Student, slash, normal ontaminada, dentre outras. etem sido estudada om grande interesse
nos últimos anos.
Assim, neste trabalho, onsideramos o modelo de regressão linear, onde é assumido que os
modelos onsiderados apresentam um ponto de mudança e as observações seguem uma
distribui-ção na lasse Mistura de Es ala Normal. Considerando que a posição do ponto de mudança é
des onhe ida, serão en ontrados os estimadores de máxima verossimilhança para as três formas
de mudançanas estruturas do modelo des ritas anteriormente. Adi ionalmente, será apresentado
um pro edimento re ursivo que onsidera o ritério de informação de S hwarz para estimar um
ponto de mudança des onhe ido. As estimativas de máxima verossimilhança serão obtidas via
o algoritmo EM, e a programação do algoritmo e do pro edimento re ursivo para determinação
do ponto de mudançasão implemetados no sistema R.Finalmente, é onsiderado um enfoque de
análise de diagnósti o (Cook,1986) baseado nametodologiade Zhu
&
Lee (2001).1.1 Motivação
Estadissertaçãoémotivadaporumproblemarealqueestárel ionadoapro edimentosde medição
a relação entre os resultados de audiên ia obtidos a partir do uso de instrumentos eletrni os de
medição e os obtidos a partir do método manual de preen himento de questionário. Devido aos
avanços te nológi os o orridos nos últimos anos, os pro edimentos de medição são ada vez mais
automatizados e in orporam novas utilidades que fazem que suas ara terísti as sejam melhores
que seus prede essores (que na maioria de asos empregavam muitos pro essos manuais). É
natural então queestes novos pro edimentos substituam os antigos.
Quando uma mudançanos pro edimentos de medição é realizada, éimportante onhe er qual
é o efeito que esta mudança irá ausar, e na grande maioria de vezes é pre iso en ontrar uma
relação numéri a entre valores de medição obtidos pelonovo pro edimento e o antigo. A relação
numéri aem questão é impres indívelquandoas mediçõessão realizadasde forma ontínua epor
algumarazãotorna-sene essário manter ohistóri odas medições, ouquando opro edimentoserá
implantadoem etapase poralgum tempose onviverá om os dois pro edimentos.
Épre isoentão,estimarvaloresde mediçãoparanovopro edimentoobtidoapartirdos valores
de medição do antigo pro edimento. Para isto, foi sele ionado um período de tempo no qual
os dois pro edimentos de medição são utilizados para aferir em duas amostras representativas
da área de obertura estudada, e a partir destes dados se onstrói um modelo de regressão que
explique a mediçãopelo pro edimentonovoem função dopro edimentoantigo.
Para o aso espe í o que motiva esta dissertação, sabe-se que os valores das medições são
realizadas de forma ontínuae que ada mediçãopossa ser identi ada e ordenada por esta
iden-ti ação, obtendo assim uma base de dados indexada. Adi ionalmente, devido a ertas ondições
onhe idas, é de esperar que a partir de um erto valor desta indexação os valores das medições
sejam diferentes e produzam uma mudança na estrutura da relação do modelo de regressão,
propondo assim a utilização de um modelo de regressão om um ponto de mudança. Por outro
lado, apresença de dadosaberrantes nas mediçõessugereautilizaçãode modelosrobustos. Desta
forma, serão onsideradas distribuições simétri as om audas mais pesadas que a distribuição
normal,espe i amenteserão onsideradasasdistribuiçõesda lassede MisturadeEs alaNormal.
1.2 Objetivo do Trabalho
Oobjetivodopresente trabalhoé apresentarum estudode estimação ediagnósti o noModelode
Regressão Linear (MRL) om um ponto de mudança, onde os erros seguem uma distribuição na
lasse Mistura de Es ala Normal (MEN).A estimação dos parâmetros ea determinaçãodoponto
de mudançasão tratados om detalhes e são inspirados nos trabalhos de Chen (1998) eOsorio
&
Galea (2006). Quatro distribuições de probabilidade que formam parte da lasse de Mistura deEs ala Normal são utilizadas na obtenção de resultados espe í os. Os resultados obtidos serão
apli adossobre dados simulados ereais.
i) Desenvolver aestimação pormáxima verossimilhança para modelosde regressão linear
mis-tura de es ala normal que apresentam um ponto de mudança e apresentar a estimação de
parâmetrosmedianteoalgoritmoEMpara adaumdos três asosde mudança onsiderados;
ii) Considerar um método para determinar a existên ia de um ponto de mudança e a posição
deste no onjunto de dados a partir de Critério de Informação de S hwarz, para todos os
modelos estudados;
iii) Abordaroproblemadeinuên ialo alnosmodelosestudados onsiderandoalgunsesquemas
de perturbaçãoe seguindo a metodologiade Zhu
&
Lee (2001);iv) Avaliaros resultados obtidos apartir de estudos de simulaçãode Monte Carlo;
v) Apli ar os resultados obtidosem onjuntos de dados reais. Um dos quais orresponde a um
onjunto onhe ido dentro da literatura estatísti a e para o qual existem alguns resultados
emsituaçõesespe í as (Holbert,1982).
1.3 Organização do Trabalho
A presente dissertação ontêm seis apítulos e um apêndi e que ontêm os dados das apli ações.
Os apítulos são organizados omosegue abaixo.
No Capítulo 2, apresenta-se uma revisão dos prin ipais on eitos que serão tratados nesta
dissertação. O on eito de ponto de mudan a em modelos lássi os de regressão linear e a
estimação de parâmetros via algoritmo EM são introduzidos para estes modelos. Finalmente,
resultados importantes rela ionados à lasse de distribuições de Mistura de Es ala Normal são
apresentados.
No Capítulo 3, estuda-se os modelos de regressão linear (MRL) onsiderando um ponto
de mudança e om erros distribuídos por distribuições da lasse de Mistura de Es ala Normal
(MEN). A espe i ação do modelo, a estimação de máxima verossimilhança dos parâmetros,
o algoritmo EM orrespondente e a forma de determinação do ponto de mudança a partir de
Critério de Informação de S hwarz (
SIC
) são apresentados para os diversos modelos onsidera-dos. Estudosdesimulaçãoedis ussõessobreosresultadossãoapresentadosemtodas assituações.OCapítulo4 édedi ado aoestudode diagnósti o noMRL om pontode mudançabaseado na
metodologiade Zhu
&
Lee (2001). Resultados e dis ussões para alguns esquemas de perturbação são apresentados.No Capítulo5, apresenta-se apli ações sobretrês onjuntos de dados reais.
Finalmente, no Capítulo 6 apresentamos as onsiderações nais e on lusões deste trabalho,
Prin ipais Con eitos
Neste apítulo,apresentamos osprin ipais on eitos queserãotratadosnesta dissertação.
Pri-meiramente, des revemos o modelo de regressão linear om a presença de um ponto de mudança
e om erros distribuídos normalmente e posteriormente erros om distribuição t de Student.
Se-guidamente, apresenta-se uma des rição doalgoritmoEM usadonaestimaçãodos parâmetrosdos
modelosestudados nopresentetrabalho. Finalmente,uma revisãodas distribuiçõesde Misturade
Es ala Normal para o aso univariado é onsiderada.
2.1 Modelo de Regressão om Ponto de Mudança
Nesta seção, des revemos o problema de presença de um ponto de mudança nos modelos de
re-gressão. Consideramos duas situações, para os modelos de regressão, estudadas por Chen (1998)
e Osorio
&
Galea (2006); quando os erros seguem uma distribuiçãonormal om média zero e va-riân ia onstante e uma extensão que onsidera uma distribuição t de Student om média zero evariân ia onstante, respe tivamente. Em ambas situações a mudança o orre nos parâmetros de
regressão.
2.1.1 O Problema de Ponto de Mudança
Intuitivamente pode-se onsiderar que qualquer onjunto de observações ne essariamente
orde-nadas por alguma ara terísti a onhe ida (de tempo, de espaço ou outra qualquer), apresenta
um problema de ponto de mudança se a distribuição das observações muda após um ponto
determinadoe des onhe ido deste ordenamento.
Uma denição formal para este problema é en ontrado em Gomes de Souza (2004): dada
uma sequên ia de variáveis aleatórias (ou vetores aleatórios)
x
1
,x
2
,... om distribuições de probabilidade dadas porf
1
,f
2
... respe tivamente onde os índi es 1,2,... indi am uma ordem (por exemplo, instantes de tempo). Se diz que o pontok
( orrespondente ao índi ek
) é o ponto de mudança des onhe ido dessa sequên ia sef
1
= f
2
= ... = f
k
6= f
k+1
= f
k+2
= ...
Deve-se ter laro que a sequên ia denida não ne essariamente está referida a intervalos de
tempoqueestejam distribuídosigualmenteesimaqualquerformade ordemdosdados. Poroutro
lado, é possível generalizara denição para mais de um ponto de mudança.
As várias ara terísti aspelas quaisosproblemasde pontode mudançapodem ser lasi ados
são apresentadas porBrodsky
&
Darkhovsky (1993), estas estão referidas logoabaixo.(1) Ao métododeobtenção de dados,quepodemser separadosemduassituações: sequen iais e
de tamanhode amostraxado. Nospro edimentossequen iais, pornão existirum tamanho
de amostra determinado, a veri ação de homogeniedade de
f
deve ser feita quando ada novaobservaçãoérealizada,osdadosdeverãoser examinadosa adanovaobservaçãoquantoà hipótese de homogeneidade. Quando temos uma amostra xa o pro esso de obtenção de
dados é ompletado antes dahipótese de homogeneidade de
f
ser testada.(2) À informação a priori sobre
f
i
, de onde os problemas de ponto de mudança podem ser onsideradosparamétri os, semi-paramétri osou não paramétri os.(3) Às ara terísti asdos dados,determinando modelos omtempo ontínuooudis reto, uni ou
multidimensionaisou om observaçõesdependentes ouindependentes.
(4) Ao tipo de mudança, que podem ser de dois tipos: Os de mudança abrupta omo por
exemplo um modelo da forma
Y
i
= α
1
+ β
1
X
i
, parai = 1, . . . , k
eY
i
= α
2
+ β
2
X
i
, parai = k + 1, . . . , n
(ondeX
i
ne essariamente mantém uma ordem respeito ao indexador); e os modelos om mudança gradual ou sem des ontinuidade onde dadoX
1
≤ X
2
≤ ... ≤ X
n
existeλ (X
k
< λ < X
k+1
)
talqueY
i
= α
1
+ β
1
λ = α
2
+ β
2
λ
, estes modelos são onhe idos também omo regressão segmentada.(5) Ao número de mudanças, onde podemos ter modelos om um úni o ponto de mudança ou
múltiplos pontos de mudança.
A respeito da inferên ia sobre os modelos om ponto de mudança, devem ser onsiderados os
seguintes aspe tos: Determinaraexistên ia doponto(ou pontos) de mudança, lo alizara posição
deste ponto (ou pontos), estimar todos os parâmetros de interesse do modelo e realizar análises
preditivas.
Dentro da literatura estatísti a, o problema de ponto de mudança tem sido estudado om
muito interesse ao longo dos anos. Estudos sobre problemas de ponto de mudança na média
sobre uma sequên ia de variáveis aleatórias normais são tratados por Cherno
&
Za ks (1964), Gardner(1969),Srivastava(1975),Worsley (1979)eSrivastava&
Worsley(1986). Horváth(1993) e Chen&
Gupta (1995) estendem este estudo para mudança simultânea na média e variân ia, sempre sobredistribuiçõesnormais davariável aleatória. Mais re entemente Bhatti (2000)utilizaalgunstestes onhe idosnoproblema de pontode mudançanavariân iade sequên iade variáveis
No que se refere aos modelos de regressão linear, muitos estudos na literatura estatísti a
foram desenvolvidos onsiderando o problema de ponto de mudança sobre o modelo lássi o que
asssume normalidade dos erros aleatórios. Quandt (1958, 1960) intoduz o método de máxima
verossimilhança para estimar e testar parâmetros de modelos de regressão segmentada. Ferreira
(1975),Chin Choy
&
Broemeling(1980)e Holbert (1982)realizamestudosdesde opontode vista bayesiano. Brown et al. (1975) e Hofri hter (2007)usam o métodode residuais re ursivos para adeteção de pontosde mudançaem modelos de regressão linear múltipla. Hawkins (1989) utilizao
riterio de união-interseção. Kim
&
Siegmund (1989) e Kim (1994) utilizam o teste de razão de verossimilhançaparadeteçãodepontosdemudança. Csörg®&
Horváth(1997)apresentam propri-edadesassintóti as de métodos de deteção de pontodemudança. O uso de Criteriode Informaçãode S hwarz (S hwarz, 1978) para determinação de ponto de mudança em modelos de regressão
linear éapresentado porChen (1998)eChen
&
Gupta(1997, 1999, 2001). Osorio&
Galea(2006) utilizamo ritério de Informação de S hwarz (SIC
),na determinaçãodopontode mudançanum modeloderegressãolinearondeoserrossãodistribuídosdea ordoaumadistribuiçãotdeStudent.Nas seguintes subseções, apresentamos a metodologia des rita por Chen (1998) e a extensão
apresentada por Osorio
&
Galea (2006) para o modelo robusto t de Student. Em ambos asos onsidera-se amudançanos parâmetros de regressão evariân ia onstante.2.1.2 Modelo de Regressão Linear Normal om Ponto de Mudança
Considerando o modelo de regressão:
Y
i
= x
⊤
i
β
+ ǫ
i
,
(2.1)onde
β
=
(β
0
, β
1
, ..., β
p−1
)
⊤
é um vetor e parâmetros des onhe idos de dimensão
p
,x
i
= (1, x
1i
, ..., x
1(p−1)
)
⊤
é ai
-ésima linha da matriz de desenhoX
de dimensãon × p, (n > p)
e os erros aleatóriosǫ
1
,...,ǫ
n
são independentes e identi amente distribuídos omoǫ
i
iid
∼ N(0, σ
2
)
,
i = 1, . . . , n
, ondeσ
2
é um parâmetro des onhe ido maiorque zero.
Considerando que o ponto de mudança en ontra-se na posição
k
, não onhe ida, tem-se queY
i
∼ N(x
⊤
i
β
1
, σ
2
)
, parai = 1, . . . , k
eY
i
∼ N(x
⊤
i
β
2
, σ
2
)
, parai = k + 1, . . . , n
, ouseja, pontode mudança namédia dadistribuição davariável resposta.Chen (1998) aborda oproblema de veri ar a existên ia de um ponto de mudançano modelo
de regressão (2.1) e determinar a posição deste. Para isto, onsidera-se um teste de hipótese da
forma
H
0
:
Y
i
= x
⊤
i
β
+ ǫ
i
,
i = 1, . . . , n,
H
1
:
Y
i
= x
⊤
i
β
1
+ ǫ
i
,
i = 1, . . . , k,
Y
i
= x
⊤
i
β
2
+ ǫ
i
,
i = k + 1, . . . , n,
(2.2)a hipótese alternativa que identi a um modelo de regressão om um ponto de mudança na
observação
k
.Quando a posição do ponto de mudança não é onhe ida,
H
1
deverá onsiderar uma oleção de modelos om ponto de mudança que onsidera as posiçõesp, ..., n − p
e o objetivo neste aso será sele ionar um modelo desta oleção.AmetodologiaparaaseleçãopropostaporChen(1998)usaoCritériodeInformaçãodeS hwarz
(
SIC
)denido omoSIC = −2 ℓ(b
θ) + s log n,
(2.3)onde
ℓ(b
θ)
orresponde à função de log-verossimilhançaavaliada naestimativade máxima verossi-milhançabθ = ( c
β
⊤
, b
σ
2
)
⊤
,
s
é onúmerode parâmetros domodelo en
éo tamanhode amostra. Os ritériosde de isãoadotados são osseguintes:•
O modelo onsiderado apresenta um ponto de mudança, que equivale a rejeitar a hipó-tese nula, seSIC(n) > min{SIC(k), para k = p, ..., n − p}.
(2.4)•
Quando a hipótese nula é rejeitada, a posição estimada do ponto de mudança via máxima verossimilhança orresponde ao valorbk
quesatisfazSIC(b
k) = min{SIC(k) : k = p, ..., n − p}.
(2.5) Comomen ionadoemOsorio&
Galea(2006),amaximizaçãodafunçãode log-verossimilhança equivaleà minimizaçãodo Critériode Informaçãode S hwarz.Sob a hipótese nulaos estimadores de máxima verossimilhançados parâmetros são
b
β
= (X
⊤
X)
−1
X
⊤
Y
e
σ
b
2
=
1
n
(Y − Xb
β)
⊤
(Y − Xb
β).
O ritériode informação de S hwarz,
SIC(n)
,pode ser expressado omoSIC(n) = −2 ℓ
0
(b
β
, b
σ
2
) + (p + 1) log n
= n log[(Y − Xb
β)
⊤
(Y − Xb
β
)] + n (log 2π + 1) + (p + 1 − n) log n.
Sob a hipótesealternativaos estimadoresde máxima verossimilhançados parâmetros
onside-rados podem ser expressados omo
c
β
1
= (X
1
⊤
X
1
)
−1
X
1
⊤
Y
1
,
β
c
2
= (X
2
⊤
X
2
)
−1
X
2
⊤
Y
2
e
b
σ
2
=
1
n
[(Y
1
− X
1
β
c
1
)
⊤
(Y
1
− X
1
β
c
1
) + (Y
2
− X
2
β
c
2
)
⊤
(Y
2
− X
2
β
c
2
)].
Neste aso, o ritério de informação de S hwarz,
SIC(k)
, édado porSIC(k) = −2 ℓ
k
(c
β
1
, c
β
2
, b
σ
2
) + (2p + 1) log n
= n log[(Y − Xc
β
1
)
⊤
(Y − Xc
β
1
) + (Y − Xc
β
2
)
⊤
(Y − Xc
β
2
)]
+n (log 2π + 1) + (2p + 1 − n) log n,
onde
k = p, ..., n − p
,X
1
é uma partição da matrizX
que onsidera ask
primeiras linhas,Y
1
é uma partição dovetorY
que onsidera ask
primeirasobservações,X
2
é uma partição damatrizX
que onsidera asn − k
últimaslinhas eY
2
é uma partiçãodo vetorY
que onsidera asn − k
últimas observações.2.1.3 Modelo de Regressão Linear t de Student om Ponto de Mudança
Osorio
&
Galea (2006) propõem um modelo de regressão linear t de Student, onde os erros aleatóriosǫ
1
,...,ǫ
n
domodelo onsideradoem(2.1) são independentes eidenti amentedistribuídas omoǫ
i
iid
∼ t(0, σ
2
, ν)
, para
i = 1, . . . , n
,ondeσ
2
éum parâmetro des onhe ido e
ν
são osgrausde liberdade dadistribuição t de Student.Assim, quando o ponto de mudança en onta-se na posiçãok
não onhe ida tem-se queY
i
∼ t(x
⊤
i
β
1
, σ
2
, ν)
, parai = 1, . . . , k
eY
i
∼ t(x
⊤
i
β
2
, σ
2
, ν)
, parai = k + 1, . . . , n
.Considerando o omentário de Fernández
&
Steel (1999) sobre os graus de liberdadeν
, estes serão onsiderados onhe idos e omo sugerido por Lange et al. (1989) uma avaliação de váriospossíveis valores de
ν
deverá ser feita para es olher o que maximize a função de verossimilhança. Quandoν → ∞
a distribuição t de Student onverge à normal e os resultados apresentados por Chen (1998) podem ser obtidos.A estimação de máxima verossimilhança sob hipótese nula onsidera a função de
log-verossimilhançadada por
ℓ
0
(β, σ
2
) = n log G(ν) −
n
2
log σ
2
−
ν + 1
2
n
X
i=1
log{1 + d
i
/ν},
onded
i
=
(Y
i
− x
i
⊤
β
)
2
σ
2
,
i = 1, . . . , n
eG(ν) =
Γ(
ν+1
2
)
√
πν Γ(
ν
2
)
.
As funções es ore são
U(β) =
1
σ
2
n
X
i=1
q
i
(Y
i
− x
i
⊤
β)x
i
=
1
σ
2
X
⊤
Q
(Y − Xβ)
e
U(σ
2
) = −
n
2σ
2
+
1
2σ
4
n
X
i=1
q
i
(Y
i
− x
i
⊤
β)
2
= −
n
2σ
2
+
1
2σ
4
V
Q
(β),
ondeV
Q
(β) = (Y − Xβ)
⊤
Q
(Y − Xβ),
com
Q
= diag(q
1
, ..., q
n
),
e
q
i
=
ν + 1
ν + d
i
,
i = 1, . . . , n
.Neste aso, o ritério de informaçãode S hwarz,
SIC(n)
,pode ser es rito omoSIC(n) = −2 n log G(ν) + n log b
σ
2
+ (ν + 1)
n
X
i=1
log{1 + d
i
/ν} + (p + 1) log n.
Os resultados equivalentes ao onsiderar a hipótese alternativasão:
ℓ
k
(β
1
, β
2
, σ
2
) = n log G(ν) −
n
2
log σ
2
−
ν + 1
2
[
k
X
i=1
log{1 + d
1i
/ν} +
n
X
i=k+1
log{1 + d
2i
/ν}],
U(β
1
) =
1
σ
2
X
1
⊤
V
1
(Y
1
− X
1
β
1
),
U(β
2
) =
1
σ
2
X
2
⊤
V
2
(Y
2
− X
2
β
2
),
e
U(σ
2
) = −
n
2σ
2
+
1
2σ
4
[V
Q
1
(β
1
) + V
Q
2
(β
2
)],
ondeV
Q
1
(β
1
) = (Y
1
− X
1
β
1
)
⊤
Q
1
(Y
1
− X
1
β
1
), V
Q
2
(β
2
) = (Y
2
− X
2
β
2
)
⊤
Q
2
(Y
2
− X
2
β
2
),
com Q
1
= diag(q
1
, ..., q
k
) e Q
2
= diag(q
k+1
, ..., q
n
)
SIC(k) = −2 n log G(ν) + n log b
σ
2
+ (ν + 1) [
k
X
i=1
log{1 + d
1i
/ν}
+
n
X
i=k+1
log{1 + d
2i
/ν} ] + (2p + 1) log n,
onded
1i
=
(Y
i
− x
i
⊤
β
1
)
2
σ
2
, i = 1, . . . , k,
d
2i
=
(Y
i
− x
i
⊤
β
2
)
2
σ
2
, i = k + 1, . . . , n,
Sobambashipóteses,observa-sequeasequaçõesdeverossimilhança orrespondemaumsistema
deequaçõesnãolinearepodeser resolvidoviamétodosnuméri os. Napróximaseção,des revemos
o algoritmoEM ea apli açãodeste para estimação domodelo de regressão linear tde Student.
2.2 O Algoritmo EM
Nas últimas dé adas o desenvolvimento de algoritmos omputa ionais orientados à realização de
estimações de parâmetros tem sido um tema re orrente na bibliograa e desde então, muitas
apli açõesemdiversas áreas temsido apresentadas. Um grandenúmero destasestão rela ionadas
a inferên iae modelagemrobustasobre onjuntosde dadossimétri os. O algoritmoEM
(Demps-ter, Laird
&
Rubin, 1977) é um pro esso iterativo muito utilizado e e iente na estimação de parâmetros de modelos om dados in ompletos a partir da maximizaçãodas funções de máximasimpli adaaoutilizaraformulaçãode dadosaumentados, também hamadode dados ompletos.
Estes dados são a união dos dados denominados in ompletos que são observados e os dados
denominadosperdidos.
Uma espe i ação doalgoritmoéa seguinte: Seja
y
o
ey
f
que denotam osdados observados e faltantes, respe tivamente. Denota-se omoy
c
= (y
o
, y
f
)
os dados ompletos que omportam os dadosobservadosefaltantes onjuntamente. Sejamf (y
c
|θ)
afunçãode verossimilhançadosdados ompletos,ℓ
c
(θ|y
c
) = log(f (y
c
|θ))
,θ
∈ Θ
, a função de log-verossimilhançados dados ompletos eQ(θ|b
θ)
o valor esperado da log-verossimilhança dos dados ompletos ondi ionado aos dados observadosy
o
e osparâmetros estimados atuais. Temos que:Q(θ|b
θ) = E[ℓ
c
(θ|y
c
)|y
o
, b
θ],
(2.6)onde
bθ
são os parâmetros estimados usados na avaliação da esperança ondi ional eθ
são as estimativasatualizadas, obtidas pelamaximizaçãodeQ
.CadaiteraçãodoalgoritmoEMé ompostapordoispassos: O ál ulodaesperança ondi ional
(E), e a maximização(M).Assim, para a
r
-ésima iteraçãotemos: Passo E: Cal ularQ(θ|b
θ
(r−1)
)
omo uma função debθ
(r−1)
e os dadosobservados; Passo M: En ontrarbθ
(r)
,tal que,Q(b
θ
(r)
|b
θ
(r−1)
) = Maxθ
∈Θ
Q(θ|b
θ
(r−1)
)
.Os dois passos são repetidos quantas vezes seja ne essário. A onvergên ia é assegurada uma
vez que oalgoritmogarante oaumento daverossimilhançaem ada iteração,istoé, asfunçõesde
verossimilhançaobservada
ℓ(θ|y
o
)
obtidasviaoalgoritmoEMnas iterações(r
)e(r + 1
) guardam a seguinte relaçãoℓ(θ
(r)
|y
o
) ≤ ℓ(θ
(r+1)
|y
o
)
, o que permite armar que o algoritmo geralmente onverge a um máximo lo al ou global da função de log-verossimilhança. A veri ação que omáximoverdadeiro éal ançadosempre deveser realizada, aoque sere omendarodar várias vezes
as iteraçõesdo algoritmoEM om diferentes valores ini iais.
OpassoMnoalgoritmoEMpodeser substituídoporumpro essode maximização ondi ional
(CM) de alguma função dos parâmetros que estão sendo estimados. Este algoritmo foi proposto
por Meng
&
Rubin (1993) e é denominado algoritmo de maximização ondi ional de esperança (ECM). Neste aso, maximiza-se a função Q sujeita a restrições emθ
, tornando o algoritmo omputa ionalmentemais simples.AseguirapresentamososalgoritmosEMsugeridosporOsorio
&
Galea(2006)paraaestimação de parâmetros do modelode regressão linear t de Student.•
Quando omodelonão apresentapontode mudança, afunçãode log-verossimilhança obser-vada pode ser es rita omoℓ
0
(Y|ν; θ) = −
n
2
log(2 π σ
2
) +
1
2
log |Q| −
1
2σ
2
V
Q
(β).
O algoritmo EM maximiza a função de log-verossimilhança anterior de forma iterativa. A
seguir são des ritos os dois passos para a
r
-ésima iteração: Passo E: Partindo de uma estimativa ini ialbθ
(r−1)
= ( c
β
⊤
(r−1)
, b
σ
2
(r−1)
)
, al ula-se os pesos
q
i
(r)
a partir daesperança ondi ionalE(U
i
|Y
i
; b
θ
(r−1)
) = q
i
(r)
=
ν + 1
ν + d
(r−1)
i
,
onded
(r−1)
i
=
(Y
i
− x
i
⊤
β
c
⊤
(r−1)
)
2
b
σ
2
(r−1)
i = 1, . . . , n.
PassoM:Usandoospesosobtidosnopassoanterior,asestimativasdemáximaverossimilhança
podem ser es ritas omo
b
β
(r)
= (X
⊤
Q
(r)
X
)
−1
X
⊤
Q
(r)
Y
,
σ
b
2
(r)
=
1
n
(Y − Xβ
(r)
)
⊤
Q
(r)
(Y − Xβ
(r)
),
ondeQ
(r)
= diag(q
(r)
1
, ..., q
(r)
n
).
•
Quando o modelo emquestão apresenta ponto de mudança naposiçãok
, a função de log-verossimilhançaobservada éℓ
k
(Y|ν; θ) = −
n
2
log 2 π σ
2
+
1
2
log |Q
1
| −
1
2σ
2
V
Q
1
(β
1
) +
1
2
log |Q
2
| −
1
2σ
2
V
Q
2
(β
2
).
Neste aso, osdois passos do algoritmoEM na
r
-ésimaiteração são des ritos omo: Passo E: Partindo de uma estimativa ini ialbθ
(r−1)
= ( c
β
⊤
1
(r−1)
, c
β
⊤
2
(r−1)
, b
σ
2
(r−1)
)
, al ula-se os pesosq
(r−1)
i
apartir daesperança ondi ionalE(U
i
|Y
i
; θ
(r−1)
) = q
i
(r−1)
=
ν + 1
ν + d
(r−1)
i
,
onded
i
=
(Y
i
− x
i
⊤
β
c
⊤
1
(r−1)
)
2
b
σ
2
(r−1)
i = 1, . . . , k,
(Y
i
− x
i
⊤
β
c
⊤
2
(r−1)
)
2
b
σ
2
(r−1)
i = k + 1, . . . , n.
Passo M:Usando os pesos obtidos nopasso anterior,as estimativas,nestaetapa, são obtidas
c
β
1
(r)
= (X
1
⊤
Q
1
(r)
X
1
)
−1
X
1
⊤
Q
1
(r)
Y
1
,
c
β
2
(r)
= (X
2
⊤
Q
2
(r)
X
2
)
−1
X
2
⊤
Q
2
(r)
Y
2
e
b
σ
2
(r)
=
1
n
[(Y
1
− X
1
β
(r)
1
)
⊤
Q
1
(r)
(Y
1
− X
1
β
(r)
1
) + (Y
2
− X
2
β
(r)
2
)
⊤
Q
2
(r)
(Y
2
− X
2
β
(r)
2
)],
omQ
1
(r)
= diag(q
1
(r)
, ..., q
(r)
k
),
Q
2
(r)
= diag(q
(r)
k+1
, ..., q
(r)
n
)
e onsiderandoqueX
1
éuma partição damatrizX
que onsidera ask
primeiraslinhas,Y
1
é uma partiçãodo vetorY
que onsidera ask
primeirasobservações,X
2
é uma partição damatrizX
que onsidera asn − k
últimas linhas eY
2
é uma partiçãodovetorY
que onsidera asn − k
últimas observações.Em ambas situações, ospassos E e M são repetidos até o onvergên ia do algoritmo.
2.3 Um Exemplo em Regressão Linear Simples
A seguir apresentamos a apli açãodos resultados mostrados nas duas seções anteriores sobre um
onjuntode dadossimulados. Osdiversos resultados são omparados.
1) Conjunto de dados simulados
É onsiderada uma amostra de tamanho20 do modelo de regressão
y
i
= β
0
+ β
1
x
i
+ e
i
, onde os errose
i
seguem uma distribuição t de Student om 2 graus de liberdade parai = 1, . . . , n
. Considera-seadi ionalmenteque o onjunto de dadosapresentaum pontode mudançanaposição10. Assim, osmodelosquegeramasobservaçõesapresentadas naTabela2.1foramdenidos omo
y
i
= 2 + 0.5 x
i
+ e
i
,
i = 1, ..., 10,
y
i
= 4 + 1, 5 x
i
+ e
i
,
i = 11, ..., 20.
2) Ajuste dos modelos
Primeiramente, assume-se que a distribuição dos erros do modelo segue uma normal om
média zero e variân ia des onhe ida para
i = 1, . . . , n
. O onjunto de dados é ajustado a partir de um modelo de regressão linear simples utilizandoos resultados apresentados porChen (1998).Quando não se onsidera a existên ia de um ponto de mudança os resultados sob hipótese nula
são utilizados. A reta obtida por este ajusteé mostrada naparte (a) daFigura2.1.
Mantendo a suposição que a distribuição dos erros dos modelos ajustados segue uma normal
om média zero e variân ia des onhe ida para
i = 1, . . . , n
e onsiderando desta vez que existe uma ponto de mudança onhe ido na posição 10, o onjunto de dados deve ser ajustadoutilizandoos resultados sob hipótese alternativa,obtendo duas retas. Levando em onsideraçãoa
Tabela2.1: Dados simuladospara modelode regressão linear simples proposto.
Indi adorde Indexação VariávelY VariávelX
1 7.68 9.84 2 8.25 9.68 3 4.16 7.87 4 20.53 5.53 5 5.48 4.47 6 4.57 3.25 7 7.34 9.26 8 0.97 9.78 9 3.28 5.64 10 11.60 8.61 11 32.99 18.95 12 31.63 18.09 13 21.42 11.36 14 31.04 17.18 15 24.47 14.32 16 32.19 19.04 17 28.94 15.90 18 21.46 10.39 19 19.80 10.43 20 27.95 16.41
segundautilizandoosúltimosdezdados. Asretasobtidassãomostradasnaparte(b)daFigura2.1.
Observe que nas duas situações anteriores as estimações de máxima verossimilhança dos
parâmetrosderegressão sãoosmesmosqueosobtidosaoutilizarométododemínimosquadrados.
Para o asodomodelo ompontode mudançadevem onsideraraspartiçõesadequadas de XeY.
Ao onsiderar queos erros seguem uma distribuiçãot de Student om dois graus de liberdade
para
i = 1, . . . , n
, os resultados para os modelosde regressão robustos apresentados por Osorio&
Galea (2006) serão utilizados. Novamente, os resultados sob hipótese nula são utilizados quandoseassumequenãoexiste umpontodemudançaeosresultadossob hipótesealternativa om
k
=10 são onsiderados ao assumir a existên ia de um ponto de mudança nessa posição. O algoritmoEM é utilizadopara aestimação dos parâmetros emambas situações.
As partes ( ) e (d) da Figura 2.1 apresentam as retas ajustadas ao onsiderar os modelos
robustos. O primeiro orrespondeao ajuste para um modelode regressão tde Student sem ponto
de mudança e o último para um modelo de regressão t de Student om ponto de mudança na
posição 10.
3) Apli ação da metodologia para determinação de ponto de mudança
A Figura2.2apresentaosresultados daapli açãodametodologiapara determinaçãode ponto
de mudançaque usa o ritériode informaçãode S hwarz, (
SIC
), proposto por Chen (1998) para osmodelos de regressão normale tde Student (Osorio&
Galea, 2006). Observa-se que emambas0
5
10
15
20
0
10
20
30
40
a) Modelo Normal sem ponto de mudança
Variável X
V
ar
iá
v
el Y
Y= −5.002+1.972 X
0
5
10
15
20
0
10
20
30
40
b) Modelo Normal com ponto de mudança
Variável X
V
ar
iá
v
el Y
Y= 8.636−0.169 X
Y= 5.214+1.445 X
0
5
10
15
20
0
10
20
30
40
c) Modelo t−Student sem ponto de mudança
Variável X
V
ar
iá
v
el Y
Y= −5.075+2.026 X
0
5
10
15
20
0
10
20
30
40
d) Modelo t−Student com ponto de mudança
Variável X
V
ar
iá
v
el Y
Y= 2.891+0.485 X
Y= 4.914+1.466 X
Figura 2.1: Ajuste de modelos de regressão Normal e t de Student para dados simulados
onsi-derando diversas suposições.
situaçõesidenti a-seopontode mudançanaposição10. Omenorvalorapresenta-se no
SIC(10)
domodelode regressão tde Student. Aapli açãodametologiaproposta levaaes olhadomodeloque reeteas ara terísti asdo onjunto de dados simulado.
5
10
15
20
100
110
120
130
140
a) Distribuição Normal
Posição de mudança
SIC
5
10
15
20
100
110
120
130
140
b) Distribuição t−Student
Posição de mudança
SIC
Figura2.2: Valores
SIC
dos modelosde regressão Normal e t de Student ajustados sobre dados simulados.Osmodelos de regressão linearquenão onsideramum pontode mudança aptamatendên ia
da relação, no entanto, os ajustes para os dados om valores extremos apresentam maiores
diferenças om os valores ajustados. É intuitivo que isso a onteça, pois ao onsiderar os dados
omo um úni o onjunto (o quenão ondiz om a simulaçãorealizada), aúni a reta que ajustará
os dados será menos pre isa nos dados mais extremos, assim a avaliação sob a presença de um
ponto de mudança torna-seimportante.
Ao observar os ajustes do modelo de regressão normal om ponto de mudança na posição 10,
a primeirareta mostra uma relaçãonegativa(o valorde
β
12
énegativo, o que difere da estrutura da simulação), isto devido prin ipalmente à observação número 10 do onjunto que ausa umefeito de alavan a no ajuste. Assim, onsiderar um modelo de regressão normal não é a melhor
opção quando dados aberrantes estão presentes em um onjunto de dados. Esta situação não
o orre quando é onsiderado o modelo de regressão t de Student. De fato, onsiderar modelos
de regressão robustos torna-se uma opção para des rever melhor a relação entre variáveis de um
onjuntode dados.
Finalmente, ametodologiaparadeteção de um pontode mudançaque onsidera o