• Nenhum resultado encontrado

O modelo de regressão GJS inflacionado em zero ou um

N/A
N/A
Protected

Academic year: 2021

Share "O modelo de regressão GJS inflacionado em zero ou um"

Copied!
187
0
0

Texto

(1)

Programa de Pós-Graduação em Matemática Aplicada e Estatística

Mestrado em Matemática Aplicada e Estatística

O modelo de regressão GJS inflacionado em

zero ou um

Francisco Felipe de Queiroz

Natal-RN Julho de 2018

(2)

O modelo de Regressão GJS inflacionado em zero ou

um

Trabalho apresentado ao Programa de Pós-Graduação em Matemática Aplicada e Es-tatística da Universidade Federal do Rio Grande do Norte, em cumprimento com as exigências legais para obtenção do título de Mestre.

Área de Concentração: Probabilidade e Es-tatística.

Linha de Pesquisa: Modelos de regressão

Orientador

Prof. Dr. Artur José Lemonte

Universidade Federal do Rio Grande do Norte – UFRN

Programa de Pós-Graduação em Matemática Aplicada e Estatística – PPGMAE

Natal-RN Julho de 2018

(3)

Queiroz, Francisco Felipe de.

O modelo de regressão GJS inflacionado em zero ou um / Francisco Felipe de Queiroz. - 2018.

186 f.: il.

Dissertação (mestrado) - Universidade Federal do Rio Grande do Norte, Centro de Ciências Exatas e da Terra, Programa de Pós-Graduação em Matemática Aplicada e Estatística. Natal, RN, 2018. Orientador: Prof. Dr. Artur José Lemonte.

1. Análise de regressão Dissertação. 2. Distribuição GJS Dissertação. 3. Modelo de regressão beta inflacionado

-Dissertação. 4. Modelo de regressão GJS - -Dissertação. 5. Regressão beta - Dissertação. I. Lemonte, Artur José. II. Título.

RN/UF/BCZM CDU 519.233.5

Catalogação de Publicação na Fonte. UFRN - Biblioteca Central Zila Mamede

(4)
(5)
(6)

A Deus, pelo dom da vida.

À minha avó Antônia, minha mãe Lúcia e minha madrinha Nenzinha, pelo apoio e por sempre acreditarem em mim.

Ao professor Artur Lemonte por ter aceitado ser meu orientador neste trabalho, pelo apoio, paciência e pelos ensinamentos compartilhados.

Aos professores do Departamento de Estatística, que estão sempre disponíveis para nos ajudar e, em especial: a professora Dione pelos ensinamentos e apoio durante a gradu-ação. A senhora é, sem dúvidas, um exemplo de professora para nós alunos. Ao professor André Pinho pela amizade e suporte durante o período em que estive na UFRN. Aos professores Moisés Medeiros, Luz Milena e Bruno pelo conhecimento compartilhado du-rante as disciplinas do mestrado. Aos professores Damião Nóbrega e Marcus Nunes pela disponibilidade em ajudar e apoio.

À Conceição, por ser sempre solícita e pela simpatia diária.

À minha querida amiga Joelma, pelo amor que me tem dedicado durante todos esses anos e por ter tornado essa etapa menos difícil. À minha amiga Maisa, pela amizade sincera. Ao amigo Johnny, pelo companheirismo.

Aos amigos que a Estatística me deu e que estiveram presentes nos últimos anos, em especial a Flávia, Vanessa, Karol, Carla e Inara, que, apesar da distância, se fizeram presentes em mais esta etapa. Aos amigos Joyce, Erika, Lucas, Rodrigo, Cleanderson, Túlio e demais colegas de mestrado. Essa caminhada seria mais difícil sem vocês.

(7)

Acreditar no sonho que se tem Ou que seus planos nunca vão dar certo Ou que você nunca vai ser alguém...”

(8)

um

Autor: Francisco Felipe de Queiroz Orientador: Prof. Dr. Artur José Lemonte

Resumo

Em uma ampla variedade de problemas envolvendo taxas, frações e proporções, a variá-vel de interesse pode assumir não apenas valores no intervalo (0, 1) como, também, os valores zero ou um. Nessas situações, o modelo de regressão beta, que é uma alternativa para modelagem de dados no intervalo (0, 1), não é adequado, já que a variável resposta é discreta nos pontos zero e/ou um e contínua no intervalo (0, 1). O modelo de regressão beta inflacionado de zero ou um pode ser utilizado nestes casos. Este trabalho tem como objetivo desenvolver uma alternativa ao modelo de regressão beta inflacionado para aná-lise de taxas e proporções na presença de zeros ou uns. O modelo de regressão proposto é

baseado na distribuição GJS (LEMONTE; BAZÁN, 2016). Apresentamos a distribuição GJS

inflacionada de zero ou um, seu respectivo modelo de regressão e abordamos aspectos infe-renciais para a estimação dos parâmetros do modelo. Além disso, avaliamos o desempenho dos estimadores através de simulaçõs Monte Carlo. Adicionalmente, propomos resíduos para o modelo de regressão GJS inflacionado e aplicamos a técnica de influência local baseada na curvatura normal para identificar possíveis pontos influentes. Ilustramos a metodologia desenvolvida mediante duas aplicações a conjuntos de dados reais.

Palavras-chave: Distribuição GJS. Modelo de regressão beta inflacionado. Modelo de

(9)

Author: Francisco Felipe de Queiroz Advisor: Prof. Dr. Artur José Lemonte

Abstract

Beta regression models are useful for modeling random variables that assume values in the standard unit interval, such as rates and proportions. Such models cannot be used when the data contain zeros and/or ones. In this case, usual regression models, such as normal linear or nonlinear regression models, are not suitable. The principal aim of this work is to propose a mixed continuous-discrete distributions to model data observed on the intervals [0, 1) or (0, 1] and its associated regression model. The GJS distribution is used to describe the continuous component of the model. The parameters of the mixture distribution are modelled as functions of regression parameters. We study the performance of the maximum likelihood estimators through Monte Carlo simulations. Also, we define a residual for the proposed regression model to assess departures from model assumptions as well as to detect outlying observations, and discuss some influence methods such as the local influence. Finally, applications to real data are presented to show the usefulness of the new regression model.

Keywords: Beta regression. Inflated beta regression model. GJS distribution. GJS

(10)

1.1 Função densidade de probabilidade da GJS obtida da distribuição:

Cau-chy (figura da esquerda); logística tipo I (figura da direita). . . p. 31

1.2 Função densidade de probabilidade da GJS obtida da distribuição:

t-Student ν = 2 (figura da esquerda); exponencial potência k = −0.2

(figura da direita). . . p. 31

1.3 Função densidade de probabilidade da GJS obtida da distribuição:

expo-nencial dupla ou Laplace (figura da esquerda); normal (figura da direita). p. 32

1.4 Função densidade de probabilidade da GJS obtida da distribuição

expo-nencial potência com k = 0.2 (figura da esquerda) e k = 0.5 (figura da

direita). . . p. 32

2.1 Função densidade de probabilidade da GJSIZ obtida da distribuição

lo-gística do tipo I para diferentes escolhas de ξ e δ, considerando α = 0.4. p. 41

2.2 Função densidade de probabilidade da GJSIZ obtida da distribuição

ex-ponencial dupla para diferentes escolhas de ξ e δ, considerando α = 0.4. p. 42

2.3 Função densidade de probabilidade da GJSIZ obtida da distribuição

t-Student para diferentes escolhas de ξ e δ, considerando α = 0.4 e ν = 2. p. 43

2.4 Função densidade de probabilidade da GJSIZ obtida da distribuição

t-Student para diferentes escolhas de ξ e δ, considerando α = 0.4 e ν = 3.5. p. 44

2.5 Função densidade de probabilidade da GJSIZ obtida da distribuição

ex-ponencial potência para diferentes escolhas de ξ e δ, considerando α = 0.4

e k = −0.2. . . . p. 45

2.6 Função densidade de probabilidade da GJSIZ obtida da distribuição

ex-ponencial potência para diferentes escolhas de ξ e δ, considerando α = 0.4

(11)

de regressão GJSIZ com gerador de densidades (a) normal e (b) logística

tipo I. . . p. 76

3.2 Gráfico de resíduos e QQ-plots (com envelopes simulados) para o modelo

de regressão GJSIZ com gerador de densidades t-Student com (a) ν = 2,

(b) ν = 4 e (c) ν = 8. . . . p. 77

3.3 Gráfico de resíduos e QQ-plots (com envelopes simulados) para o modelo

de regressão GJSIZ com gerador de densidade exponencial potência com

(a) k = −0.6, (b) k = −0.2 e (c) k = 0.2. . . . p. 78

3.4 Gráfico de resíduos e QQ-plots (com envelopes simulados) para o modelo

de regressão GJSIZ com gerador de densidade exponencial potência com

k = 0.6. . . . p. 79

4.1 Gráfico de influência (Retirado de Silva (2014)). . . p. 83

4.2 Gráfico da linha projetada (Retirado de Silva (2014)). . . p. 84

4.3 Gráfico de índices de |hmax| para ponderação de casos (Figura da

es-querda) e perturbação nas covariáveis (Figura da direita). . . p. 97

4.4 Gráfico de índices de |hmax| para ponderação de casos (Figura da

es-querda) e perturbação nas covariáveis (Figura da direita). . . p. 98

5.1 Histograma e box-plot para a proporção de mortes causadas por acidentes

de trânsito. . . p. 101

5.2 Diagrama de dispersão entre a variável resposta e a variável prop2029. . p. 101

5.3 Histograma das variáveis lnpop (figura da esquerda) e idhe (figura da

direita). . . p. 102 5.4 Gráfico de dispersão. . . p. 103 5.5 Gráfico de correlação. . . p. 103

5.6 Gráfico de resíduos (figura da esquerda) e QQ-plot com envelopes

simu-lados (figura da direita). . . p. 105

5.7 Função de log-verossimilhança perfilada. . . p. 109

5.8 Gráfico de resíduos (figura da esquerda) e QQ-plot com envelopes

(12)

lados (figura da direita) considerando o gerador de densidade t-Student. p. 112 5.10 Gráfico de resíduos (figura da esquerda) e QQ-plot com envelopes

simu-lados (figura da direita) considerando o gerador de densidade logística. p. 112

5.11 Função de log-verossimilhança perfilada. . . p. 114

5.12 Gráfico de resíduos (figura da esquerda) e QQ-plot dos resíduos com en-velopes simulados (figura da direita) considerando o modelo de regressão GJS inflacionado em zero com dispersão constante e gerador de densidade

t-Student. . . p. 115

5.13 Gráfico de índice de |hmax| para θ para o modelo com gerador de den-b

sidade t-Student com dispersão constante, considerando o esquema de perturbação simultanea nas covariáveis do componente discreto e da

me-diana. . . p. 116

5.14 Gráfico de índice de |hmax| para θ para o modelo com gerador de den-b

sidade t-Student com dispersão constante, considerando o esquema de

perturbação individual da covariável idhe do componente discreto. . . . p. 116

5.15 Gráfico de índice de |hmax| (Figura a) e de Ci padronizada (Figura b)

paraθ para o modelo com gerador de densidade t-Student com dispersãob

constante. . . p. 117 5.16 Gráfico de resíduos (figura da esquerda) e QQ-plot dos resíduos com

en-velopes simulados (figura da direita) considerando o modelo de regressão GJS inflacionado em zero com dispersão constante e gerador de densi-dade t-Student considerando a parte discreta (figuras (a) e (b)) e a parte

contínua (figuras (c) e (d)). . . p. 119 5.17 Histograma e box-plot para a proporção de indivíduos com acesso a

ele-tricidade. . . p. 120 5.18 Gráficos de resíduos para o modelo de regressão beta inflacionado em um.p. 122

5.19 Gráficos de índices de LDi para o modelo de regressão beta inflacionado

em um. . . p. 123

(13)

lados (figura da direita) considerando o gerador de densidade normal. . p. 128 5.22 Gráficos de resíduos (figura da esquerda) e QQ-plot com envelopes

simu-lados (figura da direita) considerando o gerador de densidade t-Student

(ν = 5.08). . . . p. 128 5.23 Gráficos de resíduos (figura da esquerda) e QQ-plot com envelopes

simu-lados (figura da direita) considerando o gerador de densidade logística. p. 129

5.24 Função de log-verossimilhança perfilada. . . p. 130

5.25 Gráficos de resíduos (figura da esquerda) e QQ-plot com envelopes simu-lados (figura da direita) considerando o gerador de densidade t-Student

(ν = 3.145). . . . p. 131 5.26 Gráfico de resíduos (figura da esquerda) e QQ-plot dos resíduos com

en-velopes simulados (figura da direita) considerando o modelo de regressão GJS inflacionado em um e gerador de densidade t-Student considerando

a parte discreta (figuras (a) e (b)) e a parte contínua (figuras (c) e (d)). p. 132

5.27 Gráfico de índice de |hmax| considerando a perturbação simultânea no

componente discreto e na mediana(Figura a), apenas no componente discreto (Figura b) e apenas da dispersão (Figura c) paraθ para o modelob

com gerador de densidade t-Student. . . p. 133

5.28 Gráfico de índice de |hmax| para o modelo com gerador de densidade

t-Student, considerando o esquema de ponderação de casos. . . p. 134

B.1 Boxplot’s para as estimativas de máxima verossimilhança considerando

o gerador de densidade normal. . . p. 147

B.2 Boxplot’s para as estimativas de máxima verossimilhança considerando

o gerador de densidade logística. . . p. 148 B.3 Boxplot’s para as estimativas de máxima verossimilhança considerando

o gerador de densidade t-Student (ν = 2). . . . p. 148

B.4 Boxplot’s para as estimativas de máxima verossimilhança considerando

o gerador de densidade t-Student (ν = 4). . . . p. 149

B.5 Boxplot’s para as estimativas de máxima verossimilhança considerando

(14)

o gerador de densidade exponencial potência (k = −0.6). . . . p. 150 B.7 Boxplot’s para as estimativas de máxima verossimilhança considerando

o gerador de densidade exponencial potência (k = −0.2). . . . p. 150

B.8 Boxplot’s para as estimativas de máxima verossimilhança considerando

o gerador de densidade exponencial potência (k = 0.2). . . . p. 151

B.9 Boxplot’s para as estimativas de máxima verossimilhança considerando

o gerador de densidade exponencial potência (k = 0.6). . . . p. 151

B.10 QQ-plot: modelo de regressão GJSIZ com gerador de densidade normal. p. 159

B.11 QQ-plot: modelo de regressão GJSIZ com gerador de densidade logística

tipo I. . . p. 160 B.12 QQ-plot: modelo de regressão GJSIZ com gerador de densidade t-Student

(ν = 2). . . . p. 161 B.13 QQ-plot: modelo de regressão GJSIZ com gerador de densidade t-Student

(ν = 4). . . . p. 162 B.14 QQ-plot: modelo de regressão GJSIZ com gerador de densidade t-Student

(ν = 8). . . . p. 163 B.15 QQ-plot: modelo de regressão GJSIZ com gerador de densidade

expo-nencial potência (k = −0.6). . . . p. 164 B.16 QQ-plot: modelo de regressão GJSIZ com gerador de densidade

expo-nencial potência (k = −0.2). . . . p. 165 B.17 QQ-plot: modelo de regressão GJSIZ com gerador de densidade

expo-nencial potência (k = 0.2). . . . p. 166 B.18 QQ-plot: modelo de regressão GJSIZ com gerador de densidade

expo-nencial potência (k = 0.6). . . . p. 167

D.1 Gráfico de índice de |hmax| para θ para o modelo com gerador de densi-b

dade normal. . . p. 180

D.2 Gráfico de índice de |hmax| (Figura a) e de Ci padronizada (Figura b)

(15)

dade t-Student. . . p. 181

D.4 Gráfico de índice de |hmax| (Figura a) e de Ci padronizada (Figura b)

para θ para o modelo com gerador de densidade t-Student. . . .b p. 182

D.5 Gráfico de índice de |hmax| para θ para o modelo com gerador de densi-b

dade logística tipo I. . . p. 182

D.6 Gráfico de índice de |hmax| (Figura a) e de Ci padronizada (Figura b)

(16)

1.1 Função geradora de densidades para algumas distribuições da classe

si-métrica. . . p. 27

1.2 A função Wg(u) para algumas distribuições. . . . p. 34

2.1 Estruturas de regressão para modelos encaixados. . . p. 55

2.2 Resultados numéricos considerando o modelo GJSIZ com gerador de

den-sidade normal para diferentes tamanhos de amostra. . . p. 59

2.3 Resultados numéricos considerando o modelo GJSIZ com gerador de

den-sidade logística tipo I para diferentes tamanhos de amostra. . . p. 60

2.4 Resultados numéricos considerando o modelo GJSIZ com gerador de

den-sidade t-Student (ν = 2) para diferentes tamanhos de amostra. . . . p. 61

2.5 Resultados numéricos considerando o modelo GJSIZ com gerador de

den-sidade t-Student (ν = 4) para diferentes tamanhos de amostra. . . . p. 62

2.6 Resultados numéricos considerando o modelo GJSIZ com gerador de

den-sidade t-Student (ν = 8) para diferentes tamanhos de amostra. . . . p. 63

2.7 Resultados numéricos considerando o modelo GJSIZ com gerador de

den-sidade exponencial potência (k = −0.6) para diferentes tamanhos de

amostra. . . p. 64

2.8 Resultados numéricos considerando o modelo GJSIZ com gerador de

den-sidade exponencial potência (k = 0.2) para diferentes tamanhos de amostra. p. 65

2.9 Resultados numéricos considerando o modelo GJSIZ com gerador de

den-sidade exponencial potência (k = −0.2) para diferentes tamanhos de

amostra. . . p. 66 2.10 Resultados numéricos considerando o modelo GJSIZ com gerador de

(17)

sidades normal. . . p. 74

3.2 Estatístiscas descritivas: modelo de regressão GJSIZ com gerador de

den-sidades t-Student (ν = 2). . . . p. 75

5.1 Medidas resumo das variáveis. . . p. 100

5.2 Estimativas dos parâmetros. . . p. 104

5.3 Estimativas intervalares dos parâmetros. . . p. 104

5.4 Estimativas dos parâmetros após a exclusão individual das observação

#2, #9, #85 e #138. . . p. 107

5.5 Estimativas dos parâmetros após a exclusão individual das observação

#196. . . p. 108

5.6 Estimativas dos parâmetros considerando o gerador de densidade normal. p. 110

5.7 Estimativas dos parâmetros considerando o gerador de densidade t-Student.p. 110

5.8 Estimativas dos parâmetros considerando o gerador de densidade logística.p. 111

5.9 Critérios AIC, BIC, CAIC e HQIC para os modelos com geradores de

densidade normal, logística e t-Student. . . p. 113 5.10 Estimativas dos parâmetros considerando o modelo de regressão GJS

inflacionado em zero com dispersão constante e gerador de densidade

t-Student. . . p. 115

5.11 Estimativas intervalares dos parâmetros. . . p. 115

5.12 Estimativas dos parâmetros após a exclusão individual e conjunta das observações #113 e #196, considerando o modelo de regressão GJS

infla-cionado em zero com dispersão constante e gerador de densidade t-Student.p. 117

5.13 Medidas resumo das variáveis. . . p. 120

5.14 Estimativas dos parâmetros. . . p. 121

5.15 Estimativas intervalares dos parâmetros. . . p. 122

5.16 Estimativas dos parâmetros após a exclusão individual das observações

#28, #35, #68 e #87. . . p. 125

(18)

(ν = 5.08). . . . p. 127 5.19 Estimativas dos parâmetros considerando o gerador de densidade logística.p. 127 5.20 Critérios AIC, BIC, CAIC e HQIC para os modelos com geradores de

densidade normal, logística tipo I e t-Student. . . p. 129 5.21 Estimativas dos parâmetros considerando o modelo de regressão GJS

inflacionado em um com gerador de densidade t-Student (ν = 3.145). . p. 130

5.22 Estimativas intervalares dos parâmetros. . . p. 131

5.23 Estimativas dos parâmetros após a exclusão individual da observação #64.p. 133 B.1 Estatístiscas descritivas: modelo de regressão GJSIZ com gerador de

den-sidades da logística tipo I. . . p. 152 B.2 Estatístiscas descritivas: modelo de regressão GJSIZ com gerador de

den-sidades t-Student (ν = 4). . . . p. 153 B.3 Estatístiscas descritivas: modelo de regressão GJSIZ com gerador de

den-sidades t-Student (ν = 8). . . . p. 154 B.4 Estatístiscas descritivas: modelo de regressão GJSIZ com gerador de

den-sidades exponencial potência (k = −0.6). . . . p. 155

B.5 Estatístiscas descritivas: modelo de regressão GJSIZ com gerador de

den-sidades exponencial potência (k = −0.2). . . . p. 156

B.6 Estatístiscas descritivas: modelo de regressão GJSIZ com gerador de

den-sidades exponencial potência (k = 0.2). . . . p. 157 B.7 Estatístiscas descritivas: modelo de regressão GJSIZ com gerador de

den-sidades exponencial potência (k = 0.6). . . . p. 158 D.1 Estimativas dos parâmetros após a exclusão das observações #113 e

#196, considerando o gerador de densidades normal. . . p. 183

D.2 Estimativas dos parâmetros após a exclusão das observações #113 e

#196, considerando o gerador de densidades t-Student. . . p. 184

D.3 Estimativas dos parâmetros após a exclusão das observações #113 e

(19)
(20)

1 Introdução p. 22

1.1 Organização do trabalho . . . p. 25

1.2 Preliminares . . . p. 26

1.2.1 A classe simétrica de distribuições . . . p. 26

1.2.2 A distribuição Johnson SB . . . p. 27

1.3 A distribuição GJS . . . p. 28

1.3.1 Estimação dos parâmetros da distribuição GJS . . . p. 33

1.3.2 O modelo de regressão GJS . . . p. 34

2 A distribuição GJS inflacionada em zero ou um p. 37

2.1 A distribuição GJS inflacionada em zero ou um . . . p. 38

2.1.1 Inferência sobre os parâmetros da distribuição GJSI . . . p. 42

2.2 O modelo de regressão GJS inflacionado em zero ou um . . . p. 47

2.2.1 Definição . . . p. 48

2.2.2 Estimação dos parâmetros . . . p. 48

2.2.3 Intervalos de confiança e testes de hipóteses . . . p. 54

2.2.4 Seleção de modelos . . . p. 55

2.2.5 Resultados numéricos . . . p. 56

3 Resíduos no modelo de regressão GJS inflacionado p. 68

3.1 Resíduo quantílico aleatorizado . . . p. 69

(21)

4 Influência local no modelo de regressão GJS inflacionado p. 80

4.1 Influência local . . . p. 81

4.2 Influência local no modelo de regressão GJS inflacionado em zero ou um p. 87

4.2.1 Ponderação de casos . . . p. 88

4.2.2 Perturbação nas variáveis explicativas . . . p. 89

4.2.2.1 Perturbação individual das covariáveis do componente

discreto . . . p. 89

4.2.2.2 Perturbação individual das covariáveis do componente

contínuo . . . p. 90

4.2.2.3 Perturbação simultânea das covariáveis . . . p. 92

4.3 Aplicação a dados simulados . . . p. 95

5 Aplicações a dados reais p. 99

5.1 Proporção de morte por acidentes de trânsito . . . p. 99

5.1.1 Modelo de regressão beta inflacionado em zero . . . p. 102

5.1.2 Modelo de regressão GJS inflacionado em zero . . . p. 108

5.2 Proporção de indivíduos com acesso a eletricidade . . . p. 118

5.2.1 Modelo de regressão beta inflacionado em um . . . p. 120

5.2.2 Modelo de regressão GJS inflacionado em um . . . p. 124

6 Considerações finais e pesquisas futuras p. 135

Referências p. 137

Apêndice A -- Derivadas da função de log-verossimilhança p. 142

A.1 Derivadas de primeira ordem do logaritmo da função de verossimilhança

(22)

no modelo de regressão GJS inflacionado . . . p. 144

Apêndice B -- Resultados das simulações Monte Carlo p. 147

B.1 Boxplot’s das estimativas de máxima verossimilhança do estudo de

si-mulação apresentado na Seção 2.2.5. . . p. 147

B.2 Medidas descritivas para rqi. . . p. 152 B.3 Gráficos quantil-quantil para rqi. . . p. 159

Apêndice C -- Cálculo de curvaturas p. 168

C.1 Ponderação de casos . . . p. 168

C.2 Perturbação individual nas variáveis explanatórias . . . p. 169

C.2.1 Perturbação individual das covariáveis do componente discreto . p. 169

C.2.2 Perturbação individual das covariáveis do componente contínuo p. 171

C.2.2.1 Perturbação individual das covariáveis da mediana . . p. 171

C.2.2.2 Perturbação individual das covariáveis da dispersão . . p. 174

C.2.3 Perturbação simultânea nas variáveis explanatórias . . . p. 176

C.2.3.1 Perturbação simultânea das covariáveis do componente

contínuo . . . p. 176

C.2.3.2 Perturbação simultânea das covariáveis do componente

discreto e da mediana . . . p. 178

C.2.3.3 Perturbação simultânea das covariáveis do componente

discreto e da dispersão . . . p. 178

C.2.3.4 Perturbação simultânea das covariáveis do componente

discreto e contínuo (mediana e dispersão) . . . p. 179

Apêndice D -- Análise de influência local - Aplicação 1 p. 180

D.1 Gráficos de influência - Aplicação 1 . . . p. 180

(23)

1

Introdução

O estudo de taxas e proporções é comum em diversas áreas do conhecimento e, muitas vezes, esses dados estão restritos ao intervalo (0, 1) como, por exemplo, a proporção de renda gasta em serviços de saúde, taxas de mortalidade, proporção de indivíduos que ad-mitem ter intenção de voto por um candidato em particular, etc. Nesses casos, o modelo de regressão linear usual pode não ser apropriado pois pode fornecer valores ajustados para a variável resposta de interesse que excedem os limites do intervalo (inferior ou su-perior). Uma solução bastante utilizada reside em aplicar uma transformação na variável dependente de forma que ela assuma valores na reta real e, então, modelar a média da variável resposta transformada através de um preditor linear com base em um conjunto de variáveis explicativas. No caso de variáveis que pertencem ao intervalo (0, 1), uma das transformações mais utilizadas é a logito, definida como g(y) = log(y/(1 − y)), y ∈ (0, 1). Estas transformações, contudo, podem trazer alguns inconvenientes. Por exemplo, os pa-râmetros do modelo podem não ser mais facilmente interpretados em termos da variável resposta original e os valores ajustados ainda podem exceder os limites do intervalo. Além disso, o uso de uma transformação não garante que a variável transformada tenha distri-buição normal e variância constante (homocedasticidade), que são suposições usuais do modelo de regressão linear normal. Adicionalmente, dados em forma de taxas e propor-ções, em geral, apresentam assimetria e inferência com base na suposição de normalidade pode não ser razoável.

Uma alternativa à transformação da variável resposta é o ajuste de um modelo de re-gressão não linear que assume que a variável dependente é igual a uma função não linear das variáveis preditoras e de seus respectivos parâmetros mais um erro suposto normal homocedástico (ver Kieschnick e McCullough (2003)). No entanto, a suposição de nor-malidade para o erro pode não ser razoável. Uma outra alternativa é utilizar os modelos de quase-verossimilhança, introduzidos inicialmente por Wedderburn (1974). Neste caso, não é necessário supor nenhuma distribuição para a variável resposta, basta especificar uma relação entre a variância e a média da variável dependente. Cox (1996) e Papke e

(24)

Wooldridge (1993) propuseram modelos de quase-verossimilhança para o ajuste de va-riáveis do tipo razão e proporção. Diferente das alternativas citadas, não há restrições relevantes ao uso dos modelos de quase-verossimilhança para o ajuste dessas variáveis, no entanto, Kieschnick e McCullough (2003) discutem que, para variáveis respostas do tipo proporção e amostras não muito grandes, a performance do modelo de regressão beta, que será discutido a seguir, é superior a desses modelos.

Uma alternativa mais natural para ajustar um modelo de regressão em que a variá-vel resposta assume valores no intervalo (0, 1) é supor que ela tenha alguma distribuição conhecida com o suporte no intervalo (0, 1). Já foram desenvolvidos modelos de regressão para variáveis respostas seguindo distribuição beta (Ferrari e Cribari-Neto (2004) e Ki-eschnick e McCullough (2003)), e foi proposta uma nova parametrização da distribuição

Kumaraswamy para o desenvolvimento de modelos de regressão (MITNIK; BAEK, 2013).

Recentemente, Lemonte e Bazán (2016) apresentaram uma nova classe de distribuições com suporte no intervalo (0, 1), denominada classe GJS de distribuições. Além disso, com base nessa distribuição, um novo modelo de regressão foi proposto.

Existem diferentes especificações para a regressão beta na literatura, tais como em Paolino (2001), Kieschnick e McCullough (2003) e Ferrari e Cribari-Neto (2004), por exemplo. O modelo proposto por Ferrari e Cribari-Neto (2004) apresenta algumas van-tagens das quais é importante citar: a especificação usada é similar à usada na classe de

modelos lineares generalizados (MCCULLAGH; NELDER, 1989); modela-se diretamente a

média ao invés dos dois parâmetros que indexam a distribuição; a função de ligação que relaciona a resposta média ao preditor linear é bastante geral; os autores desenvolveram estimação pontual e intervalar, testes de hipóteses e medidas de diagnósticos; é possível utilizar pacotes que já estão implementados no R. Uma discussão mais aprofundada sobre este modelo pode ser encontrada em Pereira (2010).

O modelo de regressão GJS desenvolvido por Lemonte e Bazán (2016), tal como o mo-delo de regressão beta, é similar aos momo-delos lineares generalizados em diversos aspectos. Neste modelo de regressão, a mediana da variável resposta é relacionada ao preditor linear através de uma função de ligação e o preditor linear envolve as covariáveis e os parâme-tros da regressão, que são desconhecidos. Os parâmeparâme-tros da regressão são interpretados em termos da mediana da variável resposta, além de que o modelo acomoda, facilmente, bimodalidades e assimetrias, que é uma vantagem com relação ao modelo de regressão beta, em que os parâmetros são interpretados em termos da média da variável resposta e o modelo não comporta bimodalidade. Além disso, como enfatizado anteriormente, dados

(25)

de taxas e proporções são, em geral, assimétricos e, nestes casos, a mediana, como medida de posição, é mais apropriada do que a média. Também, este modelo é naturalmente me-nos sensível a pontos discrepantes (outliers) do que o modelo de regressão beta, uma vez que a classe GJS inclue a distribuição t-Student, que é bastante utilizada na modelagem de dados que podem apresentar observações atípicas. Este modelo de regressão também é indexado por um parâmetro de dispersão. Lemonte e Bazán (2016) também propuseram medidas de diagnóstico e influência local para o modelo de regressão GJS.

Em uma ampla variedade de problemas envolvendo taxas e proporções, a variável de interesse pode assumir não apenas valores no intervalo (0, 1) como, também, os valores zero ou um ou ambos. Por exemplo, taxa de mortalidade ou infecção para uma deter-minada doença, proporção da renda familiar gasta com educação dos filhos e proporção de pessoas que apresentam uma determinada característica. Nessas situações, o modelo de regressão beta não é adequado, já que a variável resposta é discreta nos pontos zero e/ou um e contínua no intervalo (0, 1). As transformações logito ou outras transforma-ções comumente utilizadas para dados de proportransforma-ções não podem ser utilizadas, pois não estão definidas para o valor zero e um. Além disso, tais transformações apresentariam os mesmos problemas já discutidos anteriormente. Os modelos de quase-verossimilhança podem ser utilizados, no entanto, como observado em Pereira (2012), esses modelos, nas versões propostas por Cox (1996) e Papke e Wooldridge (1993), assumem que as variáveis que estão fortemente relacionadas com a média dos valores contínuos também estão for-temente relacionadas com a probabilidade de ocorrência dos valores discretos e, em geral,

essa suposição não é razoável (COOK; KIESCHNICK; MCCULLOUGH, 2008). O modelo de

Papke e Wooldridge (1993) foi estendido por Ramalho e Silva (2009) para que essa su-posição não seja necessária. Entretanto, o modelo de Ramalho e Silva (2009) assume que somente a probabilidade de ocorrência do valor zero e a média da variável resposta no caso contínuo não estão relacionadas com as mesmas covariáveis. O modelo ainda supõe que as covariáveis que estão fortemente relacionadas com a média da variável resposta no caso contínuo estão fortemente relacionadas com a probabilidade de ocorrência do valor um.

Uma solução mais adequada é considerar um modelo estatístico que permita adicionar à distribuição contínua da variável resposta um ponto de massa em zero, em um, ou em ambos os extremos. Essa abordagem é conhecida na literatura como modelo inflacionado. O termo inflacionado indica que a massa de probabilidade de alguns pontos é maior do que a suposta no modelo proposto. Modelos para dados contínuos que apresentam excesso de zeros ou uns têm sido usados na prática. Aitchison (1955) foi o primeiro a sugerir esse tipo

(26)

de mistura. O autor utilizou uma mistura de uma distribuição degenerada em zero com uma distribuição lognormal. Feuerverger (1979) propôs o primeiro modelo de regressão inflacionado para estudar precipitações pluviométricas utilizando a distribuição gama.

Recentemente, Ospina e Ferrari (2012) propuseram o modelos de regressão beta infla-cionado em zero, um e em ambos. Estes modelos permitem acomodar dados observados nos intervalos [0, 1), (0, 1] e [0, 1]. O modelo de regressão proposto é baseado na para-metrização de Ferrari e Cribari-Neto (2004). Neste contexto, os autores supõem que o componente contínuo é modelado pela distribuição beta, e que o componente discreto, ou seja, o ponto de massa, é modelado por uma distribuição degenerada. Os autores apre-sentam resultados inferênciais a respeito da distribuição beta inflacionada (que também é introduzida no trabalho) tais como estimação pontual e intervalar e testes de hipóteses, sob o enfoque da teoria de verossimilhança.

Este trabalho tem como objetivo desenvolver uma alternativa ao modelo de regressão beta inflacionado proposto por Ospina e Ferrari (2012) para análise de taxas e proporções na presença de zeros ou uns. O modelo de regressão proposto é baseado na distribuição GJS proposta por Lemonte e Bazán (2016) e será denominado de modelo de regressão

GJS inflacionado. Conforme já mencionado anteriormente, a distribuição GJS pode ser

uma alternativa interessante à distribuição beta. De forma similar, o modelo de regres-são GJS inflacionado (proposto nesse trabalho) pode ser uma alternativa ao modelo de regressão beta inflacionado. Adicionalmente, estimação dos parâmetros associados ao mo-delo, resíduos e influência local no modelo de regressão GJS inflacionado serão explorados. Finalmente, aplicações a dados reais serão apresentadas.

1.1

Organização do trabalho

Este trabalho está dividido em seis capítulos. Neste primeiro capítulo é feita uma revisão da literatura à respeito da análise de dados de taxas e proporções, e é apresentada a classe de distribuições GJS e seu respectivo modelo de regressão. No segundo capítulo propomos distribuições de mistura usando uma distribuição GJS e uma distribuição de-generada em zero ou em um para modelar dados observados nos intervalos [0, 1) ou (0, 1], respectivamente. O modelo de regressão com base nessas distribuições é apresentado, bem como alguns aspectos inferenciais. Além disso, simulações Monte Carlo considerando di-ferentes cenários para avaliar o desempenho dos estimadores de máxima verossimilhança são conduzidas. No terceiro capítulo tratamos do problema de diagnóstico para o modelo

(27)

de regressão GJS inflacionado. Neste capítulo são propostos resíduos para este modelo. No quarto capítulo, dando continuidade às técnicas de diagnóstico, desenvolvemos a análise de influência local baseada na curvatura normal. No capítulo cinco consideramos aplicações a dados reais que envolvem a teoria desenvolvida ao longo da dissertação. Finalmente, no sexto capítulo apresentamos as conclusões e pesquisas futuras relacionadas a este trabalho.

1.2

Preliminares

Nesta seção definimos duas importantes classes de distribuições: a classe simétrica de

distribuições, e a distribuição Johnson SB.

1.2.1

A classe simétrica de distribuições

Definimos, a seguir, a classe simétrica univariada de distribuições.

Definição 1 (A classe simétrica.) Seja a variável aleatória W com suporte em R da

classe simétrica, então sua função densidade de probabilidade é dada por

h(w) = h(w; µ, σ) = 1 σg (w − µ)2 σ2 ! , w ∈ R,

em que µ é o parâmetro de posição, σ > 0 é o parâmetro de escala e g : R → [0, +∞) é denominada função geradora de densidades, tal queR∞

0 g(u)du < ∞ e

R∞

0 u

−1/2g(u)du = 1.

Esta condição é necessária para que h(w) seja uma função densidade de probabilidade. Usamos a notação W ∼ S(µ, σ2; g).

Essa família de distribuições, também conhecida como distribuições elípticas univari-adas, é uma extensão da distribuição normal para modelar dados estatísticos envolvendo distribuições com caudas mais leves ou mais pesadas do que as da distribuição normal. Essa classe de distribuições aparece frequentemente na literatura na modelagem de dados que contém mais outliers do que o esperado para a distribuição normal.

Algumas propriedades da distribuição normal podem ser estendidas para a classe simétrica. Por exemplo, se W ∼ S(µ, σ2; g) então a+bW ∼ S(a+bµ, b2σ2; g), em que a, b ∈

R com b 6= 0. Isto é, a distribuição de qualquer combinação linear de uma variável aleatória

com distribuição simétrica é também simétrica. Da mesma forma, se W ∼ S(µ, σ2; g)

então Z = (W − µ)/σ ∼ S(0, 1; g), com função densidade h(z) = h(z; 0, 1) = g(z2), z ∈ R,

(28)

característica ψ(t) = E(eitW) é dada por ψ(t) = eitµϕ(t2σ2), t ∈ R e i =−1, para alguma

função ϕ(·), com ϕ(v) ∈ R, para v > 0. Se existir, temos E(W ) = µ e VAR(W ) = kσ2,

em que k > 0 é uma constante dada por k = −2ϕ0(0), em que ϕ0(0) = dϕ(v)/dv|v=0.

Outras propriedades dessa classe de distribuições podem ser encontradas em Fang, Kotz e Ng (1990).

A Tabela 1.1 apresenta a forma da função g(u) para algumas distribuições que per-tencem a classe simétrica.

Tabela 1.1: Função geradora de densidades para algumas distribuições da classe simétrica.

Distribuição g(u), u > 0

Normal (2π)−1/2exp(−u/2)

Cauchy [π(1 + u)]−1

t-Student νν/2B(1/2, ν/2)−1(ν + u)−(ν+1)/2

t-Student generalizada sr/2B(1/2, r/2)−1(s + u)−(r+1)/2

Logística do tipo I ce−u(1 + e−u)−2

Logística do tipo II e− √ u(1 + e−√u)−2 Logística generalizada cB(m, m)−1[e−cu(1 + e−cu)−2]m Kotz r(2m−1)/2Γ((2m − 1)/2)−1um−1e−ru

Kotz generalizada sr(2m−1)/2sΓ((2m − 1)/2s)−1um−1e−rus

Exponencial dupla (Laplace) exp(−√u)/2

Exponencial potência c(k) exp(−0.5u1/(1+k))

ν > 0 e B(·, ·) é a função beta; s > 0, r > 0;

c ≈ 1.484300029 é a constante de normalização obtida de R∞

0 u −1/2g(u)du = 1; m > 0, c > 0; r > 0, m ≥ 1 e Γ(·) é a função gama; s > 0, r > 0 e m ≥ 1; −1 < k ≤ 1 e c(k)−1= Γ(1 + (k + 1)/2)21+(1+k)/2.

1.2.2

A distribuição Johnson S

B

A classe de distribuições Johnson SBfoi desenvolvida por Norman L. Johnson em 1949

e se popularizou na segunda metade do século 20. A distribuição Johnson SB é construída

a partir de uma variável aleatória com distribuição normal padrão, como segue. Considere

X uma variável aleatória normal padrão, isto é,

X ∼ N(0, 1), (1.1)

sendo sua função densidade de probabilidade da forma φ(x) = (2π)−1/2e−x2/2, para x ∈ R.

Agora, considere a transformação

Y = t−1

X − γ δ



(29)

em que t(·) é uma função monótona invertível (t−1(·) sua inversa) adequada, e γ ∈ R e

δ > 0 são os parâmetros. Consequentemente, a transformação de Y dada por γ + δt(Y )

tem distribuição normal padrão. Dessa forma, a função densidade de probabilidade de Y é dada por

f (y; γ, δ) = δφ(γ + δt(y))|dt(y)/dy|,

em que | · | denota a função modular.

A escolha da função t(·) determina o suporte da distribuição. Neste trabalho, esta-mos interessados em distribuições com suporte limitado, dessa forma, de Johnson (1949), consideramos

t(y) = log y

1 − y

!

. (1.2)

Assim, obtemos a distribuição Johnson SB com suporte limitado, cuja função

densi-dade de probabilidensi-dade é da forma

f (y; γ, δ) = δφ(γ + δt(y))

y(1 − y) , y ∈ (0, 1),

em que t(y) é dada em (1.2).

A função de distribuição acumulada da variável aleatória Y com distribuição Johnson

SB é dada por

F (y; γ, δ) = Φ(γ + δt(y)), y ∈ (0, 1),

em que Φ(·) denota a função distribuição acumulada da normal padrão. A distribuição

Johnson SB se apresenta útil em diversas áreas como medicina, meteorologia, biologia,

entre outras. Além disso, por sua flexibilidade, essa distribuição pode ser uma impor-tante alternativa à distribuição beta. Para mais detalhes a respeito desta distribuição, recomendamos a leitura de Johnson (1949) e Kotz et al. (2004).

1.3

A distribuição GJS

A distribuição GJS (Generalized Johnson SB) é uma generalização da distribuição

Johnson SB em que não se considera para X uma distribuição normal padrão, como

apresentado em (1.1). Suponha que a variável aleatória X tenha distribuição simétrica padrão, isto é,

(30)

A motivação principal para a suposição (1.3) é baseada na busca por distribuições com suporte limitado que apresentem maior (ou menor) curtose do que a distribuição Johnson

SB, de modo a obter uma distribuição Johnson SB que é mais platicúrtica (ou

leptocúr-tica), além de outras propriedades. As proposições que seguem apresentam propriedades da distribuição GJS (tais resultados são enunciados e provados em Lemonte e Bazán (2016)).

Proposição 1 Dizemos que Y tem distribuição GJS com parâmetros δ > 0 e γ ∈ R, se

sua função densidade de probabilidade é dada por

f (y; γ, δ) = δg((γ + δt(y))

2)

y(1 − y) , y ∈ (0, 1), (1.4)

em que t(y) = log(y/(1 − y)), g(·) é a função geradora de densidades (ver Tabela 1.1) e escrevemos Y ∼ GJS(γ, δ; g).

Proposição 2 Seja Y ∼ GJS(γ, δ; g), então sua função de distribuição acumulada é dada

por

F (y; γ, δ) =

Z γ+δt(y)

−∞ g(u

2)du, y ∈ (0, 1), (1.5)

em que t(y) = log(y/(1 − y)), δ > 0 e γ ∈ R.

A seguir, apresentamos as expressões para alguns funções densidade de probabilidade para a classe de distribuições GJS obtidas de diferentes funções geradoras de densidade, entre elas: t-Student generalizada, logística do tipo I, logística generalizada, Kotz genera-lizada e exponencial dupla. A distribuição GJS obtida da distribuição normal corresponde à distribuição Johnson SB.

Corolário 1 (Distribuição t-Student generalizada.) Seja Y ∼ GJS(γ, δ; g), em que

g(·) corresponde ao gerador de densidades da distribuição t-Student generalizada, então

f (y; γ, δ) = δs r/2B(1/2, r/2)−1 y(1 − y)    s + " γ + δ log y 1 − y !#2   −(r+1)/2 , em que y ∈ (0, 1), δ > 0, γ ∈ R, r > 0 e s > 0.

Corolário 2 (Distribuição logística do tipo I.) Seja Y ∼ GJS(γ, δ; g), em que g(·)

corresponde ao gerador de densidades da distribuição logística do tipo I, então

f (y; γ, δ) = y(1 − y)

exp{−[γ + δ log(y/(1 − y))]2}

(31)

com c ≈ 1.484300029, δ > 0 e γ ∈ R.

Corolário 3 (Distribuição Kotz generalizada.) Seja Y ∼ GJS(γ, δ; g), em que g(·)

corresponde ao gerador de densidades da distribuição Kotz generalizada, então

f (y; γ, δ) = δsr (2m−1)/(2s)[γ + δ log(y/(1 − y))]2(m−1)] Γ((2m − 1)/(2s))y(1 − y) × exp    −r   γ + δ log y 1 − y !!2  s   , em que y ∈ (0, 1), δ > 0, γ ∈ R, m ≥ 1, s > 0 e r > 0.

Corolário 4 (Distribuição exponencial dupla ou Laplace.) Seja Y ∼ GJS(γ, δ; g),

em que g(·) corresponde ao gerador de densidades da distribuição exponencial dupla, então

f (y; γ, δ) = δ 2y(1 − y)exp " − γ + δ log y 1 − y ! # , em que y ∈ (0, 1), δ > 0, γ ∈ R.

A distribuição GJS gerada pelas distribuições Cauchy e t-Student podem ser obtidas do Corolário 1 fazendo r = s = 1 e r = s = ν, respectivamente, em que ν representa os graus de liberdade da distribuição t-Student. A distribuição GJS gerada a partir da distribuição logística do tipo II é obtida do Corolário 3 quando m = c = 1. Além disso, a distribuição GJS gerada da distribuição Kotz é obtida do Corolário 3 fazendo s = 1, e a distribuição GJS gerada da distribuição exponencial potência é obtida fazendo m = 1,

r = 1/2 e s = 1/(1 + k), também no Corolário 3.

As Figuras 1.1, 1.2, 1.3 e 1.4 apresentam diferentes formas das funções densidade das distribuições GJS, considerando diferentes valores dos parâmetros γ e δ. Evidentemente, outras formas podem ser obtidas com a mudança dos valores dos parâmetros. Com base nos gráficos apresentados, percebe-se que a distribuição GJS é bastante flexível e pode ser uma alternativa interessante, quando comparada a outras distribuições que têm o suporte limitado, para a análise de dados univariados.

Vale ressaltar que os momentos da distribuição GJS sempre existem, ainda que a dis-tribuição simétrica usada como geradora não possua momentos (como é o caso da Cauchy, que não tem o primeiro momento, por exemplo). Lemonte e Bazán (2016) mostram que o n-ésimo momento da distribuição GJS é dado por

µ0n=

Z

R

(32)

0.0 0.2 0.4 0.6 0.8 1.0 0.5 1.0 1.5 2.0 y f ( y ) g = 1 , d = 1 g = - 1 , d = 1 g = 0 , d = 1 g = 0.33 , d = 0.55 g = - 0.33 , d = 0.55 g = 0 , d = 0.5 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.5 1.0 1.5 2.0 2.5 y f ( y ) g = 1 , d = 1 g = - 1 , d = 1 g = 0 , d = 1 g = 0.33 , d = 0.55 g = - 0.33 , d = 0.55 g = 0 , d = 0.5

Figura 1.1: Função densidade de probabilidade da GJS obtida da distribuição: Cauchy (figura da esquerda); logística tipo I (figura da direita).

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.5 1.0 1.5 2.0 2.5 y f ( y ) g = 1 , d = 1 g = - 1 , d = 1 g = 0 , d = 1 g = 0.33 , d = 0.55 g = - 0.33 , d = 0.55 g = 0 , d = 0.5 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.5 1.0 1.5 2.0 2.5 y f ( y ) g = 1 , d = 1 g = - 1 , d = 1 g = 0 , d = 1 g = 0.33 , d = 0.55 g = - 0.33 , d = 0.55 g = 0 , d = 0.5

Figura 1.2: Função densidade de probabilidade da GJS obtida da distribuição: t-Student

ν = 2 (figura da esquerda); exponencial potência k = −0.2 (figura da direita).

em que ω(u) = ω(u; γ, δ) = e(u−γ)/δ/[1+e(u−γ)/δ]. Embora a integral em (1.6) não apresente

forma analítica fechada, ela pode ser calculada numericamente através de softwares como R, MATLAB, etc.

Proposição 3 A função quantílica de Y ∼ GJS(γ, δ; g) é dada por

yu =  1 + exp  −xu− γ δ −1 , u ∈ (0, 1),

em que xu é o u-ésimo quantil de X ∼ S(0, 1; g).

Com base na Proposição 3 segue que a mediana, digamos ξ, de Y ∼ GJS(γ, δ; g) é

(33)

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 y f ( y ) g = 1 , d = 1 g = - 1 , d = 1 g = 0 , d = 1 g = 0.33 , d = 0.55 g = - 0.33 , d = 0.55 g = 0 , d = 0.5 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 y f ( y ) g = 1 , d = 1 g = - 1 , d = 1 g = 0 , d = 1 g = 0.33 , d = 0.55 g = - 0.33 , d = 0.55 g = 0 , d = 0.5

Figura 1.3: Função densidade de probabilidade da GJS obtida da distribuição: exponencial dupla ou Laplace (figura da esquerda); normal (figura da direita).

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.5 1.0 1.5 2.0 2.5 y f ( y ) g = 1 , d = 1 g = - 1 , d = 1 g = 0 , d = 1 g = 0.33 , d = 0.55 g = - 0.33 , d = 0.55 g = 0 , d = 0.5 0.0 0.2 0.4 0.6 0.8 1.0 0.5 1.0 1.5 2.0 y f ( y ) g = 1 , d = 1 g = - 1 , d = 1 g = 0 , d = 1 g = 0.33 , d = 0.55 g = - 0.33 , d = 0.55 g = 0 , d = 0.5

Figura 1.4: Função densidade de probabilidade da GJS obtida da distribuição exponencial potência com k = 0.2 (figura da esquerda) e k = 0.5 (figura da direita).

aleatória com distribuição GJS de modo que, se X ∼ S(0, 1; g), então

Y =  1 + exp  −X − γ δ −1 tem distribuição GJS(γ, δ; g).

Proposição 4 Seja Y ∼ GJS(γ, δ; g). Se γ = 0, então:

(i) A mediana de Y é ξ = 1/2.

(ii) A média de Y é µ01 = 1/2.

(iii) A função densidade de probabilidade de Y é simétrica em (0, 1) em torno de µ01 =

(34)

Proposição 5 Seja Y ∼ GJS(γ, δ; g). Então 1 − Y ∼ GJS(−γ, δ; g).

Com base na Proposição 5, temos que a mediana de 1−Y , digamos M1, é simplesmente

dada por M1 = (1 + e−γ/δ)−1 = 1 − ξ, em que ξ é a mediana de Y .

Finalmente, Lemonte e Bazán (2016) mostram ainda que fazendo uma transformação da forma Z = (b − a)Y + a, pode-se obter uma distribuição GJS com suporte em (a, b). A função densidade de probabilidade, neste caso, é dada por

f (z; a, b, γ, δ) = δ(b − a) (z − a)(b − z)g  γ + δ log z − a b − z 2! , em que a < z < b, γ ∈ R e δ > 0.

1.3.1

Estimação dos parâmetros da distribuição GJS

Lemonte e Bazán (2016) discutem dois métodos de estimação que podem ser usados para estimar os parâmetros da distribuição GJS, são eles: o método da máxima verossi-milhança e o método de mínimos quadrados. Neste trabalho dedicaremos nossa atenção somente a estimação através do método da máxima verossimilhança.

Considere y1, . . . , ynuma amostra observada de tamanho n obtida de Y ∼ GJS(γ, δ; g)

e θ = (γ, δ)> o vetor de parâmetros de interesse. A função de log-verossimilhança de θ

dado y1, . . . , yn, a menos de uma constante, é da forma

`(θ) ∝ n log(δ) + n X i=1 log  g   " γ + δ log yi 1 − yi !#2   .

Os estimadores de máxima verossimilhança dos parâmetros são obtidos maximizando

`(θ) com respeito a θ. Seja yi= yi(yi; γ, δ) = γ + δ log(yi/(1 − yi)), para i = 1, . . . , n.

Assumindo que g(·) é uma função contínua e duas vezes diferenciável, temos

∂`(θ) ∂γ = 2 n X i=1 yiWg(yi∗ 2 ), ∂`(θ) ∂δ = n δ + 2 δ n X i=1 yi(yi − γ)Wg(yi 2 ),

em que Wg(u) = d log(g(u))/du = g0(u)/g(u) e g0(u) = dg(u)/du. A Tabela 1.2 apresenta

Wg(u) para algumas distribuições. A função Wg(·) representa um peso na estimação do

parâmetro θ. Note que quando ν → ∞ a função Wg(u) para o modelo t-Student tende

para −1/2 (que é o valor da função Wg(u) para o modelo normal), como esperado.

O estimador de máxima verossimilhança θ = (b γ,b δ)b > de θ = (γ, δ)> pode ser obtido

como solução simultânea do sistema de equações ∂`(θ)/∂γ|θ=

b

θ = 0 e ∂`(θ)/∂δ|θ=θb

(35)

Tabela 1.2: A função Wg(u) para algumas distribuições.

Normal t-Student Logística tipo I Exponencial dupla Exponencial Potência

−1 2 − ν + 1 2(ν + u) − 1 − e−u 1 + e−u − 1 2√uu−k/(1+k) 2(1 + k)

Não existe uma forma analítica fechada para o estimador de máxima verossimilhança θb

e este pode ser obtido computacionalmente através de procedimentos numéricos usando algoritmos de otimização não linear. O método iterativo Newton-Raphson é uma técnica frequentemente utilizada e pode ser aplicado nesse caso. É importante mencionar que a

função Wg(u), em alguns casos, pode depender de quantidades desconhecidas (como é o

caso dos graus de liberdade ν na distribuição t-Student, e do parâmetro de forma k na distribuição exponencial potência). Estas quantidades são consideradas fixas ou conheci-das. Por outro lado, pode-se utilizar técnicas de seleção de modelos para escolher valores mais apropriados para estas quantidades e que forneçam um melhor ajuste ao conjunto de dados em estudo, ou através de uma função de verossimilhança perfilada.

1.3.2

O modelo de regressão GJS

Os modelos de regressão são, em geral, construídos para modelar a média de uma distribuição, que é geralmente associado com um parâmetro de precisão (ou dispersão). No entanto, não existe uma expressão em forma fechada para a média da distribuição GJS, dificultando a construção de um modelo de regressão para a média dessa distribuição. Por outro lado, a mediana da distribuição GJS tem uma forma muito simples. Assim, ao invés de obter uma estrutura de regressão para a média da distribuição GJS, Lemonte e Bazán (2016) sugerem utilizar uma parametrização alternativa, em que a função densidade de probabilidade da distribuição GJS é função da mediana e de um parâmetro de dispersão. A construção dessa parametrização segue do fato de que a mediana da distribuição GJS é dada por ξ = (1 + eγ/δ)−1. Dessa forma, pode-se expressar

γ = δ log 1 − ξ ξ

!

= −δt(ξ), (1.7)

em que t(·) é definida em (1.2). Substituindo (1.7) na equação (1.4), obtemos uma nova parametrização da função densidade de probabilidade dada por

f (y; ξ, δ) = δg({δ[t(y) − t(ξ)]}

2)

y(1 − y) , y ∈ (0, 1), (1.8)

(36)

apre-sentar diferentes formas dependendo dos valores dos parâmetros ξ e δ. Em particular, a densidade pode ser simétrica (quando ξ = 1/2) ou assimétrica (quando ξ 6= 1/2), bimo-dal, entre outras. Além disso, a dispersão da distribuição, considerando ξ fixo, diminui quando δ aumenta, isto é, o parâmetro δ pode ser interpretado como um parâmetro de dispersão. Lemonte e Bazán (2016) mostram que o parâmetro δ, de fato, é um parâmetro de dispersão.

Sejam Y1, Y2, . . . , Yn variáveis aleatórias independentes, em que cada Yi, com i =

1, . . . , n, tem distribuição GJS com função densidade de probabilidade dada por (1.8), com mediana ξi ∈ (0, 1) e parâmetro de dispersão δi > 0; isto é, Yi ∼ GJS(ξi, δi; g).

Suponha que a mediana e o parâmetro de dispersão de Yi satisfazem as seguintes relações

funcionais:

d1(ξi) = x>i β = η1i,

d2(δi) = s>i τ = η2i,

em que β = (β1, . . . , βp)> ∈ Rp e τ = (τ1, . . . , τq)>∈ Rq são os vetores de parâmetros

des-conhecidos e são funcionalmente independentes, xi = (xi1, . . . , xip)> e si = (si1, . . . , siq)>

são observações das covariáveis com p + q < n, e η1i e η2i são os preditores lineares.

Assu-mimos que as funções de ligação da mediana d1 : (0, 1) → R bem como a do parâmetro de

dispersão d2 : (0, ∞) → R são estritamente monótonas e duas vezes diferenciáveis.

Adici-onalmente, assumimos que as matrizes X = (x1, . . . , xn)> e S = (s1, . . . , sn)> têm posto

p e q, respectivamente. Em geral, as covariáveis associadas ao parâmetro de dispersão em S são um subconjunto das covariáveis associadas a mediana em X.

Existem diversas possibilidades para as funções de ligação d1(·) e d2(·). Por exemplo,

para a mediana, podemos usar as funções logito, d1(ξ) = log(ξ/(1 − ξ)), a função probito,

d1(ξ) = Φ−1(ξ), em que Φ−1(·) é a função quantílica da normal padrão, a função de

ligação complemento log-log, d1(ξ) = log(− log(1 − ξ)) e a função de ligação log-log,

d1(ξ) = log(− log(ξ)), entre outras. Já para o parâmetro de dispersão, possíveis escolhas

para a função de ligação podem ser a ligação logarítimica, d2(δ) = log(δ), a ligação raiz

quadrada, d2(δ) =

δ, entre outras. McCullagh e Nelder (1989) apresentam uma discussão

detalhada a respeito da escolha das funções de ligação.

Temos que β e τ representam o efeito das covariáveis na mediana e no parâmetro de dispersão, respectivamente, e o interesse é estimar esses parâmetros simultaneamente. A função de log-verossimilhança para esta classe de modelos de regressão, a menos de uma

(37)

constante, é dada por `(β, τ ) ∝ n X i=1 `i(ξi, δi),

em que `i(ξi, δi) = log(δi) + log(g({δi[t(yi) − t(ξi)]}2)), com ξi = d−11 (η1i) e δi = d−12 (η2i),

que são funções de β e τ , respectivamente. Lemonte e Bazán (2016) mostram que o vetor escore de (β, τ ) é U (β, τ ) = (Uβ(β, τ )>, Uτ(β, τ )>)>, com

Uβ(β, τ ) = X>ΛW T1ξ, Uτ(β, τ ) = S>T2δ,

em que W = diag{w1Wg(w12), . . . , wnWg(wn2)}, T1 = diag{1/ ˙d11), . . . , 1/ ˙d1(ξn)}, T2 =

diag{1/ ˙d21), . . . , 1/ ˙d2(δn)}, Λ = diag{δ1, . . . , δn}, δ= (δ∗1, . . . , δn) >, ξ= (ξ∗ 1, . . . , ξn) >, ξi= −2/[ξi(1 − ξi)], δi= δ −1 i + 2δ −1

i Wg(w2i)w2i e wi = δi[t(yi) − t(ξi)]. Além disso,

˙

dj = ddj(z)/dz para j = 1, 2 e diag{a1, . . . , an} denota uma matriz diagonal com elemento

ai, i = 1, . . . , n. Os estimadores de máxima verossimilhança β = (b βb1, . . . ,βbp)> e τ =b

(τb1, . . . ,τbq)

>de β = (β

1, . . . , βp)>e τ = (τ1, . . . , τq)>, respectivamente, podem ser obtidos

como solução simultânea do sistema de equações não lineares Uβ(β,b τ ) = 0b p e Uτ(β,b τ ) =b

0q, que não tem forma fechada, em que 0k denota um vetor de zeros k-dimensional. Os

estimadores de máxima verossimilhança podem ser obtidos através da maximização da função de log-verossimilhança, através de procedimentos numéricos usando algoritmos de otimização não linear. Estes algoritmos necessitam que sejam especificados valores iniciais para os parâmetros que desejamos estimar. Lemonte e Bazán (2016) sugerem utilizar como valor inicial para β os estimadores de mínimos quadrados ordinários obtidos de uma regressão linear da variável resposta transformada, análogo ao que é feito em modelos lineares generalizados (ver, por exemplo, McCullagh e Nelder (1989)), isto é, (X>X)−1X>z com z = (d1(y1), . . . , d1(yn))>. Já para o parâmetro τ , se a função de

ligação para o parâmetro de dispersão for a logarítmica, a sugestão é utilizar um vetor

q-dimensional de zeros como valor inicial; isto é, o algoritmo de otimização será iniciado

com o modelo de regressão GJS quando o parâmetro de dispersão é constante para todas as observações.

(38)

2

A distribuição GJS inflacionada

em zero ou um

Neste capítulo, apresentamos uma alternativa à análise de dados restritos ao intervalo (0, 1) mas que podem assumir o valor zero ou um. A ideia principal é assumir que a distribuição dos dados é uma mistura entre uma distribuição contínua com suporte no intervalo (0, 1) e uma distribuição degenerada em 0 (zero) ou 1 (um), dependendo do caso. Assim, o modelo proposto neste trabalho faz parte da classe dos modelos inflacionados. O termo inflacionado indica que a massa de probabilidade de alguns pontos é maior do que a suposta no modelo proposto. O primeiro modelo de regressão inflacionado foi proposto por Feuerverger (1979) para o estudo de precipitações pluviométricas. O autor utilizou a distribuição gama. Desde então, diversos trabalhos foram realizados nesse sentido.

Recentemente, Ospina e Ferrari (2012) introduziram o modelo de regressão beta in-flacionado em zero e/ou um, que é uma extensão do modelo de regressão beta usual (FERRARI; CRIBARI-NETO, 2004) para a situação em que a variável resposta varia no in-tervalo [0, 1), (0, 1] ou [0, 1]. Nesse modelo, tanto a média da variável resposta no caso contínuo como a probabilidade da variável resposta assumir valores zero e/ou um são expressados em função de variáveis preditoras. Anteriormente, Cook, Kieschnick e Mc-Cullough (2008) e Hoff (2007) introduziram o modelo de regressão beta inflacionado em zero para a situação em que a variável resposta assume valores no intervalo [0, 1), e o modelo de regressão beta inflacionado em um para o caso em que o suporte da variável dependente é o intervalo (0, 1], respectivamente. No entanto, a parametrização da distri-buição beta utilizada em Ospina e Ferrari (2012) é mais interessante do que a utilizada por estes dois útimos autores, uma vez que relaciona diretamente a média da distribuição beta com as covariáveis.

A distribuição beta é bastante flexível, podendo assumir diversos formatos simétricos e assimétricos. No entanto, essa distribuição pode não apresentar um ajuste adequado em dados reais na presença de pontos discrepantes e, em muitas situações, isso pode ser

(39)

um problema. Neste trabalho, introduzimos a distribuição GJS inflacionada em zero ou um, e seu respectivo modelo de regressão para dados no intervalo (0, 1] ou [0, 1). Como apresentado no Capítulo 1, a classe GJS inclui diversas distribuições, entre elas a distri-buição GJS-t (isto é, a distridistri-buição GJS gerada através da t-Student), que pode ser uma alternativa interessante para análise de dados com outliers. Além da distribuição GJS-t, a classe GJS inclui as distribuições geradas através da distribuição logística do tipo I e II, exponencial dupla, exponencial potência, entre outras. Além disso, os parâmetros do modelo de regressão GJS inflacionado são interpretados em termos da mediana da variá-vel resposta e ajusta dados assimétricos e com bimodalidades, ao contrário do modelo de regressão beta inflacionado, cujos parâmetros são interpretados em função da média da variável resposta e o modelo não permite o ajuste a dados com bimodalidade. Adicional-mente, vale a pena mencionar que, se a distribuição condicional da variável de interesse não é simétrica, então a mediana, como uma medida de posição, pode ser mais apropriada do que a média.

Finalmente, este capítulo encontra-se organizado da seguinte forma. Na Seção 2.1 apresentamos a distribuição GJS inflacionada em zero ou um, além de algumas propri-edades. São apresentadas também expressões para o vetor escore e para a matriz da informação observada, e são construídos invervalos de confiança assintóticos para os pa-râmetros da distribuição. Na Seção 2.2 definimos o modelo de regressão GJS inflacionado em zero ou um. Nesta seção são abordados aspectos inferenciais com base na teoria da verossimilhança, e são apresentadas expressões para o vetor escore e para a matriz da informação observada. Um algoritmo para obtenção das estimativas dos parâmetros do modelo de regressão GJS é apresentado e é feita uma breve discussão a respeito da sele-ção de modelos. Finalmente, um estudo de simulasele-ção Monte Carlo é realizado a fim de analisar o desempenho dos estimadores de máxima verossimilhança.

2.1

A distribuição GJS inflacionada em zero ou um

Na prática, dados na forma de proporções podem incluir zeros ou uns e, nestes casos, a distribuição GJS não deve ser utilizada. Se os dados possuem zeros ou uns (mas não ambos), uma alternativa é adicionar à distribuição GJS um ponto de massa em zero ou um. Dessa forma, obtemos modelos para dados nos intervalos [0, 1) ou (0, 1]. Como nosso interesse é desenvolver um modelo de regressão para dados desta forma, utilizamos a parametrização da distribuição GJS dada em (1.8). Nesse sentido, vamos supor que o componente contínuo dos dados é modelado por uma distribuição GJS, e o componente

(40)

discreto, isto é, o ponto de massa em zero ou um, é modelado através de uma distribuição degenerada em um valor conhecido c, em que c é igual a zero ou a um, dependendo do caso.

Temos a seguinte proposição.

Proposição 6 (Função de distribuição acumulada.) A função de distribuição

acu-mulada da mistura é dada por

F(c)(y; α, ξ, δ) = αI[c,∞)(y) + (1 − α)F (y; ξ, δ), y ∈ R, (2.1)

em que ξ ∈ (0, 1) é a mediana, δ > 0 é o parâmetro de disperção, α ∈ (0, 1) é o parâmetro da mistura, e IA(y) é a função indicadora, com valor 1 se y ∈ A e 0 se y /∈ A. A função

F (·; ξ, δ) é a função de distribuição acumulada da distribuição GJS(ξ, δ; g) cuja função densidade de probabilidade é dada em (1.8).

Demonstração: Note que a função F(c)(y; α, ξ, δ) não é absolutamente contínua, pois tem

um ponto de massa em y = c. Também, com probabilidade α, a variável Y é selecionada de uma distribuição degenerada no ponto c (c = 0 ou c = 1) e, com probabilidade 1 − α, a variável Y é selecionada de uma distribuição GJS, que é absolutamente contínua com respeito a medida de Lebesgue. Assim, a variável aleatória Y é do tipo mista. A função de distribuição acumulada de uma variável aleatória qualquer pode ser escrita como uma soma ponderada das funções de distribuição da parte discreta, contínua e singular (ver, por exemplo, James (1996)). No nosso caso, temos apenas uma parte discreta e contínua, portanto, F(c)(y; α, ξ, δ) pode ser escrita da forma

F(c)(y; α, ξ, δ) = ωdFd(y) + ωcFc(y),

em que ωd e ωc são, respectivamente, as massas de probabilidade correspondente a parte

discreta e contínua. As funções Fd(y) e Fc(y) são as funções de distribuições associadas a parte discreta e a parte contínua da variável aleatória Y , respectivamente. No modelo de regressão GJS inflacionado em c, temos

ωd≡ α, ωc ≡ 1 − α, Fc(y) ≡ F (·; ξ, δ),

e a função Fd(y) é a função de distribuição de uma variável aleatória degenerada no ponto

c, que é dada por

Fd(y) = I[c,∞)(y) =    1, y ≥ c, 0, y < c, .

Referências

Documentos relacionados

Antes porém me identifico com a abertura da noção conceitual de pansexualidade, a qual pode ser vista/lida como intensa manifestação sociocultural de uma sexualidade

O Senac RN está com inscrições abertas para cursos técnicos e de pós-graduação a distância nos polos de Natal, Assu, Caicó e Mossoró, em áreas como administração, segurança

Para instauração do competente Procedimento Disciplinar para verificação de quebra de decoro parlamentar em desfavor do senador Aécio Neves da Cunha (PSDB-MG),

Com base na família GOLL-G, foram propostos: modelos de regressão com diferentes estruturas de regressão; modelo semiparamétrico inflacionado de zeros modelando os

O Substitutivo aprovado pela CSSF restringe os termos originalmente propostos pelo autor do projeto principal: enquanto o PL nº 2.598/2007, obrigava os estudantes

Os elementos caracterizadores da obra são: a presença constante de componentes da tragédia clássica e o fatalismo, onde o destino acompanha todos os momentos das vidas das

Também resultou deste trabalho a análise out-process, tendo como referenciais a NBR ISO 9001:2008 e o Modelo de Excelência da Gestão® (MEG), do processo Coleta de

No segundo estágio, os escores de eficiência foram utilizados como variável dependente em um modelo de regressão beta inflacionado, para análise dos determinantes da