• Nenhum resultado encontrado

Modelos de regressão Birnbaum-Saunders multivariada generalizada

N/A
N/A
Protected

Academic year: 2021

Share "Modelos de regressão Birnbaum-Saunders multivariada generalizada"

Copied!
168
0
0

Texto

(1)

CAMPINAS

Instituto de Matemática, Estatística e

Computação Científica

RENATA GUIMARÃES ROMEIRO AGOSTINHO

Modelos de regressão Birnbaum-Saunders

multivariada generalizada

Campinas

2018

(2)

Modelos de regressão Birnbaum-Saunders multivariada

generalizada

Tese apresentada ao Instituto de Matemática, Estatística e Computação Científica da Uni-versidade Estadual de Campinas como parte dos requisitos exigidos para a obtenção do título de Doutora em Estatística.

Orientador: Filidor Edilfonso Vilca Labra

Este exemplar corresponde à versão

final da Tese defendida pela aluna

Re-nata Guimarães Romeiro Agostinho e

orientada pelo Prof. Dr. Filidor

Edil-fonso Vilca Labra.

Campinas

2018

(3)

Ficha catalográfica

Universidade Estadual de Campinas

Biblioteca do Instituto de Matemática, Estatística e Computação Científica Márcia Pillon D'Aloia - CRB 8/5180

Romeiro, Renata Guimarães,

R664m RomModelo de regressão Birnbaum-Saunders multivariada generalizada /

Renata Guimarães Romeiro Agostinho. – Campinas, SP : [s.n.], 2018.

RomOrientador: Filidor Edilfonso Vilca Labra.

RomTese (doutorado) – Universidade Estadual de Campinas, Instituto de

Matemática, Estatística e Computação Científica.

Rom1. Birnbaum-Saunders, Distribuição de. 2. Misturas de escala (Estatística).

3. Algoritmos de esperança-maximização. 4. Modelos de regressão

(Estatística). 5. Influência local (Estatística). I. Labra, Filidor Edilfonso Vilca, 1964-. II. Universidade Estadual de Campinas. Instituto de Matemática, Estatística e Computação Científica. III. Título.

Informações para Biblioteca Digital

Título em outro idioma: Generalized multivariate Birnbaum-Saunders regression model Palavras-chave em inglês:

Birnbaum-Saunders distribution Scale mixtures

Expectation-maximization algorithms Regression models (Statistics) Local influence (Statistics)

Área de concentração: Estatística Titulação: Doutora em Estatística Banca examinadora:

Filidor Edilfonso Vilca Labra [Orientador] Caio Lucidius Naberezny Azevedo Helton Saulo Bezerra dos Santos Edwin Moises Marcos Ortega Gilberto Alvarenga Paula

Data de defesa: 05-10-2018

Programa de Pós-Graduação: Estatística

(4)

pela banca examinadora composta pelos Profs. Drs.

Prof(a). Dr(a). FILIDOR EDILFONSO VILCA LABRA

Prof(a). Dr(a). CAIO LUCIDIUS NABEREZNY AZEVEDO

Prof(a). Dr(a). HELTON SAULO BEZERRA DOS SANTOS

Prof(a). Dr(a). EDWIN MOISES MARCOS ORTEGA

Prof(a). Dr(a). GILBERTO ALVARENGA PAULA

A Ata da Defesa, assinada pelos membros da Comissão Examinadora, consta no SIGA/Sistema de Fluxo de Dissertação/Tese e na Secretaria de Pós-Graduação do Instituto de Matemática, Estatística e Computação Científica.

(5)
(6)

Acima de tudo agradeço a Deus, que me deu forças para prosseguir.

Agradeço de todo coração aos meus pais João Batista e Maria Izabel (in memo-rian) que nunca mediram esforços para me ajudar, sendo sempre meu alicerce e incentivo nos momentos mais difíceis.

Ao meu esposo Reinaldo que sempre me incentivou, ajudou, e confiou em minhas escolhas. Seu amor e carinho fizeram toda a diferença.

Aos meus irmãos Paulo e Ana Beatriz, que me apoiam e se orgulham das minhas conquistas.

À toda a minha família, em especial, minhas tias Sandra e Francisca, que estão sempre se preocupando e cuidando de mim.

Aos meus sogros José Reinaldo e Ivani, que me acolheram e cuidaram de mim sempre que precisei, e à toda a sua família que me recebeu com carinho.

Ao professor Filidor Vilca Labra, por sua excelente orientação transmitindo seus conhecimentos sem reservas e participando comprometidamente da elaboração desse trabalho.

Aos professores e funcionários do Instituto de Matemática, Estatística e Com-putação Científica da UNICAMP, que me ajudaram e contribuíram para meu crescimento.

À Fundação de Amparo à Pesquisa do Estado de São Paulo, Processo 2013/25935-2, pelo apoio financeiro.

À todos os amigos que dividiram esses anos de estudo comigo ou que colabora-ram para a minha formação acadêmica e elaboração dessa tese.

(7)

Então, a nossa boca se encheu de riso, e a nossa língua, de júbilo; então, entre as nações se dizia: Grandes coisas o Senhor tem feito por eles. Com efeito, grandes coisas fez o Senhor por nós; por isso, estamos alegres. Restaura, Senhor, a nossa sorte, como as torrentes no Neguebe. Os que com lágrimas semeiam com júbilo ceifarão. Quem sai andando e chorando, enquanto semeia, voltará com júbilo, trazendo os seus feixes. (Bíblia Sagrada, Samos 126)

(8)

Neste trabalho, vamos propor uma extensão multivariada da distribuição Birnbaum-Saunders (BS) proposta por Kundu et al. (2010), baseada na distribuição de mistura de escala normal (SMN), utilizada para modelar dados simétricos. A distribuição resultante será denotada por distribuição mistura de escala Birnbaum-Saunders multivariada (SBS). Também vamos considerar outra abordagem importante e de especial atenção na literatura que são os modelos de regressão associados à distribuição BS e um estudo de análise de diagnóstico. Assim sendo, considerando a transformação logarítmica da variável resposta com distribuição SBS, desenvolvemos o modelo de regressão senh-SMN, baseado nos trabalhos de Kundu (2015) e Vilca et al. (2014). Esse modelo, pode ser visto como uma extensão robusta multivariada, baseada nas distribuições SMN, do modelo proposto por

Rieck e Nedelman(1991). Devido à complexidade da verossimilhança do modelo, e da

maxi-mização direta para estimação dos parâmetros, exploramos uma representação hierárquica e propomos a estimação de máxima verossimilhança via algoritmo EM. Desenvolvemos então, duas análises de diagnóstico para o modelo de regressão senh-SMN, considerando a exclusão de casos (COOK, 1977) de uma ou mais observações, e um método mais geral proposto por Cook (1986) que consiste em avaliar a influência de observações frente a pequenas pertubações no modelo. Por fim, para avaliar a habilidade dos métodos propostos, realizamos estudos de simulação e análise de dados reais.

Palavras-chave: distribuição Birnbaum-Saunders multivariada, algoritmo EM,

distri-buição de mistura de escala normal, modelo de regressão linear Birnbaum-Saunders multivariada robusta, análise de diagnóstico.

(9)

In this work, we propose a multivariate extension of the Birnbaum-Saunders (BS)

dis-tribution proposed by Kundu et al. (2010), based on scale-mixture of normal (SMN)

distributions, used to model symmetric data. The resulting distribution will be called

multivariate scale-mixture BS distribution (SBS). We will also consider other important

ap-proaches that have received considerable attention in the literature, such as the regression models associated with the BS distribution and a study of diagnostic analysis Thus, con-sidering the logarithmic transformation of the response variable with SBS distribution, we developed the sinh-SMN regression model, based on the works of Kundu(2015) and Vilca

et al. (2014). This regression model can be seen as a robust multivariate extension, which is

based on SMN distribution, of the regression model proposed by Rieck e Nedelman (1991). Due to the complexity of the likelihood of the model, and the direct maximization for parameter estimation, we explore a hierarchical representation and propose the estimation of maximum likelihood via an EM algorithm. We then developed two diagnostic analysis approaches for the sinh-SMN regression model, considering the case exclusion (COOK,

1977) of one or more observations, and a more general method proposed by Cook(1986). Finally, to evaluate the ability of the proposed methods, we performed simulation studies and analysis of real data.

Keywords: multivariate Birnbaum-Saunders distribution, EM algorithm, scale mixture

of normal distribution, robust multivariate Birnbaum-Saunders linear regression model, diagnostic analysis.

(10)

Figura 1 – Simulação (2): (a) Média do RB das componente de α; (b) RB do

parâmetro α1; (c) Média do RMSE das componentes de α; (d) RMSE

do parâmetro α1 para os modelos BS, StBS, SLBS, CNBS. . . . 46

Figura 2 – Simulação (2) :(a) Média do RB das componente de β; (b) RB do parâmetro β1; (c) Média do RMSE das componentes de β; (d) RMSE do parâmetro β1 para os modelos BS, StBS, SLBS, CNBS. . . . 47

Figura 3 – Simulação (2):(a) Média do RB das componente de σ; (b) RB do parâmetro σ1; (c) Média do RMSE das componentes de σ; (d) RMSE do parâmetro σ1 para os modelos BS, StBS, SLBS, CNBS. . . . 48

Figura 4 – Viés relativo para diferentes tamanhos amostrais dos modelos EM proposto e de Kundu et al. (2013). . . 55

Figura 5 – Raiz do erro quadrádico médio para diferentes tamanhos amostrais dos modelos EM proposto e de Kundu et al. (2013). . . 56

Figura 6 – Gráfico dos valores da log-verossimilhança como uma função do número de iterações para as primeiras 12 iterações do algoritmo EM e do algoritmo de Kundu et al. (2013). . . 57

Figura 7 – a) Modelo BVBS de Lemonte et al. (2015), b) Modelo StBS, c) Modelo SLBS e d) Modelo CNBS. . . 58

Figura 8 – Cenário 1: Mudança relativa das estimativas de MV das componentes de α, para os modelos BS e StBS para diferentes contaminaçoes ∆. . . 60

Figura 9 – Cenário 1: Mudança relativa das estimativas de MV das componentes de β, para os modelos BS e StBS para diferentes contaminaçoes ∆. . . 61

Figura 10 – Cenário 1: Mudança relativa das estimativas de MV das componentes de σ, para os modelos BS e StBS para diferentes contaminaçoes ∆. . . 62

Figura 11 – Cenário 2: Mudança relativa das estimativas de MV das componentes de α, para os modelos BS e StBS para diferentes contaminaçoes ∆. . . 63

Figura 12 – Cenário 2: Mudança relativa das estimativas de MV das componentes de β, para os modelos BS e StBS para diferentes contaminaçoes ∆. . . 64

Figura 13 – Cenário 2: Mudança relativa das estimativas de MV das componentes de σ, para os modelos BS e StBS para diferentes contaminaçoes ∆. . . 65

Figura 14 – Média da mudança relativa das estimativas de MV das componentes de α, β, σ para (a) Cenário 1, (b) Cenário 2, para os modelos BS e StBS para diferentes contaminaçoes ∆. . . 65

Figura 15 – Gráficos de dispersão para as variáveis T1, T2, T3, e T4. . . 67

Figura 16 – Log-verossimilhança perfilada de ν para o modelo StBS. . . . 68

(11)

StBS, CNBS e SLBS. . . . 70

Figura 19 – Peso ui estimado para os modelos BS, StBS, CNBS e SLBS. . . . 71

Figura 20 – Gráficos de dispersão para as variáveis T1, T2, T3, e T4. . . 73

Figura 21 – Log-verossimilhança perfilada de ν para o modelo StBS. . . . 74

Figura 22 – Evelopes simulados para os modelo ajustados BS, StBS, CNBS e SLBS. 75 Figura 23 – Gráfico de índice da distância de Mahalanobis para os modelos BS, StBS, CNBS e SLBS. . . . 76

Figura 24 – Peso ui estimado para os modelos BS, StBS, CNBS e SLBS. . . . 76

Figura 25 – Cenário (1): (a) RB das componentes de α; (b) RMSE das componentes de α. . . . 95

Figura 26 – Cenário (1): (a) RB das componentes de β1; (b) RMSE das componentes de β1. . . 96

Figura 27 – Cenário (1): (a) RB das componentes de β2; (b) RMSE das componentes de β2. . . 96

Figura 28 – Cenário (1): (a) RB das componentes de β3; (b) RMSE das componentes de β3. . . 97

Figura 29 – Cenário (1): (a) RB das componentes de ψ; (b) RMSE das componentes de ψ. . . . 97

Figura 30 – Cenário (1): (a) Média do RB das componentes de α, β e ψ; (b) RMSE médio das componentes de α, β e ψ. . . . 98

Figura 31 – Cenário (2): (a) RB das componentes de α; (b) RMSE das componentes de α. . . . 98

Figura 32 – Cenário (2): (a) RB das componentes de β1; (b) RMSE das componentes de β1. . . 99

Figura 33 – Cenário (2): (a) RB das componentes de β2; (b) RMSE das componentes de β2. . . 99

Figura 34 – Cenário (2): (a) RB das componentes de β3; (b) RMSE das componentes de β3. . . 100

Figura 35 – Cenário (2): (a) Média do RB das componentes de α, β e ψ; (b) RMSE médio das componentes de α, β e ψ. . . . 100

Figura 36 – Gráficos de dispersão para as variáveis T1, T2, x1, e x2. . . 103

Figura 37 – Log-verossimilhança perfilada de ν para o modelo log-StBS. . . . 104

Figura 38 – Envelopes simulados para os modelos log-BS, log-StBS, log-CNBS e log-SLBS. . . 105

Figura 39 – Gráfico de índices e da distância de Mahalanobis para os modelos log-BS, log-StBS, log-CNBS e log-SLBS.. . . 106

Figura 40 – Valores de ui estimados para os modelos log-StBS, log-CNBS e log-SLBS.106 Figura 41 – Gráficos de dispersão para as variáveis T1, x1, x2, x3 e x4. . . 110

(12)

Figura 43 – Envelopes simulados para os modelos log-BS, log-StBS, log-CNBS e

log-SLBS. . . 112

Figura 44 – Gráfico de índices e da distância de Mahalanobis para os modelos log-BS, log-StBS, log-CNBS e log-SLBS.. . . 113

Figura 45 – Valores de ui estimados para os modelos log-StBS, log-CNBS e log-SLBS.113 Figura 46 – Envelopes simulados para os Modelos 1 e 2 log-CNBS, respectivamente. 114 Figura 47 – Gráfico de índices e da distância de Mahalanobis e valores de ui estima-dos para o Modelo 1 (esquerda) e Modelo 2 (direita) da log-CNBS. . . 115

Figura 48 – Gráfico de painel para as variáveis do conjunto de dados Iris considerando as três espécies: Iris setosa (losango), Iris virginica (círculo) e Iris versicolor (triângulo).. . . 118

Figura 49 – Log-verossimilhança perfilada de ν para o modelo log-SLBS. . . . 119

Figura 50 – Envelopes simulados para os modelos log-BS, log-StBS, log-CNBS e log-SLBS. . . 120

Figura 51 – Gráfico de índices e da distância de Mahalanobis para os modelos log-BS, log-StBS, log-CNBS e log-SLBS.. . . 121

Figura 52 – Valores de ui estimados para os modelos log-BS, log-StBS, log-CNBS e log-SLBS. . . 121

Figura 53 – Distância Q e distância de Cook (GD) para θ, sem pertubção (esquerda) e com pertubação (direita). . . 137

Figura 54 – Distância de Cook (GD) para α, β e ρ (a) sem pertubação e (b) com pertubação. . . 138

Figura 55 – Distância de Mahalanobis (esquerda) e distância de cook, individual GDi, conjunta GDi3 e condicional GDi|3 para θ (direita). . . . 139

Figura 56 – Ponderação de casos. . . 140

Figura 57 – Pertubação na variável resposta. . . 140

Figura 58 – Caso 1: Pertubação na variável explicativa x2. . . 141

Figura 59 – Caso 2: Pertubação na variável explicativa x2. . . 141

Figura 60 – Mudança relativa das estimativas de MV das componentes de α consi-derando diferentes contaminações. . . 142

Figura 61 – Mudança relativa das estimativas de MV das componentes de β consi-derando diferentes contaminações. . . 143

Figura 62 – Mudança relativa das estimativas de MV das componentes de ψ consi-derando diferentes contaminações. . . 143

Figura 63 – Média da mudança relativa das estimativas de MV das componentes α, β e ψ considerando diferentes contaminações. . . . 144

Figura 64 – Distância Q e distância de Cook (GD) para θ para os modelos log-BS e log-StBS. . . . 147

(13)

Figura 66 – Distância de Cook (GD) para ρ para os modelos log-BS e log-StBS. . . 148

Figura 67 – Distância de Cook, individual GDi, conjunta GDi69e condicional GDi|69

para os modelos log-BS (esquerda) e log-StBS (direita). . . . 149

Figura 68 – Ponderação de casos para os modelos log-BS e log-StBS. . . . 149

Figura 69 – Pertubação na variável resposta para os modelos log-BS e log-StBS. . 150

Figura 70 – Pertubação na variável explicativa para os modelos log-BS e log-StBS. 150

Figura 71 – Pertubação no parâmetro de forma para os modelos log-BS e log-StBS. 151

(14)

Tabela 1 – Simulação (1): Média, SE baseado na matriz de informação e SD baseado

nas 500 amostras dos quatro modelos especificados. . . 44

Tabela 2 – Simulação (2): Estimativa média, RB e RMSE baseados nas 500 amos-tras considerando tamanho amostral n = 30. . . . 49

Tabela 3 – Simulação (2): Estimativa média, RB e RMSE baseados nas 500 amos-tras considerando tamanho amostral n = 50. . . . 50

Tabela 4 – Simulação (2): Estimativa média, RB e RMSE baseados nas 500 amos-tras considerando tamanho amostral n = 100. . . . 51

Tabela 5 – Simulação (2): Estimativa média, RB e RMSE baseados nas 500 amos-tras considerando tamanho amostral n = 200. . . . 52

Tabela 6 – Simulação (2): Estimativa média, RB e RMSE baseados nas 500 amos-tras considerando tamanho amostral n = 600. . . . 53

Tabela 7 – Estimativas de MV, erro padrão assintótico estimado SE e alguns critérios de informação para os quatro modelos considerados. . . 68

Tabela 8 – Estimativas de MV, erro padrão assintótico estimado SE e alguns critérios de informação para os quatro modelos considerados. . . 74

Tabela 9 – Comparação das mudanças relativas nas estimativas e MV em termos de TRC e MRC para os modelos BS, StBS, CNBS e SLBS. . . . 75

Tabela 10 – Tabela comparativa da representação hierárquica adotada na construção dos modelos log-StBS e log-BS-t de Marchant et al. (2016). . . . 85

Tabela 11 – Taxas de rejeição empírica para o teste H01: α1 = . . . = αp = α. . . . . 94

Tabela 12 – Taxas de rejeição empírica para o teste H02: βlj = 0. . . 94

Tabela 13 – Taxas de rejeição empírica para o teste H03: Ψ = Ψ0. . . 95

Tabela 14 – Estimativas de MV, erro padrão assintótico estimado (SE) e alguns critérios de informação para os quatro modelos considerados. . . 103

Tabela 15 – Comparação das mudanças relativas nas estimativas e MV em termos de TRC e MRC para os modelos log-BS, log-StBS, log-CNBS e log-SLBS.107 Tabela 16 – Teste de hipóteses. . . 107

Tabela 17 – Descrição das variáveis de interesse no modelo proposto. . . 108

Tabela 18 – Estimativas de MV, erro padrão assintótico estimado (SE) e alguns critérios de informação para os quatro modelos considerados. . . 109

Tabela 19 – Testes de Hipóteses para os Modelos 1 e 2 log-CNBS. . . 110

Tabela 20 – Estimativas de MV, erro padrão assintótico estimado (SE) e alguns critérios de informação para os Modelos 1 e 2 log-CNBS. . . 114

Tabela 21 – Estimativas de MV, erro padrão assintótico estimado (SE) e alguns critérios de informação para os quatro modelos considerados. . . 119

(15)

Tabela 23 – Comparação das mudanças relativas nas estimativas e MV em termos de TRC e MRC para os modelos modelos log-BS, log-StBS, log-CNBS

(16)

AIC Critério de informação de Akaike.

AR Correlação autorregressiva.

BS Birnbaum-Saunders.

CN Normal-contaminada.

CNBS Birnbaum-Saunders multivariada normal contaminada.

DMO Dados de densidade mineral óssea.

ECM Maximização condicional de esperança.

fda Função de probabilidade acumulada.

fdp Função densidade de probabilidade.

G Gradiente.

GD Distância de Cook generalizada.

MM Momentos modificados.

MV Máxima verossimilhança.

MSE Erro quadrático médio.

QD Distância Q.

RB Viés relativo.

RMSE Raiz do erro quadrático médio.

RV Razão de verossimilhança.

S Escore.

SBS Mistura de escala Birnbaum-Saunders.

SD Desvios-padrão.

SE Erros padrão.

(17)

SMN Mistura de escala normal.

SN Senh-normal.

StBS Birnbaum-Saunders t-Student multivariada.

St t-Student.

SIC Critério de informação de Schwartz.

(18)

1 INTRODUÇÃO . . . 21

1.1 Motivação . . . 21

1.2 Distribuição Birnbaum-Saunders multivariada . . . 22

1.3 Distribuição mistura de escala normal . . . 24

1.4 O algoritmo EM . . . 25

1.5 Diagnóstico . . . 26

1.6 Definição dos objetivos . . . 27

1.7 Apresentação dos capítulos . . . 28

2 DISTRIBUIÇÃO BIRNBAUM-SAUNDERS ROBUSTA: ALGORITMO EM . . . 31

2.1 Distribuição mistura de escala Birnbaum-Saunders multivariada . . 31

2.2 Propriedades da distribuição mistura de escala Birnbaum-Saunders multivariada . . . 33

2.3 Casos especiais . . . 36

2.3.1 Distribuição BS multivariada . . . 36

2.3.2 Distribuição BS normal contaminada . . . 37

2.3.3 Distribuição BS Slash . . . 37

2.3.4 Distribuição BS t-Student . . . 38

2.4 Estimação paramétrica. . . 39

2.4.1 Método dos momentos . . . 40

2.4.2 Estimação por máxima verossimilhança baseada no algoritmo EM . . . 40

2.4.3 Matriz de informação observada . . . 42

2.5 Aplicação numérica. . . 43

2.5.1 Estudo de simulação . . . 43

2.5.2 Comparação de algoritmos de estimação . . . 54

2.5.3 Resultados numéricos com contaminação . . . 59

2.6 Análise de dados reais . . . 66

2.6.1 Dados de poluição do ar . . . 66

2.6.2 Dados de densidade mineral óssea . . . 71

3 MODELO DE REGRESSÃO SENH-SMN MULTIVARIADO . . . . 77

3.1 Distribuição senh-SMN . . . 78

3.2 Propriedades da distribuição senh-SMN multivariada . . . 79

3.3 Casos especiais . . . 80

(19)

3.3.3 Distribuição senh-SL multivariada . . . 82

3.3.4 Distribuição senh-St multivariada. . . 82

3.4 Modelo de regressão linear . . . 83

3.5 Estimação paramétrica. . . 86

3.5.1 Método dos momentos . . . 86

3.5.2 Estimação por máxima verossimilhança utilizando o algoritmo EM . . . 87

3.5.3 Matriz de informação observada . . . 88

3.5.4 Estrutura de covariância . . . 89

3.5.5 Teste de hipóteses . . . 90

3.6 Aplicação numérica. . . 92

3.6.1 Estudo de simulação . . . 92

3.7 Análise de dados reais . . . 101

3.7.1 Dados de tomografia computadorizada . . . 101

3.7.2 Dados de poluição do ar . . . 107

3.7.3 Dados Iris de Fisher. . . 116

4 DIAGNÓSTICOS DE INFLUÊNCIA PARA O MODELO DE RE-GRESSÃO SENH-SMN . . . 122

4.1 Análise de diagnóstico . . . 122

4.1.1 Influência conjuta e condicional . . . 124

4.1.1.1 Influência conjunta . . . 124

4.1.1.2 Influência condicional . . . 126

4.2 Influência local . . . 126

4.2.1 Pertubação de casos . . . 129

4.2.2 Pertubação na variável resposta . . . 130

4.2.3 Pertubação na variável explicativa . . . 131

4.2.4 Pertubação no parâmetro de forma. . . 134

4.2.5 Pertubação na matriz de correlação . . . 134

4.2.6 Matriz hessiana . . . 134

4.3 Estudo de simulação . . . 135

4.3.1 Análise de diagnóstico . . . 135

4.3.2 Influência local . . . 139

4.3.3 Resultados numéricos com contaminação . . . 142

4.4 Aplicação . . . 145

4.4.1 Dados de tomografia computadorizada . . . 145

5 CONSIDERAÇÕES FINAIS . . . 152

5.1 Conclusões . . . 152

(20)

5.2.2 Modelo de regressão Birnbaum-Saunders bivariado com censura . . . 155

REFERÊNCIAS . . . 158

APÊNDICE A – MATRIZ DE INFORMAÇÃO OBSERVADA . . . 165

APÊNDICE B – MATRIZ DE INFORMAÇÃO PARA

DISTRIBUI-ÇÃO SENH-SBS . . . 167

(21)

1 Introdução

1.1

Motivação

A distribuição Birnbaum-Saunders (BS), proposta por Birnbaum e Saunders

(1969a), Birnbaum e Saunders (1969b), tem recebido considerável atenção nas últimas

dé-cadas e tem sido amplamente estudada. Ela surgiu da motivação de problemas relacionados com a fadiga de materiais devido a vibração em aeronaves comerciais e tem sido utilizada na indústria, negócios, confiabilidade, análise de sobrevivência, ciências médicas, entre outros. É um modelo positivo e assimétrico, cujo interesse provêm de suas propriedades atraentes e de sua relação com a distribuição normal.

Muitas propriedades interessantes e úteis da distribuição BS univariada levaram a uma busca por versões multivariada dela. Algumas extensões bivariadas da distribuição BS foram apresentadas por Kundu et al. (2010), Vilca et al. (2014) e Lemonte et al.

(2015). Essas extensões, em certo sentido, são fechadas sob distribuições marginais e condicionais, e possuem propriedades interessantes, de forma análoga à distribuição BS univariada e suas extensões. Por exemplo, a distribuição BS bivariada de Vilca et al.

(2014) tem suas marginais e condicionais como as distribuições BS propostas por Paula et al. (2011) (baseada na t-Student) e Balakrishnan et al. (2009) (baseada na distribuição mistura de escala normal). Além da distribuição BS bivariada de Lemonte et al. (2015), que é obtida através de especificação condicional baseada na formulação de Arnold et al.

(2002), e é uma distribuição bimodal para determinados parâmetros. Mais recentemente,

Kundu et al. (2013) propôs uma distribuição BS generalizada multivariada, baseada

na distribuição elíptica, que é adequada para representar dados contendo observações influentes e, consequentemente, pode servir como base para o desenvolvimento de uma análise robusta. Nesses trabalhos, os autores apresentaram procedimentos de estimação apenas para as distribuições BS multivarada baseada nas distribuições normal e t-Student, que são casos especiais da distribuição SMN. As distribuições de SMN são membros da família de distribuições elípticas nas quais as distribuições t-Student, slash e normal contaminada estão contidas nesta classe. Essas distribuições mostraram sua flexibilidade em várias aplicações; veja Andrews e Mallows (1974) e Lange e Sinsheimer (1993).

De um ponto de vista de robustez é bem conhecido que quando há normalidade, as estimativas de máxima verossimilhança não são resistentes à presença de pontos influentes, e devido à estreita relação das distribuições BS bivariada de Kundu et al.

(2010) e BS multivariada de Kundu et al. (2013) com a distribuição normal bivariada e multivariada, é aconselhável recorrer a algum tipo de procedimento de estimação robusto. Sendo assim, para superar esse problema, Kundu et al. (2013) explorou a relação entre

(22)

a distribuição BS multivariada e a distribuição normal para obter uma classe geral de distribuições BS multivariadas baseadas na distribuição elíptica que é denominada distribuição BS generalizada multivariada, que é de fato uma generalização da distribuição univariada generalizada proposta por Leiva et al. (2008 a, b). Em adição, Vilca et al.

(2014) discutiu alguns casos especiais da distribuição BS bivariada com base na família de distribuições SMN, que inclui a distribuição BS com base nas distribuições normal,

t-Student, slash e normal contaminada.

Outra abordagem importante e de especial atenção na literatura tem sido considerar modelos de regressão associados à distribuição BS. O trabalho pioneiro nesse sentido foi o de Rieck e Nedelman (1991) que introduziu covariáveis na distribuição BS univariada através da variável resposta transformada pela função logaritmo cuja distribuição correspondente é um caso especial da distribuição senh-normal (SN). Assim sendo, devido às várias generalizações da distribuição BS univariada para o contexto multivariado, surgiram também várias generalizações da distribuição SN univariada. Essas generalizações são comuns na literatura tal como apresentado para as distribuições normal,

exponencial, beta, Weibull e gama (BALAKRISHNAN; LAI, 2009).

A distribuição SN univariada encontrou sua generalização multivariada assu-mindo uma distribuição simétrica multivariada no lugar da distribuição normal, alguns exemplos são Díaz-García e Dominguez-Molina(2006), Kundu(2015) e Vilca et al.(2016). Este último trabalho é dedicado principalmente aos modelos de regressão linear nos quais é incorporada uma estrutura de dependência entre observações. Outra abordagem no contexto de regressão linear foi desenvolvida por Marchant et al. (2016), que se baseia na distribuição t-Student multivariada. Essa abordagem é adequada para representar dados contendo observações periféricas e, consequentemente, pode servir como base para o desenvolvimento de uma análise robusta, como pode ser visto na análise de diagnóstico apresentada pelos autores. As distribuições normal e t-Student são casos especiais da distribuições SMN.

1.2

Distribuição Birnbaum-Saunders multivariada

De acordo com Kundu et al. (2013), uma vetor aleatório p-variado T =

(T1, . . . , Tp)> tem distribuição BS multivariada, com parâmetros α = (α1, . . . , αp)> e

β = (β1, . . . , βp)> em Rp+que é a parte positiva de Rp, e Σ sendo uma matriz de correlação

p × p positiva-definida, se a função de distribuição acumulada (fda) conjunta de T1, . . . , Tp

pode ser escrita como

P (T1 ≤ t1, . . . , Tp ≤ tp) = Φp   1 α1   s t1 β1 − s β1 t1  , . . . , 1 αp   s tp βp − v u u t βp tp  ; Σ  , (1.1)

(23)

em que Φp(., .; Σ) é a fda conjunta do vetor normal padrão Z0 = (Z10, . . . , Zp0)>∼ Np(0, Σ),

com σjj = 1 para j = 1, . . . , p. Outra forma, mais simplificada de representar a fda da

distribuição BS multivariada é considerarmos at(α, β) = (at11, β1), . . . , atp(αp, βp)) > em que atj(αj, βj) = 1 αj   s tj βj − v u u t βj tj  , j = 1, . . . , p, (1.2)

dessa maneira a fda da distribuição BS multivariada pode ser escrita como

FT(t) = Φp(at(α, β); Σ) , t ∈ Rp+. (1.3)

Vamos denotar a distribuição em (1.3) por T ∼ BSp(α, β, Σ), assim considerando essa

notação podemos escrever a função densidade de probabilidade (fdp) conjunta de T1, . . . , Tp

da seguinte maneira fT(t) = φp  at(α, β); Σ  At(α, β), t ∈ Rp+, (1.4) em que φp(.; Σ) = φp(.; 0, Σ) é a fdp de Z0, e at(α, β) é como em (1.3), At(α, β) = p Y j=1 Atj(αj, βj), com Atj(αj, βj) = tj + βj 2αjβj1/2t 3/2 j , j = 1, . . . , p. (1.5)

Segundo Kundu et al. (2013) o seguinte algoritmo pode ser adotado para gerar uma amostra T = (T1, . . . , Tp) da distribuição BSp(α, β, Σ)

Passo 1: Obtenha a decomposição de Cholesky Σ = AA>;

Passo 2: Gere p amostras aleatórias independentes de uma normal padrão, U1, . . . , Up;

Passo 3: Calcule Z = (Z1, . . . , Zp)> = A(U1, . . . , Up)>;

Passo 4: Realize a transformação

Tj = βj   1 2αjZj + s 1 2αjZj 2 + 1   2 j = 1, . . . , p. (1.6)

Por fim, uma extensão mais abrangente da distribuição BS multivariada é apresentada em Kundu et al. (2013) sendo o modelo BS multivariado baseado em distri-buições elípticas, obtido substituindo a fda Φp(.; Σ) pela fda Fp(.; Σ), que é a fda de uma

distribuição elíptica multivariada. A família de distribuições elípticas inclui a classe de distribuições SMN que será utilizada neste trabalho.

(24)

1.3

Distribuição mistura de escala normal

A família de distribuições SMN já foi investigada anteriormente por vários autores; veja, por exemplo, Andrews e Mallows(1974), Lange e Sinsheimer(1993), e Lucas

(1997). Essa família fornece uma distribuição que tem o peso das caudas flexível, e por isso é frequentemente utilizada na estimação robusta de parâmetros. Essa classe é muito rica por possuir como elementos as distribuições normal, t-Student (St), slash (SL) e a normal contaminada (CN). Dessa forma, dizemos que um vetor aleatório p-variado Z

tem distribuição SMN (LANGE; SINSHEIMER,1993) se tem a seguinte representação

estocástica

Z = µ + κ1/2(U )Z0, (1.7)

em que Z0 ∼ Np(0, Σ) e κ(U ) é uma função de uma variável aleatória positiva U distribuída

independentemente de Z0. Assim, de (1.7), podemos obter facilmente que a distribuição

condicional de Z, dado U = u, é a distribuição Np(µ, κ(u)Σ). Esse resultado é muito útil

na obtenção da fdp de Z, que é φSMN(z; µ, Σ) = Z ∞ 0 φp  z; µ, κ(u)ΣdH(u; ν) (1.8) = |2πΣ|−1/2 Z ∞ 0 κ(u)−p/2exp  −1 2κ −1(u)d dH(u; ν) (1.9)

em que d = d(Z) = (Z − µ)>Σ−1(Z − µ) e φp(.; µ, Σ) denota a fdp de uma distribuição

normal p-variada com vetor de média µ, matriz de covariância Σ, e H(u; ν) a fda de U , com ν sendo uma vetor escalar ou vetor paramétrico indexando a distribuição de U . Essa distribuição é usualmente denotada por Z ∼ SMNp(µ, Σ; H). Nesse caso, a distribuição

normal é obtida quando H é degenerado, com κ(U ) = 1. Quando κ(U ) = 1/U , a distribuição de Z assume a distribuição normal/independente (NI) discutida mais detalhadamente

por Lange e Sinsheimer(1993). Para o caso de κ(U ) = U , a distribuição de Z assume a

distribuição de SMN estudada por Cambanis et al. (2000) e a distribuição normal inversa Gaussiana proposta por Barndorff-Nielsen (1997). A representação estocástica em (1.7) facilita a implementação do algoritmo EM para a obtenção de dos estimadores de máxima verossimilhança e também estabelece algumas propriedades interessantes da distribuição SMN.

Alguns exemplos de distribuições escala de mistura normal são dados a seguir (SALGADO,

2006; LANGE; SINSHEIMER, 1993).

Distribuição t-Student generalizada

A distribuição t-Student generalizada pode ser obtida considerando que a variável de mistura U tem distribuição Gamma(ν/2, λ/2), sendo representada por Z ∼ Gtp(µ, Σ, ν, λ)

com ν, λ > 0. Então, Z tem densidade da forma

f (z) = Γ( p+ν 2 ) Γ(ν2)πp/2λ −p/2|Σ|−1/2 1 + 1 λd −(p+ν)/2 . (1.10)

(25)

Note que, para λ = ν e U ∼ χν/ν temos a distribuição t-Student tp(µ, Σ, ν)

com ν graus de liberdade. Nesse caso, a variável aleatória d/p tem a mesma distribuição

de (LANGE; SINSHEIMER, 1993)

2p/p)(1/U ) = (χ2p/p)(ν/χ2ν), (1.11)

em que as distribuições χ2p e χ2ν são independentes. Assim d/p segue uma distribuição Fp,ν

(BOX; TIAO, 1973).

Distribuição Slash

A versão multivariada da Slash é obtida considerando U ∼ Beta(ν, 1). Então, podemos escrever Z ∼ SLp(µ, Σ, ν) com densidade dada por

f (z) = ν

(2π)p/2|Σ|

−1/2Z 1

0

up/2+ν−1exp[−ud/2]du. (1.12)

Nesse caso, a distância de Mahalanobis d tem distribuição dada por

P (d ≤ r) = Z r 0 [1 − s r ν ] 1 2p/2Γ(p/2)s (p/2)−1e−s/2 ds (1.13) = P (χ2p ≤ r) − 2 νΓ((p/2) + ν) Γ(p/2) P (χ 2 p+2ν ≤ r). (1.14)

Distribuição normal contaminada

A distribuição normal contaminada tem a variável de escala U concentrada em dois pontos

γ < 1 e 1 com massas φ e 1−φ, sendo representada por Z ∼ CNp(µ, Σ, ν, γ) com densidade

dada por f (z) =  νφp(z; γΣ  + (1 − ν)φp(z; Σ  . (1.15)

Nesse caso, temos que P (d ≤ r) = φP (χ2p ≤ γr) + (1 − φ)P (χ2

p ≤ r).

1.4

O algoritmo EM

O algoritmo EM (DEMPSTER et al.,1977) é uma ferramenta bem conhecida

e muito importante na estimação de máxima verossimilhança para dados incompletos. Ele tem como base a ideia de substituir uma maximização difícil por uma sequência de maximizações mais fáceis. Nesse caso, para aplicação desse método de estimação consideramos uma abordagem envolvendo dados aumentados ou dados completos, que

(26)

consiste dos dados observados ou dados incompletos e dos dados complementares conhecidos como dados perdidos ou não observados. A estimação é realizada basicamente em dois passos, o passo E (esperança) que calcula o valor esperado do logaritmo da verossimilhança completa; e o passo M, que encontra seu máximo. Os passos são repetidos até se atingir a convergência. Para apresentar a ideia do algoritmo vamos considerar t o vetor de dados observados e u o vetor de dados não observados de modo que o vetor de dados completos

tc é composto por tc= (t>, u>)>. Agora, seja `c(θ|tc) o logaritmo da verossimilhança de

dados completos para o vetor paramétrico θ. O algoritmo EM contempla problemas com dados incompletos indiretamente considerando a substituição da parte não observável em

`c(θ|tc) por suas esperanças condicionais dado t, usando o ajuste atual para θ. Por isso,

considera a função Q dada por Q(θ|θ) = E[`b c(θ|tc)|t,θ].b

Assim sendo, a (r + 1)-ésima iteração do algoritmo EM é definida como:

Passo E: Dado θ = θb (r), obter

Q(θ|θb

(r)

) = E[`c(θ|tc)|t,θb

(r)

];

Passo M: Obter θ(r+1) que maximize Q(θ|θ) tal queb

Q(θ(r+1)|θb

(r)

) ≥ Q(θ|θb

(r)

), ∀ θ ∈ Θ.

Os passos E e M devem ser repetidos até que se atinja a convergência de acordo com um critério estabelecido.

Em muitas situações os passos do algoritmo EM podem ser complicados e por isso na literatura, algumas generalizações podem ser encontradas. Dentre estas, Meng e

Rubin (1993) propuseram uma generalização do passo M quando este é complicado. A

generalização consiste em considerar um processo de estimação condicional a alguma função dos parâmetros de interesse. Esse algoritmo é denominado algoritmo de maximização condicional de esperança (ECM). Nesse caso a proposta é substituir o passo M por uma sequência de passos de maximização mais simples, em que cada um deles maximiza a função Q sujeita a restrições em θ, de forma que essas restrições garantam que a maximização seja realizada sobre todo o espaço paramétrico. O algoritmo ECM costuma convergir em um número maior de iterações que o EM, porém pode apresentar um tempo de convergência menor.

1.5

Diagnóstico

Na construção de modelos estatísticos estamos interessados em captar as características essenciais de um determinado conjunto de dados sem que ocorra inferências

(27)

desproporcionais ou violação de suposições consideradas no modelo. Sendo assim, a análise de diagnóstico de influência é de extrema importância pois permite identificar através de diferentes propostas, elementos no conjunto de dados que efetivamente acarretam alguma alteração na análise quando retirados ou quando são submetidos a pequenas alterações, esses pontos são chamados de pontos influentes.

Na literatura, duas abordagens foram primariamente consideradas para detectar observações influentes. A primeira proposta por Cook(1977) é muito popular e considera a deleção de pontos para avaliar o impacto da retirada de uma observação particular do conjunto de dados. Esse impacto é avaliado através de medidas como o afastamento pela verossimilhança e a distância de Cook. A segunda abordagem, é uma proposta inovadora de

Cook (1986), que consiste em um método bem geral para avaliar a influência conjunta das observações sob pequenas perturbações (mudanças) que são introduzidas no modelo. Essa metodologia, denominada influência local, teve grande aceitação na literatura especialmente em modelos de regressão.

Algumas referências para o caso normal linear são: Belsley et al. (1980),

Weis-berg e Cook (1982), Atkinson (1985) e Chatterjee e Hadi (1988). Alguns trabalhos que

apresentam extensões dessa metodologia são: Moolgavkar et al. (1984), que aplicou essa metodologia nos modelos de regressão; Paula e Clovis(1988), que apresentou uma discussão sobre a deleção de pontos em modelos lineares generalizados com parâmetros restritos;

Davison e Tsai (1992) e Cordeiro e Paula (1992), que fizeram uma extensão para modelos

em que a distribuição não pertence à família exponencial de distribuições. No contexto de modelos de regressão BS univariada, Galea et al. (2004) e Xie e Wei (2007) apresentaram um estudo de análise de diagnóstico. EmGalea et al.(2004), a metodologia deCook (1986) é considerada, e em Xie et al. (2007), um modelo de medidas de diagnóstico para avaliar a exclusão de observações, baseado na distância de Cook generalizada e afastamento pela verossimilhança. Outros trabalhos envolvendo modelos multivariados são: Marchant et al.

(2016) e Xie et al.(2007).

A metodologia proposta por Cook (1986), tem sido amplamente aplicada em diversos contextos e tem se mostrado eficiente em diferentes áreas, porém, em muitos casos quando o modelo de interesse é complexo, as manipulações algébricas podem ficar extensas e o trabalho computacional maior. Uma alternativa interessante para essa metodologia foi proposta por Zhu e Lee (2001), e se baseia na verossimilhança aumentada, que é resultado da implementação do algoritmo EM.

1.6

Definição dos objetivos

O objetivo deste trabalho é apresentar uma distribuição BS generalizada multi-variada baseada na distribuição SMN, na qual as distribuições marginais são distribuições

(28)

BS generalizadas univariadas de Balakrishnan et al.(2009). Esta discussão tem como base, principalmente o trabalho de Kundu et al. (2010, 2013) e Vilca et al. (2014). A família de distribuições resultante tem suas distribuições marginais e condicionais (univariadas e multivariadas) em formas fechadas, e sua representação estocástica facilita a implemen-tação de um algoritmo EM para obter as estimativas de máxima verossimilhança. Além disso queremos apresentar um estudo de inferência e análise de diagnóstico do modelo linear log-BS multivariado baseado nas distribuições SMN utilizando para esses dois casos o algoritmo EM. Esse modelo linear representa uma extensão robusta do modelo de regressão proposto por Rieck e Nedelman (1991). De uma forma geral, podemos enumerar os objetivos desse trabalho como:

1) Apresentar um estudo de inferência dos parâmetros da distribuição BS mutivariada baseada na distribuição SMN com estimação feita via algoritmo EM, de maneira similar a realizada emVilca et al.(2014); e apresentar as propriedades da distribuição BS mutivariada baseada na distribuição SMN, seguindo o trabalho de Kundu et al.

(2013);

2) Discutir a inferência no modelo de regressão BS multivariado baseada na distribuição SMN com estimação feita via algoritmo EM baseada nos trabalhos de Kundu et al.

(2010), Kundu et al.(2013), Vilca et al. (2014) e Vilca et al. (2016);

3) Desenvolver um estudo de análise de diagnóstico no modelo de regressão BS multiva-riado baseado na distribuição SMN, considerando dois aspectos:

i) Avaliar o efeito da exclusão de casos, seguindo Zhu et al. (2001);

ii) Analisar a influência local (COOK, 1986), seguindo a metodologia de Zhu e

Lee(2001);

4) Realizar estudos de simulação e análise de dados reais para avaliar o desempenho das metodologias propostas para a distribuição BS multivariada baseada na distribuição SMN e para o modelo linear log-BS multivariado baseado na distribuição SMN.

1.7

Apresentação dos capítulos

No Capítulo 2, apresentamos a distribuição BS multivariada baseada na dis-tribuição SMN, que denotaremos por disdis-tribuição mistura de escala Birnbaum-Saunders multivariada, de forma análoga aos trabalhos no contexto bivariado deKundu et al. (2010)

e Vilca et al. (2014). Destacamos algumas de suas propriedades, representação estocástica

e distribuições marginais e condicionais. Apresentamos também algumas casos especiais dessa distribuição, sendo eles baseados nas distribuições: normal, normal contaminada, slash, e t-Student. Além disso, desenvolvemos os estimadores pelo método dos momentos

(29)

modificado utilizado por Ng et al. (2003),Kundu et al. (2010) e Vilca et al. (2014) e pelo método de máxima verossimilhança baseados no algoritmo EM (DEMPSTER et al.,1977). Apresentamos a função escore e a matriz de informação observada úteis para estudo das propriedades assintóticas dos estimadores de máxima verossimilhança propostos. Ademais, realizamos aplicações numéricas considerando simulações com e sem contaminação e análi-ses de dados reais para avaliar e ilustrar a metodologia proposta e para comparar com outros algoritmos apresentados na literatura.

No Capítulo 3, desenvolvemos a distribuição senh-normal generalizada mul-tivariada com base nas distribuições SMN denotada por distribuição senh-SMN, com base nos trabalhos de Kundu (2015) e Vilca et al. (2014). Apresentamos algumas de suas propriedades e distribuições marginais e condicionais. Discutimos alguns casos particulares baseados nas distribuições: normal, normal contaminada, slash e t-Student. Usando a teoria da distribuição senh-SMN multivariada, apresentamos o modelo de regressão linear, que estende o modelo de regressão proposto por Rieck e Nedelman (1991), chamado de modelo de regressão linear log-SBS, que pode ser visto como uma generalização dos modelos baseados na distribuição normal e t-Student multivariadas propostos anteriormente por

Lemonte (2013), Vilca et al. (2016) e Marchant et al. (2016). Também discutimos os

estimadores dos momentos modificados utilizados por Ng et al.(2003), Kundu et al.(2010)

e Vilca et al. (2014) e o método de máxima verossimilhança baseado no algoritmo EM

(DEMPSTER et al., 1977). Introduzimos um conceito de modelos de regressão BS com

estrutura de covariância conhecida como uma alternativa para redução de parâmetros do modelo. Também introduzimos, testes de hipóteses para diferentes casos de interesse prático. Finalmente consideramos estudos numéricos avaliando as metodologias propostas através de simulações sob diferentes enfoques e cenários e através de aplicações em dados reais.

No Capítulo 4 desenvolvemos duas abordagens de análise de diagnóstico para o modelo de regressão senh-SMN. A primeira abordagem considerando a exclusão de casos para algumas observações do modelo generalizando a abordagem de Cook (1977) no contexto do algoritmo EM seguindo o trabalho deZhu e Lee (2001). Para essa metodologia avaliamos efeitos no modelo quando considerados a exclusão de um ou mais possíveis pontos influentes. A segunda abordagem que apresentamos é um método bastante geral proposto por Cook (1986) que avalia conjuntamente a influência de observações sob peque-nas perturbações no modelo proposto. Esse método também foi apresentado no contexto do algoritmo EM. Para a segunda abordagem consideramos os esquemas de perturbação de casos, na variável resposta, na variável explicativa, no parâmetro de forma e na matriz de correlação. Por fim, disponibilizamos análises numéricas considerando simulações e aplicações para avaliar e ilustrar a metodologia apresentada.

(30)

Finalmente, no Capítulo 5, apresentamos algumas considerações finais e pers-pectivas de trabalhos futuros.

(31)

2 Distribuição Birnbaum-Saunders robusta:

algoritmo EM

As distribuições BS bivariada, proposta por Kundu et al.(2010), e BS multiva-riada, proposta por Kundu et al. (2013), podem não ser adequadas para representação de dados contendo observações atípicas devido à sua estreita dependência da distribuição normal multivariada. Para contornar este problema, Kundu et al.(2013) explorou a relação entre a distribuição BS e a distribuição normal multivariada e obteve uma classe geral das distribuições BS multivariadas com base na distribuição elíptica. Essa distribuição é um caso geral da distribuição BS generalizada proposta por Leiva et al. (2008a) e é chamada de BS multivariada generalizada. Quando p = 2, Vilca et al. (2014) discutiu alguns casos especiais da BS bivariada com base na família de mistura de escala de normal (SMN), que inclui a distribuição BS baseada na t-Student, Slash, exponencial potência e normal contaminada, todas possuindo caudas mais pesadas do que a distribuição BS multivariada com base na normal. Como no caso bivariado em Vilca et al. (2014), esta nova classe de distribuições BS multivariadas será chamada de distribuição mistura de escala Birnbaum-Saunders multivariada (SBS).

2.1

Distribuição mistura de escala Birnbaum-Saunders

multivari-ada

De forma análoga a distribuição BS bivariada de Kundu et al. (2010) e Vilca

et al. (2014), podemos definir uma distribuição BS multivariada generalizada com base na

distribuição SMN, considerando para as componentes T = (T1, . . . , Tp)> a representação

estocástica a seguir: Tj = βj 4  αj q κ(U ) Zj0+ s  αj q κ(U ) Zj0 2 + 4   2 , j = 1, . . . , p, (2.1) em que Z0 = (Z10, . . . , Zp0)>∼ Np(0, Σ) ou simplesmente Z = q κ(U )Z0 ∼ SMNp(0, Σ; H)

com Σ uma matriz de correlação p×p positiva definida. Assim, o vetor aleatório p-variado T é dito ter uma distribuição SBS multivariada com parâmetros α, β e Σ, e será denotada por

T ∼ SBSp(α, β, Σ). A representação individual de Tj em (2.1) corresponde a representação

de Balakrishnan et al. (2009), e sua representação conjunta em (2.1) é uma extensão para

o caso multivariado. Note que quando p = 2, obtemos a distribuição BS bivariada de

(32)

A representação estocástica em (2.1) será útil para simulação de dados e também para a implementação do algoritmo de maximização EM para obtenção dos estimadores de máxima verossimilhança (MV) dos parâmetros do modelo SBS multivariado.

Teorema 2.1.1. Seja T ∼ SBSp(α, β, Σ; H). Então, a fdp de T é dada por

fT(t) = φSMN  at(α, β); 0, Σ  At(α, β), t ∈ Rp+, (2.2) em que φSMN(.; 0, Σ) é a fdp da SMNp(0, Σ), at(α, β) = (at11, β1), . . . , atp(αp, βp)) com atj(αj, βj) = q tj/βj− q βj/tj  /αj e At(α, β) = p Y j=1 Atj(αj, βj), com Atj(αj, βj) = (tj+ βj)/(2αjβj1/2t 3/2 j ), para j = 1, . . . , p.

Demonstração. Seguindo o Teorema 1 de Vilca et al.(2014) e utilizando a representação estocástica em (2.1) temos a distribuição condicional T|(U = u) ∼ BSpu, β, Σ), a

distribuição p-variada deKundu et al.(2013), em que αu = q κ(u)α, e a fdp correspondente é dada por fT(t|u) = φp(atu, β); Σ)Atu, β) = 1 κp/2(u)φp(atu, β); Σ  At(α, β). Assim, fT(t) = Z ∞ 0 fT(t|u)dH(u; ν) = Z ∞ 0 φp(atu, β); Σ)Atu, β)dH(u; ν) = Z ∞ 0 φp(at(α, β); 0, κ(u)Σ)dH(u; ν) At(α, β) = φSMN  at(α, β); Σ  At(α, β),

como queríamos demonstrar.

Observação 1. Do Teorema 2.1.1, podemos notar que a distribuição SBS multivariada depende da função de densidade da distribuição SMN. Além disso,

i) Se existe νtal que lim

νν

φSMN(z; Σ) = φp(z; Σ) para todo z, em que φp(.; Σ) é a

fdp da distribuição Np(0, Σ), então lim

νν

fT(t) = fN(t) para todo t ∈ Rp+, em que fN(.) é a fdp da distribuição BSp(α, β, Σ);

ii) Utilizando a relação básica entre as distribuições BS e normal, podemos também ter um relacionamento semelhante no caso multivariado sob a distribuição SMN dado por

(33)

e a distribuição de

d(T) = a>T(α, β)Σ−1aT(α, β) (2.4)

tem a mesma distribuição atribuída à distância de Mahalanobis d(Z) = Z>Σ−1Z.

Consequentemente, d(T) pode ser usada para checar a validade do modelo assim como para detectar outliers;

iii) Observe que W = aT(1p, β) é uma função de T e β. Então, podemos escrever W

como W = D(α)Z = D(α)aT(α, β), em que D(α) é uma matriz diagonal com

elementos dados por α = (α1, . . . , αp)>, e assim de (2.3) temos

W ∼ SMNp(0, D(α)ΣD(α); H).

Consequentemente, várias propriedades de T podem ser encontradas usando as propriedades da distribuição simétrica de W, como apresentado a seguir.

Corolário 2.1.2. Seja T ∼ SBSp(α, β, Σ; H). Então:

(i) W>D−1(α)Σ−1D−1(α)W = a>T(α, β)Σ−1aT(α, β) que segue a mesma distribuição

de kXk2, em que X ∼ SMNp(0, Ip; H);

(ii) Se W tem segundo momento finito e A é uma matriz p × p simétrica, então

Eh(W>AW)mi = C(k)(A)

C(k)(Ip)

E[kXk2m], m = 1, 2 . . ., em que C(k)(.) são dados em

James (1964);

(iii) Para a matriz A na qual ajk = akj = 0.5 e zero para todos os outros elementos,

EhW>AWi= αjαkσjkE[κ(U )], e E

h

(W>AW)2i= α2jα2k(1 + 2σjk2 )E[κ2(U )];

(iv) Para a matriz A na qual akk = 1 e zero para todos os outros elementos, E

h

W>AWi=

αk2E[κ(U )].

2.2

Propriedades da distribuição mistura de escala Birnbaum-Saunders

multivariada

A seguir apresentamos algumas propriedades da distribuição SBS multivariada. De acordo com (2.1), temos que a distribuição de T está diretamente relacionada com

Z ∼ SMNp(0, Σ; H). Essa relação é muito útil na obtenção das principais propriedades

da distribuição SBS multivariada que serão apresentadas nos Teoremas a seguir. Seja

T = (T>1, T>2)> ∼ SBSp(α, β, Σ; H) tal que α =   α1 α2  , β =   β1 β2  , Σ =   Σ11 Σ12 Σ21 Σ22  , Ψ =   Σ11 −Σ12 −Σ21 Σ22   (2.5)

(34)

em que T1, α1 e β1 são vetores q × 1 e Σ11 é a matriz de correlação q × q, com os

elemen-tos definidos adequadamente com as ordens correspondentes. Tal como na distribuição normal multivariada, a distribuição condicional de T1, dado T2 = t2, depende da matriz

Σ11.2 = Σ11− Σ12Σ−122Σ21 que não é uma matriz de correlação. Portanto, essa distribuição

condicional, não será fechada sob algumas condições, apesar disso, para p = 2 a distribuição condicional é uma distribuição BS generalizada univariada não central, como mostrado a seguir.

Teorema 2.2.1. Seja T ∼ SBSp(α, β, Σ; H). Então:

(i) c T ∼ SBSp(α, c β, Σ; H), em que c = (c1, . . . , cp)>∈ Rp+ e denota o produto Hadamard; (ii) T−1 = (T1−1, . . . , Tp−1)> ∼ SBSp(α, β−1, Σ; H), em que β−1 = (1/β1, . . . , 1/βp)>; (iii) (T−11 , T2)>∼ SBSp(α, β−112, Ψ; H), em que β −1 12 = (β −1 1 , β2) >

, com β2 e Ψ são como

em (2.5) e β−11 = (1/β1, . . . , 1/βq)>; (iv) (T1, T−12 ) >∼ SBS p(α, β−121, Ψ; H), em que β −1 21 = (β1, β −1 2 ) > , com β1 e Ψ como em (2.5) e β−12 = (1/βq+1, . . . , 1/βp)>.

Demonstração. Os itens (i)-(iv) são obtidos diretamente através do método de mudança

de variável seguindo o mesmo procedimento de Kundu et al.(2013) eVilca et al.(2014).

Observação 2. Algumas conclusões que podem ser obtidas diretamente do Teorema 2.2.1

são:

i) Parte (i) afirma que a distribuição SBS pertence a uma família do tipo escala, e preserva as mesmas propriedades da distribuição univariada usual, enquanto que as Partes (ii)-(iv) afirmam que estas distribuições são fechadas para a transformação recíproca para ambos os componentes ou para um deles, similar ao caso bivariado

discutido em Vilca et al. (2014);

ii) Da parte (i) do Teorema 2.2.1, podemos obter através de uma reparametrização

uma distribuição SBS com três parâmetros, porque com c = (α11, . . . , αp/βp)>,

c T ∼ SBSp(α, α, Σ; H), e com c = (1/β1, . . . , 1/βp)>, c T ∼ SBSp(α, 1p, Σ; H),

em que 1p é o vetor p-dimensional com todos os elementos um. Consequentemente,

a distribuição de qualquer função de Tj/βj e Tk/βk não depende de βj e βk, assim

como as variáveis aleatórias TjaTkb/(βjkb), com a e b em R. Alguns resultados dessa

forma podem ser encontrados em Kundu et al. (2010, pág. 171) e Vilca et al. (2014)

(35)

No Teorema a seguir, apresentamos as distribuições maginais e condicionais da distribuição SBS multivariada.

Teorema 2.2.2. Seja T = (T1, . . . , Tp)>∼ SBSp(α, β, Σ; H), com α, β e Σ particionada

como em (2.5). Então:

i) T1 ∼ SBSq1, β1, Σ11; H) e T2 ∼ SBSp−q2, β2, Σ22; H);

ii) A fdp condicional de T1, dado T2 = t2, é

fT1|T2(t1|t2) = |Σ11.2| −1/2 fq(t2)(w > Σ−111.2w)At11, β1), (2.6) em que q(t2) = at22, β2) > Σ−122at22, β2), w = at11, β1) − µ1(t2), com µ1(t2) =

Σ12Σ−122at22, β2), e a função fq(t2) é a densidade geradora dada por

fa(v) = 1 ca(2π)p/2 Z ∞ 0 κ(u)−p/2exph− 1 2κ(u)(v + a) i dH(u; ν), com ca = 1 (2π)(p−q)/2 Z ∞ 0 κ(u)−(p−q)/2exp[− 1 2κ(u)a]dH(u; ν).

Demonstração. A Parte (i) é diretamente obtida da representação estocástica em (2.1) e

Vilca et al.(2014). A Parte (ii) é derivada como um subproduto da distribuição condicional

da distribuição elíptica multivariada e seguindo Kundu et al. (2013) e o Teorema 4 de

Vilca et al. (2014).

Teorema 2.2.3. Seja T = (T1, . . . , Tp)> ∼ SBSp(α, β, Σ; H). Então, os elementos do

vetor de médias e da matriz de covariância são

E[Tj] = βj 2[2 + E[κ(U )]α 2 j], Var[Tj] = βj2α2j 4 

4E[κ(U )] +6E[κ(U )2] − {E[κ(U )]}2α2j

 , Cov(Tj, Tk) = βjβk 1 4α 2 2k  (1 + 2σ2jk)E[κ(U )2] − {E[κ(U )]}2  + αjαkI1jk  , j 6= k, em que I1jk = E  ZjZk r (αj 2 Zj) 2+ 1 r (αk 2 Zk) 2+ 1 

com Zjk = (Zj, Zk)> ∼ SMN2(0, Σjk; H), Σjk sendo uma matriz de correlação 2 × 2

positiva definida e j, k = 1, . . . , p.

Demonstração. Já que T, dado U = u, segue uma distribuição BSpu, β, Σ), em que

αu =

(36)

obtemos que E " Tj βj Tk βk # = EU ( E " Tj βj Tk βk |U = u #) = E[1 + 1 2κ(U )(α 2 j + α 2 k) + 1 4κ 2(U )α2 2 k(1 + 2σ 2 jk)] + α 2 2 kI1jk, = 1 + 1 2 2 j + α2k)E[κ(U )] + 1 4α 2 2k(1 + 2σ2jk)E[κ2(U )] + αjαkI1jk.

Teorema 2.2.4. Seja T ∼ SBSp(α, β, Σ; H). Então:

(i) A fdp condicional de U , dado T = t, é hU |T(u|t) = φp  atu, β); Σ  hU(u) κp/2(u)φ SMN  at(α, β); Σ , u > 0;

(ii) Seja g(U ) uma função de U . Então, o momento condicional de g(U ), dado T = t, é dado por E h g(U ) (T = t) i = 1 φSMN  at(α, β); Σ  Z ∞ 0 g(u) κp/2(u)φp  atu, β); Σ  dH(u; ν). Em particular, se g(u) = 1/κ(u) e κ(u) = 1/u, então

E h U T = t i = 1 φSMN  at(α, β); Σ  Z ∞ 0 up/2+1φp  atu, β); Σ  dH(u; ν).

Demonstração. As partes (i)-(iii) podem ser demonstradas utilizando as propriedades

das distribuiçoes condicionais.

2.3

Casos especiais

Nesta seção, discutimos alguns casos especiais da distribuição SBS multivariada. Para este fim, utilizamos algumas propriedades das distribuições de SMN e a representação estocástica dada em (2.1) com κ(U ) = 1/U . Em todos os casos, apresentamos a distribuição condicional de U |(T = t) usando os resultados do Teorema 2.2.4, que são necessários para o desenvolvimento do algoritmo EM.

2.3.1

Distribuição BS multivariada

A distribuição normal multivariada foi utilizada na construção da distribuição BS multivariada seguindo Kundu et al. (2010, 2013). Semelhante à distribuição SMN, a distribuição BS multivariada é obtida assumindo que U = 1, e nesse caso

fT(t) = φp 

at(α, β); Σ 

At(α, β), t ∈ Rp+, (2.7)

(37)

2.3.2

Distribuição BS normal contaminada

A distribuição CN multivariada pode ser usada para descrever dados simétricos com observações atípicas, em que um dos parâmetros representa a porcentagem de valores extremos, enquanto o outro parâmetro pode ser interpretado como um fator de escala; veja

Little (1988). A distribuição do tipo BS multivariada resultante é chamada distribuição

Birnbaum-Saunders multivariada Normal contaminada (CNBS). Esse modelo pode ser usado para descrever assimetria positiva em dados não negativos na presença de observações atípicas. A fdp de U é dada por hU(u) = ν I{γ}(u) + (1 − ν) I{1}(u), em que IA(.) denota a

função indicadora do conjunto A em que a fdp de T é

fT(t) =  νφp(at(α, β); γΣ  + (1 − ν)φp(at(α, β); Σ  At(α, β), t ∈ Rp+. (2.8)

Assim, a distribuição com fdp dada em (3.6) é a distribuição CNBS, e será denotada por T ∼ CNBSp(α, β, Σ; ν, γ). Nesse caso, a fdp de U |(T = t) é dada por

hU |T(u|t) = ν p(t, u)I{γ}(u) + (1 − ν) p(t, u)I{1}(u), (2.9)

em que p(t, u) = u p/2exp {−u 2d(t)} νγp/2exp{−γd(t) 2 } + (1 − ν) exp{− d(t) 2 } e E[U |T = t] = 1 − ν + νγ(p+2)/2exp{(1 − γ)d(t) 2 } 1 − ν + νγp/2exp{(1 − γ)d(t) 2 } . (2.10)

Além disso, a fdp condicional de T1, dado T2 = t2, pode ser escrita como fT1|T2(t1|t2) =  νt2φp  at11, β1) − µ1(t2); γΣ11.2  (2.11) + (1 − νt2) φp  at11, β1) − µ1(t2); Σ11.2  At11, β1), (2.12) em que νt2 = νγp−q2 eγ 2q(t2) νγp−q2 eγ 2q(t2)+ (1 − ν)e− 1 2q(t2) , e µ1(t2) e q(t2) como no Teorema 2.2.2.

2.3.3

Distribuição BS Slash

A distribuição Slash apresenta caudas mais pesadas do que a normal e se aproxima do modelo normal quando o parâmetro de forma tende a infinito. Esta mesma ideia pode ser usada para gerar uma distribuição do tipo BS multivariada, que chamaremos

Referências

Documentos relacionados

a) política nacional de desenvolvimento do turismo; b) promoção e divulgação do turismo nacional, no país e no exterior; c) estímulo às iniciativas públicas e privadas de

A escrituração será feita em idioma e moeda corrente nacionais e em forma contábil, por ordem cronológica de dia, mês e ano, sem intervalos em branco, nem entrelinhas,

Local de realização da avaliação: Centro de Aperfeiçoamento dos Profissionais da Educação - EAPE , endereço : SGAS 907 - Brasília/DF. Estamos à disposição

Este endereço pode ser cadastrado na página de Alteração de Cadastro (editarUsuario.xhtml), como será explicado na seção 6.4.1.5, ou definido através dos

Os maiores coeficientes da razão área/perímetro são das edificações Kanimbambo (12,75) e Barão do Rio Branco (10,22) ou seja possuem uma maior área por unidade de

Se você vai para o mundo da fantasia e não está consciente de que está lá, você está se alienando da realidade (fugindo da realidade), você não está no aqui e

O teste na região leste se iniciou entre os Postos localizados no centro da região de Pampulha , através dos Bairros de São Luis com Itapoá Pelo qual 3 são do bairro de São Luis

Reabilitação estética em dente anterior fraturado através da colagem de fragmento autógeno:1. relato de