• Nenhum resultado encontrado

Dados Multivariados de Contagem com Excesso de Zeros

N/A
N/A
Protected

Academic year: 2021

Share "Dados Multivariados de Contagem com Excesso de Zeros"

Copied!
151
0
0

Texto

(1)

UNIVERSIDADE FEDERAL DO RIO DE JANEIRO

Dados multivariados de

contagem com excessos de zeros

Nat´

alia Santana Paiva

Rio de Janeiro 2014

(2)
(3)

Dados multivariados de contagem com

excessos de zeros

Nat´

alia Santana Paiva

Disserta¸c˜ao de Mestrado apresentada ao Programa de P´os-gradua¸c˜ao em Estat´ıs-tica do Instituto de Matem´atica da Uni-versidade Federal do Rio de Janeiro como parte dos requisitos necess´arios para a ob-ten¸c˜ao do grau de Mestre em Ciˆencias Es-tat´ısticas.

Comiss˜

ao Julgadora:

Prof. Prof.

Ant^onio Carlos Monteiro Ponce de Leon Helio S. Migon

IMS - UERJ IM - UFRJ

Orientadora Prof.

Tha´ıs Cristina Oliveira da Fonseca IM - UFRJ

Rio de Janeiro 2014

(4)

Ficha Catalogr´

afica

P149b Paiva, Nat´alia Santana

Dados multivariados de contagem com excessos de ze-ros/ Nat´alia Santana Paiva. – Rio de Janeiro, 2014. 131f.: il.; 30cm.

Orientadora: Tha´ıs Cristina Oliveira da Fonseca Disserta¸c˜ao (Mestrado) - UFRJ / Instituto de Mate-m´atica, Programa de P´os-Gradua¸c˜ao em Estat´ıstica, 2014.

Refer^encias: f. 109-113

1. An´alise Multivaiada - Tese. 2. Teoria da decis˜ao es-tat´ıstica Bayesiana I. Fonseca, Tha´ıs Cristina Oliveira (Ori-ent.). II. Universidade Federal do Rio de Janeiro, Instituto de Matem´atica, Programa de P´os-Gradua¸c˜ao em Estat´ıstica. III. T´ıtulo.

(5)

“Why does he insist that we must have diagnosis? Some things are not meant to be known by man.” Susanna Gregory, An Unholy Alliance.

(6)

Agradecimentos

Agrade¸co a todos que de forma direta ou indireta participaram do meu processo de aprendizagem, em especial meus orientadores, em ordem cronol´ogica, Cl´audia Medina, Guillermo Velarde, Leo Bastos e Tha´ıs Fonseca.

Agrade¸co aos meus pais e `a CAPES pelo apoio financeiro e minha irm˜a que mesmo lendo e relendo a disserta¸c˜ao ainda me pergunta o que ´e um modelo ZIP.

Agrade¸co a paci^encia de todos tanto pela aus^encia quanto o mau humor di´ario ao longo do mestrado.

Agrade¸co por fim aos professores Helio S. Migon e Ant^onio Carlos Monteiro Ponce de Leon por aceitarem fazer parte da comiss˜ao julgadora desta disserta¸c˜ao.

(7)

Resumo

Dados multivariados de contagem, como por exemplo, n´umero de interna¸c˜oes ou ´obitos por doen¸cas em determinado hospital geralmente apresentam correla¸c˜ao e excessos de zeros. A an´alise multivariada de dados cont´ınuos baseada nas distribui¸c˜oes Gaussiana multivariada e afins vem sendo utilizada e ´e bem estabelecida na literatura estat´ıstica. No entanto, isto ainda n˜ao ocorre para os dados discretos multivariados. O objetivo do presente trabalho ´e propor modelos que capturem a correla¸c˜ao entre as contagens, por unidade amostral, como, por exemplo, o modelo de Poisson multivariado, tratando a correla¸c˜ao no n´ıvel principal da hierarquia. Al´em disto, deseja-se considerar o excesso de zeros proveniente dos dados, como, por exemplo, o modelo de Poisson Zero Inflacionado (ZIP) multivariado, com e sem covari´aveis. A infer^encia foi feita sob a ´otica bayesiana e utilizou a t´ecnica de aumento de dados, com o objetivo de obter um algoritmo de estima¸c˜ao computacionalmente mais eficiente.

Ao longo da metodologia, foram propostos modelos de contagens univariados e multivariados e discutiu-se o m´etodo de infer^encia, a t´ecnica de aumento de dados, m´etodos de estima¸c˜ao e compara¸c˜ao de modelos al´em do processo de previs˜ao de dados faltantes.

O presente trabalho apresenta tanto uma an´alise da sensibilidade da escolha da priori para os modelos Poisson bivariado e ZIP bivariado atrav´es de um estudo si-mulado quanto exemplos sisi-mulados com o objetivo de verificar se os par^ametros dos modelos propostos s˜ao identific´aveis, se os c´odigos de autoria pr´opria est˜ao corretos e o comportamento dos modelos propostos em diferentes cen´arios. Por fim, a metodo-logia proposta foi aplicada nos dados referentes ao n´umero de interna¸c˜ao por doen¸cas isqu^emicas do cora¸c˜ao e hipertensivas no per´ıodo de 2012 em 75 hospitais do munic´ıpio do Rio de Janeiro. A partir desses estudos, concluiu-se que distribui¸c˜oes a priori n˜ao

(8)

informativas com alta probabilidade em torno do zero n˜ao s˜ao boas para tais modelos multivariados de contagem. Al´em disto, a cobertura do modelo ZIP multivariado n˜ao ´

e alta para distribui¸c˜oes a priori muito vagas.

Palavras-chave: Dados multivariados de contagem, Modelo ZIP multivariado, T´ ec-nica de aumento de dados

(9)

Abstract

Multivariate count data, such as number of hospitalizations or deaths from certain diseases in hospital usually account correlation and excess zeros. Multivariate analysis of continuous data based on multivariate Gaussian distributions has been used and is well established in the statistical literature. However, this still does not occur in discrete multivariate data. The objective of this paper is to propose models that capture the correlation between counts per sampling unit, for example, the multivariate Poisson model, treating the correlation on the main level of the hierarchy. Furthermore, it is desired to consider the excess of zero from the data, for example, the multivariate Zero Inflated Poisson model (m-ZIP) with and without covariates. The inference was made in the Bayesian perspective and used the technique of data augmentation, in order to obtain an estimation algorithm computationally more efficient.

During the methodology, univariate and multivariate models for cout data were proposed and discussed the inference method, the data augmentation method, methods of estimation and comparison of models and the prediction of missing data.

This paper presents both an analysis of the sensitivity of the choice of prior for the bivariate Poisson and 2-ZIP models through a simulated study as simulated examples with the purpose to verify that the parameters of the proposed models are identifiable, if the codes are correct and the behavior of the models proposed in different cases. Finally, the proposed methodology was applied to data on the number of hospitalizations for ischemic heart disease and hypertensive during 2012 in 75 hospitals in the city of Rio de Janeiro. From these studies, it was concluded that non-informative prior distributions with high probability around zero are not good for such multivariate count models.

Keywords: Multivariate count data, multivariate ZIP model, data augmentation method

(10)

Lista de Figuras

2.1 N´umero de interna¸c˜oes por doen¸cas isqu^emicas do cora¸c˜ao (a), N´umero de interna¸c˜oes por doen¸cas hipertensivas (b) e rela¸c˜ao entre o n´umero de interna¸c˜oes por doen¸cas isqu^emicas do cora¸c˜ao e hipertensivas (c) no per´ıodo de 2012 em 75 hospitais no munic´ıpio do Rio de Janeiro . . . . 11

2.2 Intensidade do n´umero de interna¸c˜oes por doen¸cas isqu^emicas do cora¸c˜ao (a) e por doen¸cas hipertensivas (b) em cada um dos 75 hospitais no munic´ıpio do Rio de Janeiro no per´ıodo de 2012. . . 13

2.3 Esfera Administrativa (a), Gest˜ao hospitalar (b), Atende emerg^encia (c) e N´umero de interna¸c˜oes do cap´ıtulo IX da CID10, no per´ıodo de 2012, no munic´ıpio do Rio de Janeiro (d). . . 14

7.1 Exemplo simulado 1: Distribui¸c˜ao dos dados simulados a partir do mo-delo Poisson + MLG com 300 observa¸c˜oes. 𝑌1|𝜆1 ∼ 𝑃 𝑜𝑖𝑠𝑠𝑜𝑛(𝜆1) (a) e

𝑌2|𝜆2 ∼ 𝑃 𝑜𝑖𝑠𝑠𝑜𝑛(𝜆2) (b). . . 76

7.2 Exemplo simulado 2: Distribui¸c˜ao dos dados simulados a partir do mo-delo Poisson + MLG com 300 observa¸c˜oes. 𝑌1|𝜆0,𝜆1 (a) e 𝑌2|𝜆0,𝜆2 (b). . 81

7.3 Exemplo simulado 2: Distribui¸c˜ao a posteriori de 𝑌(1,19) (a), 𝑌(1,52) (b),

𝑌(1,60)(c), 𝑌(1,62)(d) e 𝑌(2,47)(e) resultantes do modelo 2-Poisson. Linha

tracejada (vermelho): valores verdadeiros. Dados simulados a partir do modelo 2-Poisson (N=300). . . 86

(11)

7.4 Exemplo simulado 3: Distribui¸c˜ao dos dados 𝑌1 (a) e 𝑌2 (b) simulados

a partir do modelo 2-ZIP + MLG com 300 observa¸c˜oes. . . 87

7.5 Exemplo simulado 3: Distribui¸c˜ao a posteriori de 𝑌(1,19) (a), 𝑌(1,52) (b),

𝑌(1,60) (c), 𝑌(1,62) (d) e 𝑌(2,47) (e) resultantes do modelo 2-ZIP+MLG.

Linha tracejada (vermelho): valores verdadeiros. Dados simulados a partir do modelo 2-ZIP+MLG (N=300). . . 92

7.6 Aplica¸c˜ao a dados reais: Distribui¸c˜ao a posteriori de 𝑌(1,19) (a), 𝑌(1,52) (b), 𝑌(1,60)(c), 𝑌(1,62)(d) e 𝑌(2,47)(e) resultantes do modelo 2-ZIP+MLG. Linha tracejada (vermelho): valores verdadeiros. Dados reais (N=75). . 100

7.7 Aplica¸c˜ao a dados reais: Distribui¸c˜ao a posteriori de 𝑌(1,19) (a), 𝑌(1,52)

(b), 𝑌(1,60) (c), 𝑌(1,62) (d) e 𝑌(2,47) (e) resultantes do modelo ZIP+MLG.

(12)

Lista de Tabelas

2.1 Estat´ısticas descritivas do n´umero de interna¸c˜oes por causa no per´ıodo de 2012 em 75 hospitais do munic´ıpio do Rio de Janeiro. . . 12

2.2 Estat´ıstica descritiva do n´umero de interna¸c˜oes do cap´ıtulo IX (CID10) no per´ıodo de 2012 no munic´ıpio do Rio de Janeiro. . . 13

5.1 Calibragem do Fator de Bayes segundo Jeffreys (1961). . . 53

5.2 Calibragem do Fator de Bayes na escala logar´ıtmica segundo Kass and Raftery (1995). . . 53

6.1 Cen´arios do estudo de sensibilidade da priori para o modelo Poisson bivariado e suas correla¸c˜oes. . . 61

6.2 Estudo de sensibilidade da priori para o modelo 2-Poisson: erro quadr´ a-tico m´edio para o Cen´ario (i): 𝜆0= 1, 𝜆1= 5, 𝜆2 = 10. Leia-se “-” como

erro durante o processo de estima¸c˜ao. . . 64

6.3 Estudo de sensibilidade da priori para o modelo 2-Poisson: cobertura de 95% para o Cen´ario (i): 𝜆0 = 1, 𝜆1 = 5, 𝜆2 = 10. Leia-se “-” como erro

durante o processo de estima¸c˜ao. . . 64

6.4 Estudo de sensibilidade da priori para o modelo 2-Poisson: erro quadr´ a-tico m´edio para o Cen´ario (ii): 𝜆0 = 10, 𝜆1 = 5, 𝜆2 = 1. Leia-se “-” como

(13)

6.5 Estudo de sensibilidade da priori para o modelo 2-Poisson: cobertura de 95% para o Cen´ario (ii): 𝜆0 = 10, 𝜆1 = 5, 𝜆2 = 1. Leia-se “-” como erro

durante o processo de estima¸c˜ao. . . 65

6.6 Estudo de sensibilidade da priori para o modelo 2-Poisson: erro quadr´ a-tico m´edio para o Cen´ario (iii): 𝜆0 = 10, 𝜆1 = 50, 𝜆2 = 100. Leia-se “-”

como erro durante o processo de estima¸c˜ao. . . 65

6.7 Estudo de sensibilidade da priori para o modelo 2-Poisson: cobertura de 95% para o Cen´ario (iii): 𝜆0 = 10, 𝜆1 = 50, 𝜆2 = 100. Leia-se “-” como

erro durante o processo de estima¸c˜ao. . . 66

6.8 Estudo de sensibilidade da priori para o modelo 2-Poisson: erro quadr´ a-tico m´edio para o Cen´ario (iv): 𝜆0 = 100, 𝜆1 = 50, 𝜆2 = 10. Leia-se “-”

como erro durante o processo de estima¸c˜ao. . . 66

6.9 Estudo de sensibilidade da priori para o modelo 2-Poisson: cobertura de 95% para o Cen´ario (iv): 𝜆0 = 100, 𝜆1 = 50, 𝜆2 = 10. Leia-se “-” como

erro durante o processo de estima¸c˜ao. . . 66

6.10 Cen´arios do estudo de sensibilidade da priori para o modelo 2-ZIP e suas correla¸c˜oes. . . 68

6.11 Estudo de sensibilidade da priori para o modelo 2-ZIP: erro quadr´atico m´edio para o Cen´ario (i): Λ = (0,5; 0,5; 0,5) e 𝜋 = (0,25; 0,25; 0,25).. . . 70

6.12 Estudo de sensibilidade da priori para o modelo 2-ZIP: cobertura de 95% para o Cen´ario (i): Λ = (0,5; 0,5; 0,5) e 𝜋 = (0,25; 0,25; 0,25). . . 70

6.13 Estudo de sensibilidade da priori para o modelo 2-ZIP: erro quadr´atico m´edio para o Cen´ario (ii): Λ = (0,5; 0,5; 0,5) e 𝜋 = (0,45; 0,05; 0,05). . . 70

6.14 Estudo de sensibilidade da priori para o modelo 2-ZIP: cobertura de 95% para o Cen´ario (ii): Λ = (0,5; 0,5; 0,5) e 𝜋 = (0,45; 0,05; 0,05). . . 71

6.15 Estudo de sensibilidade da priori para o modelo 2-ZIP: erro quadr´atico m´edio para o Cen´ario (iii): Λ = (10; 50; 100) e 𝜋 = (0,45; 0,05; 0,05). . . 71

(14)

6.16 Estudo de sensibilidade da priori para o modelo 2-ZIP: cobertura de 95% para o Cen´ario (iii): Λ = (10; 50; 100) e 𝜋 = (0,45; 0,05; 0,05). . . 71

7.1 Exemplo simulado 1: intervalo de credibilidade de 95% a posteriori. Dados simulados a partir do modelo Poisson + MLG (N= 300) com valores verdadeiros fixados em 𝛽1= (4,5; −1,5) e 𝛽2= (2,5; 3,75). Para os modelos sem regressores 𝛽0 = 𝑙𝑜𝑔(𝜆0), 𝛽𝑗0 = 𝑙𝑜𝑔(𝜆𝑗)para 𝑗 = 1,2, “−”

nos coeficientes que n˜ao comp˜oem os modelos e em negrito os intervalos que cont^em os valores verdadeiros. . . 77

7.2 Exemplo simulado 1: fator de Bayes na escala logar´ıtmica segundo Kass and Raftery (1995) baseado no modelo Poisson independente. Dados simulados a partir do modelo Poisson + MLG (N=300). Maior fator de Bayes na escala logar´ıtmica em negrito. . . 79

7.3 Exemplo simulado 1: Erro quadr´atico (EQ) m´edio e mediano das pre-vis˜oes das 5 observa¸c˜oes faltantes para os modelos propostos. Dados simulados a partir do modelo Poisson + MLG com valores verdadeiros fi-xados em 𝑦(1,19) = 34; 𝑦(2,47)= 85; 𝑦(1,52) = 22; 𝑦(1,60) = 25; 𝑦(1,62) = 100.

Menor EQ m´edio e EQ mediano em negrito. . . 79

7.4 Exemplo simulado 1: Interval Score com 𝛼 = 0,05 de cada observa¸c˜ao faltante para os modelos propostos. Dados simulados a partir do modelo Poisson + MLG com valores verdadeiros fixados em 𝑦(1,19)= 34; 𝑦(2,47) = 85; 𝑦(1,52) = 22; 𝑦(1,60)= 25; 𝑦(1,62) = 100. Menor Interval Score em negrito. 80

7.5 Exemplo simulado 2: intervalo de credibilidade de 95% a posteriori. Dados simulados a partir do modelo 2-Poisson (N= 300) com valores verdadeiros fixados em 𝜆0= 0,5, 𝜆1 = 1,65 e 𝜆2= 1,65. Para os modelos

com covari´aveis 𝜆𝑗 = 𝑒𝑥𝑝{𝛽𝑗} para 𝑗 = 0,1,2 e em negrito os intervalos

(15)

7.6 Exemplo simulado 2: fator de Bayes na escala logar´ıtmica segundo Kass and Raftery (1995) baseado no modelo Poisson independente. Dados si-mulados a partir do modelo 2-Poisson (N= 300) com valores verdadeiros fixados em 𝜆0 = 0,5, 𝜆1 = 1,65 e 𝜆2 = 1,65. Maior fator de Bayes na

escala logar´ıtmica em negrito. . . 83

7.7 Exemplo simulado 2: Erro quadr´atico (EQ) m´edio e mediano das pre-vis˜oes das 5 observa¸c˜oes faltantes para os modelos propostos. Dados simulados a partir do modelo 2-Poisson com valores verdadeiros fixados em 𝑦(1,19) = 2; 𝑦(2,47) = 4; 𝑦(1,52) = 5; 𝑦(1,60) = 3; 𝑦(1,62) = 4. Menor EQ m´edio e EQ mediano em negrito. . . 84

7.8 Exemplo simulado 2: Interval Score com 𝛼 = 0,05 de cada observa¸c˜ao faltante para os modelos propostos. Dados simulados a partir do mo-delo 2-Poisson com valores verdadeiros fixados em 𝑦(1,19) = 2; 𝑦(2,47) = 4; 𝑦(1,52) = 5; 𝑦(1,60) = 3; 𝑦(1,62) = 4. Menor Interval Score geral em negrito. 85

7.9 Exemplo simulado 3: intervalo de credibilidade de 95% a posteriori. Dados simulados a partir do modelo 2-ZIP + MLG (N= 300) com valores verdadeiros fixados em 𝜆0= 3, 𝛽1 = (3; 5) e 𝛽2 = (3; 4). Para os modelos

sem regressores 𝛽𝑗0 = 𝑙𝑜𝑔(𝜆𝑗) com 𝑗 = 1,2, para modelos com regressores

𝜆0 = 𝑒𝑥𝑝{𝛽0}, “−” nos coeficientes que n˜ao comp˜oem os modelos, em

negrito os intervalos que cont^em os valores verdadeiros e “NA” representa erro durante o processo de simula¸c˜ao. . . 88

7.10 Exemplo simulado 3: fator de Bayes na escala logar´ıtmica segundo Kass and Raftery (1995) baseado no modelo Poisson independente. Dados simulados a partir do modelo 2-ZIP + MLG (N=300). Leia-se “NA” como valor muito pequeno e “-” erro durante o processo de simula¸c˜ao. Maior fator de Bayes na escala logar´ıtmica em negrito. . . 89

(16)

7.11 Exemplo simulado 3: Erro quadr´atico (EQ) m´edio e mediano das previ-s˜oes das 5 observa¸c˜oes faltantes para os modelos propostos. Dados simu-lados a partir do modelo 2-ZIP+MLG com valores verdadeiros fixados em 𝑦(1,19) = 763; 𝑦(2,47) = 80; 𝑦(1,52) = 1.259; 𝑦(1,60) = 411; 𝑦(1,62) = 64.

Menor EQ m´edio e EQ mediano em negrito e “-” indica erro durante o processo de simula¸c˜ao. . . 90

7.12 Exemplo simulado 3: Interval Score com 𝛼 = 0,05 de cada observa¸c˜ao faltante para os modelos propostos. Dados simulados a partir do modelo 2-ZIP+MLG com valores verdadeiros fixados em 𝑦(1,19) = 763; 𝑦(2,47) = 80; 𝑦(1,52) = 1.259; 𝑦(1,60) = 411; 𝑦(1,62) = 64. Menor Interval Score em

negrito e “-” indica erro durante o processo de simula¸c˜ao. . . 91

7.13 Aplica¸c˜ao a dados reais: intervalo de credibilidade de 95% a posteriori de 𝛽0, 𝛽1 e 𝛽2 para os modelos propostos no presente trabalho. Para os

modelos sem regressores 𝛽𝑗0= 𝑙𝑜𝑔(𝜆𝑗) com 𝑗 = 1,2, “−” nos coeficientes

que n˜ao comp˜oem os modelos e em negrito os IC de 95% a posteriori que n˜ao cont^em o valor 0. . . 96

7.14 Aplica¸c˜ao a dados reais: Mediana e intervalo de credibilidade de 95% a posteriori de 𝜋0, 𝜋1e 𝜋2para os modelos ZIP univariado e multivariados

e “−” nos coeficientes que n˜ao comp˜oem os modelos. . . 97

7.15 Aplica¸c˜ao a dados reais: fator de Bayes na escala logar´ıtmica segundo Kass and Raftery (1995) baseado no modelo Poisson independente. Da-dos reais (N=75). . . 97

7.16 Aplica¸c˜ao a dados reais: Erro quadr´atico m´edio e mediano das pre-vis˜oes das 5 observa¸c˜oes faltantes para os modelos propostos. Dados reais com valores verdadeiros fixados em 𝑦(1,19) = 0; 𝑦(2,47) = 0; 𝑦(1,52) =

(17)

7.17 Aplica¸c˜ao a dados reais: Interval Score de cada observa¸c˜ao faltante para os modelos propostos com 𝛼 = 0,05. Dados reais com valores verdadeiros fixados em 𝑦(1,19) = 0; 𝑦(2,47) = 0; 𝑦(1,52) = 95; 𝑦(1,60) = 0; 𝑦(1,62) = 190.

(18)

Sum´

ario

1 Introdu¸c˜ao 1

1.1 Revis˜ao de literatura . . . 2

1.1.1 Modelo de Poisson Multivariado . . . 2

1.1.2 Modelos Zero Inflacionados . . . 5

1.2 Estrutura do trabalho . . . 8

2 Motiva¸c˜ao 9 3 Modelos para dados univariados de contagem 15 3.1 Poisson . . . 16

3.2 Regress˜ao de Poisson . . . 16

3.3 Zero Inflacionados . . . 17

3.3.1 Regress˜ao ZIP . . . 18

4 Modelos para dados multivariados de contagem 21 4.1 Poisson multivariado . . . 21

4.2 Regress˜ao de Poisson multivariado . . . 27

4.3 ZIP multivariado . . . 29

4.4 Regress˜ao ZIP multivariado . . . 35

(19)

5.1 Infer^encia bayesiana . . . 39

5.1.1 T´ecnica de aumento de dados . . . 40

5.1.2 Distribui¸c˜ao a Priori . . . 42

5.1.3 M´etodos de Estima¸c˜ao . . . 48

5.2 Compara¸c˜ao de modelos . . . 51

5.3 Previs˜ao . . . 54

5.3.1 Dados faltantes . . . 55

5.3.2 Compara¸c˜ao do desempenho preditivo entre modelos . . . 56

6 Estudo de sensibilidade da priori 59 6.1 Modelo 2-Poisson . . . 60

6.2 Modelo 2-ZIP . . . 67

7 Exemplos simulados e Aplica¸c˜oes a dados reais 73 7.1 Exemplo Simulado 1 . . . 75

7.2 Exemplo Simulado 2 . . . 80

7.3 Exemplo simulado 3 . . . 84

7.4 Aplica¸c˜ao a dados reais . . . 93

8 Considera¸c˜oes finais e projetos futuros 103 8.1 Considera¸c˜oes finais . . . 103

8.2 Projetos futuros . . . 106

Refer^encias Bibliogr´aficas 109 A Provas 114 B Condicional Completa 117 B.1 Modelo Poisson multivariado . . . 118

(20)

B.3 Modelo ZIP multivariado . . . 121

(21)

Cap´ıtulo 1

Introdu¸

ao

Dados multivariados de contagem, como por exemplo, n´umero de interna¸c˜oes ou ´obitos por doen¸cas em determinado hospital, n´umero de cada um dos poss´ıveis defeitos na produ¸c˜ao de determinada pe¸ca, n´umero de peixes ou plantas de esp´ecies distintas em determinado local entre outros, geralmente apresentam correla¸c˜ao e excessos de zeros (Li et al.,1999;Majumdar and Gries,2010;Arab et al.,2012).

Os modelos de regress˜ao para dados de contagem j´a est˜ao bem estabelecidos na literatura estat´ıstica (McCullagh and Nelder,1989). Geralmente se utiliza o modelo de regress˜ao Poisson log-linear para descrever este tipo de dados, no entanto, a correla¸c˜ao entre os dados atrav´es da Poisson log-linear ´e modelada no n´ıvel das taxas, pois sabe-se que trat´a-las no n´ıvel principal da hierarquia, isto ´e, nos dados, via distribui¸c˜ao de Poisson multivariada, n˜ao ´e t˜ao trivial pela complexidade de sua fun¸c˜ao de probabili-dade conjunta.

Neste trabalho, a correla¸c˜ao entre as contagens, por unidade amostral, ser´a captu-rada atrav´es do modelo de regress˜ao de Poisson multivariado e utilizar´a a t´ecnica de aumento de dados, desta forma, eliminando o somat´orio presente na fun¸c˜ao de

(22)

proba-Cap´ıtulo 1. Introdu¸c˜ao 2

bilidade conjunta e diminuindo o custo computacional. Isto ´e, a correla¸c˜ao ser´a tratada no n´ıvel principal da hierarquia.

Para tratar o excesso de zeros ser´a considerado o modelo Zero Inflado (ZI), sem e com covari´aveis, tanto na propor¸c˜ao de zeros como nas taxas da Poisson. Novamente ser´a utilizada a t´ecnica de aumento de dados para modelar mistura de distribui¸c˜oes visando diminuir o custo computacional.

O escopo do presente trabalho ´e propor modelos que considerem a correla¸c˜ao pro-veniente dos dados multivariados de contagens e que acomodem o excesso de zeros de forma eficiente e ilustr´a-los em um banco de dados bivariados de interesse em sa´ude coletiva.

A infer^encia ser´a feita sob a ´otica bayesiana e utilizar´a a t´ecnica de aumento de dados, uma vez que para estimar as quantidades desconhecidas tanto do modelo de regress˜ao de Poisson multivariado como as do modelo de regress˜ao Poisson Zero Infla-cionado multivariado recorrem-se a m´etodos intensivos como Monte Carlo via cadeias de Markov (Gamerman and Lopes, 2006), uma vez que a distribui¸c˜ao a posteriori, usualmente, n˜ao pode ser obtida analiticamente.

1.1

Revis˜

ao de literatura

1.1.1 Modelo de Poisson Multivariado

A an´alise multivariada de dados cont´ınuos baseada nas distribui¸c˜oes gaussiana multi-variada e afins vem sendo utilizada e ´e bem estabelecida na literatura. No entanto, isto ainda n˜ao ocorre para os dados discretos multivariados. Ao se tratar de contagens multivariadas as aproxima¸c˜oes pelo modelo gaussiano multivariado podem ser

(23)

utiliza-3 1.1. Revis˜ao de literatura

das, mas podem n˜ao ser adequadas, principalmente quando as m´edias observadas n˜ao s˜ao grandes o suficiente ou h´a v´arias contagens nulas (Karlis and Meligkotsidou,2005).

Uma poss´ıvel abordagem, ainda nesse contexto, ´e a utiliza¸c˜ao de modelos de mis-turas que capturem o excesso de zeros dos dados, como os modelos ZINB (abrevia-¸

c˜ao do ingl^es para Zero-inflated negative binomial ) e ZIP (abrevia¸c˜ao do ingl^es para Zero-inflated Poisson) apresentados em Yip (1988) e Heilbron (1994). Todavia, esses modelos n˜ao consideram a estrutura multivariada dos dados. Sendo assim, nesse con-texto, faz-se necess´aria uma modelagem que incorpore as informa¸c˜oes provenientes dos dados, como excessos de zeros e estruturas multivariadas, para que as an´alises sejam mais precisas e eficientes.

A distribui¸c˜ao de Poisson multivariada, denotada, aqui, por 𝑚 − 𝑃 𝑜𝑖𝑠𝑠𝑜𝑛, ´e uma alternativa para tratar dados discretos multivariados. Uma forma intuitiva para escre-ver a Poisson multivariada ´e utilizar a soma de vari´aveis aleat´orias independentes de Poisson (mais detalhes em Johnson et al.,1997).

No entanto, a principal desvantagem da aplica¸c˜ao desta distribui¸c˜ao ´e a forma complexa da fun¸c˜ao de probabilidade conjunta, como pode ser vista na equa¸c˜ao (1.1). A fun¸c˜ao de probabilidade para o modelo de Poisson multivariado de covari^ancia comum para todas as vari´aveis, isto ´e, (𝑌1, 𝑌2, · · · , 𝑌𝑚)′ ∼ 𝑚 − 𝑃 𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0, 𝜆1, · · · , 𝜆𝑚) ´e dada

(24)

Cap´ıtulo 1. Introdu¸c˜ao 4 𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚 = 𝑦𝑚|𝜆0, 𝜆1, · · · , 𝜆𝑚) = 𝑒𝑥𝑝 ⎛ ⎝− 𝑚 ∑︁ 𝑗=0 𝜆𝑗 ⎞ ⎠ 𝑚 ∏︁ 𝑗=1 𝜆𝑦𝑗 𝑗 𝑦𝑗! × 𝑚𝑖𝑛(𝑦1,𝑦2,...,𝑦𝑚) ∑︁ 𝑖=0 𝑚 ∏︁ 𝑗=1 (︂𝑦𝑗 𝑖 )︂ 𝑖! (︃ 𝜆0 ∏︀𝑚 𝑗=1𝜆𝑖 )︃𝑖 (1.1)

Um caso especial do modelo de Poisson multivariado ´e assumir uma covari^ancia comum para todas as vari´aveis, como pode ser visto em Tsionas(1999), onde ´e apre-sentada uma an´alise bayesiana da distribui¸c˜ao de Poisson com base no amostrador de Gibbs com a t´ecnica de aumento de dados e emMa and Kockelman (2006) que apre-sentam uma an´alise bayesiana da distribui¸c˜ao de Poisson com base no amostrador de Gibbs bem como o “Metropolis-Hastings” (M-H).

A ideia central do presente trabalho segue de certa maneira a mesma abordagem executada por Ma and Kockelman (2006), isto ´e, as vari´aveis referentes a covari^ancia entre os dados, para cada uma das unidades amostrais, ser˜ao tratadas como vari´aveis latentes. Esta abordagem evita o c´alculo expl´ıcito da fun¸c˜ao massa de probabilidade atrav´es de aproxima¸c˜oes ou c´alculos recursivos. Uma das diferen¸cas entre este trabalho e o dos autores Ma and Kockelman (2006) ´e que aqui ser˜ao abordados modelos de mistura para acomodar o excesso de zeros presente nos dados e discute-se a inclus˜ao de covari´aveis para explicar as taxas de interesse para cada vari´avel resposta e para explicar a probabilidade de zeros.

Ainda na proposta de covari^ancia comum para todas as vari´aveis, Karlis (2003) discute a aus^encia de procedimentos de infer^encia na estima¸c˜ao dos par^ametros e argu-menta que tal defici^encia reduz a aplicabilidade de tais modelos. Os autores prop˜oem a

(25)

5 1.1. Revis˜ao de literatura

utiliza¸c˜ao do agoritmo EM, baseado na t´ecnica de redu¸c˜ao multivariada, para estimar os par^ametros via m´axima verossimilhan¸ca.

Nos ´ultimos anos, as aplica¸c˜oes de modelos de Poisson t^em aumentado, princi-palmente devido ao aumento do desempenho computacional. O modelo de Poisson multivariado usado na pr´atica ´e baseado numa covari^ancia comum para todos os pares de vari´aveis, no entanto, esta formula¸c˜ao n˜ao permite a modelagem da estrutura de covari^ancia dos dados de maneira flex´ıvel e, geralmente, n˜ao retrata a realidade de forma fidedigna.

Uma modelagem mais geral ´e assumir uma estrutura de covari^ancia 2-a-2, isto ´e, cada par de vari´aveis possui uma covari^ancia. Essa modelagem pode ser vista emKarlis and Meligkotsidou (2005);Buck et al. (2009) os quais associam covari´aveis a todos os par^ametros, inclusive os de covari^ancia. No presente trabalho, por exemplo, utiliza-se as covari´aveis gest˜ao hospitalar, latitude e longitude padronizadas, dentre outras, para tentar explicar as taxas de interesse. Mais detalhes no cap´ıtulo2.

Outra restri¸c˜ao da distribui¸c˜ao de Poisson multivariada ´e o fato das covari^ancias serem obrigatoriamente positivas, devido sua especifica¸c˜ao baseada na soma de vari´ a-veis aleat´orias mutuamente independentes com distribui¸c˜ao Poisson. Essa restri¸c˜ao ´e assumida neste trabalho e ´e razo´avel em muitos exemplos aplicados de interesse.

1.1.2 Modelos Zero Inflacionados

Recentemente, tem crescido o interesse na modelagem que capture, de forma eficiente, o excesso de zeros presente em dados de contagem, em especial quando assume-se mo-delos de Poisson. Estes momo-delos s˜ao conhecidos como modelos zero inflacionados (ZI)

(26)

Cap´ıtulo 1. Introdu¸c˜ao 6

(Majumdar and Gries,2010).

Dados de contagem provenientes de estudos epidemiol´ogicos, industriais, econ^ omi-cos, ecol´ogicos e do meio ambiente usualmente apresentam excessos de zeros, como por exemplo n´umero de interna¸c˜oes ou ´obitos por determinada doen¸ca, processos de fabrica¸c˜ao que produzem produtos sem defeitos, n´umero de plantas de determinada esp´ecie, entre outros.

Excluir ou ignorar a informa¸c˜ao de excessos de zeros presente nos dados acabar´a facilitanto a an´alise, no entanto, poder´a resultar numa perda de informa¸c˜ao. Distri-bui¸c˜oes de probabilidade usadas para dados de contagem, como a binomial negativa e Poisson n˜ao conseguem capturar essa informa¸c˜ao, assim, fornecendo um ajuste ina-dequado. Quando esses zeros s˜ao plaus´ıveis nos dados, recomenda-se a utiliza¸c˜ao de misturas de modelos (Cohen,1963;Johnson and Kotz,1969).

Yip (1988) e Heilbron (1994) apresentaram modelos de regress˜ao para dados de contagem baseados em misturas de distribui¸c˜oes degeneradas no ponto zero e outras distribui¸c˜oes amostrais, como ZINB (abrevia¸c˜ao do ingl^es para Zero-inflated negative binomial ) e ZIP (abrevia¸c˜ao do ingl^es para Zero-inflated Poisson).

Ao estudar processos de contagem multivariados sabe-se que a utiliza¸c˜ao dos mo-delos ZI usuais torna-se ineficaz. Ao se tratar de um processo de Poisson multivariado, uma alternativa ´e o modelo ZIP multivariado. SegundoArab et al. (2012) a utilidade deste modelo ´e extensa, por´em, a literatura relevante ´e, ainda, limitada.

Li et al. (1999) formularam o ZIP m-dimensional utilizando o mesmo artif´ıcio da Poisson m-variada proposta porJohnson et al.(1997). Al´em disso, focou no caso

(27)

biva-7 1.1. Revis˜ao de literatura

riado, usando uma mistura de 2 distribui¸c˜oes de Poisson univariadas com a distribui¸c˜ao degenerada no ponto (0,0) e a distribui¸c˜ao Poisson bivariada e estendeu para o caso multivariado apresentando um exemplo real utilizando o modelo ZIP trivariado. O m´etodo utilizado pelos autores para estima¸c˜ao dos par^ametros foi o de m´axima veros-similhan¸ca.

J´aMajumdar and Gries (2010) consideraram a estima¸c˜ao sob o enfoque bayesiano, propuseram modelos com e sem covari´aveis e usaram a t´ecnica de aumento de dados. Os autores mostraram resultados de estudos simulados para o caso sem covari´aveis para verificar a efetividade da estima¸c˜ao via ZIP bayesiano como demonstraram a metodolo-gia numa aplica¸c˜ao de contagens de plantas de duas esp´ecies distintas e correlacionadas na regi˜ao metropolitana de Phoenix. Essa estrat´egia permite que a verossimilhan¸ca seja escrita de uma forma mais simples e dependendo da priori elicitada consegue-se conju-ga¸c˜ao tanto para a propor¸c˜ao de zero quanto para vari´avel latente que configura este aumento. Uma das principais diferen¸cas entreMajumdar and Gries(2010) e o presente trabalho ´e como ser´a tratado o aumento de dados, al´em da apresenta¸c˜ao de um estudo de sensibilidade da priori para os modelos Poisson e ZIP multivariados.

Arab et al. (2012) propuseram o ZIP bivariado semiparam´etrico bayesiano para modelar processos de contagem bivariados utilizando a extens˜ao dos modelos ZI exis-tentes e utilizaram a t´ecnica de aumento de dados. O aspecto semiparam´etrico proposto considera poss´ıveis efeitos n˜ao lineares nas covari´aveis e al´em disto utiliza a regress˜ao logit-multinomial para modelar a probabilidade de zeros no modelo inflacionado de zeros, assim como Majumdar and Gries (2010).

A t´ecnica de aumento de dados, utilizada em Majumdar and Gries (2010) eArab et al. (2012), configura que ao inv´es de executar uma maximiza¸c˜ao ou uma simula¸c˜ao

(28)

Cap´ıtulo 1. Introdu¸c˜ao 8

complicada, amplia-se os dados observados (Y) com vari´aveis latentes (T), que simpli-fica o c´alculo e, subsequentemente, executa uma s´erie de maximiza¸c˜oes ou simula¸c˜oes simples. Isto ´e, utiliza-se a distribui¸c˜ao a posteriori aumentada 𝑝(𝜃|𝑌,𝑇 ) caso seja mais simples que posteriori de interesse 𝑝(𝜃|𝑌 ) (Tanner and Wong,1987).

1.2

Estrutura do trabalho

No cap´ıtulo 2 ser´a feita uma breve revis˜ao bibliogr´afica sobre doen¸cas isqu^emicas e hipertensivas e uma an´alise descritiva dos dados que motivaram o presente trabalho. Nos cap´ıtulos3e 4ser˜ao propostos modelos de contagens univariados e multivariados, respectivamente. Ser´a apresentado o modelo mais geral, modelo de regress˜ao de Pois-son inflacionado de zeros multivariado, e diversas subclasses de interesse. No cap´ıtulo

5, ser´a discutido o m´etodo de infer^encia abordado no presente trabalho, a t´ecnica de aumento de dados, os m´etodos de estima¸c˜ao e compara¸c˜ao de modelos e previs˜ao. No cap´ıtulo6ser´a discutida a sensibilidade da escolha da priori para os modelos de Poisson multivariado e Poisson inflacionado de zeros multivariado atrav´es de um estudo simu-lado. No cap´ıtulo7, ser˜ao apresentados exemplos simulados com o objetivo de verificar se os par^ametros dos modelos propostos s˜ao identific´aveis e se os c´odigos est˜ao corretos. Tamb´em neste cap´ıtulo, a metodologia proposta ser´a aplicada nos dados referentes ao n´umero de interna¸c˜ao por doen¸cas isqu^emicas do cora¸c˜ao e hipertensivas no per´ıodo de 2012 em 75 hospitais do munic´ıpio do Rio de Janeiro. No cap´ıtulo8ser˜ao apresentadas as considera¸c˜oes finais e os trabalhos futuros como, por exemplo, o modelo de regress˜ao ZIP multivariado espacial.

(29)

Cap´ıtulo 2

Motiva¸

ao

Apesar dos avan¸cos do s´eculo XXI, as doen¸cas cardiovasculares aparecem como primeira causa de morte nos pa´ıses desenvolvidos e em grande parte das na¸c˜oes em desenvolvi-mento (Godoy et al.,2007).

Em estudo sobre mortalidade por doen¸cas do aparelho circulat´orio e doen¸cas isqu^ e-micas do cora¸c˜ao (decorrentes do entupimento das art´erias por gordura, diminuindo o fluxo de sangue que passa pelo cora¸c˜ao), referente ao per´ıodo de 1979 a 1989, nas capitais de regi˜oes metropolitanas do Brasil, verificou-se que o munic´ıpio do Rio de Janeiro era a ´unica capital que apresentava uma tend^encia de aumento das taxas de mortalidade por doen¸cas cardiovasculares e isqu^emicas do cora¸c˜ao, em ambos os sexos (Lotufo et al.,1995).

A morbidade por doen¸cas isqu^emicas do cora¸c˜ao tamb´em representa uma grande carga para o pa´ıs. De 1993 a 1997, as interna¸c˜oes por essas doen¸cas representaram 1% de todas as interna¸c˜oes e 3,3% dos gastos do Sistema ´Unico de Sa´ude (SUS). A angina foi respons´avel por 53,3% e o infarto por 26,6% das interna¸c˜oes por doen¸cas isqu^emicas do cora¸c˜ao. As interna¸c˜oes por infarto foram mais comuns em homens e, por angina,

(30)

Cap´ıtulo 2. Motiva¸c˜ao 10

em mulheres (Laurenti et al.,2000).

Estima-se que hipertens˜ao arterial sist^emica atinja aproximadamente 22% da popu-la¸c˜ao brasileira acima de vinte anos, sendo respons´avel por 80% dos casos de acidente c´erebro vascular, 60% dos casos de infarto agudo do mioc´ardio e 40% das aposentado-rias precoces, al´em disso, calcula-se um gasto m´edio de 475 milh˜oes de reais com 1,1 milh˜ao de interna¸c˜oes por ano. Em 2001, cerca de 7,6 milh˜oes de mortes no mundo foram atribu´ıdas `a eleva¸c˜ao da press˜ao arterial, sendo 47% por doen¸ca isqu^emica do cora¸c˜ao, segundo (DBH,2010).

A an´alise das interna¸c˜oes por causas permite que se avalie a frequ^encia de cada uma, o tempo de perman^encia no hospital, os valores gastos com cada doen¸ca, entre outros. Considerando que os recursos m´edicos dispon´ıveis, representados por exames que per-mitem diagn´ostico cada vez mais precoce e tratamentos de ´ultima gera¸c˜ao, influenciam o aumento da sobrevida dos pacientes, a morbidade hospitalar e ambulatorial passam a constituir a melhor e mais ampla fonte de informa¸c˜ao sobre doen¸cas, especialmente as cr^onicas (Laurenti et al.,2000).

A motiva¸c˜ao neste estudo ´e o poss´ıvel excesso de zeros presente no n´umero de in-terna¸c˜oes por doen¸cas isqu^emicas do cora¸c˜ao e no n´umero de interna¸c˜oes por doen¸cas hipertensivas, ambos os grupos do cap´ıtulo IX da Classifica¸c˜ao Internacional de Doen-¸cas em sua d´ecima revis˜ao (CID,1997), e a poss´ıvel correla¸c˜ao existente entre os dados nos 75 hospitais do munic´ıpio do Rio de Janeiro, no per´ıodo de 2012, como mostra a Figura (2.1).

Estes dados foram coletados diretamente do Sistema de Informa¸c˜oes Hospitalares Descentralizado (SIHD), disponibilizado pelo Minist´erio da Sa´ude para os hospitais

(31)

11 0 10 20 30 40 0 95 277 581 1240 0 5 10 15 20 25 30 0 13 30 46 62 81 101 139 194 (a) (b) 0 200 400 600 800 1000 1200 0 50 100 150 200 (c)

Figura 2.1: N´umero de interna¸c˜oes por doen¸cas isqu^emicas do cora¸c˜ao (a), N´umero de interna¸c˜oes por doen¸cas hipertensivas (b) e rela¸c˜ao entre o n´umero de interna¸c˜oes por doen¸cas isqu^emicas do cora¸c˜ao e hipertensivas (c) no per´ıodo de 2012 em 75 hospitais no munic´ıpio do Rio de Janeiro

(32)

Cap´ıtulo 2. Motiva¸c˜ao 12

Esse sistema cont´em informa¸c˜oes de todas as interna¸c˜oes e ´obitos no ^ambito do SUS e ´e fonte de informa¸c˜ao para tomada de decis˜ao de gestores, auxiliando no plane-jamento de a¸c˜oes de sa´ude e atua¸c˜ao da vigil^ancia sanit´aria e epidemiologia.

A Tabela (2.1), apresenta algumas das estat´ısticas descritivas para os bancos de dados considerados. Note que o valor das vari^ancias amostrais s˜ao bem maiores que m´edias amostrais, apontanto ind´ıcios de superdispers˜ao em ambos os bancos de da-dos. J´a na Figura (2.2), podem ser visualizadas o padr˜ao espacial e as intensidades do n´umero de interna¸c˜ao por doen¸cas isqu^emicas do cora¸c˜ao e por doen¸cas hipertensivas para cada um dos 75 hospitais do munic´ıpio do Rio de Janeiro indexados pela UTM1 (abrevia¸c˜ao do ingl^es para Universal Transversa de Mercator ). As coordenadas geo-gr´aficas UTM foram obtidas atrav´es da longitude e latitude via o pacote “rgdal” doR Development Core Team(2011).

𝑁∘ de interna¸c˜oes por M´ınimo M´aximo Mediana M´edia Vari^ancia Doen¸cas isqu^emicas do cora¸c˜ao 0 1.240 0 68,17 31.609,98 Doen¸cas hipertensivas 0 194 5 22,49 1.249,31

Tabela 2.1: Estat´ısticas descritivas do n´umero de interna¸c˜oes por causa no per´ıodo de 2012 em 75 hospitais do munic´ıpio do Rio de Janeiro.

As covari´aveis dispon´ıveis para tentar explicar o n´umero de interna¸c˜oes por doen¸cas isqu^emicas do cora¸c˜ao e por doen¸cas hipertensivas, em cada um dos 75 hospitais, no munic´ıpio do Rio de Janeiro no per´ıodo de 2012, s˜ao esfera administrativa (Privada, Municipal, Estadual ou Federal), gest˜ao hospitalar (Municipal ou Estadual), se atende ou n˜ao emerg^encia, latitude e longitude padronizadas e n´umero total de interna¸c˜oes do cap´ıtulo IX da Classifica¸c˜ao Internacional de Doen¸cas em sua d´ecima revis˜ao, CID10, (CID, 1997) no per´ıodo de 2012 no munic´ıpio do Rio de Janeiro. Na Figura (2.3),

1

(33)

13 630000 650000 670000 690000 7440000 7460000 7480000 630000 650000 670000 690000 7440000 7460000 7480000 (a) (b)

Figura 2.2: Intensidade do n´umero de interna¸c˜oes por doen¸cas isqu^emicas do cora¸c˜ao (a) e por doen¸cas hipertensivas (b) em cada um dos 75 hospitais no munic´ıpio do Rio de Janeiro no per´ıodo de 2012.

pode-se visualizar graficamente a distribui¸c˜ao das covari´aveis e na Tabela (2.2) a esta-t´ıstica descritiva do n´umero de interna¸c˜oes do cap´ıtulo IX (CID10) no per´ıodo de 2012 no munic´ıpio do Rio de Janeiro.

𝑁∘ de interna¸c˜oes M´ınimo M´aximo Mediana M´edia Vari^ancia Cap´ıtulo IX 0 2.438 37 337,8 258.203,4

Tabela 2.2: Estat´ıstica descritiva do n´umero de interna¸c˜oes do cap´ıtulo IX (CID10) no per´ıodo de 2012 no munic´ıpio do Rio de Janeiro.

(34)

Cap´ıtulo 2. Motiva¸c˜ao 14 Estadual Federal Municipal Privada Estadual Municipal (a) (b) Não Sim 0 5 10 15 20 0 190 477 725 1085 1398 1723 2438 (c) (d)

Figura 2.3: Esfera Administrativa (a), Gest˜ao hospitalar (b), Atende emerg^encia (c) e N´umero de interna¸c˜oes do cap´ıtulo IX da CID10, no per´ıodo de 2012, no munic´ıpio do Rio de Janeiro (d).

(35)

Cap´ıtulo 3

Modelos para dados univariados

de contagem

Nelder and Wedderburn (1972) desenvolveram uma classe de modelos baseados na fam´ılia exponencial com um par^ametro desconhecido (ou um vetor param´etrico desco-nhecido), tal que suas m´edias s˜ao dadas atrav´es de fun¸c˜oes n˜ao-lineares de componentes lineares. Estes modelos s˜ao chamados de modelos lineares generalizados (MLG).

Considere a vari´avel 𝑌 que depende do vetor de par^ametros 𝜃 = (𝜃1, . . . , 𝜃𝑠)′ e

𝑌 |𝜃 ∼ 𝑓 (𝑦|𝜃) tal que perten¸ca a fam´ılia exponencial. Ou seja, a fam´ılia de distribui¸c˜oes com fun¸c˜ao de probabilidade 𝑓 (𝑦|𝜃) pertence `a fam´ılia exponencial se puder ser escrita como 𝑓 (𝑦|𝜃) = 𝑒𝑥𝑝 ⎧ ⎨ ⎩ 𝑠 ∑︁ 𝑗=1 𝑎𝑗(y)𝑏𝑗(𝜃) + 𝑐(𝜃) + 𝑑(y) ⎫ ⎬ ⎭

onde 𝑎(·), 𝑏(·), 𝑐(·) e 𝑑(·) s˜ao fun¸c˜oes conhecidas. Como dito anteriormente, a m´edia (𝐸[𝑌 |𝜃]) ´e uma fun¸c˜ao n˜ao-linear de componentes lineares, B′𝛽. Ou seja,

(36)

Cap´ıtulo 3. Modelos para dados univariados de contagem 16

𝑔(𝐸[𝑌 |𝜃]) = B′𝛽 (3.1)

com 𝑔(·) fun¸c˜ao de liga¸c˜ao conhecida, B covari´aveis e 𝛽 coeficientes de regress˜ao.

Usualmente, em dados de contagem, utiliza-se o modelo de Poisson ou Poisson log-linear para descrever os dados e modelos de mistura para modelagem de dados de contagem inflados de zeros, como pode ser visto a seguir.

3.1

Poisson

O modelo Poisson ´e um modelo simples, utilizado em dados de contagem e n˜ao utiliza covari´aveis para tentar explicar a m´edia do processo. Seja 𝑌 |𝜆 ∼ 𝑃 𝑜𝑖𝑠𝑠𝑜𝑛(𝜆), isto ´e,

𝑓 (𝑦|𝜆) = 𝑒

−𝜆𝜆𝑦

𝑦! . (3.2)

Este modelo tem como propriedade m´edia e vari^ancia iguais e muitas vezes essa suposi¸c˜ao ´e violada, pois, geralmente, dados de meteorologia, industriais e de sa´ude apresentam superdisper¸c˜ao (m´edia < vari^ancia), como por exemplo, os dados apresen-tados na a se¸c˜ao 2.

3.2

Regress˜

ao de Poisson

Os modelos de regress˜ao para dados de contagem j´a est˜ao bem estabelecidos na lite-ratura estat´ıstica (McCullagh and Nelder, 1989). Geralmente utiliza-se o modelo de regress˜ao Poisson log-linear (Poisson + MLG) para descrever este tipo de dado, como pode ser visto na equa¸c˜ao (3.3).

(37)

17 3.3. Zero Inflacionados

𝑌 |𝜆 ∼ 𝑃 𝑜𝑖𝑠𝑠𝑜𝑛(𝜆) (3.3)

com 𝑙𝑜𝑔(𝜆) = B′𝛽, onde 𝑌 ´e a vari´avel resposta, 𝑙𝑜𝑔(·) fun¸c˜ao de liga¸c˜ao, B covari´aveis e 𝛽 coeficientes de regress˜ao. Mais detalhes para modelo de regress˜ao Poisson log-linear sugere-se McCullagh and Nelder(1989);Dobson (2001).

3.3

Zero Inflacionados

Aconselha-se utilizar misturas de modelos quando os zeros presentes nos dados s˜ao pau-s´ıveis (Lambert,1992). Usualmente, os modelos ZI s˜ao compostos de duas componentes que podem ser entendidas como:

(1) Contagem nula, podendo ser subdividida em duas partes:

• Zeros estruturais: pertencentes `a estrutura de zeros dos dados;

• Zeros amostrais: pertencentes `a distribui¸c˜ao de contagem quando a resposta ´

e nula.

(2) Contagem n˜ao-nula, cujo modelo segue uma distribui¸c˜ao de contagem.

Nesta se¸c˜ao a estrutura do modelo de mistura ser´a composta de duas componentes considerando uma m´edia ponderada de duas distribui¸c˜oes como mostra a equa¸c˜ao (3.4).

𝑃 (𝑌 = 𝑦) = 𝜋 𝑓1(𝑦) ⏟ ⏞ Componente 1 +(1 − 𝜋) 𝑓2(𝑦|𝜆) ⏟ ⏞ Componente 2 (3.4) tal que 𝑓1(𝑦) = ⎧ ⎪ ⎨ ⎪ ⎩ 1 se 𝑦 = 0, 0 se 𝑦 ̸= 0 (3.5)

(38)

Cap´ıtulo 3. Modelos para dados univariados de contagem 18

e 𝑓2(𝑦|𝜆) ´e um modelo de contagem com m´edia 𝜆, 𝑦 ∈ {0,1, . . .} e 𝜋 ´e uma propor¸c˜ao de

mistura com 0 ≤ 𝜋 ≤ 1. Exemplos conhecidos dessas misturas para dados de contagens s˜ao os modelos de Poisson inflacionado de zeros, que utiliza a distribui¸c˜ao de Poisson na componente 2, e o binomial negativo inflacionado de zeros, que utiliza por sua vez a distribui¸c˜ao binomial negativa.

3.3.1 Regress˜ao ZIP

No presente trabalho, um dos modelos a ser considerado ´e o modelo de regress˜ao ZIP independente que pode ser escrito como

𝑌𝑗|𝜋,𝜆𝑗 𝑖𝑛𝑑

∼ 𝜋𝑓1(𝑦𝑗) + (1 − 𝜋)𝑃 𝑜𝑖𝑠𝑠𝑜𝑛(𝑦𝑗|𝜆𝑗) (3.6)

para 𝑗 = 1, . . . ,𝑚 onde 0 ≤ 𝜋 ≤ 1 ´e a propor¸c˜ao de zeros, 𝜆𝑗 ´e a taxa referente a

vari´avel de contagem 𝑌𝑗 e 𝑓1(𝑦𝑗) dado na equa¸c˜ao (3.5).

O modelo de regress˜ao ZIP dado da forma descrita em (3.6) tem as seguintes pro-priedades: 𝑌𝑗 = ⎧ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎩ 0 com probabilidade 𝜋 + (1 − 𝜋)𝑒−𝜆𝑗 k com probabilidade (1 − 𝜋)𝜆 𝑘 𝑗𝑒−𝜆𝑗 𝑘! , 𝑘 = 1,2, . . . (3.7)

O valor esperado ´e dado por 𝐸(𝑌𝑗) = (1 − 𝜋)𝜆𝑗 e a vari^ancia ´e dada por 𝑉 𝑎𝑟(𝑌𝑗) =

(1 − 𝜋)𝜆𝑗[1 + (1 − (1 − 𝜋))𝜆𝑗] para 𝑗 = 1, . . . ,𝑚. Assim, consegue-se tratar a super

dispers˜ao j´a que o modelo (de regress˜ao) Poisson n˜ao o faz, pois, tem como hip´otese m´edia e vari^ancia equivalentes.

(39)

19 3.3. Zero Inflacionados

Este modelo adotar´a covari´aveis para descrever as taxas 𝜆’s da mesma forma vista na se¸c˜ao 3.2. Desta forma, 𝑙𝑜𝑔(𝜆𝑗) = B′𝑗𝛽𝑗, onde 𝑌𝑗 ´e a vari´avel de interesse indexada

por 𝑗 = 1, . . . ,𝑚, 𝑙𝑜𝑔(·) fun¸c˜ao de liga¸c˜ao, B𝑗 covari´aveis e 𝛽𝑗 coeficientes de regress˜ao

(40)
(41)

Cap´ıtulo 4

Modelos para dados

multivariados de contagem

A distribui¸c˜ao de Poisson multivariada ´e uma alternativa a aproxima¸c˜oes para tratar dados discretos multivariados, no entanto, a principal desvantagem da aplica¸c˜ao desta distribui¸c˜ao ´e a forma complexa da fun¸c˜ao de probabilidade conjunta como apresentado no Cap´ıtulo 1. Uma forma intuitiva para escrever a Poisson multivariada ´e utilizar a soma de vari´aveis aleat´orias independentes de Poisson (com termos comuns emJohnson et al.,1997).

4.1

Poisson multivariado

Uma vantagem de utilizar a distribui¸c˜ao de Poisson multivariada ´e incluir a informa¸c˜ao da correla¸c˜ao proveniente dos dados multivariados no processo de modelagem direta-mente na distribui¸c˜ao de probabilidade dos dados e n˜ao em outros n´ıveis da hierarquia do modelo.

(42)

u-Cap´ıtulo 4. Modelos para dados multivariados de contagem 22

mero de vari´aveis de interesse (𝑚) aumenta, torna-se dif´ıcil a especifica¸c˜ao e avalia¸c˜ao da distribui¸c˜ao conjunta. Dependendo da constru¸c˜ao da distribui¸c˜ao de Poisson multi-variada se tem um grande n´umero de somat´orios que muitas vezes apresentam regi˜oes complexas.

Por exemplo, assuma o modelo de Poisson trivariado completo, isto ´e, (𝑌1, 𝑌2, 𝑌3)′ ∼

3 − 𝑃 𝑜𝑖𝑠𝑠𝑜𝑛(Λ) com Λ = {𝜆1, 𝜆2, 𝜆3, 𝜆12, 𝜆13, 𝜆23}, tal que

𝑌1 = 𝑋1+ 𝑋12+ 𝑋13

𝑌2 = 𝑋2+ 𝑋12+ 𝑋23

𝑌3 = 𝑋3+ 𝑋13+ 𝑋23

com 𝑋𝑖’s vari´aveis aleat´orias com distribui¸c˜ao de Poisson independentes com par^

ame-tros 𝜆𝑖, 𝑖 ∈ ({1}, {2}, {3}, {12}, {13}, {23}). Desta forma, a fun¸c˜ao de probabilidade

𝑃 (Y = y) = 𝑃 (𝑌1= 𝑦1, 𝑌2= 𝑦2, 𝑌3 = 𝑦3) ser´a dada por

𝑃 (Y = y) = ∑︁

(𝑥12,𝑥13,𝑥23)∈𝐶

𝑒𝑥𝑝(−∑︀ 𝜆𝑖)𝜆1𝑦1−𝑥12−𝑥13𝜆𝑦22−𝑥12−𝑥23𝜆3𝑦3−𝑥13−𝑥23𝜆12𝑥12𝜆𝑥1313𝜆𝑥2323

(𝑦1− 𝑥12− 𝑥13)!(𝑦2− 𝑥12− 𝑥23)!(𝑦3− 𝑥13− 𝑥23)!

onde a soma ´e dada sob o conjunto 𝐶 ⊂ 𝑁3 que ´e definido como

𝐶 = [(𝑥12, 𝑥13, 𝑥23) ∈ 𝑁3 : {𝑥12+ 𝑥13≤ 𝑦1} ∩ {𝑥12+ 𝑥23≤ 𝑦2} ∩ {𝑥13+ 𝑥23≤ 𝑦3} ̸= ∅].

(43)

23 4.1. Poisson multivariado

uma covari^ancia comum entre as vari´aveis estudadas. Todavia, sabe-se que, geral-mente, este modelo n˜ao retrata a realidade para tr^es ou mais vari´aveis, podendo ser generalizado para covari^ancias diferentes.

Considere a vari´avel aleat´oria 𝑋𝑖 ∼ 𝑃 𝑜𝑖𝑠𝑠𝑜𝑛(𝜆𝑖) para 𝑖 = 0, . . . ,𝑚 mutuamente

independentes. O vetor 𝑚-variado (𝑌1, . . . , 𝑌𝑚)′|Λ ter´a distribui¸c˜ao de Poisson

𝑚-variada com par^ametro Λ = {𝜆𝑗, 𝑗 = 0,1, . . . ,𝑚} desde que as contagens para cada

uma das 𝑚 vari´aveis, 𝑌1, . . . , 𝑌𝑚, sejam escritas da seguinte forma:

𝑌1 = 𝑋1+ 𝑋0 𝑌2 = 𝑋2+ 𝑋0 𝑌3 = 𝑋3+ 𝑋0 .. . 𝑌𝑚 = 𝑋𝑚+ 𝑋0. (4.1)

Tem-se que, marginalmente, cada 𝑌𝑗 tem distribui¸c˜ao Poisson com par^ametro 𝜆0+

𝜆𝑗, covari^ancia entre 𝑌𝑗 e 𝑌𝑘 dada por

𝐶𝑜𝑣(𝑌𝑗,𝑌𝑘) = ⎧ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎩ 𝜆𝑗 + 𝜆0 se 𝑗 = 𝑘 𝜆0 se 𝑗 ̸= 𝑘 (4.2)

e correla¸c˜ao entre 𝑌𝑗 e 𝑌𝑘 dada por 𝐶𝑜𝑟(𝑌𝑗,𝑌𝑘) = 𝜆0/√︀(𝜆𝑗+ 𝜆0)(𝜆𝑘+ 𝜆0).

Cabe ressaltar que, de acordo com esta defini¸c˜ao, a correla¸c˜ao entre as contagens por unidade amostral ser´a necessariamente positiva, pois, a covari^ancia ´e par^ametro de uma distribui¸c˜ao de Poisson, isto ´e, 𝜆0 > 0. Sendo assim, esta ´e outra desvantagem da

(44)

Cap´ıtulo 4. Modelos para dados multivariados de contagem 24

distribui¸c˜ao de Poisson multivariada. Por´em, em muitas aplica¸c˜oes de interesse essa ´e uma suposi¸c˜ao razo´avel.

Uma dificuldade enfrentada ao longo deste projeto foi escrever e calcular a fun¸c˜ao de probabilidade conjunta. Uma solu¸c˜ao encontrada foi escrev^e-la atrav´es das vari´aveis 𝑋0, 𝑋1, . . . , 𝑋𝑚, condicionalmente independentes, ao inv´es de escrev^e-la em fun¸c˜ao das

vari´aveis respostas, por sua vez dependentes, como pode ser visto a seguir. A prova segue no Ap^endice A.

𝑃 (𝑌1= 𝑦1, . . . , 𝑌𝑚= 𝑦𝑚|Λ) = ∑︁ 𝑥0 𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚 = 𝑦𝑚, 𝑋0= 𝑥0|Λ) = 𝑒𝑥𝑝 ⎧ ⎨ ⎩ − 𝑚 ∑︁ 𝑗=0 𝜆𝑗 ⎫ ⎬ ⎭ ∑︁ 𝑥0 (︂ 𝜆0 𝜆1. . . 𝜆𝑚 )︂𝑥0 𝜆𝑦1 1 . . . 𝜆 𝑦𝑚 𝑚 𝑥0!∏︀𝑚𝑗=1(𝑦𝑗− 𝑥0)! (4.3)

onde 𝑥0 = 0, . . . , 𝑚𝑖𝑛(𝑦1,𝑦2, . . . ,𝑦𝑚) e Λ = {𝜆𝑗, 𝑗 = 0,1, . . . ,𝑚}. Note que ´e f´acil

verificar que no caso 𝜆0 = 0 as vari´aveis aleat´orias 𝑌1, . . . , 𝑌𝑚 ser˜ao independentes.

A distribui¸c˜ao condicional 𝑌𝑗|Y−𝑗 = y−𝑗 tal que Y−𝑗 representa as vari´aveis

ale-at´orias, 𝑌1, . . . , 𝑌𝑚, exceto a 𝑗-´esima vari´avel, para 𝑗 = 1,2, . . . ,𝑚, tem uma forma

complicada. No entanto, a seguir ser´a apresentada a distribui¸c˜ao condicional bivariada que ser´a utilizada nos exemplos simulados e na aplica¸c˜ao dos dados reais do presente trabalho.

(45)

25 4.1. Poisson multivariado 𝑃 (𝑌𝑗 = 𝑦𝑗|𝑌𝑘 = 𝑦𝑘) = 𝑃 (𝑌𝑗 = 𝑦𝑗,𝑌𝑘= 𝑦𝑘) 𝑃 (𝑌𝑘= 𝑦𝑘) = 𝑒−𝜆𝑗 𝑚𝑖𝑛(𝑦𝑗,𝑦𝑘) ∑︁ 𝑥0=0 (︂𝑦𝑘 𝑥0 )︂ (︂ 𝜆0 𝜆0+ 𝜆𝑘 )︂𝑥0(︂ 𝜆𝑘 𝜆0+ 𝜆𝑘 )︂𝑦𝑘−𝑥0 𝜆𝑦𝑗−𝑥0 𝑗 (𝑦𝑗− 𝑥0)! (4.4)

para 𝑗,𝑘 = 1,2, . . . ,𝑚. Como observado emJohnson et al.(1997) essa distribui¸c˜ao con-dicional pode escrita como a soma de duas vari´aveis mutuamente independentes com as distribui¸c˜oes Poisson(𝜆𝑗) e Binomial

(︁

𝑦𝑘,𝜆0𝜆+𝜆0 𝑘

)︁ .

Devido a dificuldade em avaliar a distribui¸c˜ao conjunta dada na equa¸c˜ao (4.3) de-vido ao somat´orio para contagens altas das vari´aveis de interesse optou-se pela t´ecnica de aumento de dados, isto ´e, tratar a vari´avel 𝑋0 como uma vari´avel latente.

Essa abordagem foi realizada tanto emMajumdar and Gries(2010) como emArab et al.(2012), no entanto, ambos os trabalhos cometeram equ´ıvocos ao longo das contas ou apresentaram incoer^encias nos algoritmos de estima¸c˜ao. Por exemplo, Majumdar and Gries (2010) denotam que as vari´aveis de interesse (𝑌1,𝑌2) s˜ao escritas como a

soma de vari´aveis independentes de Poisson, no entanto, com um termo comum, isto ´

e, 𝑌𝑗 = 𝑊𝑗 + 𝑊0 para 𝑗 = 1,2. Ao apresentar o algoritmo de estima¸c˜ao, os autores

sugerem que caso (𝑌1,𝑌2) = (0, 𝑦2) e 𝑦2 > 0 gera-se 𝑊0 de uma binomial (com certos

par^ametros), acha-se 𝑊2 = 𝑌2−𝑊0e por fim gera-se 𝑊1 de uma Poisson. Desta forma,

h´a uma incoer^encia, pois em momento nenhum houve a preocupa¸c˜ao em garantir que 𝑊1= 0 e 𝑊0 = 0, j´a que 𝑌1 = 0.

(46)

Cap´ıtulo 4. Modelos para dados multivariados de contagem 26

propostos prop˜oem gerar as vari´aveis latentes (refetentes a covari^ancia comum entre os dados) de uma distribui¸c˜ao uniforme discreta com par^ametros [0, m´ınimo(𝑑𝑎𝑑𝑜𝑠)]. No entanto, a condicional completa ´e discreta tal que depende de 𝑋0 e do vetor param´

e-trico 𝜃 = (𝜆0, 𝜆1, . . . , 𝜆𝑚), como pode ser visto a seguir.

𝑃 (𝑋0 = 𝑥0|Y = y,𝜃) ∝ 𝑃 (Y = y,𝑋0 = 𝑥0|𝜃) ∝ 𝑃 (Y = y|𝑋0 = 𝑥0,𝜃)𝑃 (𝑋0= 𝑥0|𝜃) ∝ (︂ 𝜆0 𝜆1. . . 𝜆𝑚 )︂𝑥0 1 (𝑦1− 𝑥0)! . . . (𝑦𝑚− 𝑥0)!𝑥0! com 𝑥0 = 0,1, . . . ,𝑚𝑖𝑛(𝑦1, . . . ,𝑦𝑚).

Embora o objetivo seja escrever 𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚= 𝑦𝑚|Λ) o artif´ıcio de aumentar

os dados da forma dada na equa¸c˜ao (4.5), 𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚 = 𝑦𝑚, 𝑋0 = 𝑥0|Λ), muitas

vezes diminui o custo computacional, neste caso em particular, por exemplo, implicar´a em n˜ao recorrer ao somat´orio presente na conjunta dada na equa¸c˜ao (4.3).

𝑃 (𝑌1= 𝑦1, . . . , 𝑌𝑚= 𝑦𝑚, 𝑋0 = x0|Λ) = 𝑃 (𝑌1= 𝑦1, . . . , 𝑌𝑚= 𝑦𝑚|𝑋0= 𝑥0,Λ)𝑃 (𝑋0= 𝑥0|𝜆0) = 𝑒𝑥𝑝 ⎧ ⎨ ⎩ − 𝑚 ∑︁ 𝑗=0 𝜆𝑗 ⎫ ⎬ ⎭ (︂ 𝜆0 𝜆1. . . 𝜆𝑚 )︂𝑥0 𝜆𝑦1 1 . . . 𝜆 𝑦𝑚 𝑚 𝑥0!∏︀𝑚𝑘=1(𝑦𝑘− 𝑥0)! (4.5)

A prova encontra-se no Ap^endice A.

Seja Y = (Y1, . . . , Y𝑚) com Y𝑗 = (𝑌𝑗1, . . . , 𝑌𝑗𝑁) para 𝑗 = 1,...,𝑚. Assim, a

(47)

27 4.2. Regress˜ao de Poisson multivariado

dados, pode ser escrita como:

𝑃 (Y = y, X0= x0|Λ) = 𝑃 (Y = y|X0 = x0,Λ)𝑃 (X0= x0|𝜆0) = 𝑁 ∏︁ 𝑖=1 ⎡ ⎣𝑒𝑥𝑝 ⎧ ⎨ ⎩ − 𝑚 ∑︁ 𝑗=0 𝜆𝑗 ⎫ ⎬ ⎭ (︂ 𝜆0 𝜆1. . . 𝜆𝑚 )︂𝑥0𝑖 𝜆𝑦1𝑖 1 . . . 𝜆 𝑦𝑚𝑖 𝑚 𝑥0𝑖!∏︀𝑚𝑘=1(𝑦𝑘𝑖− 𝑥0𝑖)! ⎤ ⎦ (4.6)

Mais detalhes desta prova encontram-se no Ap^endice A.

4.2

Regress˜

ao de Poisson multivariado

Uma vantagem do modelo de regress˜ao de Poisson multivariado (m-Poisson + MLG) para o modelo de regress˜ao de Poisson independente (Poisson + MLG) ´e a capacidade de modelar as m´edias, bem como a covari^ancia, permitindo, assim, uma maior flexibi-lidade na modelagem, assim como apresentado em Karlis and Meligkotsidou(2005) e

Buck et al. (2009) que utilizam covari´aveis para explicar inclusive a covari^ancia.

A utiliza¸c˜ao de covari´aveis para explicar a taxa de interna¸c˜ao por tipo de doen¸ca pode ser feita atrav´es de uma fun¸c˜ao de liga¸c˜ao como visto no MLG usual dado na equa¸c˜ao (3.1).

Seja 𝑙𝑜𝑔(·) a fun¸c˜ao de liga¸c˜ao, 𝛽 = (𝛽0,𝛽1, . . . , 𝛽𝑚) com 𝛽𝑗 = (𝛽𝑗1, . . . ,𝛽𝑗𝑛𝑗) ′ o

vetor de coeficientes de regress˜ao referente ao par^ametro indexado por 𝑗 = 0, 1, . . . , 𝑚. Escreva B = (B0,B1, . . . , B𝑚) onde B𝑖= (B0𝑖,B1𝑖, . . . , B𝑚𝑖)′ ´e conjunto de covari´aveis

referente a unidade amostral 𝑖 = 1, . . . , 𝑁 e B𝑗𝑖= (𝐵𝑗1, . . . ,𝐵𝑗𝑛𝑗) ′

𝑖o vetor de covari´aveis

referente ao par^ametro 𝜆𝑗 para a unidade amostral 𝑖 = 1, . . . ,𝑁 com 𝑛𝑗 o n´umero de

(48)

Cap´ıtulo 4. Modelos para dados multivariados de contagem 28

tem-se que

𝑙𝑜𝑔(𝜆𝑗) = B′𝑗𝛽𝑗, 𝑗 = 0,1, . . . , 𝑚 (4.7)

Note que o MLG ´e referente as vari´aveis aleat´orias (independentes) 𝑋0, 𝑋1, . . . , 𝑋𝑚 e

𝐸[𝑋𝑗|Λ] = 𝜆𝑗 para 𝑗 = 0,1, . . . ,𝑚. Com isto, a fun¸c˜ao de probabilidade conjunta ser´a

dada por 𝑃 (𝑌1= 𝑦1, . . . , 𝑌𝑚= 𝑦𝑚, B|𝛽) = 𝑚𝑖𝑛(𝑦1,...,𝑦𝑚) ∑︁ 𝑥0=0 𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚 = 𝑦𝑚, 𝑋0 = 𝑥0, B|𝛽) = 𝑒𝑥𝑝 ⎧ ⎨ ⎩ − 𝑚 ∑︁ 𝑗=0 𝑒𝑥𝑝{B′𝑗𝛽𝑗} ⎫ ⎬ ⎭ × 𝑚𝑖𝑛(𝑦1,...,𝑦𝑚) ∑︁ 𝑥0=0 (︂ 𝑒𝑥𝑝{B′0𝛽0} 𝑒𝑥𝑝{B′1𝛽1} . . . 𝑒𝑥𝑝{B′ 𝑚𝛽𝑚} )︂𝑥0 × 𝑚𝑖𝑛(𝑦1,...,𝑦𝑚) ∑︁ 𝑥0=0 𝑒𝑥𝑝{B′1𝛽1}𝑦1. . . 𝑒𝑥𝑝{B′ 𝑚𝛽𝑚}𝑦𝑚 (𝑦1− 𝑥0)! . . . (𝑦𝑚− 𝑥0)!𝑥0! (4.8)

Atrav´es do artif´ıcio de aumento de dados, a conjunta pode ser escrita como

𝑃 (𝑌1= 𝑦1, . . . , 𝑌𝑚= 𝑦𝑚, 𝑋0 = x0, B|𝛽) = 𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚 = 𝑦𝑚, B|𝑋0= 𝑥0,𝛽)𝑃 (𝑋0 = 𝑥0|𝛽0) = 𝑒𝑥𝑝 ⎧ ⎨ ⎩ − 𝑚 ∑︁ 𝑗=0 𝑒𝑥𝑝{B′𝑗𝛽𝑗} ⎫ ⎬ ⎭ × (︂ 𝑒𝑥𝑝{B′0𝛽0} 𝑒𝑥𝑝{B′1𝛽1} . . . 𝑒𝑥𝑝{B′ 𝑚𝛽𝑚} )︂𝑥0 × 𝑒𝑥𝑝{B ′ 1𝛽1}𝑦1. . . 𝑒𝑥𝑝{B′𝑚𝛽𝑚}𝑦𝑚 (𝑦1− 𝑥0)! . . . (𝑦𝑚− 𝑥0)!𝑥0! (4.9)

(49)

29 4.3. ZIP multivariado

com a t´ecnica de aumento de dados, ter´a a verossimilhan¸ca dada por

𝑃 (Y = y, B|𝛽) = 𝑁 ∏︁ 𝑖=1 𝑃 (Y𝑖= y𝑖, 𝑋0𝑖= 𝑥0𝑖, B𝑖|𝛽) = 𝑁 ∏︁ 𝑖=1 𝑃 (𝑌1𝑖= 𝑦1𝑖, . . . , 𝑌𝑚𝑖= 𝑦𝑚𝑖,𝑋0𝑖= 𝑥0𝑖, B𝑖|𝛽) = 𝑁 ∏︁ 𝑖=1 ⎡ ⎣𝑒𝑥𝑝 ⎧ ⎨ ⎩ − 𝑚 ∑︁ 𝑗=0 𝑒𝑥𝑝{B′𝑗𝑖𝛽𝑗} ⎫ ⎬ ⎭ × (︂ 𝑒𝑥𝑝{B′0𝑖𝛽0} 𝑒𝑥𝑝{B′1𝑖𝛽1} . . . 𝑒𝑥𝑝{B′ 𝑚𝑖𝛽𝑚} )︂𝑥0𝑖 𝑒𝑥𝑝{B′ 1𝑖𝛽1}𝑦1𝑖...𝑒𝑥𝑝{B ′ 𝑚𝑖𝛽𝑚}𝑦𝑚𝑖 (𝑦1𝑖− 𝑥0𝑖)! . . . (𝑦𝑚𝑖− 𝑥0𝑖)!𝑥0𝑖! ]︃ (4.10)

4.3

ZIP multivariado

Yip (1988) e Heilbron (1994) apresentaram modelos de regress˜ao para dados de con-tagem baseados em misturas de distribui¸c˜oes degeneradas no ponto zero e outras dis-tribui¸c˜oes amostrais, como Binomial Negativa e Poisson. Nesta se¸c˜ao, ser´a adotado o modelo de ZIP multivariado.

A proposta inicial ´e a utiliza¸c˜ao da distribui¸c˜ao de Poisson multivariada no modelo de mistura, assim h´a a necessidade de estender o ZIP usual dado na equa¸c˜ao (3.4) para o ZIP multivariado (m-ZIP), como apresentado nos trabalhos deLi et al.(1999),Arab et al. (2012) eMajumdar and Gries(2010), onde os dois ´ultimos apresentam apenas o ZIP bivariado.

Seja Y = (𝑌1, . . . , 𝑌𝑚)′|(Λ, 𝜋) com distribui¸c˜ao ZIP 𝑚-variado (m-ZIP) com par^

a-metros Λ = {𝜆0, 𝜆1, . . . , 𝜆𝑚} e 𝜋 = (𝜋0, 𝜋1,𝜋2, . . . , 𝜋𝑚, 𝜋𝑚+1)′com 𝜋𝑚+1 = 1−∑︀𝑚𝑗=0𝜋𝑗.

(50)

Cap´ıtulo 4. Modelos para dados multivariados de contagem 30 (𝑌1, . . . , 𝑌𝑚)′|(Λ, 𝜋) ∼ ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ (0,0, . . . , 0) com probabilidade 𝜋0, (𝑃 𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0+ 𝜆1),0, . . . ,0) com probabilidade 𝜋1, (0, 𝑃 𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0+ 𝜆2), . . . , 0) com probabilidade 𝜋2, .. . (0, 0, . . . , 𝑃 𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0+ 𝜆𝑚)) com probabilidade 𝜋𝑚, 𝑚 − 𝑃 𝑜𝑖𝑠𝑠𝑜𝑛(Λ) com probabilidade 𝜋𝑚+1. (4.11)

No entanto, esta proposta ´e um caso particular em que leva em considera¸c˜ao apenas os casos em que todas as vari´aveis, 𝑌1, . . . , 𝑌𝑚, t^em distribui¸c˜ao degenerada no ponto

zero, apenas uma delas tem distribui¸c˜ao Poisson e as restantes s˜ao degeneradas no ponto zero ou as vari´aveis t^em distribui¸c˜ao Poisson multivariada. O caso geral para o caso ZIP 𝑚- variado ´e descrito com(︀𝑚0)︀ +(︀𝑚1)︀ +(︀𝑚2)︀ +. . .+(︀𝑚−1𝑚 )︀ +(︀𝑚𝑚)︀ casos poss´ıveis.

Sabe-se, que, o caso dado na equa¸c˜ao (4.11), embora muito particular, abrange todas as poss´ıveis combina¸c˜oes no caso bivariado. Vale a pena ressaltar que tanto os exemplos simulados e a aplica¸c˜ao aos dados reais do presente trabalho abordar˜ao o ZIP bivariado por ser tratar de dados com estrutura bivariada.

No entanto, para casos com 𝑚 > 2 isto n˜ao ocorre. Todavia, na literatura pesqui-sada, o ZIP multivariado ´e descrito da forma dada na equa¸c˜ao (4.11) mesmo quando exemplificados em casos trivariados como visto emLi et al.(1999).

Como apresentado em Li et al.(1999) a distribui¸c˜ao marginal do ZIP multivariado ´

(51)

31 4.3. ZIP multivariado 𝑌𝑗|(Λ, 𝜋) ∼ ⎧ ⎪ ⎨ ⎪ ⎩ 0 com probabilidade 1 − 𝜋𝑗− 𝜋𝑚+1 𝑃 𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0+ 𝜆𝑗) com probabilidade 𝜋𝑗+ 𝜋𝑚+1 (4.12) com 𝐸(𝑌𝑗) = (𝜋𝑗+ 𝜋𝑚+1)(𝜆0+ 𝜆𝑗) e 𝑉 𝑎𝑟(𝑌𝑗) = (𝜋𝑗 + 𝜋𝑚+1)(𝜆0+ 𝜆𝑗)[1 + (1 − 𝜋𝑗 −

𝜋𝑚+1)(𝜆0+ 𝜆𝑗)] para 𝑗 = 1, . . . , 𝑚. Note que 𝐸(𝑌𝑗) < 𝑉 𝑎𝑟(𝑌𝑗) e a covari^ancia entre

𝑌𝑗 e 𝑌𝑘 ´e dada por 𝐶𝑜𝑣(𝑌𝑗,𝑌𝑘) = ⎧ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎩ (𝜋𝑗+ 𝜋𝑚+1)(𝜆0+ 𝜆𝑗)[1 + (1 − 𝜋𝑗− 𝜋𝑚+1)(𝜆0+ 𝜆𝑗)] se 𝑗 = 𝑘 𝜆0𝜋𝑚+1[1 + 𝜆0(1 − 𝜋𝑚+1)] se 𝑗 ̸= 𝑘 (4.13) Equivalentemente ao ZIP usual, dado na equa¸c˜ao (3.4), o 𝑚 − 𝑍𝐼𝑃 (Λ,𝜋) pode ser escrito como 𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚= 𝑦𝑚|Λ, 𝜋) = 𝜋0𝑓1(𝑦1, . . . ,𝑦𝑚) + 𝜋1𝑓2(𝑦1|𝜆0+ 𝜆1) + 𝜋2𝑓2(𝑦2|𝜆0+ 𝜆2) + . . . + 𝜋𝑚𝑓2(𝑦𝑚|𝜆0+ 𝜆𝑚) + 𝜋𝑚+1𝑓3(𝑦1, . . . ,𝑦𝑚|Λ) (4.14) onde 𝑓1(𝑦1, . . . ,𝑦𝑚) = ⎧ ⎪ ⎨ ⎪ ⎩ 1 se 𝑦1= 𝑦2= . . . = 𝑦𝑚= 0,

0 caso 𝑦𝑗 ̸= 0 para algum 𝑗 = 1, . . . , 𝑚

(4.15)

e 𝑓2(·) ´e a fun¸c˜ao de probabilidade da Poisson univariada, 𝑓3(·) a fun¸c˜ao da Poisson

multivariada, 𝑦1, . . . ,𝑦𝑚∈ {0,1, . . .} e 𝜋𝑗 ´e uma propor¸c˜ao de mistura com as restri¸c˜oes

(52)

Cap´ıtulo 4. Modelos para dados multivariados de contagem 32

Uma forma de simplificar o emprego do ZIP, tanto usual quanto multivariado, na modelagem, ´e utilizar o artif´ıcio de aumento de dados. Defina a vari´avel auxiliar W = (𝑊0,𝑊1, . . . ,𝑊𝑚+1)′ e fa¸ca as seguintes analogias:

W = (1,0, . . . ,0,0)′ ⇒ (𝑌1, . . . ,𝑌𝑚)′ ∼ (0,0, . . . ,0) W = (0,1, . . . ,0,0)′ ⇒ (𝑌1, . . . ,𝑌𝑚)′ ∼ (𝑃 𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0+ 𝜆1),0, . . . ,0) .. . W = (0,0, . . . ,1,0)′ ⇒ (𝑌1, . . . ,𝑌𝑚)′ ∼ (0,0, . . . ,𝑃 𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0+ 𝜆𝑚)) W = (0,0, . . . ,0,1)′ ⇒ (𝑌1, . . . ,𝑌𝑚)′ ∼ 𝑚 − 𝑃 𝑜𝑖𝑠𝑠𝑜𝑛(Λ).

Com isto, a conjunta do modelo ZIP multivariado pode ser escrita como

𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚 = 𝑦𝑚,W = w|Λ) = 𝑓1(𝑦1, . . . ,𝑦𝑚)𝑤0

× 𝑓2(𝑦1|𝜆0+ 𝜆1)𝑤1. . . 𝑓2(𝑦𝑚|𝜆0+ 𝜆𝑚)𝑤𝑚

× 𝑓3(𝑦1, . . . ,𝑦𝑚|Λ)𝑤𝑚+1 (4.16)

Ent˜ao, a verossimilhan¸ca para o modelo ZIP multivariado (m-ZIP) pode ser escrita como

(53)

33 4.3. ZIP multivariado 𝑃 (Y = y, W = w|Λ) = 𝑁 ∏︁ 𝑖=1 𝑚𝑖𝑛(𝑦1𝑖,...,𝑦𝑚𝑖) ∑︁ 𝑥0𝑖=0 𝑃 (Y𝑖= y𝑖, 𝑋0𝑖= 𝑥0𝑖, W𝑖 = w𝑖|Λ) = 𝑁 ∏︁ 𝑖=1 𝑚𝑖𝑛(𝑦1𝑖,...,𝑦𝑚𝑖) ∑︁ 𝑥0𝑖=0 𝑃 (𝑌1𝑖= 𝑦1𝑖, . . . , 𝑌𝑚𝑖= 𝑦𝑚𝑖, 𝑋0𝑖= 𝑥0𝑖, W𝑖 = w𝑖|Λ) = 𝑁 ∏︁ 𝑖=1 [𝑓1(𝑦1𝑖, . . . , 𝑦𝑚𝑖)𝑤0𝑖 × 𝑓2(𝑦1𝑖|𝜆0+ 𝜆1)𝑤1𝑖. . . 𝑓2(𝑦𝑚𝑖|𝜆0+ 𝜆𝑚)𝑤𝑚𝑖 × 𝑓3(𝑦1𝑖, . . . , 𝑦𝑚𝑖|Λ)𝑤(𝑚+1)𝑖] (4.17)

onde, para 𝑖 = 1, . . . , 𝑁 , 𝑓1(𝑦1𝑖, . . . , 𝑦𝑚𝑖) ´e dada na equa¸c˜ao (4.15) e

𝑓2(𝑦𝑗𝑖|𝜆0+ 𝜆𝑗) = 𝑒𝑥𝑝{−(𝜆0+ 𝜆𝑗)} (𝜆0+ 𝜆𝑗)𝑦𝑗𝑖 𝑦𝑗𝑖! , 𝑗 = 1, . . . , 𝑚 (4.18) 𝑓3(𝑦1𝑖, . . . , 𝑦𝑚𝑖|Λ) = 𝑚𝑖𝑛(𝑦1𝑖,...,𝑦𝑚𝑖) ∑︁ 𝑥0𝑖=0 𝑃 (𝑌1𝑖= 𝑦1𝑖, . . . , 𝑌𝑚𝑖= 𝑦𝑚𝑖,𝑋0𝑖= 𝑥0𝑖|Λ) = 𝑒−(𝜆0+𝜆1+...+𝜆𝑚) 𝑚𝑖𝑛(𝑦1𝑖,...,𝑦𝑚𝑖) ∑︁ 𝑥0𝑖=0 [︂(︂ 𝜆0 𝜆1. . . 𝜆𝑚 )︂𝑥0𝑖 × 𝜆 𝑦1𝑖 1 . . . 𝜆 𝑦𝑚𝑖 𝑚 (𝑦1𝑖− 𝑥0𝑖)! . . . (𝑦𝑚𝑖− 𝑥0𝑖)!𝑥0𝑖! ]︂ (4.19)

Como dito anteriormente, o presente trabalho prop˜oe como forma de avalia¸c˜ao da distribui¸c˜ao conjunta de (𝑌1, . . . ,𝑌𝑚)′|Λ o artif´ıcio de aumento de dados tanto no ZIP

multivariado como na fun¸c˜ao de distribui¸c˜ao da Poisson multivariada. Isto ´e, incluir W e tratar a vari´avel 𝑋0 como uma vari´avel latente, respectivamente. Assim, as fun¸c˜oes

(54)

Cap´ıtulo 4. Modelos para dados multivariados de contagem 34

seguir ou mais detalhadas no Ap^endiceA.

(i) 𝑓2⋆(𝑦𝑗− 𝑥0|Λ) com 𝑃 (Y−𝑗 = 0|Λ) = 1 ⇒ 𝑃 (X−𝑗 = 0|Λ) = 1. 𝑓2⋆(𝑦𝑗− 𝑥0|Λ) = 𝑃 (𝑌1= 0, . . . , 𝑌𝑗 = 𝑦𝑗, . . . , 𝑌𝑚= 0, 𝑋0 = 0|Λ) = 𝑃 (𝑋1= 0|𝜆1) . . . 𝑃 (𝑋𝑗 = 𝑦𝑗− 0|𝜆𝑗) . . . 𝑃 (𝑌𝑚 = 0|𝜆𝑚)𝑃 (𝑋0 = 𝑥0|𝜆0) = 1 × . . .𝜆 𝑦𝑗 𝑗 𝑒−𝜆𝑗 (𝑦𝑗)! × . . . × 1 (4.20) onde Y−𝑗 = (𝑌1, . . . , 𝑌𝑗−1, 𝑌𝑗+1, . . . , 𝑌𝑚) e X−𝑗 = (𝑋0, 𝑋1, . . . , 𝑋𝑗−1, 𝑋𝑗+1, . . . , 𝑋𝑚). (ii) 𝑓3⋆(𝑦1− 𝑥0, . . . , 𝑦𝑚− 𝑥0|Λ) 𝑓3⋆(𝑦1− 𝑥0, . . . , 𝑦𝑚− 𝑥0|Λ) = 𝑃 (𝑌1 = 𝑦1, . . . , 𝑌𝑚 = 𝑦𝑚, 𝑋0= 𝑥0|Λ) = 𝜆 𝑦1−𝑥0 1 𝑒−𝜆1 (𝑦1− 𝑥0)! . . .𝜆 𝑦𝑚−𝑥0 𝑚 𝑒−𝜆𝑚 (𝑦𝑚− 𝑥0)! 𝜆𝑥0 0 𝑒−𝜆0 𝑥0! = 𝑒−(𝜆0+𝜆1+...+𝜆𝑚) (︂ 𝜆0 𝜆1. . . 𝜆𝑚 )︂𝑥0 𝜆𝑦1 1 . . . 𝜆 𝑦𝑚 𝑚 (𝑦1− 𝑥0)! . . . (𝑦𝑚− 𝑥0)!𝑥0! (4.21)

Assim sendo, a verossimilhan¸ca com a t´ecnica de aumento de dados tanto no ZIP multivariado como na Poisson multivariada, para o modelo ZIP multivariado, ser´a dada por

(55)

35 4.4. Regress˜ao ZIP multivariado 𝑃 (Y = y, X0= x0, W = W|Λ) = 𝑁 ∏︁ 𝑖=1 𝑃 (Y𝑖 = y𝑖, X0𝑖= x0𝑖, W𝑖= w𝑖|Λ) = 𝑁 ∏︁ 𝑖=1 𝑃 (𝑌1𝑖= 𝑦1𝑖, . . . , 𝑌𝑚𝑖= 𝑦𝑚𝑖, 𝑋0𝑖= 𝑥0𝑖, W𝑖= w𝑖|Λ) = 𝑁 ∏︁ 𝑖=1 [𝑓2⋆(𝑦1𝑖− 𝑥0𝑖|Λ)𝑤1𝑖. . . 𝑓2⋆(𝑦𝑚𝑖− 𝑥0𝑖|Λ)𝑤𝑚𝑖 × 𝑓3⋆(𝑦1𝑖− 𝑥0𝑖, . . . , 𝑦𝑚𝑖− 𝑥0𝑖|Λ)𝑤(𝑚+1)𝑖] (4.22)

4.4

Regress˜

ao ZIP multivariado

Seja (𝑌1𝑖, . . . , 𝑌𝑚𝑖)′|(Λ𝑖,𝜋𝑖) ∼ 𝑚 − 𝑃 𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0𝑖, 𝜆1𝑖, . . . , 𝜆𝑚𝑖, 𝜋0𝑖, 𝜋1𝑖, 𝜋2𝑖, . . . , 𝜋(𝑚+1)𝑖)

mutuamente independentes com as restri¸c˜oes 0 ≤ 𝜋𝑗𝑖≤ 1 para 𝑗 = 0,1,2, . . . ,(𝑚 + 1) e

𝜋(𝑚+1)𝑖= 1 −∑︀𝑚

𝑗=0𝜋𝑗𝑖 para 𝑖 = 1, . . . , 𝑁 . Sendo assim, pode-se escrever

(𝑌1𝑖, . . . ,𝑌𝑚𝑖)′|(Λ𝑖, 𝜋𝑖) ∼ ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ (0,0, . . . ,0) com probabilidade 𝜋0𝑖, (𝑃 𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0𝑖+ 𝜆1𝑖),0 . . . ,0) com probabilidade 𝜋1𝑖, (0, 𝑃 𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0𝑖+ 𝜆2𝑖), . . . ,0) com probabilidade 𝜋2𝑖, .. . (0, 0, . . . , 𝑃 𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0𝑖+ 𝜆𝑚𝑖)) com probabilidade 𝜋𝑚𝑖, 𝑚 − 𝑃 𝑜𝑖𝑠𝑠𝑜𝑛(𝜆0𝑖, 𝜆1𝑖, . . . ,𝜆𝑚𝑖) com probabilidade 𝜋(𝑚+1)𝑖. (4.23) Note que a diferen¸ca entre esta defini¸c˜ao e a dada na equa¸c˜ao (4.11) ´e que agora tanto as taxas 𝜆’s como as propor¸c˜oes de zero 𝜋 ser˜ao fun¸c˜oes de covari´aveis, sendo

Referências

Documentos relacionados

4 RESULTADOS E DISCUSSÃO 4.1 Caracterização da cobertura florestal e da biodiversidade vegetal no entorno dos cultivos de tomate na região de Apiaí-SP a Módulos

O universo da pesquisa abordou o público-alvo do produto em questão, jovens de uma determinada região, como sendo os consumidores finais do produto. Entretanto, sabe-se que

Neste tipo de situações, os valores da propriedade cuisine da classe Restaurant deixam de ser apenas “valores” sem semântica a apresentar (possivelmente) numa caixa

Posteriormente, em Junho de 1999, ingressei no grupo Efacec, onde fui responsável pela elaboração de projetos e propostas para a construção de Estações de Tratamento

3.40 Evolução da velocidade: à esquerda encontra-se a solução exata de referência e à direita a solução obtida pelo Método de Godunov com o resolucionador de problemas de

(grifos nossos). b) Em observância ao princípio da impessoalidade, a Administração não pode atuar com vistas a prejudicar ou beneficiar pessoas determinadas, vez que é

Este trabalho buscou, através de pesquisa de campo, estudar o efeito de diferentes alternativas de adubações de cobertura, quanto ao tipo de adubo e época de

● Caracterizar, por meio de análises físico-químicas, os subprodutos,milhocina, soro de leite e efluente da produção de ração animal; ● Definir, por meio do planejamento