• Nenhum resultado encontrado

Modelagem e Estimação dos Parâmetros para um Processo de Poisson não-homogêneo.

N/A
N/A
Protected

Academic year: 2021

Share "Modelagem e Estimação dos Parâmetros para um Processo de Poisson não-homogêneo."

Copied!
52
0
0

Texto

(1)

Universidade Federal Fluminense Instituto de Matem´atica e Estat´ıstica

Curso de Estat´ıstica

Vanessa Chaffin

Modelagem e Estima¸

ao dos Parˆ

ametros para um Processo de

Poisson n˜

ao-homogˆ

eneo.

Niter´oi 2013

(2)

Vanessa Chaffin

Modelagem e Estima¸

ao dos Parˆ

ametros para um Processo de

Poisson n˜

ao-homogˆ

eneo.

Monografia apresentada ao Curso de Estat´ıstica da UFF, como requisito para a obten¸c˜ao do grau de BACHAREL em Estat´ıstica.

Orientadora: Jessica Kubrusly

.

Niter´oi 2013

(3)

Vanessa Chaffin

Modelagem e Estima¸

ao dos Parˆ

ametros para um Processo de

Poisson n˜

ao-homogˆ

eneo.

Monografia apresentada ao Curso de Estat´ıstica da UFF, como requisito para a obten¸c˜ao do grau de BACHAREL em Estat´ıstica. Aprovado em Mar¸co de 2013

BANCA EXAMINADORA

Jessica Kubrusly . Adrian Pizzinga . M´arcia de Carvalho .

(4)

Chaffin, Vanessa da Silva

Modelagem e estimação dos parâmetros para um processo de Poisson não-homogêneo / Vanessa da Silva Chaffin; Jessica Quintanilha Kubrusly, orientadora. Niterói, 2012.

52 f. : il.

Trabalho de Conclusão de Curso (Graduação em

Estatísticaa ) – Universidade Federal Fluminense, Instituto de Matemática e Estatística, Niterói, 2012.

1. Processo de Poisson homogêneo e não homogêneo. 2.

Regressão de Poisson. I. Kubrusly, Jessica Quintanilha,

orientadora. II. Universidade Federal Fluminense. Instituto

de Matemática e Estatística. III. Título.

(5)

-`

A Deus por tudo o que me proporciona na vida. Aos meus pais, os quais amo muito, pela f´e e confian¸ca demonstrada. Aos meus irm˜aos por tudo o que me ajudaram at´e hoje. Ao meu es-poso pelo carinho, compreens˜ao e companhei-rismo.

(6)

Resumo

Para modelar um sistema de chegadas de usu´arios em um sistema de filas ´e preciso co-nhecer o processo de chegada desses usu´arios. Neste trabalho estamos supondo que as chegadas obedecem um processo de Poisson n˜ao-homogˆeneo, ou seja, o n´umero de che-gadas em cada unidade de tempo ´e uma vari´avel aleat´oria independente de Poisson cuja m´edia varia ao longo do tempo. Sup˜oe-se tamb´em que existem intervalos I conhecidos dentro dos quais as chegadas seguem um comportamento semelhante.

Dentro de cada intervalo I a m´edia do n´umero de chegadas ser´a modelada de duas maneiras diferentes: seguindo um modelo linear, isto ´e λ(t) = at + b, ou exponencial, λ(t) = eat+b. Para cada um dos modelos ser´a apresentado como estimar os valores dos

parˆametros a e b em cada intervalo I, assim como as an´alises a serem feitas para verificar se a modelagem escolhida ´e adequada.

Para testar a metodologia apresentada foram considerados dois conjuntos de dados. O primeiro se refere a dados sint´eticos, gerados para este trabalho, que segue um modelo linear. O segundo se refere a dados reais que representam os instantes de cadastros de usu´arios pelo site da Amazon.

Palavras-chaves: Processo de Poisson Homogˆeneo e n˜ao Homogˆeneo, Regress˜ao de Pois-son.

(7)

Agradecimentos

Primeiramente a Deus que iluminou o meu caminho durante esta caminhada.

Aos meus pais, em especial minha m˜aezinha que com muito carinho e dedica¸c˜ao n˜ao mediu esfor¸cos para que eu chegasse at´e esta etapa da minha vida. M˜ae, obrigada por tudo! Vocˆe merece mais do que eu.

Aos meus irm˜aos Alessandra e Raphael por serem meus amigos, companheiros e por acreditarem em mim. Amo vocˆes demais!

Ao meu esposo Henrique, que de forma especial me deu for¸ca e coragem. Obri-gada pelo carinho, paciˆencia e por sua capacidade de sempre me deixar tranquila na correria de cada semestre.

`

A minha orientadora J´essica Kubrusly pela enorme paciˆencia, dedica¸c˜ao e empenho nesses meses de trabalho. O meu muito obrigada por estar sempre disposta a me ajudar.

`

A todos os amigos e familiares que compartilharam da minha caminhada e aqueles que mesmo distantes torceram por mim.

Um agradecimento a todos os professores, amigos e colegas que contribuiram para o meu aprendizado e foram importantes na minha vida acadˆemica.

(8)

Sum´

ario

Lista de Figuras 6 Lista de Tabelas 7 1 Introdu¸c˜ao 8 2 Processo de Poisson 10 2.1 Distribui¸c˜ao de Poisson . . . 10 2.2 Distribui¸c˜ao Exponencial . . . 11

2.3 Processos de Poisson Homogˆeneos . . . 13

2.4 Processos de Poisson N˜ao-Homogˆeneos . . . 14

3 Regress˜ao de Poisson 16 3.1 Modelo de Regress˜ao . . . 16

3.2 Estimativa dos Parˆametros . . . 18

3.2.1 M´axima Verossimilhan¸ca . . . 18 3.2.2 M´ınimos Quadrados . . . 20 3.2.3 Estimadores e Nota¸c˜ao . . . 22 3.3 Ajuste do Modelo . . . 22 3.3.1 Res´ıduos . . . 22 3.3.2 Pontos de Alavanca . . . 24 3.3.3 Pontos Influentes . . . 25

3.3.4 Gr´aficos de Diagn´ostico . . . 25

(9)

4.1 Dados Sint´eticos . . . 27

4.2 Estimativa dos parˆametros e ajuste do modelo . . . 29

4.3 Coment´arios sobre o modelo ajustado . . . 30

5 Modelagem com Dados Reais 35 5.1 Dados Reais . . . 35

5.2 Estimativa dos parˆametros e ajuste do modelo . . . 37

5.2.1 Modelo Inicial . . . 37

5.2.2 Modelo Final . . . 38

5.3 Coment´arios sobre o modelo ajustado . . . 40

6 Conclus˜ao 46

(10)

Lista de Figuras

4.1 Gr´afico da Taxa de chegada para os dados simulados . . . 28

4.2 Gr´aficos de Diagn´ostico para o Intervalo 1 - dados sint´eticos . . . 31

4.3 Gr´aficos de Diagn´ostico para o Intervalo 2 - dados sint´eticos . . . 32

4.4 Gr´aficos de Diagn´ostico para o Intervalo 3 - dados sint´eticos . . . 33

4.5 Gr´aficos de Diagn´ostico para o Intervalo 4 - dados sint´eticos . . . 34

5.1 N´umero m´edio de cadastros ao longo do dia . . . 36

5.2 Gr´aficos de Diagn´ostico para o Intervalo 1 - dados reais . . . 39

5.3 Gr´aficos de Diagn´ostico para o Intervalo 2 - dados reais . . . 40

5.4 Gr´aficos de Diagn´ostico para o Intervalo 3 - dados reais . . . 41

5.5 Gr´aficos de Diagn´ostico para o Intervalo 1 - dados reais . . . 43

5.6 Gr´aficos de Diagn´ostico para o Intervalo 2 - dados reais . . . 44

(11)

Lista de Tabelas

4.1 Estimativas dos parˆametros em cada intervalo I para os dados sint´eticos . 30 4.2 Fun¸c˜ao Desvio em cada intervalo I para os dados sint´eticos . . . 30

5.1 Estimativas e p-valores dos parˆametros para o intervalo 1 - dados reais . . 37 5.2 Estimativas e p-valores dos parˆametros para o intervalo 2 - dados reais . . 37 5.3 Estimativas e p-valores dos parˆametros para o intervalo 3 - dados reais . . 38 5.4 Fun¸c˜ao Desvio em cada intervalo I para os dados reais . . . 38 5.5 Estimativas e p-valores finais dos parˆametros para o intervalo 1 - dados reais 38 5.6 Estimativas e p-valores finais dos parˆametros para o intervalo 2 - dados reais 42 5.7 Estimativas e p-valores finais dos parˆametros para o intervalo 3 - dados reais 42 5.8 Fun¸c˜ao Desvio final em cada intervalo I para os dados reais . . . 42

(12)

8

1 Introdu¸

ao

Para estudar sistemas complexos geralmente se recorre a t´ecnica de simula¸c˜ao, ou seja, esse sistema ´e simulado a partir de um programa de computador e os cen´arios gerados pela simula¸c˜ao analisados. Como exemplo de sistemas podem ser citados um sistema de filas, um elevador, um estoque, entre outros. Em todos esses sistemas usu´arios ou mercadorias chegam em momentos desconhecidos, ou seja, os instantes de chegadas ou a demanda deve ser considerada como um processo estoc´astico de forma a tornar a simula¸c˜ao mais perto da realidade.

Dessa forma, para realizar uma simula¸c˜ao de um sistema complexo, antes da simula¸c˜ao propriamente dita, ´e preciso estudar o comportamento do processo que define as chegadas dos usu´arios ou mercadorias. Ou seja, ´e preciso recolher uma amostra com os instantes de chegadas em diversos dias e a partir dessa amostra modelar e estimar os parˆametros que definem o processo em quest˜ao.

´

E muito comum utilizar o Processos de Poisson para modelar os instantes de chegadas de usu´arios em um sistema. Mas para que a simula¸c˜ao retrate razoavelmente o cen´ario real ´e preciso considerar que o n´umero m´edio de chegadas varia ao longo do dia, ou seja, ´e preciso considerar que o Processo de Poisson ´e n˜ao-homogˆeneo, o que dificulta um pouco a modelagem e estima¸c˜ao dos parˆametros.

O objetivo deste trabalho ´e modelar os instantes de chegadas ao longo do dia a partir de um Processo de Poisson n˜ao-homogˆeneo. Para isso ser´a considerado que existem intervalos de tempo conhecidos dentro dos quais o comportamento das chegadas ´

e semelhante. Ou seja, o dia ser´a particionado em intervalos, por exemplo manh˜a, tarde e noite, e a modelagem e estima¸c˜ao dos parˆametros ser´a feita dentro de cada intervalo.

A id´eia inicial era considerar que dentro de cada intervalo a taxa de chegada crescia, ou decrescia, de forma linear. Mas esse modelo nem sempre ´e o mais apropriado, por exemplo ela pode gerar taxas m´edias negativas, o que n˜ao ´e admitido. Por isso al´em da modelagem linear tamb´em ser´a considerada que dentro de cada intervalo a taxa de chegada cresce, ou decresce, de forma exponencial. Para cada um dos dois modelos ser´a usado a Regress˜ao de Poisson, veja [1], a fim de encontrar estimativas para os parˆametros

(13)

1 Introdu¸c˜ao 9 em quest˜ao.

No Cap´ıtulo 2 ser˜ao definidos os processos de Poisson homogˆeneo e n˜ ao-homogˆeneo. Em seguida no Cap´ıtulo 3 ser´a apresentado a metodologia referente `a Re-gress˜ao de Poisson, assim como as as estimativas dos parˆametros e o ajuste do modelo. Uma descri¸c˜ao detalhada da modelagem com dados sint´eticos ´e apresentada no Cap´ıtulo 4. J´a a modelagem com dados reais ser´a feita no Cap´ıtulo 5, onde os dados representam os instantes de cadastros de usu´arios no site da Amazon disponibilizados gratuitamente pela Universidade da Calif´ornia de Irvine. A conclus˜ao final ser´a apresentada no Cap´ıtulo 6.

(14)

10

2 Processo de Poisson

Neste cap´ıtulo vamos estudar uma classe particular de processos estoc´asticos em tempo cont´ınuo, chamado processo de Poisson. Nas se¸c˜oes 2.1.1 e 2.1.2 ser˜ao apresentadas a distribui¸c˜ao de Poisson e a distribui¸c˜ao Exponencial e nas se¸c˜oes 2.1.3 e 2.1.4 ser´a definido o processo de Poisson.

2.1

Distribui¸

ao de Poisson

Uma vari´avel aleat´oria discreta Y tem distribui¸c˜ao de Poisson com parˆametro λ, λ > 0 se a sua distribui¸c˜ao de probabilidade ´e definida por:

pY(y) = P (Y = y) =

e−λλy

y! y = 0, 1, 2, . . . (2.1)

A fun¸c˜ao de distribui¸c˜ao acumulada F , que representa a probabilidade de que a vari´avel aleat´oria Y assuma um valor inferior ou igual a y, n˜ao tem forma fechada e ´e definida por: F (y) = P {Y ≤ y} = y X i=0 e−λλi i! , y < 0, y ≥ 0 (2.2)

O valor esperado de uma vari´avel aleat´oria Y de Poisson ´e dado por: E[Y ] = ∞ X y=0 ypY(y) = ∞ X y=1 ye −λλy y! = ∞ X y=1 y e −λλy y(y − 1)! = λe −λ ∞ X y=1 λy−1 (y − 1)! Seja t = y − 1 E[Y ] = λe−λ ∞ X t=0 λt t!

Sabemos pela expans˜ao em s´erie de Taylor que a fun¸c˜ao exponencial pode ser escrita por ex =

P

i=0 xi

(15)

2.2 Distribui¸c˜ao Exponencial 11 como no primeiro exemplo de s´eries de potˆencia do livro do Elon [3]. Logo,

E[Y ] = λe−λeλ = λ

Calculando E[Y2], temos:

E[Y2] = ∞ X y=0 y2e −λλy y! = λ ∞ X y=0 ye −λλy−1 (y − 1)! Seja t = y − 1 E[Y2] = λ ∞ X t=0 (t + 1)e−λλt t! = λ " X t=0 te−λλt t! + ∞ X t=0 e−λλt t! # = λ(λ + 1)

V ar[Y ] = E[Y2] − (E[Y ])2 = λ2+ λ − λ2 = λ

2.2

Distribui¸

ao Exponencial

Seja X uma vari´avel aleat´oria cont´ınua. Dizemos que X tem distribui¸c˜ao exponencial com parˆametro λ, λ > 0, se sua fun¸c˜ao densidade de probabilidade ´e dada por:

f (x) = λe−λx, 0 < x < ∞ (2.3)

A fun¸c˜ao de distribui¸c˜ao acumulada F , ou simplesmente fun¸c˜ao de distribu¸c˜ao, ´ e definida por: F (x) = P (X ≤ x) = x Z 0 λe−λxdx = 1 − e−λx, 0 < x < ∞ (2.4)

O valor esperado e a variˆancia de X ∼ Exp(λ) s˜ao definidos por:

E(X) = ∞ Z −∞ xf (x)dx = ∞ Z 0 xλe−λxdx = −xe−λx|∞ 0 + ∞ Z 0 e−λxdx = 0 − e −λx λ | ∞ 0 = 1 λ

(16)

2.2 Distribui¸c˜ao Exponencial 12

Calculando E(X2), temos:

E(X2) = ∞ Z 0 x2λe−λxdx = −x2e−λx|∞0 + ∞ Z 0 e−λx2xdx = 2 λ ∞ Z 0 xλe−λxdx = 2 λE(X) = 2 λ2

V ar(X) = E(X2) − (E(X))2 = 2 λ2 −

1 λ2 =

1 λ2

Propriedade da Distribui¸

ao Exponencial

Dizemos que uma vari´avel aleat´oria n˜ao negativa ´e sem mem´oria se:

P {X > s + t|X > t} = P {X > s} ∀s, t ≥ 0 (2.5) Existem diversas aplica¸c˜oes desse conceito, como por exemplo, se temos a vari´avel X como sendo o tempo de vida ´util de algum instrumento, ´e natural pensar que a probabilidade do instrumento durar por pelo menos s + t horas, dado que ele j´a tenha durado t horas, ´e igual `a probabilidade inicial de que ele dure por pelo menos s horas. Ou seja, ´e como se o instrumento n˜ao se “lembrasse”de que j´a tenha sido usado por um tempo t.

Observe que a equa¸c˜ao 2.5 ´e equivalente a: P {X > s + t, X > t}

P {X > t} = P {X > s} ou

P {X > s + t} = P {X > s}P {X > t} (2.6) Veja que a equa¸c˜ao 2.6 ´e satisfeita quando X ´e exponencialmente distribu´ıdo, uma vez que P (X > s+t) = 1−F (s+t) = e−λ(s+t)e P (X > s)P (X > t) = (e−λs)(e−λt) =

e−λ(s+t).

Ent˜ao temos que as vari´aveis aleat´orias exponencialmente distribu´ıdas s˜ao sem mem´oria.

(17)

2.3 Processos de Poisson Homogˆeneos 13

2.3

Processos de Poisson Homogˆ

eneos

Vamos considerar uma sequˆencia de eventos ocorrendo aleatoriamente ao longo do tempo a partir de um instante inicial t = 0 e que N (t) represente o n´umero de eventos ocorridos no intervalo [0, t]. Sejam os tempos t1, t2, ..., tn tais que ti ´e o instante de ocorrˆencia do

i-´esimo evento. Dizemos que este evento ocorre de acordo com um processo de Poisson homogˆeneo com taxa λ, λ > 0, quando N (t) satisfaz as seguintes condi¸c˜oes:

(i) N (0) = 0

(ii) O n´umero de eventos ocorridos em intervalos disjuntos s˜ao vari´aveis aleat´orias independentes. Ou seja,

N (tn) − N (tn−1), ..., N (t2) − N (t1), N (t1) − N (0)

s˜ao vari´aveis aleat´orias independentes qualquer que sejam 0 < t1 < ... < tn.

(iii) O n´umero de ocorrˆencias em um intervalo de tamanho h ´e uma vari´avel aleat´oria com distribui¸c˜ao de Poisson com taxa λh, qualquer que seja a localiza¸c˜ao desse intervalo, ou seja para quaisquer t > 0 e h > 0,

P {N (t + h) − N (t) = k} = (λh)

ke−λh

k! , para k = 0, 1, 2, 3...

A taxa de ocorrˆencias λ em um processo de Poisson homogˆeneo representa o n´umero m´edio de ocorrˆencias em um intervalo de tamanho unit´ario, independente da sua localiza¸c˜ao no tempo.

A defini¸c˜ao apresentada acima foi retirada do livro do Ross [4]. Esta defini¸c˜ao tamb´em pode ser verificada no livro do Karlin e Taylor [5].

Distribui¸

oes Associadas ao Processo de Poisson

Seja N (t), o n´umero de ocorrˆencias no intervalo [0, t]. Suponha que os eventos ocorram de acordo com um processo de Poisson, ent˜ao N (t) ∼ P oisson(λt).

Seja T1 uma vari´avel aleat´oria que representa o instante de ocorrˆencia do

pri-meiro evento. Para encontrar a distribui¸c˜ao acumulada da vari´avel aleat´oria T1 basta

(18)

2.4 Processos de Poisson N˜ao-Homogˆeneos 14 ocorre depois do instante t, isto ´e T1 > t, se e somente se, nenhum evento ocorreu no

intervalo [0, t]. Ou seja, P (T1 > t) = P (N (t) = 0) = (λt)0e−λt 0! = e −λt Logo, FT1(t) = P (T1 6 t) = 1 − P (T1 > t) = 1 − P (N (t) = 0) = 1 − e −λt

Assim podemos concluir que a vari´avel aleat´oria T1 tem distribui¸c˜ao

exponen-cial com parˆametro λ.

Esse resultado ´e um caso particular do teorema apresentado a seguir, que est´a enunciado e demonstrado no livro de Taylor e Karlin [5].

Teorema 2.3.1 Suponha que “eventos”ocorram de acordo com um processo de Poisson. Seja Tn o instante da n-´esima ocorrˆencia e Sn = Tn+1− Tn o tempo entre a n-´esima e

(n + 1)-´esima ocorrˆencia, para n > 1. Para n = 0, considere S0 = T1.

(i) As vari´aveis aleat´orias S0, S1, ..., Sn−1 s˜ao independentes;

(ii) Cada Si tem distribui¸c˜ao exponencial com parˆametro λ, ou seja, fSi(s) =

λe−λs, s > 0

Dessa maneira podemos dizer que um Processo de Poisson se caracteriza tanto pelo fato do n´umero de ocorrˆencias em um intervalo de tempo seguir uma distribui¸c˜ao de Poisson, quanto pelo fato do tempo entre as ocorrˆencias consecutivas seguirem uma distribui¸c˜ao exponencial. As duas afirma¸c˜oes s˜ao equivalentes, como enunciado acima.

2.4

Processos de Poisson N˜

ao-Homogˆ

eneos

Dizemos que um processo de Poisson ´e n˜ao-homogˆeneo com fun¸c˜ao de intensidade λ, λ(t) > 0 ∀t > 0, quando o n´umero de ocorrˆencias no intervalo [0, t], denominado N (t),

(19)

2.4 Processos de Poisson N˜ao-Homogˆeneos 15 satisfaz as seguintes condi¸c˜oes, como pode ser verificado nos livros, do Ross [4] e de Taylor e Karlin [5]:

(i) N (0) = 0

(ii) O n´umero de eventos ocorridos em intervalos disjuntos s˜ao vari´aveis aleat´orias independentes.

(iii) P {N (t+h)−N (t)=1}h −→h→0 λ(t)

(iv) P {N (t+h)−N (t)≥2}h −→h→0 0

Nesse caso, o n´umero m´edio de ocorrˆencias no intervalo de tamanho unit´ario depende da localiza¸c˜ao do intervalo. Essa dependencia pode ser claramente verificada na defini¸c˜ao do n´umero m´edio de ocorrˆencias no intervalo [0, t]:

E[N (t)] =

t

Z

0

(20)

16

3 Regress˜

ao de Poisson

Como j´a foi comentado no Cap´ıtulo 1, o objetivo desse trabalho ´e modelar a fun¸c˜ao de intensidade λ de um processo de Poisson n˜ao-homogˆeneo. Para isso estamos supondo dispor de uma amostra com os instantes de ocorrˆencia de eventos, em que vamos cham´a-la de T

e

= (T1, T2, . . . , TN).

A partir dessa amostra ´e poss´ıvel contar o n´umero de ocorrˆencias em um intervalo pequeno e assim criar uma outra amostra Y

e

= (Y1, . . . , Yn), onde Yi = n´umero

de ocorrˆencias dentro do intervalo i.

J´a foi visto no cap´ıtulo 2 que Yi ∼ P oisson(λ(Xi)), onde podemos supor Xi ser

o ponto m´edio do intervalo i. Dessa forma, para modelar a taxa λ ser´a usada a Regress˜ao de Poisson.

A regress˜ao de Poisson ´e uma forma de an´alise de regress˜ao usada para modelar dados de contagem, como pode ser visto em alguns livros de modelos lineares generaliza-dos, por exemplo Dobson [2], Neter et al. [1], Myers et al. [8] e Dem´etrio [7].

Como nesse caso a vari´avel resposta Yiassume valores inteiros, o modelo de

re-gress˜ao torna-se bem mais complexo, por exemplo, os erros εi n˜ao ser˜ao vari´aveis normais.

Este ´e o tema tratado nesse cap´ıtulo.

Suponha Y1, Y2, . . . , Ynvari´aveis aleat´orias independentes tais que Yi ∼ P oisson(λi)

e Xi vari´aveis explicativas definidas pelo instante de ocorrˆencia de Yi. Neste cap´ıtulo

va-mos discutir algumas formas de estimar o parˆametro λia partir da observa¸c˜ao das vari´aveis

explicativas Xi, usando a Regress˜ao de Poisson.

3.1

Modelo de Regress˜

ao

O modelo de regress˜ao de Poisson, como qualquer modelo de regress˜ao n˜ao linear, pode ser expresso da seguinte maneira:

Yi = E[Yi] + εi, i = 1, 2, . . . , n (3.1)

(21)

3.1 Modelo de Regress˜ao 17 para a m´edia da vari´avel resposta Yi, como est´a apresentado no livro de Kutner [1]:

E[Yi] = aXi+ b = λ(a, b, Xi) (3.2)

E[Yi] = eaXi+b = λ(a, b, Xi) (3.3)

E[Yi] = log(aXi+ b) = λ(a, b, Xi) (3.4)

E[Yi] = (aXi+ b)2 = λ(a, b, Xi) (3.5)

A proposta inicial desse trabalho seria modelar λ linear dentro de um intervalo pr´e-estabelecido. Nesse caso a fun¸c˜ao mais adequada seria 3.2, que sugere um comporta-mento linear de E[Yi] ao longo do tempo. Por´em essa rela¸c˜ao pode vir a dar problema,

por exemplo, com ela ´e poss´ıvel estimar ˆλi = ˆaXi+ ˆb < 0, o que n˜ao seria aceit´avel. Para

evitar esse problema devemos usar a rela¸c˜ao 3.3.

Ent˜ao nesse trabalho vamos considerar as duas possibilidades: E[Yi] = aXi+ b

ou E[Yi] = e(aXi+b). A escolha do modelo ser´a feita com base na amostra recolhida.

Veja a seguir algumas observa¸c˜oes sobre os res´ıduos da Regress˜ao de Poisson.

Os erros n˜

ao s˜

ao normalmente distribu´ıdos:

Quando se trata de um modelo de regress˜ao linear para vari´aveis normais, o erro εi ∼

N (0, σ2). Mas no caso da regress˜ao de Poisson isso n˜ao ´e verdade, o que ´e um complicador

do problema. Primeiro veja que εi = Yi− E[Yi] onde Yi ∼ P oisson(λi), ou seja, εi ´e uma

Poisson deslocada e consequentemente n˜ao tem distribui¸c˜ao normal.

Os erros n˜

ao tem variˆ

ancia constante:

Temos que a V ar(εi) = V ar(Yi) = λi, logo a variˆancia do erro n˜ao ´e constante ao longo

do tempo.

Com base nas observa¸c˜oes acima, n˜ao podemos analisar os erros εi supondo

que os mesmos seguem uma distribui¸c˜ao Normal (0, σ2). Logo a an´alise dos res´ıduos ser´a

feita atrav´es dos Desvios Residuais e dos Res´ıduos de Pearson, como apresentado na Se¸c˜ao 3.3 desse cap´ıtulo.

(22)

3.2 Estimativa dos Parˆametros 18

3.2

Estimativa dos Parˆ

ametros

Podemos utilizar alguns m´etodos para estima¸c˜ao dos parˆametros a e b. Nesta se¸c˜ao vamos discutir dois deles: o m´etodo da m´axima verossimilhan¸ca e o m´etodo dos m´ınimos quadrados.

3.2.1

axima Verossimilhan¸

ca

O estimador de m´axima verossimilhan¸ca para o vetor de parˆametros θ e = (a, b) ´e definido por: ˆ θ e M V = arg max L(θ e ) = arg max ln(L(θ e )) = arg max l(θ e ) onde L ´e a fun¸c˜ao de verossimilhan¸ca e l a fun¸c˜ao de log-verossimilhan¸ca.

Como Yi ∼ P oisson(λi), onde λi = λ(a, b, Xi), dadas as observa¸c˜oes y

e = (y1, y2, . . . , yn) e X

e

= (X1, X2, . . . , Xn), a fun¸c˜ao de verossimilhan¸ca ´e definida por:

L(a, b|y e , X e ) = n Y i=1 λyi i e −λi yi! , (a, b) ∈ R2

Para encontrar a fun¸c˜ao de log-verossimilhan¸ca precisamos encontrar l(a, b, y e

, X e

)). Aplicando o logaritmo na fun¸c˜ao, temos:

l(a, b, y e , X e ) = log(L(a, b, y e , X e )) = log(Qn i=1 (λi)yie−(λi) yi! ) = Pn i=1log( (λi)yie−(λi) yi! ) = Pn i=1log((λi) yie−(λi)) −Pn i=1log(yi!) = Pn i=1log((λi) yi) +Pn i=1log(e −(λi)) −Pn i=1log(yi!) = Pn i=1yilog(λi) − Pn i=1(λi) − Pn i=1log(yi!)

O objetivo ´e encontrar os pontos cr´ıticos de l, ou seja, os valores de a e b que maximizam a fun¸c˜ao de log-verossimilhan¸ca. Para isso derivamos a fun¸c˜ao com rela¸c˜ao a a e b para cada um dos dois casos considerados: λi = aXi+ b e λi = e(aXi+b) e igualamos a

(23)

3.2 Estimativa dos Parˆametros 19 zero. A solu¸c˜ao do sitema encontrado ser´a a estimativa de m´axima verossimilhan¸ca para o vetor de parˆametros θ

e

= (a, b).

Primeiro considere λi = aXi+ b. Nesse caso l(a, b, y

e , X e ) = log(L(a, b, y e , X e )) = Pn i=1yilog(aXi+ b) − Pn i=1(aXi+ b) − Pn i=1log(yi!). Derivando em rela¸c˜ao a a e b: d dal(a, b, y e , X e ) = Pn i=1 yiXi aXi+b − Pn i=1Xi d dbl(a, b, y e , X e ) = Pn i=1 yi aXi+b − n

Igualando as derivadas a zero:    Pn i=1 yiXi aXi+b − Pn i=1Xi = 0 Pn i=1 yi aXi+b − n = 0 (3.6)

O sistema acima n˜ao possui solu¸c˜ao fechada. Por isso, ser´a necess´ario usar m´etodos num´ericos para encontrar o m´aximo da fun¸c˜ao de verossimilhan¸ca a partir da amostra (y

e , X

e

) observada.

Agora considere λi = e(aXi+b). Nesse caso,

l(a, b, y e , X e ) = log(L(a, b, y e , X e )) = Pn i=1yilog(e (aXi+b)) −Pn i=1e (aXi+b)−Pn i=1log(yi!) = Pn i=1yi(aXi+ b) − Pn i=1e aXiebPn i=1log(yi!) = aPn i=1Xiyi+ b Pn i=1yi− e bPn i=1e aXi −Pn i=1log(yi!) Derivando em rela¸c˜ao a a e b: d dal(a, b, y e , X e ) =Pn i=1Xiyi− eb Pn i=1e aXiX i d dbl(a, b, y e , X e ) =Pn i=1yi− e bPn i=1e aXi

Igualando as derivadas a zero:          Pn i=1Xiyi− e bPn i=1e aXiX i = 0 Pn i=1yi− e bPn i=1e aXi = 0 (3.7)

O sistema acima tamb´em n˜ao possui solu¸c˜ao fechada, ent˜ao para encontrar as estimativas ser´a necess´ario usar m´etodos num´ericos.

Paula [6] e Dem´etrio [7] sugerem m´etodos iterativos que convergem para as estimativas de m´axima verossimihan¸ca, que podem ser aplicados tanto para o modelo linear quanto para o modelo exponencial. Por exemplo o m´etodo de Newton-Raphson ou o m´etodo de M´ınimos Quadrados Reponderados Iterados.

(24)

3.2 Estimativa dos Parˆametros 20

3.2.2

M´ınimos Quadrados

A estimativa pelo m´etodo dos m´ınimos quadrados para o vetor de parˆametros θ e = (a, b) ´ e definido por: ˆ θ e M Q = arg min n X i=1 ε2i = arg min n X i=1

(yi − E[yi])2 = arg min n

X

i=1

(yi− λi)2 = arg min ε(a, b)

Novamente apresentamos um problema de otimiza¸c˜ao. Buscamos a e b de forma que ε(a, b) = Pn

i=1ε

2

i seja a menor poss´ıvel. O objetivo ´e encontrar os pontos

cr´ıticos da fun¸c˜ao que estamos minimizando, e para isso derivamos e igualamos suas derivadas a zero.

Primeiro considere λi = aXi+ b. Nesse caso ε(a, b) =

Pn i=1(yi− aXi− b)2. Derivando em rela¸c˜ao a a e b: d daε(a, b) = − n X i=1 2(yi− (aXi + b))Xi d dbε(a, b) = − n X i=1 2(yi− (aXi+ b))1 Igualando a zero:          Pn

i=12(yi− (aXi+ b))Xi = 0

Pn

i=12(yi− (aXi+ b)) = 0

⇒          Pn i=12Xiyi− 2 Pn i=1Xi(aXi+ b)Xi = 0 Pn i=12yi− 2 Pn i=1(aXi+ b) = 0          Pn i=1Xiyi− a Pn i=1X 2 i − b Pn i=1Xi = 0 Pn i=1yi− a Pn i=1Xi− nb = 0 ⇒          aPn i=1X 2 i + b Pn i=1Xi = Pn i=1Xiyi aPn i=1Xi+ nb = Pn i=1yi

Chegamos assim ao seguinte sistema linear:

     Pn i=1X 2 i Pn i=1Xi Pn i=1Xi n           a b      =      Pn i=1Xiyi Pn i=1yi      (3.8)

(25)

3.2 Estimativa dos Parˆametros 21 Seja X a matriz de dimens˜ao n × 2 representada pelas vari´aveis explicativas, denominada matriz modelo, onde n ´e o n´umero de observa¸c˜oes e Y um vetor representado pelo n´umero de ocorrˆencias, yi, no i-´esimo intervalo de tempo.

Xn×2 =            X1 1 X2 1 X3 1 .. . Xn 1            e Y =         y1 yY2 .. . yn        

Veja que o sistema linear definido na equa¸c˜ao 3.8 tamb´em pode ser escrito da seguinte forma:

(XTX)θ e

= XTY

Ent˜ao, a solu¸c˜ao do problema de M´ınimos Quadrados ´e dada por: ˆ θ e = (XTX)−1XTY (3.9) com ˆθ e =      ˆ a ˆb     

Considere agora λi = eaXi+b. Nesse caso ε(a, b) =

Pn i=1(yi− eaXieb)2. Derivando em rela¸c˜ao a a e b: d daε(a, b) = 2 n X i=1 (yi− eaXieb)(−ebeaXiXi) d dbε(a, b) = 2 n X i=1 (yi− eaXieb)(−eaXieb)

Igualando as derivadas a zero:

         Pn i=1(yi− e aXieb)eaXiX i = 0 Pn i=1(yi− e aXieb)eaXi = 0 (3.10)

(26)

3.3 Ajuste do Modelo 22 Nesse caso tamb´em n˜ao teremos solu¸c˜ao fechada e ser´a preciso usar m´etodos num´ericos. Os livros n˜ao abordam processos iterativos para esse caso, pois j´a indica m´etodos para encontrar as estimativas de m´axima verossimilhan¸ca.

3.2.3

Estimadores e Nota¸

ao

Neste trabalho ser´a usada a fun¸c˜ao glm do programa estat´ıstico R, que utiliza o m´etodo de M´ınimos Quadrados Reponderados Iterados para encontrar as estimativas de m´axima verossimilhan¸ca para os parˆametros a e b.

A partir de agora considere a seguinte nota¸c˜ao:

λ = aX + b ⇒ λi = aXi+ b ⇒ ˆλi = ˆaXi+ ˆb

λ = eaX+b ⇒ λi = eaXi+b ⇒ ˆλi = eaXˆ i+ˆb

3.3

Ajuste do Modelo

Depois de estimados os parˆametros a partir da amostra observada ´e preciso verificar se o modelo est´a bem ajustado. Ser´a feita a an´alise dos res´ıduos para detectar a m´a especi-fica¸c˜ao do modelo, outliers, ou observa¸c˜oes com ajuste pobre e para detectar observa¸c˜oes influentes, ou observa¸c˜oes com grande impacto sobre o modelo ajustado.

Veremos nesta se¸c˜ao como ´e feita a an´alise dos res´ıduos para a regress˜ao de Poisson, assim como as defini¸c˜oes de Pontos de Alavanca e Pontos Influentes. Com essas informa¸c˜oes espera-se poder verificar se o modelo est´a ou n˜ao bem ajustado.

3.3.1

Res´ıduos

Na regress˜ao de Poisson as vari´aveis respostas assumem valores inteiros e conseq¨ uente-mente os erros εi = yi − ˆλi n˜ao ser˜ao normalmente distribu´ıdos, como j´a foi comentado

no in´ıcio desse cap´ıtulo. Por isso os res´ıduos ordin´arios n˜ao ser˜ao considerados nesse tra-balho. Ent˜ao a an´alise dos res´ıduos ser´a feita atrav´es dos Res´ıduos de P earson e dos Desvios Residuais, tamb´em conhecido como componente da Deviance.

(27)

3.3 Ajuste do Modelo 23 Desvios Residuais

O Desvio Residual para o i-´esimo caso, denotado por rDi , supondo Yi > 0, ∀i, ´e definido

por: riD = ±  2Yilog  Yi ˆ λi  − 2Yi− ˆλi  1 2 (3.11)

onde o sinal ´e positivo quando Yi > ˆλi e negativo quando Yi < ˆλi. Por´em, se

Yi = 0, o Desvio Residual fica dado por:

rDi = q

2ˆλi (3.12)

Para o modelo de regress˜ao de Poisson a Fun¸c˜ao Desvio para Yi > 0, ´e definida

por: DEV = 2 " n X i=1 Yilog  Yi ˆ λi  − n X i=1 (Yi− ˆλi) # (3.13)

onde n= tamanho da amostra. Logo, para Yi = 0, o i-´esimo termo da Fun¸c˜ao

Desvio ´e dado por DEV = 2ˆλi.

Se o modelo estiver bem ajustado e o tamanho da amostra for relativamente grande, ent˜ao a Fun¸c˜ao Desvio segue aproximadamente uma distribui¸c˜ao Qui − Quadrado com (n − 2) graus de liberdade, veja [1] e [2] para mais detalhes. Logo, o valor observado da Fun¸c˜ao Desvio pode indicar se o modelo est´a bem ajustado ou n˜ao ´e correto.

O Desvio Residual e a Fun¸c˜ao Desvio se relacionam de acordo com a seguinte express˜ao:

n

X

i=1

(riD)2 = DEV

ou seja, a soma do quadrado do Desvio Residual ´e igual a Fun¸c˜ao Desvio, como pode ser verificado em [1].

(28)

3.3 Ajuste do Modelo 24 Res´ıduos de Pearson

Os Res´ıduos de P earson, como os Desvios Residuais, s˜ao utilizados para verificar ob-serva¸c˜oes mal ajustadas. Os Res´ıduos de P earson tem a seguinte express˜ao geral:

riP = (Yi− ˆλi)

λi (3.14)

e correspondem `a contribui¸c˜ao de cada observa¸c˜ao para o c´alculo da Estat´ıstica de P earson, XP2, que ´e dada pela soma dos Res´ıduos de P earson ao quadrado:

XP2 = n X i=1 (rPi )2 = n X i=1 (Yi− ˆλi)2 ˆ λi .

Como pode ser visto em [6], a estat´ıstica XP2 segue assint´oticamente uma distribui¸c˜ao qui − quadrado com (n − 2) graus de liberdade, sob a hip´otese de que o modelo est´a bem ajustado.

3.3.2

Pontos de Alavanca

Os pontos de alavanca s˜ao as observa¸c˜oes yi que indicam grande influˆencia no pr´oprio

valor ajustado ˆλi.

Para detectar tais pontos ser´a usada a matriz Hat, como sugere de Paula [6] e Dem´etrio [7], definida por:

H = ˆW1/2X(XTW X)ˆ −1XTWˆ1/2 onde ˆW = diag(ˆλ1, ˆλ2, . . . , ˆλn) para λi = eaXi+b e ˆW = diag(λˆ11,

1 ˆ λ2, . . . , 1 ˆ λn) para λi =

aXi+ b. Para maiores detalhes veja Paula [6].

Seja hii o valor na posi¸c˜ao (i, i) da matriz Hat. Como comenta Paula [6],

valores altos de hii indicam que hiiyi predomina na estimativa para λi. Assim, ´e razo´avel

utilizar hii como medida da influˆencia da i-´esima observa¸c˜ao (yi) sobre o pr´oprio valor

ajustado ( ˆλi).

O tra¸co da matriz H representado por tr(H) ´e a soma dos elementos da diagonal principal. Como demonstra Paula [6], tr(H) =

n

P

i=1

hii= p = 2. Ent˜ao, supondo que todos

(29)

3.3 Ajuste do Modelo 25 esteja pr´oximo de tr(H)n = np = 2n. A sugest˜ao de Paula [6] e Clarice ´e analisar os pontos tais que hii ≥ 2pn = n4. Estes s˜ao conhecidos como Pontos de Alavanca.

3.3.3

Pontos Influentes

Os pontos influentes s˜ao pontos que exercem um peso desproporcional nas estimativas dos parˆametros do modelo. Podemos, por exemplo, querer avaliar a influˆencia que pequenas mudan¸cas nas variˆancias das observa¸c˜oes causam nas estimativas dos parˆametros. Nesse caso, podemos utilizar a Distˆancia de Cook como medida de referˆencia, que segundo Paula [6], ´e aproximadamente dada por:

LDi ∼=  hii (1 − hii)  (rPi )2

onde riP ´e o res´ıduo de Pearson, como apresentado na equa¸c˜ao 3.14. A norma operacional ´e analisar as observa¸c˜oes em que LDi > 1.

3.3.4

Gr´

aficos de Diagn´

ostico

A utiliza¸c˜ao de m´etodos gr´aficos ´e de extrema importˆancia pois, a partir deles podemos observar o comportamento das vari´aveis e verificar a adequabilidade do ajuste do modelo. Neste trabalho ser˜ao apresentados alguns gr´aficos de diagn´ostico para uma melhor compreens˜ao dos resultados obtidos. Para mais detalhes sobre gr´aficos usados em diagn´osticos de modelos lineares generalizados veja a apostila da professora Dem´etrio [7].

An´alise dos Desvios Residuais ´

E um gr´afico simples, onde plotamos rD

i versus os ´ındices. O padr˜ao nulo desse

gr´afico ´e uma distribui¸c˜ao dos res´ıduos em torno do zero com amplitude constante. Esse gr´afico ´e ´util para identificar res´ıduos outliers e ´e o adequado sugerido segundo Paula [6].

An´alise dos Res´ıduos de Pearson

Este gr´afico tamb´em ´e utilizado para verificar res´ıduos outliers. Neste gr´afico, assim como no anterior, plotamos os res´ıduos versus os ´ındices, mas neste caso ser˜ao

(30)

usa-3.3 Ajuste do Modelo 26 dos os res´ıduos de Pearson rP

i .

Pontos de Alavanca

O gr´afico utilizado para identificar os pontos de alavanca pode ser hiiversus os

´ındices ou hii versus vari´aveis explicativas. Nesse trabalho ser´a usado o gr´afico hii× Xi,

pois temos muita repeti¸c˜ao nos valores de Xi, consequentemente muita repeti¸c˜ao nos

va-lores de hii. Os pontos de alavanca ser˜ao os pontos tais que hii ≥ 4n como mostrado na

Se¸c˜ao 3.3.2.

Pontos Influentes

Este gr´afico ´e ´util para identificar os pontos com influˆencia desproporcional nas estimativas dos coeficientes. Plotamos os valores de LDi versus os ´ındices. Caso os

dados apresentem alguma observa¸c˜ao cujo LDi > 1, os c´alculos ser˜ao refeitos sem essas

(31)

27

4 Modelagem com Dados Sint´

eticos

Neste cap´ıtulo vamos mostrar como as estimativas para os parˆametros de um processo de Poisson n˜ao-homogˆeneo linear por partes s˜ao encontradas de acordo com a metodo-logia apresentada nos cap´ıtulos anteriores. Para isso foram gerados dados sint´eticos no programa estat´ıstico R. A descri¸c˜ao desses dados encontra-se na Se¸c˜ao 4.1. Na Se¸c˜ao 4.2 ser˜ao apresentadas as estimativas dos parˆametros e os gr´aficos de diagn´ostico.

4.1

Dados Sint´

eticos

Os dados utilizados neste cap´ıtulo foram simulados no programa estat´ıstico R supondo que as chegadas obede¸cam um processo de Poisson n˜ao-homogˆeneo em que a taxa seja linear por partes. Os dados foram divididos em quatro intervalos I conhecidos, definidos por:

I1 −→ de 7h at´e 8h e 59 min

I2 −→ de 9h at´e 11h e 59 min

I3 −→ de 12h at´e 13h e 59 min

I4 −→ de 14h at´e 18h

As taxas de chegada em cada intervalo Ii, denominadas λi, s˜ao apresentadas

pelas express˜oes abaixo:

λ1(t) = 30

λ2(t) = −2t + 46

λ3(t) = 2t − 34

λ4(t) = −t + 50

Como vamos utilizar a unidade de tempo minutos, podemos dizer que a amos-tra gerada pela simula¸c˜ao, {T1, T2, T3, . . .}, indica os instantes de chegada em minutos, a

(32)

4.1 Dados Sint´eticos 28

Figura 4.1: Gr´afico da Taxa de chegada para os dados simulados

λ(t) =                30 , se 0 ≤ t < 8 −2t + 46 , se 8 ≤ t < 20 2t − 34 , se 20 ≤ t < 28 −t + 50 , se 28 ≤ t < 44 A Figura 4.1 mostra o gr´afico da taxa λ.

Para cada dia simulado considere T1, T2, . . . , TN os instantes de chegada entre

7:00h e 18:00h, gerados pela simula¸c˜ao. Como vamos trabalhar com as ocorrˆencias em cada intervalo I separadamente, tais instantes de chegada foram separados de acordo com os respectivos intervalos.

Tratamento dos Dados e Defini¸

ao da Amostra

Cada intervalo I foi dividido em subintervalos de 15 minutos e para cada um desses subintervalos foi determinado o n´umero de chegadas. Seja nI o n´umero de subintervalos

dentro do intervalo I. Defina Yi = n´umero de chegadas no subintervalo i, 1 ≤ i ≤ nI, e

Xi = o ponto m´edio do subintervalo i. A unidade de tempo utilizada foi de 15 minutos e

`

as 07 : 00 foi considerado o instante zero. Logo o intervalo de 07 : 00 `as 07 : 15 ter´a ponto m´edio X = 0.5.

Foram gerados 10 dias de observa¸c˜ao. Logo, para estimar os parˆametros dentro de um intervalo I foi usada uma amostra de (Y, X) de tamanho nI× 10. Veja como ficou

(33)

4.2 Estimativa dos parˆametros e ajuste do modelo 29 O intervalo I1 tem duas horas de dura¸c˜ao, logo 8 subintervalos de 15 minutos.

Ent˜ao para esse intervalo foram determinados, para cada um dos 10 dias de observa¸c˜ao, (Y1, Y2, . . . , Y8) e (X1, X2, . . . , X8). Ent˜ao para esse intervalo dispomos de uma amostra

de tamanho 8 × 10.

O intervalo I2 tem trˆes horas de dura¸c˜ao, logo 12 subintervalos de 15

minu-tos. Para esse intervalo foram determinados, para cada um dos 10 dias de observa¸c˜ao, (Y1, Y2, Y3, . . . , Y12) e (X1, X2, X3, . . . , X12). Ent˜ao para esse intervalo dispomos de uma

amostra de tamanho 12 × 10.

O intervalo I3 tem duas horas de dura¸c˜ao, logo 8 subintervalos de 15 minutos.

Ent˜ao para esse intervalo foram determinados, para cada um dos 10 dias de observa¸c˜ao, (Y1, Y2, Y3, . . . , Y8) e (X1, X2, X3, . . . , X8). Ent˜ao para esse intervalo dispomos de uma

amostra de tamanho 8 × 10.

O intervalo I4 tem quatro horas de dura¸c˜ao, logo 16 subintervalos de 15

mi-nutos. Ent˜ao para esse intervalo foram determinados, para cada um dos 10 dias de ob-serva¸c˜ao, (Y1, Y2, Y3, . . . , Y16) e (X1, X2, X3, . . . , X16). Ent˜ao para esse intervalo dispomos

de uma amostra de tamanho 16 × 10.

4.2

Estimativa dos parˆ

ametros e ajuste do modelo

Seja I um intervalo tal que eventos ocorrem de acordo com um processo de Poisson n˜ao-homogˆeneo com taxa λ(t) = at + b. Considere (Y1, . . . , Y10×nI) uma amostra com o

n´umero de ocorrˆencias em subintervalos de 15 minutos, cujo ponto m´edio ´e definido por X1, . . . , X10×nI. Nessa se¸c˜ao ser´a usada a metodologia apresentada no cap´ıtulo 3 supondo

o modelo linear λ = aX + b. Logo, a e b ser˜ao estimados pelo m´etodo dos m´ınimos quadrados como mostramos na equa¸c˜ao 3.9.

Veremos abaixo os valores estimados para os parˆametros a e b pelo m´etodo dos m´ınimos quadrados para cada intervalo I. Foi usado o software R para a realiza¸c˜ao dos c´alculos.

Os valores da Fun¸c˜ao Desvio encontram-se na Tabela 4.2, onde na segunda linha est˜ao apresentados os graus de liberdade, representados por df .

(34)

4.3 Coment´arios sobre o modelo ajustado 30 Tabela 4.1: Estimativas dos parˆametros em cada intervalo I para os dados sint´eticos

I1 I2 I3 I4

ˆ

a 0.2334 -1.815 1.882 -1.139 ˆb 28.32889 41.193 -27.343 60.906

Tabela 4.2: Fun¸c˜ao Desvio em cada intervalo I para os dados sint´eticos

I1 I2 I3 I4

DEV 86.26892 153.2739 86.83534 155.4935

df 78 118 78 158

DEV /df 1.106012 1.298931 1.113274 0.9841363

Os gr´aficos de letra (b) mostram os pontos junto com a reta ˆλ = ˆaX + ˆb.

4.3

Coment´

arios sobre o modelo ajustado

Para os quatro intervalos o modelo est´a bem ajustado, uma vez houve a ocorrˆencia de poucos res´ıduos outliers, os res´ıduos est˜ao em torno de zero com amplitude constante, n˜ao ocorreram pontos influentes e a Fun¸c˜ao Desvio para cada intervalo I assume valores bem pr´oximos de seus respectivos graus de liberdade. Isto ´e um resultado esperado uma vez que as estimativas para os parˆametros a e b foram bem pr´oximas de seus valores reais, veja Tabela 4.1.

No gr´afico 4.3(a) para o Intervalo 2 apesar de observarmos alguns res´ıduos outliers notamos a presen¸ca de um res´ıduo um pouco mais afastado dos demais. Por´em, como este ponto n˜ao ´e um ponto influente, sabemos que a sua retirada pouco vai mudar nas estimativas de a e b.

Observamos que os gr´aficos, 4.3(e), 4.4(e) e 4.5(e) apresentam pontos de ala-vanca. Em todos eles os pontos de alavanca est˜ao nas extremidades dos intervalos. Al´em disso a medida h assume valores maiores nos extremos dos intervalos. Esse fato nos leva a crer que as observa¸c˜oes nas extremidades s˜ao mais influentes em seus valores ajustados do que as observa¸c˜oes nos meio dos intervalos.

(35)

4.3 Coment´arios sobre o modelo ajustado 31

(a) Desvios Residuais (b) Curva Ajustada

(c) Pontos Influentes (d) Res´ıduos de Pearson

(e) Pontos de Alavanca

(36)

4.3 Coment´arios sobre o modelo ajustado 32

(a) Desvios Residuais (b) Curva Ajustada

(c) Pontos Influentes (d) Res´ıduos de Pearson

(e) Pontos de Alavanca

(37)

4.3 Coment´arios sobre o modelo ajustado 33

(a) Desvios Residuais (b) Curva Ajustada

(c) Pontos Influentes (d) Res´ıduos de Pearson

(e) Pontos de Alavanca

(38)

4.3 Coment´arios sobre o modelo ajustado 34

(a) Desvios Residuais (b) Curva Ajustada

(c) Pontos Influentes (d) Res´ıduos de Pearson

(e) Pontos de Alavanca

(39)

35

5 Modelagem com Dados Reais

Nesse cap´ıtulo, an´alogo ao cap´ıtulo com dados sint´eticos, vamos mostrar como as esti-mativas para os parˆametros de um processo de Poisson n˜ao-homogˆeneo s˜ao encontradas em dados reais. Os dados reais foram coletados do site archive.ics.uci.edu, onde s˜ao disponibilizados gratuitamente alguns bancos de dados pela Universidade da Calif´ornia de Irvine. Os dados se referem aos instantes de cadastro de usu´arios dentro do site da Amazon, sua descri¸c˜ao em mais detalhes se encontra na Se¸c˜ao 5.1. Na Se¸c˜ao 5.2 ser˜ao apresentados as estimativas dos parˆametros e os gr´aficos de diagn´ostico.

5.1

Dados Reais

Os dados utilizados neste cap´ıtulo se referem aos instantes em que usu´arios do site da Amazon fizeram seus cadastros. Esses dados mostram o dia e a hora de novos cadastros no per´ıodo de 25 de mar¸co de 2005 at´e 31 de agosto de 2010. A fim de descartar a tendˆencia natural por se tratar de um intervalo de dados muito extenso foi considerado apenas as informa¸c˜oes dentro do per´ıodo de julho e agosto de 2010. Por entender que dias de semana diferentes possuem comportamentos diferentes optou-se por trabalhar apenas com os dados referentes as segundas-feiras. Dessa forma o banco de dados que vamos trabalhar ´e composto pelos instantes de chegada em oito segundas-feiras dentro do intervalo de julho e agosto de 2010.

Tratamento dos dados e defini¸

ao da amostra

Cada dia de observa¸c˜ao foi dividido em subintervalos de 15 minutos e para cada um desses subintervalos foi determinado o n´umero de cadastros ao site. Defina Yi = n´umero

de cadastros no subintervalo i e Xi = o ponto m´edio do subintervalo i. Como a unidade

de tempo utilizada foi em minutos Xi = {7.5, 22.5, 37.5, . . . , 1417.50, 1432.50}, ou seja, o

primeiro valor representa o ponto m´edio, em minutos, do intervalo entre 00 : 00 : 00 e 00 : 15 : 00.

(40)

5.1 Dados Reais 36 cadastros considerando os oitos dias de observa¸c˜ao para cada um dos subintervalos. A partir deste gr´afico ser˜ao determinados os intervalos para os quais assumiremos que o n´umero de cadastros se comportam de forma diferente.

Figura 5.1: N´umero m´edio de cadastros ao longo do dia

Uma an´alise visual da Figura 5.1 sugere que os intervalos escolhidos sejam: I1 −→ de 0h at´e 7h e 59 min

I2 −→ de 08h at´e 17h e 59 min

I3 −→ de 18h at´e 23h e 59 min

Ainda observando a Figura 5.1, podemos verificar que nos intervalos I1 e I3

existem muitas ocorrˆencias nulas para a vari´avel Y , logo ser´a mais adequado trabalhar com a modelagem exponencial. Tamb´em ser´a escolhida a modelagem exponencial para o intervalo I2 por acreditar que o decaimento ´e aparentemente exponencial. Ent˜ao para

cada um dos intervalos vamos considerar os seguinte modelo a ser estimado: λ = eaX+b. Veja que o intervalo I1 tem oito horas de dura¸c˜ao. Como foram observados

oitos dias, para este intervalo dispomos de 8 × 8 = 256 subintervalos de 15 minutos, e este ´

e o tamanho da amostra que ser´a usada para estimar os parˆametros desse intervalo. J´a o intervalo I2 tem dez horas de dura¸c˜ao, ent˜ao para este intervalo a amostra

(41)

5.2 Estimativa dos parˆametros e ajuste do modelo 37 ser´a de tamanho 10 × 8 × 4 = 320. Por fim, o intervalo I3 tem seis horas de dura¸c˜ao, logo

para este intervalo a amostra ser´a de tamanho 6 × 8 × 4 = 192.

5.2

Estimativa dos parˆ

ametros e ajuste do modelo

Nessa se¸c˜ao ser´a usada a metodologia apresentada no Cap´ıtulo 3 supondo o modelo ex-ponencial λi = eaXi+b. Logo, para cada intervalo Ii ser˜ao estimados os parˆametros ai e

bi considerando todas as observa¸c˜oes dentro do banco de dados. E seguida ser˜ao

apre-sentados os gr´aficos que indicam os desvios residuais, os pontos influentes e os pontos de alavanca. Essas estimativas e gr´aficos est˜ao apresentados na Se¸c˜ao 5.2.1.

A fim de melhor ajustar o modelo os pontos influentes ser˜ao retirados e as estimativas feitas novamente. Esse processo ser´a repetido at´e que n˜ao haja mais pontos influentes. O modelo ajustado est´a apresentado na Se¸c˜ao 5.2.2.

5.2.1

Modelo Inicial

Nessa se¸c˜ao ser˜ao apresentadas as estimativas para os parˆametros em cada um dos trˆes intervalos considerando todos as observa¸c˜oes do banco de dados. Al´em das estimativas ser˜ao apresentados os valores da Fun¸c˜ao Desvio e os gr´aficos de Diagn´osticos a fim de detectar os pontos influentes.

As estimativas dos parˆametros a e b se encontram na Tabela 5.3 a seguir. Tabela 5.1: Estimativas e p-valores dos parˆametros para o intervalo 1 - dados reais

Estimativa p-valor ˆ

a 0.0009003 0.00207 ** ˆb 0.6542280 1.72e-14 ***

Tabela 5.2: Estimativas e p-valores dos parˆametros para o intervalo 2 - dados reais Estimativa p-valor

ˆ

a -0.0009057 2e-16 *** ˆ

b 4.3212015 2e-16 ***

Os p-valores muito pequenos, indicados por *** ou **, significam o parˆametro em quest˜ao n˜ao ´e nulo e sim representativo na regress˜ao.

(42)

5.2 Estimativa dos parˆametros e ajuste do modelo 38 Tabela 5.3: Estimativas e p-valores dos parˆametros para o intervalo 3 - dados reais

Estimativa p-valor ˆ

a 0.001954 5.89e-09 *** ˆb -1.003557 0.02 *

Os valores da Fun¸c˜ao Desvio encontram-se na Tabela 5.4, onde na segunda linha est˜ao apresentados os graus de liberdade, representados por df .

Tabela 5.4: Fun¸c˜ao Desvio em cada intervalo I para os dados reais

I1 I2 I3

DEV 2286.552 26887.65 2833.227

df 254 286 190

DEV /df 9.002172 94.01275 14.91172

Os Gr´aficos de Diagn´osticos est˜ao apresentados nas Figuras 5.2, 5.3 e 5.4. Os pontos numerados representam os pontos influentes e estes ser˜ao retirados para se chegar ao modelo final. Os gr´aficos de letra (b) mostram os pontos junto com a curva ˆλ = eˆaX+ˆb.

5.2.2

Modelo Final

Nessa se¸c˜ao ser˜ao apresentadas as estimativas para os parˆametros em cada um dos trˆes intervalos descartando os pontos influentes. Ou seja, o modelo foi estimado algumas vezes at´e que n˜ao houvesse mais pontos influentes. Al´em das estimativas ser˜ao apresentados os valores da Fun¸c˜ao Desvio e os gr´aficos de Diagn´osticos a fim de verificar o ajuste do modelo.

As estimativas dos parˆametros a e b para cada intervalos se encontram nas Tabelas 5.5, 5.6 e 5.7, a seguir.

Tabela 5.5: Estimativas e p-valores finais dos parˆametros para o intervalo 1 - dados reais Estimativa p-valor

ˆ

a 0.006269 2e-16 *** ˆ

b -1.948522 2e-16 ***

Os valores da Fun¸c˜ao Desvio encontram-se na Tabela 5.8, onde na segunda linha est˜ao apresentados os graus de liberdade, representados por df .

(43)

5.2 Estimativa dos parˆametros e ajuste do modelo 39

(a) Desvios Residuais (b) Curva Ajustada

(c) Pontos Influentes (d) Res´ıduos de Pearson

(e) Pontos de Alavanca

Figura 5.2: Gr´aficos de Diagn´ostico para o Intervalo 1 - dados reais

(44)

5.2 Estimativa dos parˆametros e ajuste do modelo 40

(a) Desvios Residuais (b) Curva Ajustada

(c) Pontos Influentes (d) Res´ıduos de Pearson

(e) Pontos de Alavanca

Figura 5.3: Gr´aficos de Diagn´ostico para o Intervalo 2 - dados reais gr´aficos de letra (b) mostram os pontos junto com a curva ˆλ = eˆaX+ˆb.

(45)

5.2 Estimativa dos parˆametros e ajuste do modelo 41

(a) Desvios Residuais (b) Curva Ajustada

(c) Pontos Influentes (d) Res´ıduos de Pearson

(e) Pontos de Alavanca

(46)

5.3 Coment´arios sobre o modelo ajustado 42 Tabela 5.6: Estimativas e p-valores finais dos parˆametros para o intervalo 2 - dados reais

Estimativa p-valor ˆ

a -0.0005466 0.00976 ** ˆb 3.0877764 2e-16 ***

Tabela 5.7: Estimativas e p-valores finais dos parˆametros para o intervalo 3 - dados reais Estimativa p-valor

ˆ

a -0.001361 0.562 ˆb 2.266970 0.281

Tabela 5.8: Fun¸c˜ao Desvio final em cada intervalo I para os dados reais

I1 I2 I3

DEV 527.8776 3046.165 705.5989

df 240 249 177

DEV /df 2.19949 12.23359 3.986435

5.3

Coment´

arios sobre o modelo ajustado

Podemos observar que para todos os intervalos o modelo inicial est´a mal ajustado. Isso pode ser conclu´ıdo a partir dos alto valores das Fun¸c˜oes Desvio, da grande quantidade de pontos influentes e do comportamento fora do padr˜ao dos res´ıduos.

Em compara¸c˜ao com o modelo inicial o modelo final obteve melhores resul-tados. Os valores das Fun¸c˜oes Desvio ca´ıram significativamente e neste ´ultimo modelo n˜ao h´a mais pontos influentes. Por´em, apesar de melhor, os resultados ainda n˜ao s˜ao t˜ao bons: as Fun¸c˜oes Desvios ainda assumiram valores acima do esperado e os res´ıduos n˜ao est˜ao distribu´ıdos aleatoriamente em torno do zero.

Observando o modelo final para o Intervalo 1, principalmente os gr´aficos dos res´ıduos (5.5(a)) e dos pontos de alavanca (5.5(e)), podemos verificar que as observa¸c˜oes no final do intervalo indicam pontos de alavanca e possuem valores significativos para os res´ıduos. Talvez isso seja um indicativo para redefinir este intervalo diminuindo em pelo menos 30 minutos.

De forma an´aloga para o Intervalo 3 as observa¸c˜oes no in´ıcio do intervalo indicam pontos de alavanca e possuem valores mais significativos para os res´ıduos, veja os

(47)

5.3 Coment´arios sobre o modelo ajustado 43

(a) Desvios Residuais (b) Curva Ajustada

(c) Pontos Influentes (d) Res´ıduos de Pearson

(e) Pontos de Alavanca

Figura 5.5: Gr´aficos de Diagn´ostico para o Intervalo 1 - dados reais

(48)

5.3 Coment´arios sobre o modelo ajustado 44

(a) Desvios Residuais (b) Curva Ajustada

(c) Pontos Influentes (d) Res´ıduos de Pearson

(e) Pontos de Alavanca

Figura 5.6: Gr´aficos de Diagn´ostico para o Intervalo 2 - dados reais 30 minutos seu comprimento.

(49)

5.3 Coment´arios sobre o modelo ajustado 45

(a) Desvios Residuais (b) Curva Ajustada

(c) Pontos Influentes (d) Res´ıduos de Pearson

(e) Pontos de Alavanca

Figura 5.7: Gr´aficos de Diagn´ostico para o Intervalo 3 - dados reais

(50)

bas-5.3 Coment´arios sobre o modelo ajustado 46 tante significativas nas estimativas dos parˆametros a e b. Veja a diferen¸ca nos valores apresentados nas Tabelas 5.3 e ??.

(51)

47

6 Conclus˜

ao

Nesse trabalho foi utilizada a Regress˜ao de Poisson a fim de modelar e estimar os parˆametros da taxa de chegada de um Processo de Poisson n˜ao homogˆeneo. Para isso foram consi-deradas duas modelagens diferentes: linear e exponencial. Foram considerados intervalos de tempo conhecidos dentro dos quais o comportamento das chegadas eram semelhantes. Para cada intervalo foi selecionado o modelo apropriado e seus parˆametros estimados. O modelo foi testado em dois conjuntos de dados: o primeiro sint´etico e o segundo real.

Para os dados sint´eticos obtivemos bons resultados, n˜ao foi detectada nenhuma observa¸c˜ao influente e os res´ıduos estavam aleatoriamente distribu´ıdos em torno de zero com amplitude constante. Este j´a era um resultado esperado, uma vez que os dados foram simulados de acordo com o modelo escolhido.

Para os dados reais os resultados n˜ao foram satisfat´orios, principalmente para o modelo considerando todos os dados de entrada: as an´alises com os res´ıduos mostraram muitos pontos outliers e muitas observa¸c˜oes influentes. Ent˜ao o modelo foi estimado algumas vezes at´e que n˜ao houvesse mais pontos influentes, a fim de verificar uma melhora no ajuste. Notamos uma melhora significativa, mas n˜ao o suficiente para se ter um bom ajuste.

De acordo com os pontos de alavanca e os res´ıduos para o modelo final dos dados reais uma sugest˜ao de trabalho futuro seria redefinir os intervalos e refazer o ajuste do modelo a fim de verificar se ocorre alguma melhora. Uma outra possibilidade de trabalho futuro ´e utilizar a modelagem exponencial para tentar ajustar os dados sint´eticos. Assim poderemos verificar como seria o ajuste do modelo exponencial quando os dados s˜ao conhecidamente gerados de forma linear.

(52)

Referˆ

encias Bibliogr´

aficas

[1] Michael Kutner and Christopher Nachtsheim and John Neter and Wil-liam Li, Applied Linear Statistical Models, McGraw-Hill/Irwin, 2004.

[2] Annette J. Dobson, An Introduction to Generalized Linear Models, Chapman & Hall/CRC, 2002.

[3] E. L. Lima, Curso de An´alise Vol.1, Projeto Euclides.

[4] Sheldon M. Ross, Introduction to Probability Models, Elsevier, 2007.

[5] Howard M. Taylor and Samuel Karlin, An Introduction to Stochastic Modeling, Academic Press, 1998.

[6] Gilberto A.Paula, Modelos de Regress˜ao com apoio computacional, IME-USP, 2004.

[7] Clarice Garcia Borges Dem´etrio, Modelos Lineares Generalizados em Experi-menta¸c˜ao Agronˆomica, 2002.

[8] G. G. V. Raymond H. Myers, Douglas C. Montgomery, Generalized Linear Models with Applications in Engineering and the Sciences, John Wiley & Sons Inc., 2002.

Referências

Documentos relacionados

Trata-se de um estudo descritivo, onde foram investigados os casos de morbidade por diarreia em crianças menores de 5 anos em Manicoré-AM entre os anos de 1998

USG com Doppler Vitalidade Fetal Proteinúria (Fita ou P/C) TGO &gt; 70 Plaquetas &lt; 100.000 Creatinina &gt; 1.1 Pré-Eclâmpsia??. PA &gt; 140 OU 90 mmHg Exames Negativos

Tendo em vista a importância que os estudos sobre causas de invalidez têm para o sistema previdenciário, especialmente para a formulação de políticas públicas

Comportamento similar se repete para os hábitos de compra, onde a grande maioria dos entrevistados afirma que olha o preço e a qualidade ou compra somente o

Também foram realizados ensaios estáticos e dinâmicos em vigas de concreto armado, de tamanho reduzido, para análise do comportamento de parâmetros dinâmicos ao longo de um

Ainda utilizando a TCFC e a mesma característica acerca da deposição de dentina secundária e regressão do volume da câmara pulpar, uma pesquisa avaliando apenas

Formar o pedagogo com visão da totalidade do trabalho docente e não docente para atuar em Magistério das Matérias Pedagógicas do Ensino Médio, Magistério para as Séries Iniciais

De fato, o próprio relatório enfatiza que o critério adotado em seu embasamento para analisar o jovem é biológico, &#34;pouco importando o seu desenvolvimento