Tarifa¸c˜ao de Seguros
15. Modelos para dados de contagem
Tha´ıs Paiva [email protected]
Departamento de Estat´ıstica Universidade Federal de Minas Gerais
1 Exemplo Modelo probit
2 Modelos para contagens
Exemplo Modelo probit
Regress˜ao para resposta bin´aria
Vimos que para MLGs com vari´avel resposta bin´aria, podemos usar algumas fun¸c˜oes de liga¸c˜ao:
logit probit
complemento log-log
Regress˜ao log´ıstica: eβj ´e o efeito multiplicativo esperado na chance de sucesso quando h´a um aumento de uma unidade na vari´avel explicativa correspondente.
Vamos ver como fica no caso de um exemplo de Regress˜ao com liga¸c˜ao Probit.
Regress˜ao para resposta bin´aria
Exemplo - Modelo Probit:
http://stats.idre.ucla.edu/r/dae/probit-regression/
A researcher is interested in how variables, such as GRE (Graduate Record Exam scores), GPA (grade point average) and prestige of the undergraduate institution, effectadmission into graduate school.
This data set has a binary response (outcome, dependent) variable calledadmit.
There are three predictor variables: gre,gpaandrank. We will treat the variablesgreandgpaas continuous.
The variable takes on the values 1 through 4. Institutions with a
Regress˜ao para resposta bin´aria
mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
## convert rank to a factor (categorical variable) mydata$rank <- factor(mydata$rank)
summary(mydata)
## admit gre gpa rank
## Min. :0.000 Min. :220 Min. :2.26 1: 61
## 1st Qu.:0.000 1st Qu.:520 1st Qu.:3.13 2:151
## Median :0.000 Median :580 Median :3.40 3:121
## Mean :0.318 Mean :588 Mean :3.39 4: 67
## 3rd Qu.:1.000 3rd Qu.:660 3rd Qu.:3.67
## Max. :1.000 Max. :800 Max. :4.00
Regress˜ao para resposta bin´aria
myprobit <- glm(admit ~ gre + gpa + rank,
family = binomial(link = "probit"), data = mydata) summary(myprobit)
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.38684 0.67395 -3.54 0.00040 ***
## gre 0.00138 0.00065 2.12 0.03433 *
## gpa 0.47773 0.19720 2.42 0.01541 *
## rank2 -0.41540 0.19498 -2.13 0.03313 *
## rank3 -0.81214 0.20836 -3.90 9.7e-05 ***
## rank4 -0.93590 0.24527 -3.82 0.00014 ***
##
## Null deviance: 499.98 on 399 degrees of freedom
Regress˜ao para resposta bin´aria
Both gre,gpa, and the three terms forrank are statistically significant.
The probit regression coefficients give the change in the z-score or probit index for a one unit change in the predictor.
For a one unit increase in gre, the z-score increases by 0.001.
For each one unit increase in gpa, the z-score increases by 0.478.
The indicator variables forrank have a slightly different interpretation. For example, having attended an undergraduate institution of rank of 2, versus an institution with a rank of 1 (the reference group), decreases the z-score by 0.415.
Regress˜ao para resposta bin´aria
For a given record, the predicted probability of admissionis:
Φ(−2.387+0.001∗gre+0.478∗gpa−0.415∗1rank2−0.812∗1rank3−0.936∗1rank4) whereΦis the cumulative distribution function of the standard normal.
The increase in probability attributed to a one-unit increase in a given predictor is dependent both on the values of the other predictors and the starting value of the given predictors.
For example, if we hold great zero and rank 1, the one unit increase in gpafrom 2 to 3 has a different effect than the one unit increase from 3 to 4 (note that the probabilities do not change by a common difference or common factor):
Regress˜ao para resposta bin´aria
Plot of the predicted probabilities for different gre scores. We create four plots, one for each level of gpa we used (2.5, 3, 3.5, 4) with the colour of the lines indicating the rank the predicted probabilities were for.
newdata[, c("p", "se")] <- predict(myprobit, newdata, type = "response", se.fit = TRUE)[-3]
ggplot(newdata, aes(x = gre, y = p, colour = rank)) + geom_line() + facet_wrap(~gpa)
Modelos para contagens
Modelos para contagens
O n´umero de vezes que um evento ocorre ´e um tipo de dado encontrado com frequˆencia.
Exemplo:
n´umero de casos de uma doen¸ca em uma cidade;
n´umero de crimes em uma regi˜ao;
n´umero de amigos no Facebook;
n´umero de vezes que umtweet ´e compartilhado;
etc.
A distribui¸c˜aoPoisson´e uma escolha razo´avel para modelar esse tipo de dado.
Modelos para contagens
Exemplo:
Vamos analisar dados dos membros de um fundo de pens˜ao do Banco do Brasil.
Observamos contagensY1, Y2, . . . , Yn.
As observa¸c˜oes n˜ao possuem a mesma m´edia. Cada observa¸c˜ao Yi est´a associada com uma media λi. Observamos o n´umero de mortes por faixa et´aria.
As idades come¸cam em 20 anos:
20 anos = 1 morte;
21 anos = 4 mortes;
22 anos = 3 mortes, etc.
Exemplo (continua¸c˜ao)
Os gr´aficos mostram on´umero de mortesem fun¸c˜ao da idade.
Exemplo (continua¸c˜ao)
Esse resultado parece razo´avel? As pessoas mais velhas n˜ao morrem mais?
Esperamos que a probabilidade de morrer aumente com a idade.
Os dados n˜ao parecem dizer isso? Qual o problema?
Podemos ter menos pessoas nas faixas et´arias mais altas, por isso o n´umero de mortes ´e baixo mas a propor¸c˜ao ´e alta.
Popula¸c˜ao de expostos ao risco
Precisamos considerar qual o n´umero de pessoas em cada faixa et´aria.
Esse n´umero geralmente ´e chamado depopula¸c˜ao de expostos ao risco.
O n´umero de mortes sempre cresce com o n´umero de expostos.
Duas faixas et´arias com probabilidade de morte 0,01:
em uma popula¸c˜ao de 100 esperamos 1 morte;
em uma popula¸c˜ao de 1000 esperamos 10 mortes.
Exemplo (continua¸c˜ao)
Os gr´aficos mostram on´umero de mortes(esq.) e o tamanho da popula¸c˜ao(dir.) em fun¸c˜ao da idade:
Exemplo (continua¸c˜ao)
Conclus˜ao?
As faixas et´arias com mais mortes s˜ao justamente aquelas em que a popula¸c˜ao ´e maior.
O gr´afico que nos interessa ´e:
propor¸c˜ao de mortes×idade
Exemplo (continua¸c˜ao)
O gr´afico mostra a propor¸c˜ao de mortesem fun¸c˜ao da idade.
Exemplo (continua¸c˜ao)
Tirando o logaritmo a rela¸c˜ao fica mais clara.
Exemplo (continua¸c˜ao)
Podemos ajustar uma reta para log(propor¸c˜ao) em fun¸c˜ao da idade.
Regress˜ao de Poisson
At´e os anos 70 esse problema era resolvido assim (transforma¸c˜ao da vari´avel resposta).
Agora vamos usar umaRegress˜ao de Poisson.
Seja:
Yi = {n´umero de mortes na i-´esima faixa et´aria}
θi = {probabilidade de morte na i-´esima faixa et´aria}
n = {n´umero de expostos na i-´esima faixa et´aria}
Regress˜ao de Poisson
Qual a esperan¸ca de Yi?
E(Yi) =ni. θi
Regress˜ao de Poisson
ComoYi ´e contagem podemos considerar que:
Yi ∼P oisson(ni. θi) e modelamos θi da seguinte maneira
log(θi) =β0+β1xi
ondexi ´e a idade do i-´esimo grupo.
Regress˜ao de Poisson
Qual outra distribui¸c˜ao seria razo´avel para Yi? Yi∼Binomial(ni, θi)
Quando o evento ´e raro, a Poisson ´e mais adequada.
Podemos comparar os dois ajustes.
Regress˜ao de Poisson
Se Yi tem distribui¸c˜ao Poisson(λi), temos que E(Yi) =V ar(Yi) =λi λi nos diz o n´umero decasos esperados.
Por´em precisamos definir bem a unidade considerada.
λi geralmente deve ser descrito como umataxa:
n´umero de pessoas que compram um produto a cada 100 consumidores;
n´umero de batidas de carro a cada 1000 habitantes;
n´umero de batidas de carro em um dia.
Regress˜ao de Poisson
A taxaλi deve ser especificada em fun¸c˜ao do n´umero de expostos.
Se o n´umero de expostos ´e maior, a taxa tamb´em aumenta.
O efeito das vari´aveis explicativas na vari´avel resposta ´e modelado atrav´es da propor¸c˜aoθi.
Regress˜ao de Poisson
Considere uma amostra aleat´oria
Y1, Y2, . . . , Yn
onde Yi denota on´umero de eventos no i-´esimo grupo (cidade, bairro, hora do dia, etc).
Sejani o n´umero total deexpostosno i-´esimo grupo.
A esperan¸ca de Yi ´e dada por:
E(Yi) =λi =θi. ni
Regress˜ao de Poisson
Por exemplo, seYi ´e o n´umero de sinistros para um segurado que usa um determinado carro.
θi pode depender de vari´aveis como:
marca do carro, local onde ´e utilizado, h´abitos do motorista.
O parˆametroθi ´e geralmente modelado da seguinte maneira:
θi = exTiβ
Regress˜ao de Poisson
O modelo ´e ent˜ao definido por:
Regress˜ao de Poisson
Yi ∼ P oisson(λi)
λi = E(Yi) =ni. θi =ni. exTiβ
Estamos portanto usando aliga¸c˜ao canˆonica.
Como
λi =ni. exTiβ podemos tomar o logaritmo e reescrever como:
log(λ) = log(n) +xTβ
Regress˜ao de Poisson
A diferen¸ca do modelo usual est´a na inclus˜ao do termolog(ni).
Esse termo ´e chamadooffset.
Ele ´e inclu´ıdo para controlar pelo n´umero de expostos.
Sen˜ao podemos ter a falsa impress˜ao de que um evento ´e muito comum, quando na verdade a popula¸c˜ao ´e maior.
N˜ao tem nehum parˆametro associado para estimarmos.
Portanto ´e sempre importante termos pelo menos uma estimativa do
Regress˜ao de Poisson
No modelo Poisson os valores estimadosλˆi s˜ao geralmente denotados por ei.
ei representa o n´umero esperado de casos.
Para verificarmos o ajuste do modelo podemo comparar essa quantidade com oi,n´umero observado de casos.
O Res´ıduo de Pearson nesse caso ´e dado por ri = oi−ei
√ei
Esses res´ıduos podem ser padronizados da seguinte maneira rpi= oi−ei
√ei√ 1−hii
Regress˜ao de Poisson
A Estat´ıstica Qui-quadrado de Pearson ´e dada por:
X2 =X
i
r2i =X
i
(oi−ei)2 ei
que coincide com a defini¸c˜ao usual da Estat´ıstica Qui-Quadrado.
Regress˜ao de Poisson
A Deviance do Modelo Poisson pode ser escrita como D= 2X
i
oilog(oi/ei)−(oi−ei)
E a Deviance Residual ent˜ao fica:
di=sign(oi−ei)p
2[oilog(oi/ei)−(oi−ei)]
Exemplo 1
Exemplo 1:
Um estudo analisou a incidˆencia de doen¸cas coronarianas em m´edicos fumantes.
Os dados foram coletados em 1951.
Um question´ario foi enviado a um conjunto de m´edicos e foram questionados se fumavam ou n˜ao.
A partir da´ı foram registrados os m´edicos que vieram a falecer.
Os resultados apresentados referem-se a 10 anos de pesquisa.
Exemplo: (continua¸c˜ao)
A tabela a seguir mostra os dados coletados.
Foram registradas as idade, o h´abito de fumo, o n´umero de mortes e o n´umero total de pessoas observadas.
Exemplo: (continua¸c˜ao)
Algumas quest˜oes de interesse:
A taxa de mortes ´e maior dentre os fumantes?
Se ´e, qual a magnitude dessa diferen¸ca?
A idade tamb´em influencia na taxa de mortes?
Exemplo: (continua¸c˜ao)
A figura a seguir mostra a taxa de mortes a cada 1000 pessoas, para diferentes faixas et´arias, considerando fumantes e n˜ao fumantes.
Losango - fumantes, c´ırculos - n˜ao fumantes.
Exemplo: (continua¸c˜ao)
A taxa de mortes aumenta com a idade.
A taxa de mortes parece ser maior entre os fumantes.
Parece existir intera¸c˜ao entre faixa et´aria e fumo? N˜ao.
O que isso significa?
O efeito da idade n˜ao parece ser diferente para fumantes e n˜ao fumantes.
Exemplo: (continua¸c˜ao)
Os subgrupos nesse caso s˜ao definidos pela faixa et´aria e h´abito de fumar ou n˜ao.
SejaYi o n´umero de mortes no i-´esimo grupo.
O modelo ajustado ser´a o seguinte:
Yi ∼P oisson(λi) λi =ni. exTiβ
ondeni ´e o n´umero de pessoas entrevistadas no i-´esimo grupo.
Exemplo: (continua¸c˜ao)
Podemos ajustar v´arios modelos para a propor¸c˜ao θi =exTiβ. Uma possibilidade:
log(θi) =β1+β2Zi+β3Xi onde:
Zi ´e uma vari´avel indicadora que indica se ´e um grupo de fumantes ou n˜ao;
Xi recebe valores 1, 2, 3, 4 e 5 para os grupos et´arios 35-44, 45-54, . . . , 75-84.
Podemos incluir ainda um termo de intera¸c˜ao:
Exemplo: (continua¸c˜ao)
age = c(1:5,1:5)
smoke = c(rep(1,5),rep(0,5))
deaths = c(32,104,206,186,102,2,12,28,28,31)
n = c(52407,43248,28612,12663,5317,18790,10673,5710,2585,1462) modelo = glm(deaths ~ offset(log(n)) + smoke + age + age*smoke,
family=poisson())
Exemplo: (continua¸c˜ao)
> summary(modelo) Deviance Residuals:
Min 1Q Median 3Q Max
-3.8784 -2.1217 -0.2482 1.7183 3.5269 Coefficients:
Estimate Std. Error z value Pr(>|z|) (Intercept) -8.86708 0.30567 -29.008 < 2e-16 ***
smoke 1.28360 0.32584 3.939 8.17e-05 ***
age 1.04683 0.07743 13.519 < 2e-16 ***
smoke:age -0.24898 0.08359 -2.978 0.0029 **
Null deviance: 935.067 on 9 degrees of freedom
Exemplo: (continua¸c˜ao)
> exp(coef(modelo))
(Intercept) smoke age smoke:age
0.0001409537 3.6096237466 2.8485947916 0.7795992902
Exemplo: (continua¸c˜ao)
Todas as vari´aveis parecem ser significativas.
A probabilidade esperada de morrer de um fumante em rela¸c˜ao ao n˜ao fumante aumenta 3,6 vezes.
Com o aumento de uma faixa et´aria, a probabilidade esperada de morrer aumenta 2,85 vezes.
Para um fumante, o efeito na probabilidade de morte de um aumento na idade ´e menor do que para um n˜ao fumante.
Exemplo 2
Exemplo 2:
O n´umero de casos de Tuberculose nas favelas do Rio estava aumentando.
Em 2003, o governo implementa o programa DOTS com o objetivo de diagnosticar e tratar os casos.
Estamos interessados em investigar o efeito do programa para redu¸c˜ao do n´umero de casos observados.
Registrou-se o tamanho da popula¸c˜ao sob risco e o n´umero de casos, nos meses de Abril e Outubro de cada ano.
Exemplo (continua¸c˜ao)
A tabela a seguir apresenta os dados coletados.
Exemplo (continua¸c˜ao)
A figura a seguir mostra a s´erie temporal dos dados antes e ap´os a interven¸c˜ao.
Exemplo (continua¸c˜ao)
Queremos modelar duas tendˆencias distintas:
antes e ap´os a interven¸c˜ao
Para cada per´ıodo precisamos de uma equa¸c˜ao da forma log(λ) =β0+β1(tempo)
O momento da interven¸c˜ao corresponde ao tempo de ordem 7.
Nesse ponto as equa¸c˜oes dos dois per´ıodos devem ser iguais.
Exemplo (continua¸c˜ao)
Considere o modelo
log(λ) =β0+β1(tempo) +β2(tempo−7)I(int= 1) onde
I(int= 1) =
(1 se o per´ıodo ´e p´os interven¸c˜ao, 0 se o per´ıodo ´e pr´e interven¸c˜ao.
Para o per´ıodopr´e interven¸c˜aoo modelo fica:
log(λ) =β0+β1(tempo)
Exemplo (continua¸c˜ao)
Para o per´ıodop´os interven¸c˜aoo modelo ´e:
log(λ) = β0+β1(tempo) +β2(tempo−7)
= (β0−7β2) + (β1+β2)tempo que pode ser reescrito como:
log(λ) =α0+α1(tempo) onde
Exemplo (continua¸c˜ao)
Vejamos como ficam as equa¸c˜oes paratempo= 7.
Para o per´ıodo pr´e interven¸c˜ao:
log(λ) =β0+β1(tempo) Para o p´os interven¸c˜ao:
log(λ) = β0+β1(tempo) +β2(tempo−7)
= β0+β1(tempo) +β2(7−7)
= β0+β1(tempo) Portanto s˜ao iguais, como desej´avamos.
Exemplo (continua¸c˜ao)
SejaYi o n´umero de casosno per´ıodo i, para i= 1,2, . . . ,12.
Vamos supor que:
Yi∼P oisson(P opi. λi)
onde P opi ´e apopula¸c˜ao sob risco no per´ıodoi(offset).
O modelo para a taxa ´e dado por:
log(λi) =β0+β1(tempoi) +β2(tempoi−7)I(inti= 1)
Exemplo (continua¸c˜ao)
As estimativas pontuais dos parˆametros e os Intervalos de Confian¸ca s˜ao apresentados na tabela a seguir.
Parˆametro Estimativa Pontual Intervalo de Confian¸ca
β0 3,19 [3,06;3,32]
β1 0,04 [0,01; 0,06]
β2 -0,10 [-0,15; -0,05]
Exemplo (continua¸c˜ao)
Qual interpreta¸c˜ao do β1?
O n´umero esperado de casos ´e multiplicado pore0,04= 1,04 ( ou aumenta 4%) a cada per´ıodo.
Ou seja, a doen¸ca apresenta uma tendˆencia crescente.
Exemplo (continua¸c˜ao)
Qual interpreta¸c˜ao do β2?
Ele mede o efeito da interven¸c˜ao.
Ap´os a interven¸c˜ao a tendˆencia passa para 0,04-0,103 = -0.063.
Ap´os a interven¸c˜ao, o n´umero esperado de casos ´e multiplicado por e−0.063 = 0.93 ( ou reduz 7%) a cada per´ıodo que passa.
A interven¸c˜ao tem o efeito desejado.
Faz com que o n´umero de casos passe a ter uma tendˆencia decrescente.