Tarifação de Seguros

(1)

Tarifa¸c˜ao de Seguros

15. Modelos para dados de contagem

Tha´ıs Paiva [email protected]

Departamento de Estat´ıstica Universidade Federal de Minas Gerais

(2)

1 Exemplo Modelo probit

2 Modelos para contagens

(3)

Exemplo Modelo probit

(4)

Regress˜ao para resposta bin´aria

Vimos que para MLGs com variável resposta binária, podemos usar algumas fun¸cões de liga¸cão:

logit probit

complemento log-log

Regressão log´ıstica: e^β^j é o efeito multiplicativo esperado na chance de sucesso quando há um aumento de uma unidade na variável explicativa correspondente.

Vamos ver como fica no caso de um exemplo de Regress˜ao com liga¸c˜ao Probit.

(5)

Exemplo - Modelo Probit:

http://stats.idre.ucla.edu/r/dae/probit-regression/

A researcher is interested in how variables, such as GRE (Graduate Record Exam scores), GPA (grade point average) and prestige of the undergraduate institution, effectadmission into graduate school.

This data set has a binary response (outcome, dependent) variable calledadmit.

There are three predictor variables: gre,gpaandrank. We will treat the variablesgreandgpaas continuous.

The variable takes on the values 1 through 4. Institutions with a

(6)

mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")

## convert rank to a factor (categorical variable) mydata$rank <- factor(mydata$rank)

summary(mydata)

## admit gre gpa rank

## Min. :0.000 Min. :220 Min. :2.26 1: 61

## 1st Qu.:0.000 1st Qu.:520 1st Qu.:3.13 2:151

## Median :0.000 Median :580 Median :3.40 3:121

## Mean :0.318 Mean :588 Mean :3.39 4: 67

## 3rd Qu.:1.000 3rd Qu.:660 3rd Qu.:3.67

## Max. :1.000 Max. :800 Max. :4.00

(7)

myprobit <- glm(admit ~ gre + gpa + rank,

family = binomial(link = "probit"), data = mydata) summary(myprobit)

## Coefficients:

## Estimate Std. Error z value Pr(>|z|)

## (Intercept) -2.38684 0.67395 -3.54 0.00040 ***

## gre 0.00138 0.00065 2.12 0.03433 *

## gpa 0.47773 0.19720 2.42 0.01541 *

## rank2 -0.41540 0.19498 -2.13 0.03313 *

## rank3 -0.81214 0.20836 -3.90 9.7e-05 ***

## rank4 -0.93590 0.24527 -3.82 0.00014 ***

##

## Null deviance: 499.98 on 399 degrees of freedom

(8)

Both gre,gpa, and the three terms forrank are statistically significant.

The probit regression coefficients give the change in the z-score or probit index for a one unit change in the predictor.

For a one unit increase in gre, the z-score increases by 0.001.

For each one unit increase in gpa, the z-score increases by 0.478.

The indicator variables forrank have a slightly different interpretation. For example, having attended an undergraduate institution of rank of 2, versus an institution with a rank of 1 (the reference group), decreases the z-score by 0.415.

(9)

For a given record, the predicted probability of admissionis:

Φ(−2.387+0.001∗gre+0.478∗gpa−0.415∗1rank2−0.812∗1rank3−0.936∗1rank4) whereΦis the cumulative distribution function of the standard normal.

The increase in probability attributed to a one-unit increase in a given predictor is dependent both on the values of the other predictors and the starting value of the given predictors.

For example, if we hold great zero and rank 1, the one unit increase in gpafrom 2 to 3 has a different effect than the one unit increase from 3 to 4 (note that the probabilities do not change by a common difference or common factor):

(10)

Plot of the predicted probabilities for different gre scores. We create four plots, one for each level of gpa we used (2.5, 3, 3.5, 4) with the colour of the lines indicating the rank the predicted probabilities were for.

newdata[, c("p", "se")] <- predict(myprobit, newdata, type = "response", se.fit = TRUE)[-3]

ggplot(newdata, aes(x = gre, y = p, colour = rank)) + geom_line() + facet_wrap(~gpa)

(11)

(12)

Modelos para contagens

(13)

O número de vezes que um evento ocorre é um tipo de dado encontrado com frequência.

Exemplo:

n´umero de casos de uma doen¸ca em uma cidade;

n´umero de crimes em uma regi˜ao;

n´umero de amigos no Facebook;

n´umero de vezes que umtweet ´e compartilhado;

etc.

A distribui¸cãoPoissoné uma escolha razoável para modelar esse tipo de dado.

(14)

Exemplo:

Vamos analisar dados dos membros de um fundo de pens˜ao do Banco do Brasil.

Observamos contagensY₁, Y₂, . . . , Y_n.

As observa¸cões não possuem a mesma média. Cada observa¸cão Y_i está associada com uma media λ_i. Observamos o número de mortes por faixa etária.

As idades come¸cam em 20 anos:

20 anos = 1 morte;

21 anos = 4 mortes;

22 anos = 3 mortes, etc.

(15)

Exemplo (continua¸c˜ao)

Os gráficos mostram onúmero de mortesem fun¸cão da idade.

(16)

Esse resultado parece razo´avel? As pessoas mais velhas n˜ao morrem mais?

Esperamos que a probabilidade de morrer aumente com a idade.

Os dados n˜ao parecem dizer isso? Qual o problema?

Podemos ter menos pessoas nas faixas etárias mais altas, por isso o número de mortes é baixo mas a propor¸cão é alta.

(17)

Popula¸c˜ao de expostos ao risco

Precisamos considerar qual o n´umero de pessoas em cada faixa et´aria.

Esse número geralmente é chamado depopula¸cão de expostos ao risco.

O n´umero de mortes sempre cresce com o n´umero de expostos.

Duas faixas et´arias com probabilidade de morte 0,01:

em uma popula¸c˜ao de 100 esperamos 1 morte;

em uma popula¸c˜ao de 1000 esperamos 10 mortes.

(18)

Os gráficos mostram onúmero de mortes(esq.) e o tamanho da popula¸cão(dir.) em fun¸cão da idade:

(19)

Conclus˜ao?

As faixas etárias com mais mortes são justamente aquelas em que a popula¸cão é maior.

O gr´afico que nos interessa ´e:

propor¸c˜ao de mortes×idade

(20)

O gráfico mostra a propor¸cão de mortesem fun¸cão da idade.

(21)

Tirando o logaritmo a rela¸c˜ao fica mais clara.

(22)

Podemos ajustar uma reta para log(propor¸c˜ao) em fun¸c˜ao da idade.

(23)

Regress˜ao de Poisson

Até os anos 70 esse problema era resolvido assim (transforma¸cão da variável resposta).

Agora vamos usar umaRegress˜ao de Poisson.

Seja:

Y_i = {número de mortes na i-ésima faixa etária}

θi = {probabilidade de morte na i-´esima faixa et´aria}

n = {número de expostos na i-ésima faixa etária}

(24)

Qual a esperan¸ca de Y_i?

E(Y_i) =n_i. θ_i

ComoY_i ´e contagem podemos considerar que:

Y_i ∼P oisson(n_i. θ_i) e modelamos θi da seguinte maneira

log(θi) =β0+β1xi

ondex_i ´e a idade do i-´esimo grupo.

(25)

Qual outra distribui¸c˜ao seria razo´avel para Y_i? Y_i∼Binomial(n_i, θ_i)

Quando o evento ´e raro, a Poisson ´e mais adequada.

Podemos comparar os dois ajustes.

(26)

Se Yi tem distribui¸c˜ao Poisson(λi), temos que E(Y_i) =V ar(Y_i) =λ_i λ_i nos diz o n´umero decasos esperados.

Por´em precisamos definir bem a unidade considerada.

λi geralmente deve ser descrito como umataxa:

n´umero de pessoas que compram um produto a cada 100 consumidores;

n´umero de batidas de carro a cada 1000 habitantes;

n´umero de batidas de carro em um dia.

(27)

A taxaλ_i deve ser especificada em fun¸c˜ao do n´umero de expostos.

Se o número de expostos é maior, a taxa também aumenta.

O efeito das variáveis explicativas na variável resposta é modelado através da propor¸cãoθ_i.

(28)

Considere uma amostra aleat´oria

Y1, Y2, . . . , Yn

onde Y_i denota on´umero de eventos no i-´esimo grupo (cidade, bairro, hora do dia, etc).

Sejan_i o n´umero total deexpostosno i-´esimo grupo.

A esperan¸ca de Y_i ´e dada por:

E(Y_i) =λ_i =θ_i. n_i

(29)

Por exemplo, seY_i ´e o n´umero de sinistros para um segurado que usa um determinado carro.

θ_i pode depender de vari´aveis como:

marca do carro, local onde ´e utilizado, h´abitos do motorista.

O parˆametroθ_i ´e geralmente modelado da seguinte maneira:

θ_i = e^x^Tⁱ^β

(30)

O modelo ´e ent˜ao definido por:

Y_i ∼ P oisson(λ_i)

λ_i = E(Y_i) =n_i. θ_i =n_i. e^x^Tⁱ^β

Estamos portanto usando aliga¸c˜ao canˆonica.

Como

λ_i =n_i. e^x^Tⁱ^β podemos tomar o logaritmo e reescrever como:

log(λ) = log(n) +x^Tβ

(31)

A diferen¸ca do modelo usual est´a na inclus˜ao do termolog(ni).

Esse termo ´e chamadooffset.

Ele ´e inclu´ıdo para controlar pelo n´umero de expostos.

Senão podemos ter a falsa impressão de que um evento é muito comum, quando na verdade a popula¸cão é maior.

N˜ao tem nehum parˆametro associado para estimarmos.

Portanto ´e sempre importante termos pelo menos uma estimativa do

(32)

No modelo Poisson os valores estimadosλˆi s˜ao geralmente denotados por e_i.

e_i representa o n´umero esperado de casos.

Para verificarmos o ajuste do modelo podemo comparar essa quantidade com oi,n´umero observado de casos.

O Res´ıduo de Pearson nesse caso ´e dado por ri = oi−ei

√e_i

Esses res´ıduos podem ser padronizados da seguinte maneira r_pi= o_i−e_i

√e_i√ 1−h_ii

(33)

A Estat´ıstica Qui-quadrado de Pearson ´e dada por:

X² =X

i

r²_i =X

i

(oi−ei)² ei

que coincide com a defini¸c˜ao usual da Estat´ıstica Qui-Quadrado.

(34)

A Deviance do Modelo Poisson pode ser escrita como D= 2X

i

o_ilog(o_i/e_i)−(o_i−e_i)

E a Deviance Residual ent˜ao fica:

d_i=sign(o_i−e_i)p

2[o_ilog(o_i/e_i)−(o_i−e_i)]

(35)

Exemplo 1

Exemplo 1:

Um estudo analisou a incidˆencia de doen¸cas coronarianas em m´edicos fumantes.

Os dados foram coletados em 1951.

Um questionário foi enviado a um conjunto de médicos e foram questionados se fumavam ou não.

A partir da´ı foram registrados os m´edicos que vieram a falecer.

Os resultados apresentados referem-se a 10 anos de pesquisa.

(36)

Exemplo: (continua¸c˜ao)

A tabela a seguir mostra os dados coletados.

Foram registradas as idade, o hábito de fumo, o número de mortes e o número total de pessoas observadas.

(37)

Algumas quest˜oes de interesse:

A taxa de mortes ´e maior dentre os fumantes?

Se ´e, qual a magnitude dessa diferen¸ca?

A idade tamb´em influencia na taxa de mortes?

(38)

A figura a seguir mostra a taxa de mortes a cada 1000 pessoas, para diferentes faixas et´arias, considerando fumantes e n˜ao fumantes.

Losango - fumantes, c´ırculos - n˜ao fumantes.

(39)

A taxa de mortes aumenta com a idade.

A taxa de mortes parece ser maior entre os fumantes.

Parece existir intera¸cão entre faixa etária e fumo? Não.

O que isso significa?

O efeito da idade n˜ao parece ser diferente para fumantes e n˜ao fumantes.

(40)

Os subgrupos nesse caso são definidos pela faixa etária e hábito de fumar ou não.

SejaYi o n´umero de mortes no i-´esimo grupo.

O modelo ajustado ser´a o seguinte:

Y_i ∼P oisson(λ_i) λ_i =n_i. e^x^Tⁱ^β

onden_i é o número de pessoas entrevistadas no i-ésimo grupo.

(41)

Podemos ajustar v´arios modelos para a propor¸c˜ao θ_i =e^x^Tⁱβ. Uma possibilidade:

log(θ_i) =β₁+β₂Z_i+β₃X_i onde:

Zi é uma variável indicadora que indica se é um grupo de fumantes ou não;

X_i recebe valores 1, 2, 3, 4 e 5 para os grupos et´arios 35-44, 45-54, . . . , 75-84.

Podemos incluir ainda um termo de intera¸c˜ao:

(42)

age = c(1:5,1:5)

smoke = c(rep(1,5),rep(0,5))

deaths = c(32,104,206,186,102,2,12,28,28,31)

n = c(52407,43248,28612,12663,5317,18790,10673,5710,2585,1462) modelo = glm(deaths ~ offset(log(n)) + smoke + age + age*smoke,

family=poisson())

(43)

> summary(modelo) Deviance Residuals:

Min 1Q Median 3Q Max

-3.8784 -2.1217 -0.2482 1.7183 3.5269 Coefficients:

Estimate Std. Error z value Pr(>|z|) (Intercept) -8.86708 0.30567 -29.008 < 2e-16 ***

smoke 1.28360 0.32584 3.939 8.17e-05 ***

age 1.04683 0.07743 13.519 < 2e-16 ***

smoke:age -0.24898 0.08359 -2.978 0.0029 **

Null deviance: 935.067 on 9 degrees of freedom

(44)

> exp(coef(modelo))

(Intercept) smoke age smoke:age

0.0001409537 3.6096237466 2.8485947916 0.7795992902

(45)

Todas as vari´aveis parecem ser significativas.

A probabilidade esperada de morrer de um fumante em rela¸c˜ao ao n˜ao fumante aumenta 3,6 vezes.

Com o aumento de uma faixa et´aria, a probabilidade esperada de morrer aumenta 2,85 vezes.

Para um fumante, o efeito na probabilidade de morte de um aumento na idade ´e menor do que para um n˜ao fumante.

(46)

Exemplo 2

Exemplo 2:

O n´umero de casos de Tuberculose nas favelas do Rio estava aumentando.

Em 2003, o governo implementa o programa DOTS com o objetivo de diagnosticar e tratar os casos.

Estamos interessados em investigar o efeito do programa para redu¸c˜ao do n´umero de casos observados.

Registrou-se o tamanho da popula¸c˜ao sob risco e o n´umero de casos, nos meses de Abril e Outubro de cada ano.

(47)

A tabela a seguir apresenta os dados coletados.

(48)

A figura a seguir mostra a série temporal dos dados antes e após a interven¸cão.

(49)

Queremos modelar duas tendˆencias distintas:

antes e ap´os a interven¸c˜ao

Para cada per´ıodo precisamos de uma equa¸c˜ao da forma log(λ) =β0+β1(tempo)

O momento da interven¸c˜ao corresponde ao tempo de ordem 7.

Nesse ponto as equa¸c˜oes dos dois per´ıodos devem ser iguais.

(50)

Considere o modelo

log(λ) =β₀+β₁(tempo) +β₂(tempo−7)I(int= 1) onde

I(int= 1) =

(1 se o per´ıodo é pós interven¸cão, 0 se o per´ıodo é pré interven¸cão.

Para o per´ıodopr´e interven¸c˜aoo modelo fica:

log(λ) =β0+β1(tempo)

(51)

Para o per´ıodopós interven¸cãoo modelo é:

log(λ) = β₀+β₁(tempo) +β₂(tempo−7)

= (β₀−7β₂) + (β₁+β₂)tempo que pode ser reescrito como:

log(λ) =α₀+α₁(tempo) onde

(52)

Vejamos como ficam as equa¸c˜oes paratempo= 7.

Para o per´ıodo pr´e interven¸c˜ao:

log(λ) =β₀+β₁(tempo) Para o p´os interven¸c˜ao:

log(λ) = β₀+β₁(tempo) +β₂(tempo−7)

= β₀+β₁(tempo) +β₂(7−7)

= β0+β1(tempo) Portanto s˜ao iguais, como desej´avamos.

(53)

SejaYi o n´umero de casosno per´ıodo i, para i= 1,2, . . . ,12.

Vamos supor que:

Y_i∼P oisson(P op_i. λ_i)

onde P op_i ´e apopula¸c˜ao sob risco no per´ıodoi(offset).

O modelo para a taxa ´e dado por:

log(λi) =β0+β1(tempoi) +β2(tempoi−7)I(inti= 1)

(54)

As estimativas pontuais dos parˆametros e os Intervalos de Confian¸ca s˜ao apresentados na tabela a seguir.

Parˆametro Estimativa Pontual Intervalo de Confian¸ca

β₀ 3,19 [3,06;3,32]

β1 0,04 [0,01; 0,06]

β2 -0,10 [-0,15; -0,05]

(55)

Qual interpreta¸c˜ao do β₁?

O n´umero esperado de casos ´e multiplicado pore^0,04= 1,04 ( ou aumenta 4%) a cada per´ıodo.

Ou seja, a doen¸ca apresenta uma tendˆencia crescente.

(56)

Qual interpreta¸c˜ao do β2?

Ele mede o efeito da interven¸c˜ao.

Após a interven¸cão a tendência passa para 0,04-0,103 = -0.063.

Após a interven¸cão, o número esperado de casos é multiplicado por e^−0.063 = 0.93 ( ou reduz 7%) a cada per´ıodo que passa.

A interven¸c˜ao tem o efeito desejado.

Faz com que o n´umero de casos passe a ter uma tendˆencia decrescente.