• Nenhum resultado encontrado

Tarifação de Seguros

N/A
N/A
Protected

Academic year: 2022

Share "Tarifação de Seguros"

Copied!
56
0
0

Texto

(1)

Tarifa¸c˜ao de Seguros

15. Modelos para dados de contagem

Tha´ıs Paiva [email protected]

Departamento de Estat´ıstica Universidade Federal de Minas Gerais

(2)

1 Exemplo Modelo probit

2 Modelos para contagens

(3)

Exemplo Modelo probit

(4)

Regress˜ao para resposta bin´aria

Vimos que para MLGs com vari´avel resposta bin´aria, podemos usar algumas fun¸c˜oes de liga¸ao:

logit probit

complemento log-log

Regress˜ao log´ıstica: eβj ´e o efeito multiplicativo esperado na chance de sucesso quando h´a um aumento de uma unidade na vari´avel explicativa correspondente.

Vamos ver como fica no caso de um exemplo de Regress˜ao com liga¸ao Probit.

(5)

Regress˜ao para resposta bin´aria

Exemplo - Modelo Probit:

http://stats.idre.ucla.edu/r/dae/probit-regression/

A researcher is interested in how variables, such as GRE (Graduate Record Exam scores), GPA (grade point average) and prestige of the undergraduate institution, effectadmission into graduate school.

This data set has a binary response (outcome, dependent) variable calledadmit.

There are three predictor variables: gre,gpaandrank. We will treat the variablesgreandgpaas continuous.

The variable takes on the values 1 through 4. Institutions with a

(6)

Regress˜ao para resposta bin´aria

mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")

## convert rank to a factor (categorical variable) mydata$rank <- factor(mydata$rank)

summary(mydata)

## admit gre gpa rank

## Min. :0.000 Min. :220 Min. :2.26 1: 61

## 1st Qu.:0.000 1st Qu.:520 1st Qu.:3.13 2:151

## Median :0.000 Median :580 Median :3.40 3:121

## Mean :0.318 Mean :588 Mean :3.39 4: 67

## 3rd Qu.:1.000 3rd Qu.:660 3rd Qu.:3.67

## Max. :1.000 Max. :800 Max. :4.00

(7)

Regress˜ao para resposta bin´aria

myprobit <- glm(admit ~ gre + gpa + rank,

family = binomial(link = "probit"), data = mydata) summary(myprobit)

## Coefficients:

## Estimate Std. Error z value Pr(>|z|)

## (Intercept) -2.38684 0.67395 -3.54 0.00040 ***

## gre 0.00138 0.00065 2.12 0.03433 *

## gpa 0.47773 0.19720 2.42 0.01541 *

## rank2 -0.41540 0.19498 -2.13 0.03313 *

## rank3 -0.81214 0.20836 -3.90 9.7e-05 ***

## rank4 -0.93590 0.24527 -3.82 0.00014 ***

##

## Null deviance: 499.98 on 399 degrees of freedom

(8)

Regress˜ao para resposta bin´aria

Both gre,gpa, and the three terms forrank are statistically significant.

The probit regression coefficients give the change in the z-score or probit index for a one unit change in the predictor.

For a one unit increase in gre, the z-score increases by 0.001.

For each one unit increase in gpa, the z-score increases by 0.478.

The indicator variables forrank have a slightly different interpretation. For example, having attended an undergraduate institution of rank of 2, versus an institution with a rank of 1 (the reference group), decreases the z-score by 0.415.

(9)

Regress˜ao para resposta bin´aria

For a given record, the predicted probability of admissionis:

Φ(−2.387+0.001∗gre+0.478∗gpa−0.415∗1rank2−0.812∗1rank3−0.936∗1rank4) whereΦis the cumulative distribution function of the standard normal.

The increase in probability attributed to a one-unit increase in a given predictor is dependent both on the values of the other predictors and the starting value of the given predictors.

For example, if we hold great zero and rank 1, the one unit increase in gpafrom 2 to 3 has a different effect than the one unit increase from 3 to 4 (note that the probabilities do not change by a common difference or common factor):

(10)

Regress˜ao para resposta bin´aria

Plot of the predicted probabilities for different gre scores. We create four plots, one for each level of gpa we used (2.5, 3, 3.5, 4) with the colour of the lines indicating the rank the predicted probabilities were for.

newdata[, c("p", "se")] <- predict(myprobit, newdata, type = "response", se.fit = TRUE)[-3]

ggplot(newdata, aes(x = gre, y = p, colour = rank)) + geom_line() + facet_wrap(~gpa)

(11)
(12)

Modelos para contagens

(13)

Modelos para contagens

O n´umero de vezes que um evento ocorre ´e um tipo de dado encontrado com frequˆencia.

Exemplo:

umero de casos de uma doen¸ca em uma cidade;

umero de crimes em uma regi˜ao;

umero de amigos no Facebook;

umero de vezes que umtweet ´e compartilhado;

etc.

A distribui¸aoPoisson´e uma escolha razo´avel para modelar esse tipo de dado.

(14)

Modelos para contagens

Exemplo:

Vamos analisar dados dos membros de um fundo de pens˜ao do Banco do Brasil.

Observamos contagensY1, Y2, . . . , Yn.

As observa¸c˜oes n˜ao possuem a mesma m´edia. Cada observa¸c˜ao Yi est´a associada com uma media λi. Observamos o n´umero de mortes por faixa et´aria.

As idades come¸cam em 20 anos:

20 anos = 1 morte;

21 anos = 4 mortes;

22 anos = 3 mortes, etc.

(15)

Exemplo (continua¸c˜ao)

Os gr´aficos mostram oumero de mortesem fun¸ao da idade.

(16)

Exemplo (continua¸c˜ao)

Esse resultado parece razo´avel? As pessoas mais velhas n˜ao morrem mais?

Esperamos que a probabilidade de morrer aumente com a idade.

Os dados n˜ao parecem dizer isso? Qual o problema?

Podemos ter menos pessoas nas faixas et´arias mais altas, por isso o umero de mortes ´e baixo mas a propor¸ao ´e alta.

(17)

Popula¸c˜ao de expostos ao risco

Precisamos considerar qual o n´umero de pessoas em cada faixa et´aria.

Esse n´umero geralmente ´e chamado depopula¸ao de expostos ao risco.

O n´umero de mortes sempre cresce com o n´umero de expostos.

Duas faixas et´arias com probabilidade de morte 0,01:

em uma popula¸ao de 100 esperamos 1 morte;

em uma popula¸ao de 1000 esperamos 10 mortes.

(18)

Exemplo (continua¸c˜ao)

Os gr´aficos mostram oumero de mortes(esq.) e o tamanho da popula¸ao(dir.) em fun¸ao da idade:

(19)

Exemplo (continua¸c˜ao)

Conclus˜ao?

As faixas et´arias com mais mortes s˜ao justamente aquelas em que a popula¸ao ´e maior.

O gr´afico que nos interessa ´e:

propor¸ao de mortes×idade

(20)

Exemplo (continua¸c˜ao)

O gr´afico mostra a propor¸ao de mortesem fun¸ao da idade.

(21)

Exemplo (continua¸c˜ao)

Tirando o logaritmo a rela¸ao fica mais clara.

(22)

Exemplo (continua¸c˜ao)

Podemos ajustar uma reta para log(propor¸ao) em fun¸ao da idade.

(23)

Regress˜ao de Poisson

At´e os anos 70 esse problema era resolvido assim (transforma¸ao da vari´avel resposta).

Agora vamos usar umaRegress˜ao de Poisson.

Seja:

Yi = {n´umero de mortes na i-´esima faixa et´aria}

θi = {probabilidade de morte na i-´esima faixa et´aria}

n = {n´umero de expostos na i-´esima faixa et´aria}

(24)

Regress˜ao de Poisson

Qual a esperan¸ca de Yi?

E(Yi) =ni. θi

Regress˜ao de Poisson

ComoYi ´e contagem podemos considerar que:

Yi P oisson(ni. θi) e modelamos θi da seguinte maneira

log(θi) =β0+β1xi

ondexi ´e a idade do i-´esimo grupo.

(25)

Regress˜ao de Poisson

Qual outra distribui¸c˜ao seria razo´avel para Yi? YiBinomial(ni, θi)

Quando o evento ´e raro, a Poisson ´e mais adequada.

Podemos comparar os dois ajustes.

(26)

Regress˜ao de Poisson

Se Yi tem distribui¸c˜ao Poisson(λi), temos que E(Yi) =V ar(Yi) =λi λi nos diz o n´umero decasos esperados.

Por´em precisamos definir bem a unidade considerada.

λi geralmente deve ser descrito como umataxa:

umero de pessoas que compram um produto a cada 100 consumidores;

umero de batidas de carro a cada 1000 habitantes;

umero de batidas de carro em um dia.

(27)

Regress˜ao de Poisson

A taxaλi deve ser especificada em fun¸ao do n´umero de expostos.

Se o n´umero de expostos ´e maior, a taxa tamb´em aumenta.

O efeito das vari´aveis explicativas na vari´avel resposta ´e modelado atrav´es da propor¸aoθi.

(28)

Regress˜ao de Poisson

Considere uma amostra aleat´oria

Y1, Y2, . . . , Yn

onde Yi denota oumero de eventos no i-´esimo grupo (cidade, bairro, hora do dia, etc).

Sejani o n´umero total deexpostosno i-´esimo grupo.

A esperan¸ca de Yi ´e dada por:

E(Yi) =λi =θi. ni

(29)

Regress˜ao de Poisson

Por exemplo, seYi ´e o n´umero de sinistros para um segurado que usa um determinado carro.

θi pode depender de vari´aveis como:

marca do carro, local onde ´e utilizado, abitos do motorista.

O parˆametroθi ´e geralmente modelado da seguinte maneira:

θi = exTiβ

(30)

Regress˜ao de Poisson

O modelo ´e ent˜ao definido por:

Regress˜ao de Poisson

Yi P oisson(λi)

λi = E(Yi) =ni. θi =ni. exTiβ

Estamos portanto usando aliga¸ao canˆonica.

Como

λi =ni. exTiβ podemos tomar o logaritmo e reescrever como:

log(λ) = log(n) +xTβ

(31)

Regress˜ao de Poisson

A diferen¸ca do modelo usual est´a na inclus˜ao do termolog(ni).

Esse termo ´e chamadooffset.

Ele ´e inclu´ıdo para controlar pelo n´umero de expostos.

Sen˜ao podemos ter a falsa impress˜ao de que um evento ´e muito comum, quando na verdade a popula¸ao ´e maior.

ao tem nehum parˆametro associado para estimarmos.

Portanto ´e sempre importante termos pelo menos uma estimativa do

(32)

Regress˜ao de Poisson

No modelo Poisson os valores estimadosλˆi ao geralmente denotados por ei.

ei representa o umero esperado de casos.

Para verificarmos o ajuste do modelo podemo comparar essa quantidade com oi,umero observado de casos.

O Res´ıduo de Pearson nesse caso ´e dado por ri = oiei

ei

Esses res´ıduos podem ser padronizados da seguinte maneira rpi= oiei

ei 1hii

(33)

Regress˜ao de Poisson

A Estat´ıstica Qui-quadrado de Pearson ´e dada por:

X2 =X

i

r2i =X

i

(oiei)2 ei

que coincide com a defini¸c˜ao usual da Estat´ıstica Qui-Quadrado.

(34)

Regress˜ao de Poisson

A Deviance do Modelo Poisson pode ser escrita como D= 2X

i

oilog(oi/ei)(oiei)

E a Deviance Residual ent˜ao fica:

di=sign(oiei)p

2[oilog(oi/ei)(oiei)]

(35)

Exemplo 1

Exemplo 1:

Um estudo analisou a incidˆencia de doen¸cas coronarianas em edicos fumantes.

Os dados foram coletados em 1951.

Um question´ario foi enviado a um conjunto de m´edicos e foram questionados se fumavam ou n˜ao.

A partir da´ı foram registrados os m´edicos que vieram a falecer.

Os resultados apresentados referem-se a 10 anos de pesquisa.

(36)

Exemplo: (continua¸c˜ao)

A tabela a seguir mostra os dados coletados.

Foram registradas as idade, o h´abito de fumo, o n´umero de mortes e o n´umero total de pessoas observadas.

(37)

Exemplo: (continua¸c˜ao)

Algumas quest˜oes de interesse:

A taxa de mortes ´e maior dentre os fumantes?

Se ´e, qual a magnitude dessa diferen¸ca?

A idade tamb´em influencia na taxa de mortes?

(38)

Exemplo: (continua¸c˜ao)

A figura a seguir mostra a taxa de mortes a cada 1000 pessoas, para diferentes faixas et´arias, considerando fumantes e n˜ao fumantes.

Losango - fumantes, c´ırculos - n˜ao fumantes.

(39)

Exemplo: (continua¸c˜ao)

A taxa de mortes aumenta com a idade.

A taxa de mortes parece ser maior entre os fumantes.

Parece existir intera¸ao entre faixa et´aria e fumo? ao.

O que isso significa?

O efeito da idade n˜ao parece ser diferente para fumantes e n˜ao fumantes.

(40)

Exemplo: (continua¸c˜ao)

Os subgrupos nesse caso s˜ao definidos pela faixa et´aria e h´abito de fumar ou n˜ao.

SejaYi o n´umero de mortes no i-´esimo grupo.

O modelo ajustado ser´a o seguinte:

Yi P oisson(λi) λi =ni. exTiβ

ondeni ´e o n´umero de pessoas entrevistadas no i-´esimo grupo.

(41)

Exemplo: (continua¸c˜ao)

Podemos ajustar v´arios modelos para a propor¸c˜ao θi =exTiβ. Uma possibilidade:

log(θi) =β1+β2Zi+β3Xi onde:

Zi ´e uma vari´avel indicadora que indica se ´e um grupo de fumantes ou ao;

Xi recebe valores 1, 2, 3, 4 e 5 para os grupos et´arios 35-44, 45-54, . . . , 75-84.

Podemos incluir ainda um termo de intera¸ao:

(42)

Exemplo: (continua¸c˜ao)

age = c(1:5,1:5)

smoke = c(rep(1,5),rep(0,5))

deaths = c(32,104,206,186,102,2,12,28,28,31)

n = c(52407,43248,28612,12663,5317,18790,10673,5710,2585,1462) modelo = glm(deaths ~ offset(log(n)) + smoke + age + age*smoke,

family=poisson())

(43)

Exemplo: (continua¸c˜ao)

> summary(modelo) Deviance Residuals:

Min 1Q Median 3Q Max

-3.8784 -2.1217 -0.2482 1.7183 3.5269 Coefficients:

Estimate Std. Error z value Pr(>|z|) (Intercept) -8.86708 0.30567 -29.008 < 2e-16 ***

smoke 1.28360 0.32584 3.939 8.17e-05 ***

age 1.04683 0.07743 13.519 < 2e-16 ***

smoke:age -0.24898 0.08359 -2.978 0.0029 **

Null deviance: 935.067 on 9 degrees of freedom

(44)

Exemplo: (continua¸c˜ao)

> exp(coef(modelo))

(Intercept) smoke age smoke:age

0.0001409537 3.6096237466 2.8485947916 0.7795992902

(45)

Exemplo: (continua¸c˜ao)

Todas as vari´aveis parecem ser significativas.

A probabilidade esperada de morrer de um fumante em rela¸ao ao ao fumante aumenta 3,6 vezes.

Com o aumento de uma faixa et´aria, a probabilidade esperada de morrer aumenta 2,85 vezes.

Para um fumante, o efeito na probabilidade de morte de um aumento na idade ´e menor do que para um n˜ao fumante.

(46)

Exemplo 2

Exemplo 2:

O n´umero de casos de Tuberculose nas favelas do Rio estava aumentando.

Em 2003, o governo implementa o programa DOTS com o objetivo de diagnosticar e tratar os casos.

Estamos interessados em investigar o efeito do programa para redu¸c˜ao do n´umero de casos observados.

Registrou-se o tamanho da popula¸ao sob risco e o n´umero de casos, nos meses de Abril e Outubro de cada ano.

(47)

Exemplo (continua¸c˜ao)

A tabela a seguir apresenta os dados coletados.

(48)

Exemplo (continua¸c˜ao)

A figura a seguir mostra a s´erie temporal dos dados antes e ap´os a interven¸c˜ao.

(49)

Exemplo (continua¸c˜ao)

Queremos modelar duas tendˆencias distintas:

antes e ap´os a interven¸ao

Para cada per´ıodo precisamos de uma equa¸ao da forma log(λ) =β0+β1(tempo)

O momento da interven¸ao corresponde ao tempo de ordem 7.

Nesse ponto as equa¸oes dos dois per´ıodos devem ser iguais.

(50)

Exemplo (continua¸c˜ao)

Considere o modelo

log(λ) =β0+β1(tempo) +β2(tempo7)I(int= 1) onde

I(int= 1) =

(1 se o per´ıodo ´e p´os interven¸ao, 0 se o per´ıodo ´e pr´e interven¸ao.

Para o per´ıodopr´e interven¸aoo modelo fica:

log(λ) =β0+β1(tempo)

(51)

Exemplo (continua¸c˜ao)

Para o per´ıodoos interven¸aoo modelo ´e:

log(λ) = β0+β1(tempo) +β2(tempo7)

= 02) + (β1+β2)tempo que pode ser reescrito como:

log(λ) =α0+α1(tempo) onde

(52)

Exemplo (continua¸c˜ao)

Vejamos como ficam as equa¸oes paratempo= 7.

Para o per´ıodo pr´e interven¸ao:

log(λ) =β0+β1(tempo) Para o p´os interven¸ao:

log(λ) = β0+β1(tempo) +β2(tempo7)

= β0+β1(tempo) +β2(77)

= β0+β1(tempo) Portanto s˜ao iguais, como desej´avamos.

(53)

Exemplo (continua¸c˜ao)

SejaYi o umero de casosno per´ıodo i, para i= 1,2, . . . ,12.

Vamos supor que:

YiP oisson(P opi. λi)

onde P opi ´e apopula¸ao sob risco no per´ıodoi(offset).

O modelo para a taxa ´e dado por:

log(λi) =β0+β1(tempoi) +β2(tempoi7)I(inti= 1)

(54)

Exemplo (continua¸c˜ao)

As estimativas pontuais dos parˆametros e os Intervalos de Confian¸ca ao apresentados na tabela a seguir.

Parˆametro Estimativa Pontual Intervalo de Confian¸ca

β0 3,19 [3,06;3,32]

β1 0,04 [0,01; 0,06]

β2 -0,10 [-0,15; -0,05]

(55)

Exemplo (continua¸c˜ao)

Qual interpreta¸ao do β1?

O n´umero esperado de casos ´e multiplicado pore0,04= 1,04 ( ou aumenta 4%) a cada per´ıodo.

Ou seja, a doen¸ca apresenta uma tendˆencia crescente.

(56)

Exemplo (continua¸c˜ao)

Qual interpreta¸ao do β2?

Ele mede o efeito da interven¸ao.

Ap´os a interven¸ao a tendˆencia passa para 0,04-0,103 = -0.063.

Ap´os a interven¸ao, o n´umero esperado de casos ´e multiplicado por e−0.063 = 0.93 ( ou reduz 7%) a cada per´ıodo que passa.

A interven¸c˜ao tem o efeito desejado.

Faz com que o n´umero de casos passe a ter uma tendˆencia decrescente.

Referências

Documentos relacionados

Corretamente valorizados, estes processos permitem ao investigador retirar das suas entrevistas informações e elementos de reflexão muito ricos e matizados (Quivy

que lhes cabia desempenhar, precisamente ao dramatizarem o desenrolar da acti- vidade, que de actividade aplicada a objectos se torna signo dirigido ao público, está ainda presente

O próprio campo da moda ressentiu-se com o poder dos fotógrafos e a opinião pública se volta contra os “fotógrafos-heróis” e o culto da fotografia de moda decai

Os entrevistados foram estratificados por sexo/gênero, faixa etária 20-40; 40-65; 65 ou mais anos, classe social baixa ou média, região de residência “sítio”, centro ou

A partir do que foi observado nas seções anteriores, podemos discutir o uso de vídeos em sala de aula a partir de três vertentes: (i) uso do vídeo para gravação de aulas e

A experimentação estética é revolucionária e caracteriza for- temente os primeiros anos do movimento: propondo uma radi- cal mudança na concepção da obra de arte, vista não mais

[r]

São variadas as razões que impulsionam a intensificação pelo estudo da ressocialização dos apenados usuários do sistema penitenciário no estado da Paraíba, pois se faz