Slides

(1)

CE225 - Modelos Lineares Generalizados

Cesar Augusto Taconeli

(2)

Aula 15 - Regressão para dados contínuos

assimétricos

(3)

Introdução

Algumas aplicações de modelos de regressão para dados positivos com distribuição contínua (e potencialmente assimétrica):

Análise do tempo de vida de pacientes segundo idade, sexo, tipo de tratamento, estágio da doença. . .

Resistência de moldes de alumínio em função da força aplicada, da composição do molde. . .

Valor do aluguel de imóveis em função do estado de conservação, localização, número de cômodos. . .

(4)

Introdução

Diversos modelos probabilísticos podem ser usados para a regressão de dados positivos com distribuição assimétrica contínua, dentre os quais:

Weibull; Pareto; Log-normal; Gama;

Normal inversa. . .

As distribuições gama e normal inversa pertencem à família exponencial e são contempladas pela teoria dos modelos lineares generalizados.

(5)

(6)

Distribuição gama

A variável aleatória y tem distribuição gama de média µ e coeficiente de variação 1/√ν se sua função densidade de probabilidade é dada por:

f (y ; µ, φ) = 1 Γ(ν) _νy µ ν exp −νy µ y−1, y > 0; µ > 0; ν > 0, (1) em que Γ(ν) =R∞ 0 tν−1e−tdt.

Para a distribuição gama, Var (y ) = φµ2, tal que φ = ν−1 é o parâmetro de dispersão.

Importante notar que, para a distribuição gama, embora a variância dependa da média, o coeficiente de variação é constante (não varia conforme a média).

(7)

Distribuição gama

0 1 2 3 4 5 0.0 0.2 0.4 0.6 0.8 1.0 1.2 y f(y) µ=1, ν=2 µ=1, ν=1 µ=1, ν=0,5 0 2 4 6 8 10 0.0 0.2 0.4 0.6 y f(y) µ=1, ν=2 µ=2, ν=2 µ=4, ν=2

(8)

Distribuição gama

A distribuição gama pode ser usado na modelagem de dados contínuos assimétricos (ou simétricos tal que a relação variância-média seja quadrática).

À medida que φ aumenta, a distribuição de y se aproxima de uma

normal com média µ e variância µ2φ.

Aplicações da distribuição gama, assim como para outras distribuições contínuas assimétricas, frequentemente apresentam dados

censurados, que são observações parcialmente disponíveis.

Como exemplo de dado censurado, podemos ter o tempo de vida de um paciente para o qual só sabemos que sobreviveu por mais de dez anos, ou a força de ruptura de um cabo de aço, que sabemos apenas que é maior que 100kg /m2.

(9)

Modelo de regressão com resposta gama

No contexto de MLG, vamos considerar:

yi|xi ∼ gama(µi, φ)

g (µi) = β0+ β1xi 1+ ... + βpxip.

(2)

Como alternativas de funções de ligação:

g (µi) = µ−1i - inversa (ligação canônica);

g (µi) = log (µi) - logarítmica (efeitos multiplicativos);

(10)

Modelo de regressão com resposta gama

Para o modelo de regressão com resposta gama, temos um parâmetro de dispersão (φ) a ser estimado (usualmente pelo estimador baseado

na estatística X2 - método dos momentos);

Devido à estimação do parâmetro de dispersão, usamos a distribuição

tn−p ao invés da distribuição normal na construção de testes de

hipóteses e intervalos de confiança, e a distribuição F ao invés da χ2 na análise de deviances. O mesmo vale para os modelos apresentados na sequência.

(11)

Modelo de regressão com resposta normal

inversa

(12)

Distribuição normal inversa

Uma variável aleatória contínua tem distribuição normal inversa de média µ e parâmetro de dispersão φ se sua função densidade de probabilidade é dada por:

f (y ; µ, φ) = s 1 2πφy3exp ( −(y − µ) 2 2φµ2_y ) , (3) com y > 0, µ > 0, φ > 0.

Neste caso, Var (y ) = φµ3_{, de maneira que a distribuição normal}

inversa pode ser considerada como alternativa à distribuição gama se a relação variância-média é cúbica, e não quadrática.

(13)

Distribuição normal inversa

0 1 2 3 4 5 0.0 0.5 1.0 1.5 2.0 y f(y) µ=0,5, φ=2 µ=0,5, φ=1 µ=1, φ=1 µ=1, φ=0,5 µ=2, φ=0,5

(14)

Modelo de regressão com resposta normal inversa

O MLG com resposta normal inversa é definido pela especificação da distribuição normal inversa para o componente aleatório e alguma função de ligação pertinente;

Embora a ligação canônica para a normal inversa seja η = 1/µ2

(inversa quadrática), é mais usual assumir ligações como a identidade (efeitos aditivos) ou a logarítmica (efeitos multiplicativos).

Especificação do modelo:

yi|xi ∼ IG(µi, φ)

g (µi) = β0+ β1xi 1+ ... + βpxip.

(15)

(16)

Distribuição Tweedie

Considere as seguintes propriedades da família exponencial na forma canônica:

E (y ) = µ = b0(θ); Var (y ) = φV (µ) = φb00(θ). (5)

Vamos assumir agora o conjunto de funções de variância definidas da forma:

V (µ) = µp. (6)

Como casos particulares temos a distribuição Normal (p = 0); Poisson (p = 1); gama (p = 2) e normal inversa (p = 3).

(17)

Distribuição Tweedie

Para qualquer escolha de p (exceto para 0<p<1), a função de variância define uma distribuição pertencente à família Tweedie.

Neste caso, portanto, a distribuição resultante pode ser contínua, simétrica ou assimétrica; discreta, ou até mesmo contínua com massa (probabilidade não nula) em zero, dependendo do valor de p;

O caso de distribuição contínua com massa em zero ocorre para valores de p no intervalo aberto (1, 2), o que corresponde à distribuição

(18)

Distribuição Poisson-gama composta (Compound

Poisson distribution)

A distribuição Poisson-gama composta pode ser aplicada, a título de ilustração, em problemas de modelagem como:

1 _{Quando a resposta é o a despesa de uma seguradora com os sinistros}

de cada cliente (em reais), mas alguns de seus clientes não registraram sinistros;

2 No caso em que a resposta é a precipitação diária em certas localidades (em mm), mas em alguns dias não há chuva (precipitação igual a zero);

3 Caso a variável de interesse seja a produção de uma reação química

(digamos, em ml), mas em algumas realizações do experimento a produção é nula.

(19)

Distribuição Poisson-gama composta

Considere as variáveis aleatórias z1, z2, ..., zN tais que:

zj ∼ gama(α, β), j = 1, 2, ..., N. (7)

Adicionalmente, considere N ∼ Poisson(λ).

Para melhor entendimento, N pode ser o número de sinistros registrado por um segurado em dado período, e os z_j0s os valores dos sinistros.

Considere y =PN_j=1zj. No exemplo, y seria a soma de todos os

(20)

Distribuição Poisson-gama composta

Assim: E [y ] = λα β ≡ µ; Var [y ] = λ α(1 + α) β ≡ φµ p_. ₍₈₎

A correspondência entre os parâmetros das distribuições Poisson e gama (λ, α, β) com os correspondentes para a Tweedie (µ, φ e p) se dá pelo seguinte conjunto de identidades:

λ = µ 2−p (2 − p)φ; α = 2 − p p − 1; β = µ1−p (p − 1)φ. (9)

(21)

Distribuição Poisson-gama composta

p = 1.1 y Frequência 0 1 2 3 4 0 50 100 150 200 250 p = 1.25 y Frequência 0 1 2 3 4 5 0 50 100 150 200 p = 1.5 y Frequência 0 1 2 3 4 5 0 50 100 150 p = 1.9 y Frequência 0 1 2 3 4 5 6 0 50 100 150

(22)

MLG com resposta Poisson-gama composta

Um modelo linear generalizado com resposta Poisson-gama composta fica especificado da seguinte forma:

yi|xi ∼ PG(µi, φ, p) g (µi) = xi0β. (10)

Seja σ = (φ, p)0. Fixado σ, podemos determinar o estimador de β

pelo algoritmo score de Fisher.

A estimação de σ se dá pela maximização da (log) verossimilhança perfilada:

ˆ

σ = argmax