CE225 - Modelos Lineares Generalizados
Cesar Augusto Taconeli
Aula 15 - Regressão para dados contínuos
assimétricos
Introdução
Algumas aplicações de modelos de regressão para dados positivos com distribuição contínua (e potencialmente assimétrica):
Análise do tempo de vida de pacientes segundo idade, sexo, tipo de tratamento, estágio da doença. . .
Resistência de moldes de alumínio em função da força aplicada, da composição do molde. . .
Valor do aluguel de imóveis em função do estado de conservação, localização, número de cômodos. . .
Introdução
Diversos modelos probabilísticos podem ser usados para a regressão de dados positivos com distribuição assimétrica contínua, dentre os quais:
Weibull; Pareto; Log-normal; Gama;
Normal inversa. . .
As distribuições gama e normal inversa pertencem à família exponencial e são contempladas pela teoria dos modelos lineares generalizados.
Distribuição gama
A variável aleatória y tem distribuição gama de média µ e coeficiente de variação 1/√ν se sua função densidade de probabilidade é dada por:
f (y ; µ, φ) = 1 Γ(ν) νy µ ν exp −νy µ y−1, y > 0; µ > 0; ν > 0, (1) em que Γ(ν) =R∞ 0 tν−1e−tdt.
Para a distribuição gama, Var (y ) = φµ2, tal que φ = ν−1 é o parâmetro de dispersão.
Importante notar que, para a distribuição gama, embora a variância dependa da média, o coeficiente de variação é constante (não varia conforme a média).
Distribuição gama
0 1 2 3 4 5 0.0 0.2 0.4 0.6 0.8 1.0 1.2 y f(y) µ=1, ν=2 µ=1, ν=1 µ=1, ν=0,5 0 2 4 6 8 10 0.0 0.2 0.4 0.6 y f(y) µ=1, ν=2 µ=2, ν=2 µ=4, ν=2Distribuição gama
A distribuição gama pode ser usado na modelagem de dados contínuos assimétricos (ou simétricos tal que a relação variância-média seja quadrática).
À medida que φ aumenta, a distribuição de y se aproxima de uma
normal com média µ e variância µ2φ.
Aplicações da distribuição gama, assim como para outras distribuições contínuas assimétricas, frequentemente apresentam dados
censurados, que são observações parcialmente disponíveis.
Como exemplo de dado censurado, podemos ter o tempo de vida de um paciente para o qual só sabemos que sobreviveu por mais de dez anos, ou a força de ruptura de um cabo de aço, que sabemos apenas que é maior que 100kg /m2.
Modelo de regressão com resposta gama
No contexto de MLG, vamos considerar:
yi|xi ∼ gama(µi, φ)
g (µi) = β0+ β1xi 1+ ... + βpxip.
(2)
Como alternativas de funções de ligação:
g (µi) = µ−1i - inversa (ligação canônica);
g (µi) = log (µi) - logarítmica (efeitos multiplicativos);
Modelo de regressão com resposta gama
Para o modelo de regressão com resposta gama, temos um parâmetro de dispersão (φ) a ser estimado (usualmente pelo estimador baseado
na estatística X2 - método dos momentos);
Devido à estimação do parâmetro de dispersão, usamos a distribuição
tn−p ao invés da distribuição normal na construção de testes de
hipóteses e intervalos de confiança, e a distribuição F ao invés da χ2 na análise de deviances. O mesmo vale para os modelos apresentados na sequência.
Modelo de regressão com resposta normal
inversa
Distribuição normal inversa
Uma variável aleatória contínua tem distribuição normal inversa de média µ e parâmetro de dispersão φ se sua função densidade de probabilidade é dada por:
f (y ; µ, φ) = s 1 2πφy3exp ( −(y − µ) 2 2φµ2y ) , (3) com y > 0, µ > 0, φ > 0.
Neste caso, Var (y ) = φµ3, de maneira que a distribuição normal
inversa pode ser considerada como alternativa à distribuição gama se a relação variância-média é cúbica, e não quadrática.
Distribuição normal inversa
0 1 2 3 4 5 0.0 0.5 1.0 1.5 2.0 y f(y) µ=0,5, φ=2 µ=0,5, φ=1 µ=1, φ=1 µ=1, φ=0,5 µ=2, φ=0,5Modelo de regressão com resposta normal inversa
O MLG com resposta normal inversa é definido pela especificação da distribuição normal inversa para o componente aleatório e alguma função de ligação pertinente;
Embora a ligação canônica para a normal inversa seja η = 1/µ2
(inversa quadrática), é mais usual assumir ligações como a identidade (efeitos aditivos) ou a logarítmica (efeitos multiplicativos).
Especificação do modelo:
yi|xi ∼ IG(µi, φ)
g (µi) = β0+ β1xi 1+ ... + βpxip.
Distribuição Tweedie
Considere as seguintes propriedades da família exponencial na forma canônica:
E (y ) = µ = b0(θ); Var (y ) = φV (µ) = φb00(θ). (5)
Vamos assumir agora o conjunto de funções de variância definidas da forma:
V (µ) = µp. (6)
Como casos particulares temos a distribuição Normal (p = 0); Poisson (p = 1); gama (p = 2) e normal inversa (p = 3).
Distribuição Tweedie
Para qualquer escolha de p (exceto para 0<p<1), a função de variância define uma distribuição pertencente à família Tweedie.
Neste caso, portanto, a distribuição resultante pode ser contínua, simétrica ou assimétrica; discreta, ou até mesmo contínua com massa (probabilidade não nula) em zero, dependendo do valor de p;
O caso de distribuição contínua com massa em zero ocorre para valores de p no intervalo aberto (1, 2), o que corresponde à distribuição
Distribuição Poisson-gama composta (Compound
Poisson distribution)
A distribuição Poisson-gama composta pode ser aplicada, a título de ilustração, em problemas de modelagem como:
1 Quando a resposta é o a despesa de uma seguradora com os sinistros
de cada cliente (em reais), mas alguns de seus clientes não registraram sinistros;
2 No caso em que a resposta é a precipitação diária em certas localidades (em mm), mas em alguns dias não há chuva (precipitação igual a zero);
3 Caso a variável de interesse seja a produção de uma reação química
(digamos, em ml), mas em algumas realizações do experimento a produção é nula.
Distribuição Poisson-gama composta
Considere as variáveis aleatórias z1, z2, ..., zN tais que:
zj ∼ gama(α, β), j = 1, 2, ..., N. (7)
Adicionalmente, considere N ∼ Poisson(λ).
Para melhor entendimento, N pode ser o número de sinistros registrado por um segurado em dado período, e os zj0s os valores dos sinistros.
Considere y =PNj=1zj. No exemplo, y seria a soma de todos os
Distribuição Poisson-gama composta
Assim: E [y ] = λα β ≡ µ; Var [y ] = λ α(1 + α) β ≡ φµ p. (8)A correspondência entre os parâmetros das distribuições Poisson e gama (λ, α, β) com os correspondentes para a Tweedie (µ, φ e p) se dá pelo seguinte conjunto de identidades:
λ = µ 2−p (2 − p)φ; α = 2 − p p − 1; β = µ1−p (p − 1)φ. (9)
Distribuição Poisson-gama composta
p = 1.1 y Frequência 0 1 2 3 4 0 50 100 150 200 250 p = 1.25 y Frequência 0 1 2 3 4 5 0 50 100 150 200 p = 1.5 y Frequência 0 1 2 3 4 5 0 50 100 150 p = 1.9 y Frequência 0 1 2 3 4 5 6 0 50 100 150MLG com resposta Poisson-gama composta
Um modelo linear generalizado com resposta Poisson-gama composta fica especificado da seguinte forma:
yi|xi ∼ PG(µi, φ, p) g (µi) = xi0β. (10)
Seja σ = (φ, p)0. Fixado σ, podemos determinar o estimador de β
pelo algoritmo score de Fisher.
A estimação de σ se dá pela maximização da (log) verossimilhança perfilada:
ˆ
σ = argmax