• Nenhum resultado encontrado

Slides

N/A
N/A
Protected

Academic year: 2021

Share "Slides"

Copied!
22
0
0

Texto

(1)

CE225 - Modelos Lineares Generalizados

Cesar Augusto Taconeli

(2)

Aula 15 - Regressão para dados contínuos

assimétricos

(3)

Introdução

Algumas aplicações de modelos de regressão para dados positivos com distribuição contínua (e potencialmente assimétrica):

Análise do tempo de vida de pacientes segundo idade, sexo, tipo de tratamento, estágio da doença. . .

Resistência de moldes de alumínio em função da força aplicada, da composição do molde. . .

Valor do aluguel de imóveis em função do estado de conservação, localização, número de cômodos. . .

(4)

Introdução

Diversos modelos probabilísticos podem ser usados para a regressão de dados positivos com distribuição assimétrica contínua, dentre os quais:

Weibull; Pareto; Log-normal; Gama;

Normal inversa. . .

As distribuições gama e normal inversa pertencem à família exponencial e são contempladas pela teoria dos modelos lineares generalizados.

(5)
(6)

Distribuição gama

A variável aleatória y tem distribuição gama de média µ e coeficiente de variação 1/ν se sua função densidade de probabilidade é dada por:

f (y ; µ, φ) = 1 Γ(ν) νy µexp  −νy µ  y−1, y > 0; µ > 0; ν > 0, (1) em que Γ(ν) =R∞ 0 tν−1e−tdt.

Para a distribuição gama, Var (y ) = φµ2, tal que φ = ν−1 é o parâmetro de dispersão.

Importante notar que, para a distribuição gama, embora a variância dependa da média, o coeficiente de variação é constante (não varia conforme a média).

(7)

Distribuição gama

0 1 2 3 4 5 0.0 0.2 0.4 0.6 0.8 1.0 1.2 y f(y) µ=1, ν=2 µ=1, ν=1 µ=1, ν=0,5 0 2 4 6 8 10 0.0 0.2 0.4 0.6 y f(y) µ=1, ν=2 µ=2, ν=2 µ=4, ν=2

(8)

Distribuição gama

A distribuição gama pode ser usado na modelagem de dados contínuos assimétricos (ou simétricos tal que a relação variância-média seja quadrática).

À medida que φ aumenta, a distribuição de y se aproxima de uma

normal com média µ e variância µ2φ.

Aplicações da distribuição gama, assim como para outras distribuições contínuas assimétricas, frequentemente apresentam dados

censurados, que são observações parcialmente disponíveis.

Como exemplo de dado censurado, podemos ter o tempo de vida de um paciente para o qual só sabemos que sobreviveu por mais de dez anos, ou a força de ruptura de um cabo de aço, que sabemos apenas que é maior que 100kg /m2.

(9)

Modelo de regressão com resposta gama

No contexto de MLG, vamos considerar:

yi|xi ∼ gama(µi, φ)

g (µi) = β0+ β1xi 1+ ... + βpxip.

(2)

Como alternativas de funções de ligação:

g (µi) = µ−1i - inversa (ligação canônica);

g (µi) = log (µi) - logarítmica (efeitos multiplicativos);

(10)

Modelo de regressão com resposta gama

Para o modelo de regressão com resposta gama, temos um parâmetro de dispersão (φ) a ser estimado (usualmente pelo estimador baseado

na estatística X2 - método dos momentos);

Devido à estimação do parâmetro de dispersão, usamos a distribuição

tn−p ao invés da distribuição normal na construção de testes de

hipóteses e intervalos de confiança, e a distribuição F ao invés da χ2 na análise de deviances. O mesmo vale para os modelos apresentados na sequência.

(11)

Modelo de regressão com resposta normal

inversa

(12)

Distribuição normal inversa

Uma variável aleatória contínua tem distribuição normal inversa de média µ e parâmetro de dispersão φ se sua função densidade de probabilidade é dada por:

f (y ; µ, φ) = s 1 2πφy3exp ( −(y − µ) 2 2φµ2y ) , (3) com y > 0, µ > 0, φ > 0.

Neste caso, Var (y ) = φµ3, de maneira que a distribuição normal

inversa pode ser considerada como alternativa à distribuição gama se a relação variância-média é cúbica, e não quadrática.

(13)

Distribuição normal inversa

0 1 2 3 4 5 0.0 0.5 1.0 1.5 2.0 y f(y) µ=0,5, φ=2 µ=0,5, φ=1 µ=1, φ=1 µ=1, φ=0,5 µ=2, φ=0,5

(14)

Modelo de regressão com resposta normal inversa

O MLG com resposta normal inversa é definido pela especificação da distribuição normal inversa para o componente aleatório e alguma função de ligação pertinente;

Embora a ligação canônica para a normal inversa seja η = 1/µ2

(inversa quadrática), é mais usual assumir ligações como a identidade (efeitos aditivos) ou a logarítmica (efeitos multiplicativos).

Especificação do modelo:

yi|xi ∼ IG(µi, φ)

g (µi) = β0+ β1xi 1+ ... + βpxip.

(15)
(16)

Distribuição Tweedie

Considere as seguintes propriedades da família exponencial na forma canônica:

E (y ) = µ = b0(θ); Var (y ) = φV (µ) = φb00(θ). (5)

Vamos assumir agora o conjunto de funções de variância definidas da forma:

V (µ) = µp. (6)

Como casos particulares temos a distribuição Normal (p = 0); Poisson (p = 1); gama (p = 2) e normal inversa (p = 3).

(17)

Distribuição Tweedie

Para qualquer escolha de p (exceto para 0<p<1), a função de variância define uma distribuição pertencente à família Tweedie.

Neste caso, portanto, a distribuição resultante pode ser contínua, simétrica ou assimétrica; discreta, ou até mesmo contínua com massa (probabilidade não nula) em zero, dependendo do valor de p;

O caso de distribuição contínua com massa em zero ocorre para valores de p no intervalo aberto (1, 2), o que corresponde à distribuição

(18)

Distribuição Poisson-gama composta (Compound

Poisson distribution)

A distribuição Poisson-gama composta pode ser aplicada, a título de ilustração, em problemas de modelagem como:

1 Quando a resposta é o a despesa de uma seguradora com os sinistros

de cada cliente (em reais), mas alguns de seus clientes não registraram sinistros;

2 No caso em que a resposta é a precipitação diária em certas localidades (em mm), mas em alguns dias não há chuva (precipitação igual a zero);

3 Caso a variável de interesse seja a produção de uma reação química

(digamos, em ml), mas em algumas realizações do experimento a produção é nula.

(19)

Distribuição Poisson-gama composta

Considere as variáveis aleatórias z1, z2, ..., zN tais que:

zj ∼ gama(α, β), j = 1, 2, ..., N. (7)

Adicionalmente, considere N ∼ Poisson(λ).

Para melhor entendimento, N pode ser o número de sinistros registrado por um segurado em dado período, e os zj0s os valores dos sinistros.

Considere y =PNj=1zj. No exemplo, y seria a soma de todos os

(20)

Distribuição Poisson-gama composta

Assim: E [y ] = λα β ≡ µ; Var [y ] = λ α(1 + α) β ≡ φµ p. (8)

A correspondência entre os parâmetros das distribuições Poisson e gama (λ, α, β) com os correspondentes para a Tweedie (µ, φ e p) se dá pelo seguinte conjunto de identidades:

λ = µ 2−p (2 − p)φ; α = 2 − p p − 1; β = µ1−p (p − 1)φ. (9)

(21)

Distribuição Poisson-gama composta

p = 1.1 y Frequência 0 1 2 3 4 0 50 100 150 200 250 p = 1.25 y Frequência 0 1 2 3 4 5 0 50 100 150 200 p = 1.5 y Frequência 0 1 2 3 4 5 0 50 100 150 p = 1.9 y Frequência 0 1 2 3 4 5 6 0 50 100 150

(22)

MLG com resposta Poisson-gama composta

Um modelo linear generalizado com resposta Poisson-gama composta fica especificado da seguinte forma:

yi|xi ∼ PG(µi, φ, p) g (µi) = xi0β. (10)

Seja σ = (φ, p)0. Fixado σ, podemos determinar o estimador de β

pelo algoritmo score de Fisher.

A estimação de σ se dá pela maximização da (log) verossimilhança perfilada:

ˆ

σ = argmax

Referências

Documentos relacionados

b) Primeira Fase: Do resultado preliminar da análise do currículo e da avaliação do rendimento acadêmico; c) Segunda Fase: Da Entrevista, Avaliação Oral e Carta de

2 Indica si les paraules següents són polisèmiques (p), homògrafes (hg) o homòfones (hf). Escriu dos exemples diferents per a cada una. 4 Completa aquestes afirmacions sobre

Three reference values were considered to judge the development of the flow: the values at z = 4.4m and z = 4.489m, which are based in a wider range of data, and the value at z =

Este trabalho resume o projeto de iniciação científica do primeiro autor, intitulado “Construção de um site interativo para aulas de Cálculo Diferencial e

A maior parte dos trabalhos envolvendo ensino de História e cinema pu- blicados nas edições do ENPEH 1995/2013 foi elaborada por autores perten- centes ao campo da História –

Sendo assim, o presente trabalho teve como objetivo estudar os aspectos reprodutivos de Ocimum selloi Benth., que são: a morfologia e biologia floral, o sistema reprodutivo,

Diante disso, o estudo busca verificar a importância da realização dos controles internos dos setores administrativo da Faculdade Projeção de Sobradinho, são

caracterização, paciente com 37 anos, casada, vendedora, com queixa principal de perda de urina durante atividade física. Incontinência por esforço. Perda em gotas. Uso de