Inferˆ encia - Modelos Lineares Generalizados e

2.5 Metodologia

2.5.3 Inferˆ encia

A etapa de inferência tem como objetivo principal verificar a adequa¸cão do modelo como um todo e realizar um estudo detalhado quanto a discrepâncias locais. Essas discrepâncias, quando significativas, podem implicar na escolha de outro modelo, ou em aceitar a existência de observa¸cões aberrantes. Em qualquer caso, toda a metodologia de trabalho deverá ser repetida.

Deve-se, nessa etapa, verificar a precisão e a interdependência das estimativas, construir regiões de confian¸ca e testes sobre os parâmetros de interesse, analisar estatisticamente os res´ıduos e realizar previsões.

A precisão das previsões depende basicamente do modelo selecionado e, portanto, um critério de adequa¸cão do ajuste é verificar se a precisão de uma previsão em particular é maximizada. Muitas vezes, é poss´ıvel otimizar a precisão por simples altera¸cão do componente sistemático do modelo.

Um gr´afico dos res´ıduos padronizados versus valores ajustados, sem nenhuma tendência, é um indicativo de que a rela¸cão funcional variância/média proposta para os dados é satisfatória. Gr´aficos dos res´ıduos versus vari´aveis explanatórias que não

estão no modelo são bastante úteis. Se nenhuma variável explanatória adicional for necessária, então não se deverá encontrar qualquer tendência nesses gráficos. Ob- serva¸cões com erros grosseiros podem ser detectadas como tendo res´ıduos grandes e leverages pequenos ou res´ıduos pequenos e leverages (h) grandes, ou o modelo ajus- tado deve requerer mais variáveis explanatórias, por exemplo, intera¸cões de ordem superior. A inspe¸cão gráfica é um meio poderoso de inferência nos MLG.

Para verificar o ajuste do MLG, pode-se adotar o critério da razão da verossimilhan¸cas em rela¸cão ao modelo saturado e a estat´ıstica de Pearson generalizada (Se¸cão 4.2). Quase toda a parte de inferência nos MLG é baseada em resultados as- sintóticos, e pouco tem sido estudado sobre a validade desses resultados em amostras muito pequenas.

Um modelo mal ajustado aos dados pode apresentar uma ou mais das se- guintes condi¸cões: (a) inclusão de um grande número de variáveis explanatórias no modelo, muitas das quais são redundantes e algumas explicando somente um pe- queno percentual das observa¸cões; (b) formula¸cão de um modelo bastante pobre em variáveis explanatórias, que não revela e nem reflete as caracter´ısticas do mecanismo gerador dos dados; (c) as observa¸cões mostram-se insuficientes para que falhas do modelo sejam detectadas.

A condi¸cão (a) representa uma superparametriza¸cão do modelo implicando numa imprecisão das estimativas e (b) é a situa¸cão oposta de (a): uma subparame- triza¸cão que implica em previsões ruins. A terceira condi¸cão é um tipo de falha dif´ıcil de se detectar, e é devida à combina¸cão inadequada distribui¸cão/fun¸cão de liga¸cão, que nada tem a ver com as observa¸cões em questão.

2.6 Exerc´ıcios

1. Para o modelo binomial as fun¸c˜oes de liga¸cão mais comuns são: log´ıstica, probito e complemento log-log. Comparar os valores do preditor linear para essas fun¸cões de

liga¸c˜ao no intervalo (0, 1). 2. Mostre que lim λ→0 µλ_{− 1} λ = log(µ).

3. Considere a fam´ılia de fun¸c˜oes de liga¸c˜ao deﬁnida por Aranda-Ordaz (1981)

η = log [ (1− π)−λ− 1 λ ] , 0 < π < 1 e λ uma constante.

Mostre que a fun¸cão de liga¸cão log´ıstica ´e obtida para λ = 1 e que quando λ → 0, tem-se a fun¸cão de liga¸cão complemento log-log.

4. Comparar os gr´aﬁcos de η = log [ (1− µ)−λ− 1 λ ] versus µ para λ =−1, −0.5, 0, 0.5, 1 e 2.

5. Explicar como um modelo de Box-Cox poderia ser formulado no contexto dos

MLG.

6. Demonstrar que se Y tem uma distribui¸c˜ao binomial B(m, π), então para m grande Var(arcsen√Y /m) é, aproximadamente, 1/(4m), com o ˆangulo expresso em radianos. Em que situa¸cões uma estrutura linear associada a essa transforma¸cão poderá ser adequada?

7. Suponha que Y tem distribui¸c˜ao binomial B(m, π) e que g(Y /m) é uma fun¸cão arbitrária. Calcular o coeficiente de assimetria assint´otico de g(Y /m). Demonstrar que se anula quando g(π) = ∫₀πt−1/3(1− t)−1/3dt e, portanto, a variável aleatória definida por [g(Y /m)− g(α)]/[π1/6₍₁_{− π)}1/6_m−1/2_{], em que α = π}_{− (1 − 2π)/(6m),}

tem distribui¸c˜ao pr´oxima da normal reduzida (Cox e Snell, 1968).

8. Sejam Y1 e Y2 vari´aveis aleat´orias binomiais de parˆametros π1 e π2 em dois

grupos de tamanhos m1 e m2, respectivamente. O n´umero de sucessos Y1 no primeiro

hipergeom´etrica generalizada de parˆametros π1, π2, m1, m2 e r. Demonstrar que essa

distribui¸c˜ao ´e um membro da fam´ılia (2.4) com parˆametro θ = log{π1(1−π2)/[π2(1−

π1)]}, ϕ = 1 e π = D1(θ)/D0(θ), em que Di(θ) = ∑ xx i(m1 x )(_m₂ r−x ) exp(θx) para i = 0, 1. Calcular a express˜ao do r-´esimo cumulante dessa distribui¸c˜ao.

9. Se Y tem distribui¸c˜ao de Poisson P(µ), demonstrar:

(a) que o coeﬁciente de assimetria Y2/3 ´e de ordem µ−1 enquanto que aqueles de Y e Y1/2 _s˜_{ao de ordem µ}−1/2_;

(b) que o logaritmo da fun¸cão de verossimilhan¸ca para uma única observa¸cão é, aproximadamente, quadr´atico na escala µ1/3_;

(d) a f´ormula de recorrˆencia entre os momentos centrais µr+1 = rµµr−1+ µdµr/dµ;

(e) que 2√Y tem, aproximadamente, distribui¸c˜ao normal N(0, 1).

10. Se Y tem distribui¸c˜ao gama G(µ, ϕ), demonstrar que:

(a) quando ϕ < 1, a fun¸c˜ao densidade ´e zero na origem e tem uma ´unica moda no ponto µ(1− ϕ);

(b) o logaritmo da fun¸cão de verossimilhan¸ca para uma única observa¸cão é, aproximadamente, quadr´atico na escala µ−1/3;

11. Se Y tem distribui¸c˜ao binomial B(m, π), demonstrar que a m´edia e a variˆancia de log[(Y + 0, 5)/(m− Y + 0, 5)] s˜ao iguais a log[π/(1 − π)] + O(m−2) e E[(Y + 0, 5)−1+ (m− Y + 0, 5)−1]+ O(m−3), respectivamente.

em potˆencias de µ−1, e mostrar que o coeﬁciente de µ−1 ´e zero quando c = 3/8. Achar uma expans˜ao similar para Var[Y1/2_{+ (Y + 1)}1/2_].

13. Qual ´e a distribui¸cão da tolerância correspondente à fun¸cão de liga¸c˜ao arcsen√?

14. Se Y tem distribui¸c˜ao binomial B(m, π), demonstrar que os momentos da es- tat´ıstica Z =±{2Y log(Y/µ)+2(m−Y ) log[(m−Y )/(m−µ)]}1/2₊_{{(1−2π)/[mπ(1−}

π)]}1/2/6 diferem dos correspondentes da distribui¸c˜ao normal reduzida N(0, 1) com erro O(m−1). Essa transforma¸c˜ao induz simetria e estabiliza a variˆancia simultanea- mente (McCullagh e Nelder, 1989).

15. Se Y tem distribui¸c˜ao binomial B(m, π), demonstrar a express˜ao aproximada P(Y ≤ y) = Φ(y1), em que y1 = 2m1/2{arcsen[(y+3/8)/(m+3/4)]1/2−arcsen(π1/2)}.

16. Suponha que Y ∼ B(m, π), sendo π = eλ(1 + eλ)−1. Mostre que m− Y tem distribui¸c˜ao binomial com parˆametro induzido correspondente λ′ =−λ.

17. Demonstrar que para a vari´avel aleat´oria Y com distribui¸c˜ao de Poisson, tem-se:

(a) E(Y1/2₎_{≈ µ}1/2 _{e Var(Y}1/2₎_≈ 1

4; (b) E(Y1/2_{) = µ}1/2 ( 1− 1 8µ ) + O(µ−3/2) e Var(Y1/2_{) =} 1 4 ( 1 + 3 8µ ) + O(µ−3/2); (c) E(Y2/3₎_{≈ µ}2/3 ( 1− 1 9µ ) e Var(Y2/3₎_≈ 4µ 1/3 9 ( 1 + 1 6µ ) .

18. Se Y tem distribui¸c˜ao de Poisson com m´edia µ, mostre que:

(a) P(Y ≤ y) = P(χ2 2(y+1) > 2µ); (b) P(Y ≤ y) = Φ(z) − ϕ(z) ( z2_{− 1} 6√µ + z5_{− 7z}3_{+ 3z} 72µ ) + O(µ−3/2), em que z = (y + 0.5− µ)µ−1/2 e Φ(.) e ϕ(.) s˜ao, respectivamente, a f.d.a. e a f.d.p. da distribui¸c˜ao normal reduzida.

Cap´ıtulo 3

Estima¸c˜ao

3.1 Estat´ısticas suficientes

Seja um MLG deﬁnido pelas express˜oes (2.4), (2.6) e (2.7) e suponha que as observa¸c˜oes a serem analisadas sejam representadas pelo vetor y = (y1, . . . , yn)T. O

logaritmo da fun¸cão de verossimilhan¸ca como fun¸c˜ao apenas de β (considerando-se o parâmetro de dispers˜ao ϕ conhecido), especificado y, é definido por ℓ(β) = ℓ(β; y) e usando-se a expressão (2.4), tem-se

ℓ(β) = n ∑ i=1 ℓi(θi, ϕ; yi) = ϕ−1 n ∑ i=1 [yiθi− b(θi)] + n ∑ i=1 c(yi, ϕ), (3.1) em que θi = q(µi), µi = g−1(ηi) e ηi = p ∑ r=1 xirβr.

A estima¸cão do parâmetro de dispers˜ao ϕ ser´a objeto de estudo na Se¸cão 4.4. Existem n parˆametros canˆonicos θ1, . . . , θn e n médias µ1, . . . , µn que são desconhe-

cidos, mas que s˜ao fun¸c˜oes de p parˆametros lineares β1, . . . , βp do modelo. Deve-se,

primeiramente, estimar o vetor de parˆametros β para depois calcular as estimati- vas do vetor das m´edias µ e do vetor dos parˆametros θ pelas rela¸c˜oes funcionais µi = g−1(xTi β) e θi = q(µi).

Se o intervalo de varia¸cão dos dados não depende de parâmetros, pode- se demonstrar para os modelos cont´ınuos (Cox e Hinkley, 1986, Cap´ıtulo 9), que todas as derivadas de

∫

exp[ℓ(β)]dy = 1 podem ser computadas dentro do sinal de integra¸c˜ao e que o ponto ˆβ correspondente ao m´aximo do logaritmo da fun¸c˜ao

de verossimilhan¸ca (3.1) está pr´oximo do vetor β de parˆametros verdadeiros com probabilidade próxima de 1. Para os modelos discretos, a integra¸cão é substitu´ıda pelo somat´orio. Esse fato ocorre em problemas denominados regulares.

Um caso importante dos MLG surge quando o vetor de parˆametros canˆonicos

θ da fam´ılia (2.4) e o vetor de preditores lineares η em (2.6) s˜ao iguais, conduzindo

as fun¸c˜oes de liga¸c˜ao canˆonicas. Tem-se, θi = ηi =

∑p

r=1xirβr para i = 1, . . . , n.

As estat´ısticas Sr =

∑n

i=1xirYi para r = 1, . . . , p s˜ao suﬁcientes para os parˆametros

β1, . . . , βp e tˆem dimens˜ao m´ınima p. Sejam sr =

∑n

i=1xiryi as realiza¸c˜oes de Sr,

r = 1, . . . , p. Ent˜ao, a equa¸c˜ao (3.1) pode ser escrita na forma ℓ(β) = ϕ−1 [∑p r=1 srβr− n ∑ i=1 b(θi) ] + n ∑ i=1 c(yi, ϕ)

e, portanto, ℓ(β) tem a seguinte decomposi¸c˜ao ℓ(β) = ℓ1(s, β) + ℓ2(y), em que ℓ1(s, β) = ϕ−1 ∑p r=1srβr− ϕ−1 ∑n i=1b ( ∑p r=1xirβr) e ℓ2(y) = ∑n i=1c(yi, ϕ).

Pelo teorema da fatora¸c˜ao, S = (S1, . . . , Sp)T é suficiente de dimensão

m´ınima p para β = (β1, . . . , βp)T e, portanto, ocorre uma redu¸c˜ao na dimens˜ao

das estat´ısticas suﬁcientes de n (o n´umero de observa¸c˜oes) para p (o n´umero de parˆametros a serem estimados). As estat´ısticas S1, . . . , Sp correspondem `a maior

redu¸c˜ao que os dados podem ter, sem qualquer perda de informa¸c˜ao relevante para se fazer inferˆencia sobre o vetor β de parˆametros desconhecidos.

Conforme descrito na Se¸cão 2.3, as fun¸cões de liga¸cão que produzem estat´ısticas suficientes de dimens˜ao m´ınima p para as diversas distribui¸c˜oes são de- nominadas canônicas. A Tabela 2.6 mostra que essas fun¸c˜oes de liga¸cão para os modelos normal, Poisson, binomial, gama e normal inverso s˜ao η = µ, η = log(µ), η = log[µ/(m− µ)], η = µ−1 e η = µ−2, respectivamente.

As fun¸cões de liga¸cão canônicas produzem propriedades estat´ısticas de interesse para o modelo, tais como, suficiência, facilidade de cálculo, unicidade das estimativas de máxima verossimilhan¸ca e, em alguns casos, interpreta¸cão simples.

Em princ´ıpio, pode-se trabalhar com as fun¸cões de liga¸cão canônicas quando não existirem indicativos de outra prefer´ıvel. Entretanto, não existe razão para se consi- derarem sempre os efeitos sistemáticos como aditivos na escala especificada pela fun¸cão de liga¸cão canônica. A escolha da fun¸cão de liga¸cão será descrita, com mais detalhes, na Se¸cão 4.10.

No documento Modelos Lineares Generalizados e (páginas 70-77)