Verifica¸c˜ao de anomalias no componente sistem´atico, usando-se

Considera-se um MLG com distribui¸cão na fam´ılia (1.5) e componente sis- temático g(µ) = Xβ. As poss´ıveis anomalias no componente aleatório do modelo podem ser descobertas pelos gráficos i’), ii’) e iii’) descritos na Se¸cão 5.4.1, desde que os res´ıduos sejam definidos apropriadamente. Nesta se¸cão, apresenta-se uma técnica geral para verificar anomalias no componente sistemático do modelo definido pelas equa¸cões (2.5) e (2.6).

Considera-se que o componente sistemático correto contém uma variável explanatória z adicional (Se¸cão 4.9) e um parâmetro escalar γ, isto é,

g(µ) = Xβ + h(z; γ), (5.10)

em que h(z; γ) pode representar:

a) um termo adicional em uma ou mais vari´aveis explanat´orias originais, por exemplo: h(z; γ) = γx2

j ou h(z; γ) = γxjxk;

b) uma contribui¸cão linear ou não-linear de alguma variável explanatória omitida, por exemplo: h(z; γ) = γz ou h(z; γ) = zγ_.

O objetivo é definir res´ıduos modificados ˜R para o modelo ajustado g(µ) = Xβ tais que E( ˜R) = h(z; γ). Se isso acontecer, um gráfico de ˜R versus z, desprezando a varia¸cão aleatória, exibirá a fun¸cão h(z; γ).

Para fixar ideias, considere o modelo normal linear e os res´ıduos ordin´arios usuais: R = y − ˆµ_{= [I − X(X}TX)−1_XT_{]y = (I − H)y. Supondo que o componente}

sistemático correto é (5.10), tem-se R = (I − H)[Xβ + h(z; γ) + ε], em que ε é um ru´ıdo branco. Como X é ortogonal a I−H, tem-se R = (I−H)h(z; γ)+ε e, portanto, E(R) = (I − H)h(z; γ). Assim, um gráfico de R versus z não apresentará nenhuma semelhan¸ca com h(z; γ). Entretanto, se h(z; γ) for, aproximadamente, linear, um gráfico de R versus (I − H)z poderá ser usado. A declividade da reta de m´ınimos

quadrados ajustada aos pontos desse gráfico proporcionará uma estimativa de γ no modelo (5.10). Se a declividade for próxima de zero, o modelo g(µ) = Xβ poderá ser aceito ao invés de (5.10).

Para o modelo normal linear, supondo h(z; γ), aproximadamente, linear, Larsen e McCleary (1972) definem res´ıduos parciais por

R = y − ˆµ+ ˆ_{γHz = (I − H)y + ˆγHz,} (5.11) em que ˆ_{γ é a estimativa de m´ınimos quadrados de γ baseada na regressão de y − ˆ}µ sobre a matriz (I − H)z, isto é, ˆγ = [zT_{(I − H)z]}−1_zT_{(I − H)(y − ˆ}_{µ), com z =}

(z1, . . . , zn)T.

Pode-se demonstrar que os res´ıduos parciais (5.11) podem ser expressos como combina¸cões lineares dos res´ıduos y − ˆµ e, também, como combina¸cões lineares das observa¸cões y.

Ainda, no modelo normal linear, a no¸cão de res´ıduos parciais pode ser es- tendida para determinar se variáveis explanatórias, com contribui¸cões não-lineares, estão omissas no componente sistemático do modelo. Suponha, agora, que γ seja um vetor de parâmetros. Isso é poss´ıvel, desde que a fun¸cão h(z; γ) possa ser aproximada por um polinômio de grau baixo, isto é, h(z; γ) ≈ Tγ, em que T = T(z) = (z, z(2)_{, z}(3)_{. . .) com z}(i) _{= (z}i

1, . . . , zni)T.

Com essa aproxima¸cão, definem-se os res´ıduos aumentados de Andrews e Pregibon (1978), por uma expressão análoga a (5.11),

R = y − ˆµ+ HTˆγ _{= (I − H)y + HTˆγ,} (5.12) em que ˆγ _{é a estimativa de m´ınimos quadrados de γ na regressão linear de y − ˆ}µ sobre (I − H)T, isto é, ˆγ = [TT_{(I − H)T]}−1_TT_{(I − H)(y − ˆ}_µ).

Tem-se E( e_{R) = Tγ ≈ h(z; γ) e, portanto, exceto por varia¸cões aleatórias,} um gráfico de eR versus z poderá exibir a forma da fun¸cão h(z; γ).

Para os MLG os res´ıduos aumentados podem ser definidos a partir de res´ıduos medidos na escala linear

Essa expressão foi introduzida na Se¸cão 5.4.3. Aqui, estima-se γ ajustando o modelo aumentado g(µ) = Xβ + Tγ aos dados. Isso determinará op¸cões de aperfei¸coamento da estrutura linear do modelo. O ajuste de polinômios de graus elevados é, numeri- camente, bastante instável, sendo melhor considerar no máximo T = (z, z(2)_{, z}(3)_).

Tem-se R = (I − bZcW)(X ˆβ+ Tˆγ_{+ ε) = (I − b}ZcW)(Tˆγ+ ε) e, portanto, os res´ıduos aumentados nos MLG s˜ao expressos por

R = R + bZcWTˆγ (5.14)

e têm valores esperados próximos de h(z; γ). Na fórmula (5.14) as estimativas de Z e W são segundo o modelo reduzido g(µ) = Xβ.

A expressão (5.12) é um caso especial de (5.14) quando W é igual à matriz identidade. Um gráfico de eR versus z poderá indicar se essa variável explanatória deve estar inclu´ıda no modelo e, se isso acontecer, poderá ainda sugerir a forma de inclusão. Não se devem comparar os res´ıduos aumentados em (5.14) com os res´ıduos ordinários R, pois os primeiros são baseados no ajuste do modelo aumentado.

A análise gráfica dos res´ıduos aumentados pode ser bastante útil nos estágios preliminares de sele¸cão de variáveis explanatórias, quando se têm muitas dessas variáveis para serem consideradas. A forma¸cão do componente sistemático pode ser feita, passo a passo, com a introdu¸cão de uma única variável explanatória, a cada passo, pelo método descrito.

Para determinar a contribui¸cão de uma variável explanatória xi =

(xi1, . . . , xin)T da pr´opria matrix X no ajuste do modelo reduzido g(µ) = Xβ aos

dados, pode-se trabalhar com os res´ıduos parciais generalizados

vi = ˆzi − ˆηi+ ˆβjxij. (5.15)

Os res´ıduos (5.15), descritos na Se¸c˜ao 5.7, s˜ao muito mais simples de serem computados do que os res´ıduos aumentados definidos em (5.14).

5.9 Exerc´ıcios

1. Comparar os res´ıduos de Anscombe, Pearson e como raiz quadrada do componente do desvio, para o modelo de Poisson. Como sugest˜ao supor ˆµ = cy e variar c, por exemplo, 0(0.2)2(0.5)10. Fazer o mesmo para os modelos binomial, gama e normal inverso.

2. Definir os res´ıduos de Anscombe, Pearson e como raiz quadrada do componente do desvio para o modelo binomial negativo, comparando-os em algum modelo. 3. Seja um MLG com estrutura linear ηi = α + βxi+ xγi e fun¸c˜ao de liga¸c˜ao g(.)

conhecida.

(a) Formular, por meio da fun¸c˜ao desvio, crit´erios para os seguintes testes: H1: γ =

γ(0) _{versus H}′

1 : γ 6= γ(0); H2 : β = β(0), γ = γ(0) versus H2′ : β 6= β(0), γ = γ(0) e

versus H′′

2 : β 6= β(0), γ 6= γ(0); H3 : β = β(0) versus H3 : β 6= β(0);

(b) como obter um intervalo de confian¸ca para γ usando a fun¸c˜ao desvio?

(c) se a fun¸cão de liga¸cão dependesse de um parâmetro λ desconhecido, como determinar critérios para os testes citados?

4. Os dados da Tabela 13.1 (Ryan et al., 1976, p. 329) do Apêndice A.1 referem-se a medidas de diâmetro a 4,5 pés acima do solo (D, polegadas) e altura (H, pés) de 21 cerejeiras (black cherry) em pé e de volume (V , pés cúbicos) de árvores derrubadas. O objetivo desse tipo de experimento é verificar de que forma essas variáveis estão relacionadas para poder predizer o volume de madeira em uma área de floresta (Allegheny National Forest), usando medidas nas árvores em pé. Pede-se:

a) fazer os gráficos de variáveis adicionadas para H e D; b) fazer os gráficos de res´ıduos parciais para H e D;

c) fazer as transforma¸c˜oes LV = log(V ), LH = log(H) e LD = log(D) e repetir os gr´aficos dos itens (a) e (b);

e) usando u(1) = p X j=2 ˆ βjxjlog(xj) − y log y ˙y − 1 ,

obtido como no Exemplo 5.5 da Se¸cão 5.7, como variável adicionada, verifique que há necessidade da transforma¸cão simultânea de V , H e D.

5. Os dados da Tabela 5.3 referem-se à mortalidade de escaravelhos após 5 h de exposi¸cão a diferentes doses de bissulfeto de carbono (CS2_{). Pede-se:}

Tabela 5.3: Número de insetos mortos (yi) de mi insetos após 5 h de exposi¸cão a

diferentes doses de CS2_. log(Dose) (di) mi yi 1,6907 59 6 1,7242 60 13 1,7552 62 18 1,7842 56 28 1,8113 63 52 1,8369 59 53 1,8610 62 61 1,8839 60 60

a) ajuste o modelo log´ıstico linear e fa¸ca o teste para a fun¸cão de liga¸cão; b) ajuste o modelo complemento log-log e fa¸ca o teste para a fun¸cão de liga¸cão; c) fa¸ca o gráfico da variável adicionada para os itens a) e b);

d) verifique se há necessidade de transforma¸cão para a variável dose usando o gráfico de res´ıduos parciais.

6. Os dados da Tabela 5.4 (Phelps, 1982) s˜ao provenientes de um experimento casualizado em trˆes blocos em que foram usadas como tratamentos oito doses de um inseticida fosforado e foram contadas quantas (y) cenouras estavam danificadas de

totais de m cenouras.

Tabela 5.4: N´umero de cenouras danificadas (yi) de mi cenouras (Phelps, 1982).

log(Dose) Bloco I Bloco II Bloco III di mi yi mi yi mi yi 1,52 10 35 17 38 10 34 1,64 16 42 10 40 10 38 1,76 8 50 8 33 5 36 1,88 6 42 8 39 3 35 2,00 9 35 5 47 2 49 2,12 9 42 17 42 1 40 2,24 1 32 6 35 3 22 2,36 2 28 4 35 2 31

d) usando a fam´ılia de fun¸cões de liga¸cão de Aranda-Ordaz, obtenha a variável constru´ıda e estime λ;

e) ajuste o modelo log´ıstico com preditor linear quadrático e fa¸ca o teste para a fun¸cão de liga¸cão.

7. Considere a fam´ılia (5.8) de fun¸cões de liga¸cão. Mostre que a variável constru´ıda para o teste da hipótese H0 : λ = 0 é expressa por (Atkinson, 1985, p. 238)

u(λ0) = dh(µ, λ) dλ λ=0 = −log( ˆµ) ⊙ log(ˆ₂ µ) = −ηˆ⊙ ˆη₂ , em que ⊙ representa o produto termo a termo.

Demonstrar que os res´ıduos podem ser definidos por [G(Yi/mi) − G′(ˆµi)] G′_(ˆ_µ_i₎ ˆ µi(1 − ˆµi) mi 1/2 .

Quais as vantagens das escolhas G(µ) = µ, G(µ) = log[µ/(1 − µ)] e G(µ) = Rµ

0 x−1/3(1 − x)−1/3dx?

9. No modelo normal linear com estrutura para a média especificada por µ = E(Y) = Xβ + g(z; γ), sendo a fun¸cão g(z; γ) aproximadamente linear, demonstrar que os res´ıduos parciais b_{R = (I −H)y +Hzˆγ, em que H = X(X}T_X)−1_XT _{é a matriz}

de proje¸cão, podem ser expressos como combina¸cões lineares dos res´ıduos ordinários y − ˆµe, também, como combina¸cões lineares dos dados y.

10. Demonstrar as fórmulas aproximadas apresentadas em (8.15) para se fazer o diagnóstico global de influência de uma única observa¸cão sobre o ajuste do MLG. 11. Os res´ıduos rP′

i definidos em (5.6) s˜ao, tamb´em, denominados res´ıduos de

Student (W.S. Gosset). Calcular express˜oes para a(1)₀ , bi e ci em fun¸c˜ao desses

res´ıduos.

12. Seja um modelo normal, ou gama ou normal inverso com componente usual g(µ) = η = Xβ e que o parâmetro φ seja constante para todas as observa¸cões, embora desconhecido. Determinar, usando a fun¸cão desvio, critérios para os seguintes testes:

Cap´ıtulo 6

Aplica¸c˜oes a Dados Cont´ınuos

Neste cap´ıtulo, apresentam-se análises dos seguintes conjuntos de dados cont´ınuos: volume de árvores, gordura no leite, importa¸cão Brasileira, tempos de sobrevivência de ratos, assinaturas de TV a cabo, demanda de energia elétrica e tempo de funcionamento de um transformador.

6.1 Dados de volume de ´arvores

Os dados da Tabela 13.1 referem-se a medidas de diâmetro a 4,5 pés acima do solo (D, polegadas) e altura (H, pés) de 21 cerejeiras (“black cherry”) em pé e de volume (V , pés cúbicos) de árvores derrubadas (Ryan et al., 1976) em uma área da floresta (Allegheny National Forest). O objetivo desse tipo de experimento é verificar de que forma essas variáveis estão relacionadas para poder predizer o volume de madeira a ser extra´ıda, usando-se medidas nas árvores em pé.

A Figura 6.1 mostra os gráficos de dispersão das variáveis duas a duas para os dados observados sem transforma¸cão e com transforma¸cão logar´ıtmica. Pode-se verificar que existe alguma rela¸cão funcional mais forte entre volume e diâmetro à altura do peito do que entre volume e altura. Além disso, as observa¸cões da variável altura têm variabilidade maior do que as observa¸cões da variável diâmetro à altura do peito. Nota-se, também, heterogeneidade de variâncias para os dados não transformados.

Como um primeiro modelo (M1) para a an´alise desses dados, sup˜oe-se que

D 65 70 75 80 85 8 10 12 14 16 18 20 65 70 75 80 85 H 8 10 12 14 16 18 20 10 20 30 40 50 60 70 10 20 30 40 50 60 70 V logD 4.15 4.25 4.35 4.45 2.2 2.4 2.6 2.8 3.0 4.15 4.25 4.35 4.45 logH 2.2 2.4 2.6 2.8 3.0 2.5 3.0 3.5 4.0 2.5 3.0 3.5 4.0 logV

Figura 6.1: Gráfico de dispersão para os dados de árvores - valores observados e transformados na escala logar´ıtmica.

a vari´avel resposta ´e Y = µ + ε1, em que Y = V e ε1 ∼ N(0, σ21) e, portanto,

Y ∼ N(µ, σ2

1), a fun¸cão de liga¸cão é a identidade, η = µ, e o preditor linear é

expresso por

η = β0+ β1x1+ β2x2, (6.1)

em que x1 = D e x2 = H.

Um segundo modelo (M2) baseia-se no fato de que o volume ´e proporcional

ao produto do diâmetro à altura do peito pela altura, isto é, V ≈ γ0Dβ1Hβ2 e,

portanto, log(V ) ≈ β0 + β1log(D) + β2log(H). Ent˜ao, pode-se supor que para a

vari´avel resposta transformada Y = µ + ε2, em que Y = log(V ) e ε2 ∼ N(0, σ22) e,

portanto, Y ∼ N(µ, σ2

2), a fun¸cão de liga¸cão é a identidade, η = µ, e o preditor linear

´e expresso por (6.1) com x1 = log(D) e x2 = log(H).

Como um terceiro modelo (M3), supõe-se que a variável resposta é Y =

µ + ε3, em que Y = V , µ = γ0Dβ1Hβ2 e ε3 ∼ N(0, σ32) e, portanto, Y ∼ N(µ, σ23), a

fun¸cão de liga¸cão é a logar´ıtmica, η = log(µ), e o preditor linear é expresso por (6.1) com x1 = log(D) e x2 = log(H).

A Tabelas 6.1 e 6.2 mostram os resultados obtidos, considerando-se diversos submodelos para o preditor linear, para a an´alise dos dados sem transforma¸c˜ao (M1)

1% de significância, que os efeitos tanto do diâmetro à altura do peito como da altura são significativos, sendo que o efeito do diâmetro à altura do peito é maior do que o da altura, tanto para o caso de dados não transformados como para transformados. Entretanto, é muito mais forte no caso de dados transformados. É importante, lem- brar, também, que o teste para o modelo com ambas as variáveis (regressão parcial) simultaneamente tem um n´ıvel de significância conjunto, enquanto que na análise sequencial, não se sabe o n´ıvel conjunto de significância dos testes. Há evidências, portanto, de que ambas as variáveis explanatórias altura e diâmetro são necessárias para explicar o volume e que o melhor ajuste é obtido com os dados transformados. Testes t (equivalentes aos testes F ) e intervalos de confian¸ca para os parâmetros e intervalos de previsão para Y podem, então, ser calculados. Há necessidade, porém, de um estudo mais detalhado, fazendo-se uma análise dos res´ıduos e de diagnóstico, para a escolha do modelo final.

Conforme pode-se verificar na Figura 6.2, h´a indica¸c˜ao de que o modelo M1

não se ajusta bem às observa¸cões. No gráfico dos valores ajustados versus valores observados, destacam-se como pontos extremos as observa¸cões 1, 2, 3 e 31, enquanto que no gráfico dos valores absolutos de DFFitS versus ´ındices, destaca-se a observa¸cão 31. No gráfico normal de probabilidades, com envelope de simula¸cão, destacam-se as observa¸cões 18 e 31. O gráfico para a escolha de uma transforma¸cão na fam´ılia Box-Cox mostra um intervalo de confian¸ca para o parâmetro λ que não inclui o valor λ = 1, indicando uma escala inadequada para a variável resposta. É interessante notar que as árvores 1, 2 e 3 são aquelas de menores volumes, enquanto que a árvore 31 é a de maior volume.

Conforme pode-se verificar na Figura 6.3, há indica¸cão de que o modelo M2 ajusta-se bem às observa¸cões. No gráfico de valores ajustados versus valores

observados, continuam destacando-se como pontos extremos as observa¸cões 1, 2, 3 e 31, enquanto que no gráfico de valores absolutos de DFFitS versus ´ındices, destaca-se a observa¸cão 18. No gráfico normal de probabilidades com envelope de simula¸cão, destacam-se as observa¸cões 11 e 18. O gráfico para a escolha de uma transforma¸cão

0 20 40 60 80 0 20 40 60 80

Valores observados de volumes

Valores ajustados 0 5 10 15 20 25 30 0.0 0.5 1.0 1.5 Índices

Valores absolutos de DFFits

−2 −1 0 1 2 −2 −1 0 1 2 Quantis(t) Resíduos estudentizados −2 −1 0 1 2 −130 −120 −110 −100 −90 −80 λ Log(função de verossimilhança) 95%

Figura 6.2: Gr´aficos de valores ajustados (modelo M1) versus valores observados,

valores absolutos de DFFits versus ´ındices, gráfico normal de probabilidades com envelope de simula¸cão e gráfico para escolha da transforma¸cão na fam´ılia Box-Cox (dados de árvores não transformados).

na fam´ılia Box-Cox mostra um intervalo de confian¸ca para o parâmetro λ que inclui o valor λ = 1, indicando uma escala adequada para a variável resposta. O programa para as análises foi desenvolvido em R e encontra-se no Apêndice B.1.

No documento CORDEIRO, G.M.; DEMÉTRIO, C.G.B. Modelos Lineares Generalizados e Extensões (páginas 179-190)