Considera-se um MLG com distribui¸c˜ao na fam´ılia (1.5) e componente sis- tem´atico g(µ) = Xβ. As poss´ıveis anomalias no componente aleat´orio do modelo podem ser descobertas pelos gr´aficos i’), ii’) e iii’) descritos na Se¸c˜ao 5.4.1, desde que os res´ıduos sejam definidos apropriadamente. Nesta se¸c˜ao, apresenta-se uma t´ecnica geral para verificar anomalias no componente sistem´atico do modelo definido pelas equa¸c˜oes (2.5) e (2.6).
Considera-se que o componente sistem´atico correto cont´em uma vari´avel explanat´oria z adicional (Se¸c˜ao 4.9) e um parˆametro escalar γ, isto ´e,
g(µ) = Xβ + h(z; γ), (5.10)
em que h(z; γ) pode representar:
a) um termo adicional em uma ou mais vari´aveis explanat´orias originais, por exemplo: h(z; γ) = γx2
j ou h(z; γ) = γxjxk;
b) uma contribui¸c˜ao linear ou n˜ao-linear de alguma vari´avel explanat´oria omitida, por exemplo: h(z; γ) = γz ou h(z; γ) = zγ.
O objetivo ´e definir res´ıduos modificados ˜R para o modelo ajustado g(µ) = Xβ tais que E( ˜R) = h(z; γ). Se isso acontecer, um gr´afico de ˜R versus z, desprezando a varia¸c˜ao aleat´oria, exibir´a a fun¸c˜ao h(z; γ).
Para fixar ideias, considere o modelo normal linear e os res´ıduos ordin´arios usuais: R = y − ˆµ= [I − X(XTX)−1XT]y = (I − H)y. Supondo que o componente
sistem´atico correto ´e (5.10), tem-se R = (I − H)[Xβ + h(z; γ) + ε], em que ε ´e um ru´ıdo branco. Como X ´e ortogonal a I−H, tem-se R = (I−H)h(z; γ)+ε e, portanto, E(R) = (I − H)h(z; γ). Assim, um gr´afico de R versus z n˜ao apresentar´a nenhuma semelhan¸ca com h(z; γ). Entretanto, se h(z; γ) for, aproximadamente, linear, um gr´afico de R versus (I − H)z poder´a ser usado. A declividade da reta de m´ınimos
quadrados ajustada aos pontos desse gr´afico proporcionar´a uma estimativa de γ no modelo (5.10). Se a declividade for pr´oxima de zero, o modelo g(µ) = Xβ poder´a ser aceito ao inv´es de (5.10).
Para o modelo normal linear, supondo h(z; γ), aproximadamente, linear, Larsen e McCleary (1972) definem res´ıduos parciais por
e
R = y − ˆµ+ ˆγHz = (I − H)y + ˆγHz, (5.11) em que ˆγ ´e a estimativa de m´ınimos quadrados de γ baseada na regress˜ao de y − ˆµ sobre a matriz (I − H)z, isto ´e, ˆγ = [zT(I − H)z]−1zT(I − H)(y − ˆµ), com z =
(z1, . . . , zn)T.
Pode-se demonstrar que os res´ıduos parciais (5.11) podem ser expressos como combina¸c˜oes lineares dos res´ıduos y − ˆµ e, tamb´em, como combina¸c˜oes lineares das observa¸c˜oes y.
Ainda, no modelo normal linear, a no¸c˜ao de res´ıduos parciais pode ser es- tendida para determinar se vari´aveis explanat´orias, com contribui¸c˜oes n˜ao-lineares, est˜ao omissas no componente sistem´atico do modelo. Suponha, agora, que γ seja um vetor de parˆametros. Isso ´e poss´ıvel, desde que a fun¸c˜ao h(z; γ) possa ser aproximada por um polinˆomio de grau baixo, isto ´e, h(z; γ) ≈ Tγ, em que T = T(z) = (z, z(2), z(3). . .) com z(i) = (zi
1, . . . , zni)T.
Com essa aproxima¸c˜ao, definem-se os res´ıduos aumentados de Andrews e Pregibon (1978), por uma express˜ao an´aloga a (5.11),
e
R = y − ˆµ+ HTˆγ = (I − H)y + HTˆγ, (5.12) em que ˆγ ´e a estimativa de m´ınimos quadrados de γ na regress˜ao linear de y − ˆµ sobre (I − H)T, isto ´e, ˆγ = [TT(I − H)T]−1TT(I − H)(y − ˆµ).
Tem-se E( eR) = Tγ ≈ h(z; γ) e, portanto, exceto por varia¸c˜oes aleat´orias, um gr´afico de eR versus z poder´a exibir a forma da fun¸c˜ao h(z; γ).
Para os MLG os res´ıduos aumentados podem ser definidos a partir de res´ıduos medidos na escala linear
Essa express˜ao foi introduzida na Se¸c˜ao 5.4.3. Aqui, estima-se γ ajustando o modelo aumentado g(µ) = Xβ + Tγ aos dados. Isso determinar´a op¸c˜oes de aperfei¸coamento da estrutura linear do modelo. O ajuste de polinˆomios de graus elevados ´e, numeri- camente, bastante inst´avel, sendo melhor considerar no m´aximo T = (z, z(2), z(3)).
Tem-se R = (I − bZcW)(X ˆβ+ Tˆγ+ ε) = (I − bZcW)(Tˆγ+ ε) e, portanto, os res´ıduos aumentados nos MLG s˜ao expressos por
e
R = R + bZcWTˆγ (5.14)
e tˆem valores esperados pr´oximos de h(z; γ). Na f´ormula (5.14) as estimativas de Z e W s˜ao segundo o modelo reduzido g(µ) = Xβ.
A express˜ao (5.12) ´e um caso especial de (5.14) quando W ´e igual `a matriz identidade. Um gr´afico de eR versus z poder´a indicar se essa vari´avel explanat´oria deve estar inclu´ıda no modelo e, se isso acontecer, poder´a ainda sugerir a forma de inclus˜ao. N˜ao se devem comparar os res´ıduos aumentados em (5.14) com os res´ıduos ordin´arios R, pois os primeiros s˜ao baseados no ajuste do modelo aumentado.
A an´alise gr´afica dos res´ıduos aumentados pode ser bastante ´util nos est´agios preliminares de sele¸c˜ao de vari´aveis explanat´orias, quando se tˆem muitas dessas vari´aveis para serem consideradas. A forma¸c˜ao do componente sistem´atico pode ser feita, passo a passo, com a introdu¸c˜ao de uma ´unica vari´avel explanat´oria, a cada passo, pelo m´etodo descrito.
Para determinar a contribui¸c˜ao de uma vari´avel explanat´oria xi =
(xi1, . . . , xin)T da pr´opria matrix X no ajuste do modelo reduzido g(µ) = Xβ aos
dados, pode-se trabalhar com os res´ıduos parciais generalizados
vi = ˆzi − ˆηi+ ˆβjxij. (5.15)
Os res´ıduos (5.15), descritos na Se¸c˜ao 5.7, s˜ao muito mais simples de serem computados do que os res´ıduos aumentados definidos em (5.14).
5.9
Exerc´ıcios
1. Comparar os res´ıduos de Anscombe, Pearson e como raiz quadrada do componente do desvio, para o modelo de Poisson. Como sugest˜ao supor ˆµ = cy e variar c, por exemplo, 0(0.2)2(0.5)10. Fazer o mesmo para os modelos binomial, gama e normal inverso.
2. Definir os res´ıduos de Anscombe, Pearson e como raiz quadrada do componente do desvio para o modelo binomial negativo, comparando-os em algum modelo. 3. Seja um MLG com estrutura linear ηi = α + βxi+ xγi e fun¸c˜ao de liga¸c˜ao g(.)
conhecida.
(a) Formular, por meio da fun¸c˜ao desvio, crit´erios para os seguintes testes: H1: γ =
γ(0) versus H′
1 : γ 6= γ(0); H2 : β = β(0), γ = γ(0) versus H2′ : β 6= β(0), γ = γ(0) e
versus H′′
2 : β 6= β(0), γ 6= γ(0); H3 : β = β(0) versus H3 : β 6= β(0);
(b) como obter um intervalo de confian¸ca para γ usando a fun¸c˜ao desvio?
(c) se a fun¸c˜ao de liga¸c˜ao dependesse de um parˆametro λ desconhecido, como deter- minar crit´erios para os testes citados?
4. Os dados da Tabela 13.1 (Ryan et al., 1976, p. 329) do Apˆendice A.1 referem-se a medidas de diˆametro a 4,5 p´es acima do solo (D, polegadas) e altura (H, p´es) de 21 cerejeiras (black cherry) em p´e e de volume (V , p´es c´ubicos) de ´arvores derrubadas. O objetivo desse tipo de experimento ´e verificar de que forma essas vari´aveis est˜ao relacionadas para poder predizer o volume de madeira em uma ´area de floresta (Allegheny National Forest), usando medidas nas ´arvores em p´e. Pede-se:
a) fazer os gr´aficos de vari´aveis adicionadas para H e D; b) fazer os gr´aficos de res´ıduos parciais para H e D;
c) fazer as transforma¸c˜oes LV = log(V ), LH = log(H) e LD = log(D) e repetir os gr´aficos dos itens (a) e (b);
e) usando u(1) = p X j=2 ˆ βjxjlog(xj) − y log y ˙y − 1 ,
obtido como no Exemplo 5.5 da Se¸c˜ao 5.7, como vari´avel adicionada, verifique que h´a necessidade da transforma¸c˜ao simultˆanea de V , H e D.
5. Os dados da Tabela 5.3 referem-se `a mortalidade de escaravelhos ap´os 5 h de exposi¸c˜ao a diferentes doses de bissulfeto de carbono (CS2). Pede-se:
Tabela 5.3: N´umero de insetos mortos (yi) de mi insetos ap´os 5 h de exposi¸c˜ao a
diferentes doses de CS2. log(Dose) (di) mi yi 1,6907 59 6 1,7242 60 13 1,7552 62 18 1,7842 56 28 1,8113 63 52 1,8369 59 53 1,8610 62 61 1,8839 60 60
a) ajuste o modelo log´ıstico linear e fa¸ca o teste para a fun¸c˜ao de liga¸c˜ao; b) ajuste o modelo complemento log-log e fa¸ca o teste para a fun¸c˜ao de liga¸c˜ao; c) fa¸ca o gr´afico da vari´avel adicionada para os itens a) e b);
d) verifique se h´a necessidade de transforma¸c˜ao para a vari´avel dose usando o gr´afico de res´ıduos parciais.
6. Os dados da Tabela 5.4 (Phelps, 1982) s˜ao provenientes de um experimento casualizado em trˆes blocos em que foram usadas como tratamentos oito doses de um inseticida fosforado e foram contadas quantas (y) cenouras estavam danificadas de
totais de m cenouras.
Tabela 5.4: N´umero de cenouras danificadas (yi) de mi cenouras (Phelps, 1982).
log(Dose) Bloco I Bloco II Bloco III di mi yi mi yi mi yi 1,52 10 35 17 38 10 34 1,64 16 42 10 40 10 38 1,76 8 50 8 33 5 36 1,88 6 42 8 39 3 35 2,00 9 35 5 47 2 49 2,12 9 42 17 42 1 40 2,24 1 32 6 35 3 22 2,36 2 28 4 35 2 31
a) ajuste o modelo log´ıstico linear e fa¸ca o teste para a fun¸c˜ao de liga¸c˜ao; b) ajuste o modelo complemento log-log e fa¸ca o teste para a fun¸c˜ao de liga¸c˜ao; c) fa¸ca o gr´afico da vari´avel adicionada para os itens (a) e (b);
d) usando a fam´ılia de fun¸c˜oes de liga¸c˜ao de Aranda-Ordaz, obtenha a vari´avel constru´ıda e estime λ;
e) ajuste o modelo log´ıstico com preditor linear quadr´atico e fa¸ca o teste para a fun¸c˜ao de liga¸c˜ao.
7. Considere a fam´ılia (5.8) de fun¸c˜oes de liga¸c˜ao. Mostre que a vari´avel constru´ıda para o teste da hip´otese H0 : λ = 0 ´e expressa por (Atkinson, 1985, p. 238)
u(λ0) = dh(µ, λ) dλ λ=0 = −log( ˆµ) ⊙ log(ˆ2 µ) = −ηˆ⊙ ˆη2 , em que ⊙ representa o produto termo a termo.
Demonstrar que os res´ıduos podem ser definidos por [G(Yi/mi) − G′(ˆµi)] G′(ˆµi) ˆ µi(1 − ˆµi) mi 1/2 .
Quais as vantagens das escolhas G(µ) = µ, G(µ) = log[µ/(1 − µ)] e G(µ) = Rµ
0 x−1/3(1 − x)−1/3dx?
9. No modelo normal linear com estrutura para a m´edia especificada por µ = E(Y) = Xβ + g(z; γ), sendo a fun¸c˜ao g(z; γ) aproximadamente linear, demonstrar que os res´ıduos parciais bR = (I −H)y +Hzˆγ, em que H = X(XTX)−1XT ´e a matriz
de proje¸c˜ao, podem ser expressos como combina¸c˜oes lineares dos res´ıduos ordin´arios y − ˆµe, tamb´em, como combina¸c˜oes lineares dos dados y.
10. Demonstrar as f´ormulas aproximadas apresentadas em (8.15) para se fazer o diagn´ostico global de influˆencia de uma ´unica observa¸c˜ao sobre o ajuste do MLG. 11. Os res´ıduos rP′
i definidos em (5.6) s˜ao, tamb´em, denominados res´ıduos de
Student (W.S. Gosset). Calcular express˜oes para a(1)0 , bi e ci em fun¸c˜ao desses
res´ıduos.
12. Seja um modelo normal, ou gama ou normal inverso com componente usual g(µ) = η = Xβ e que o parˆametro φ seja constante para todas as observa¸c˜oes, embora desconhecido. Determinar, usando a fun¸c˜ao desvio, crit´erios para os seguintes testes:
Cap´ıtulo 6
Aplica¸c˜oes a Dados Cont´ınuos
Neste cap´ıtulo, apresentam-se an´alises dos seguintes conjuntos de dados cont´ınuos: volume de ´arvores, gordura no leite, importa¸c˜ao Brasileira, tempos de sobrevivˆencia de ratos, assinaturas de TV a cabo, demanda de energia el´etrica e tempo de funcionamento de um transformador.
6.1
Dados de volume de ´arvores
Os dados da Tabela 13.1 referem-se a medidas de diˆametro a 4,5 p´es acima do solo (D, polegadas) e altura (H, p´es) de 21 cerejeiras (“black cherry”) em p´e e de volume (V , p´es c´ubicos) de ´arvores derrubadas (Ryan et al., 1976) em uma ´area da floresta (Allegheny National Forest). O objetivo desse tipo de experimento ´e verificar de que forma essas vari´aveis est˜ao relacionadas para poder predizer o volume de madeira a ser extra´ıda, usando-se medidas nas ´arvores em p´e.
A Figura 6.1 mostra os gr´aficos de dispers˜ao das vari´aveis duas a duas para os dados observados sem transforma¸c˜ao e com transforma¸c˜ao logar´ıtmica. Pode-se verificar que existe alguma rela¸c˜ao funcional mais forte entre volume e diˆametro `a altura do peito do que entre volume e altura. Al´em disso, as observa¸c˜oes da vari´avel altura tˆem variabilidade maior do que as observa¸c˜oes da vari´avel diˆametro `a altura do peito. Nota-se, tamb´em, heterogeneidade de variˆancias para os dados n˜ao transformados.
Como um primeiro modelo (M1) para a an´alise desses dados, sup˜oe-se que
D 65 70 75 80 85 8 10 12 14 16 18 20 65 70 75 80 85 H 8 10 12 14 16 18 20 10 20 30 40 50 60 70 10 20 30 40 50 60 70 V logD 4.15 4.25 4.35 4.45 2.2 2.4 2.6 2.8 3.0 4.15 4.25 4.35 4.45 logH 2.2 2.4 2.6 2.8 3.0 2.5 3.0 3.5 4.0 2.5 3.0 3.5 4.0 logV
Figura 6.1: Gr´afico de dispers˜ao para os dados de ´arvores - valores observados e transformados na escala logar´ıtmica.
a vari´avel resposta ´e Y = µ + ε1, em que Y = V e ε1 ∼ N(0, σ21) e, portanto,
Y ∼ N(µ, σ2
1), a fun¸c˜ao de liga¸c˜ao ´e a identidade, η = µ, e o preditor linear ´e
expresso por
η = β0+ β1x1+ β2x2, (6.1)
em que x1 = D e x2 = H.
Um segundo modelo (M2) baseia-se no fato de que o volume ´e proporcional
ao produto do diˆametro `a altura do peito pela altura, isto ´e, V ≈ γ0Dβ1Hβ2 e,
portanto, log(V ) ≈ β0 + β1log(D) + β2log(H). Ent˜ao, pode-se supor que para a
vari´avel resposta transformada Y = µ + ε2, em que Y = log(V ) e ε2 ∼ N(0, σ22) e,
portanto, Y ∼ N(µ, σ2
2), a fun¸c˜ao de liga¸c˜ao ´e a identidade, η = µ, e o preditor linear
´e expresso por (6.1) com x1 = log(D) e x2 = log(H).
Como um terceiro modelo (M3), sup˜oe-se que a vari´avel resposta ´e Y =
µ + ε3, em que Y = V , µ = γ0Dβ1Hβ2 e ε3 ∼ N(0, σ32) e, portanto, Y ∼ N(µ, σ23), a
fun¸c˜ao de liga¸c˜ao ´e a logar´ıtmica, η = log(µ), e o preditor linear ´e expresso por (6.1) com x1 = log(D) e x2 = log(H).
A Tabelas 6.1 e 6.2 mostram os resultados obtidos, considerando-se diversos submodelos para o preditor linear, para a an´alise dos dados sem transforma¸c˜ao (M1)
1% de significˆancia, que os efeitos tanto do diˆametro `a altura do peito como da altura s˜ao significativos, sendo que o efeito do diˆametro `a altura do peito ´e maior do que o da altura, tanto para o caso de dados n˜ao transformados como para transformados. Entretanto, ´e muito mais forte no caso de dados transformados. ´E importante, lem- brar, tamb´em, que o teste para o modelo com ambas as vari´aveis (regress˜ao parcial) simultaneamente tem um n´ıvel de significˆancia conjunto, enquanto que na an´alise sequencial, n˜ao se sabe o n´ıvel conjunto de significˆancia dos testes. H´a evidˆencias, portanto, de que ambas as vari´aveis explanat´orias altura e diˆametro s˜ao necess´arias para explicar o volume e que o melhor ajuste ´e obtido com os dados transformados. Testes t (equivalentes aos testes F ) e intervalos de confian¸ca para os parˆametros e intervalos de previs˜ao para Y podem, ent˜ao, ser calculados. H´a necessidade, por´em, de um estudo mais detalhado, fazendo-se uma an´alise dos res´ıduos e de diagn´ostico, para a escolha do modelo final.
Conforme pode-se verificar na Figura 6.2, h´a indica¸c˜ao de que o modelo M1
n˜ao se ajusta bem `as observa¸c˜oes. No gr´afico dos valores ajustados versus valores observados, destacam-se como pontos extremos as observa¸c˜oes 1, 2, 3 e 31, enquanto que no gr´afico dos valores absolutos de DFFitS versus ´ındices, destaca-se a observa¸c˜ao 31. No gr´afico normal de probabilidades, com envelope de simula¸c˜ao, destacam-se as observa¸c˜oes 18 e 31. O gr´afico para a escolha de uma transforma¸c˜ao na fam´ılia Box-Cox mostra um intervalo de confian¸ca para o parˆametro λ que n˜ao inclui o valor λ = 1, indicando uma escala inadequada para a vari´avel resposta. ´E interessante notar que as ´arvores 1, 2 e 3 s˜ao aquelas de menores volumes, enquanto que a ´arvore 31 ´e a de maior volume.
Conforme pode-se verificar na Figura 6.3, h´a indica¸c˜ao de que o modelo M2 ajusta-se bem `as observa¸c˜oes. No gr´afico de valores ajustados versus valores
observados, continuam destacando-se como pontos extremos as observa¸c˜oes 1, 2, 3 e 31, enquanto que no gr´afico de valores absolutos de DFFitS versus ´ındices, destaca-se a observa¸c˜ao 18. No gr´afico normal de probabilidades com envelope de simula¸c˜ao, destacam-se as observa¸c˜oes 11 e 18. O gr´afico para a escolha de uma transforma¸c˜ao
0 20 40 60 80 0 20 40 60 80
Valores observados de volumes
Valores ajustados 0 5 10 15 20 25 30 0.0 0.5 1.0 1.5 Índices
Valores absolutos de DFFits
−2 −1 0 1 2 −2 −1 0 1 2 Quantis(t) Resíduos estudentizados −2 −1 0 1 2 −130 −120 −110 −100 −90 −80 λ Log(função de verossimilhança) 95%
Figura 6.2: Gr´aficos de valores ajustados (modelo M1) versus valores observados,
valores absolutos de DFFits versus ´ındices, gr´afico normal de probabilidades com envelope de simula¸c˜ao e gr´afico para escolha da transforma¸c˜ao na fam´ılia Box-Cox (dados de ´arvores n˜ao transformados).
na fam´ılia Box-Cox mostra um intervalo de confian¸ca para o parˆametro λ que inclui o valor λ = 1, indicando uma escala adequada para a vari´avel resposta. O programa para as an´alises foi desenvolvido em R e encontra-se no Apˆendice B.1.