• Nenhum resultado encontrado

1. Seja Y uma vari´avel aleat´oria com distribui¸c˜ao binomial negativa, isto ´e, Y ´e o n´umero de ensaios at´e a ocorrˆencia do r-´esimo sucesso, em que π ´e a probabilidade de sucesso em cada ensaio. Mostre que a fun¸c˜ao de probabilidades de Y pode ser expressa na forma exponencial. Calcule µ e V (µ). Use a forma abaixo para a fun¸c˜ao de probabilidades de Y f (y; π, r) = y − 1 r − 1 ! πr(1 − π)(y−r), em que y = r, r + 1, . . ..

2. Considere a seguinte fun¸c˜ao densidade de probabilidade: f (y; θ, φ) = φa(y, φ)

π(1 + y2)1/2exp[φ{yθ + (1 − θ 2)1/2

}],

em que 0 < θ < 1, −∞ < y < ∞, φ > 0 e a(·, ·) ´e uma fun¸c˜ao normalizadora. (i) Mostre que essa distribui¸c˜ao pertence `a fam´ılia exponencial; (ii) encontre E(Y ) = µ e V (µ); (iii) obtenha o res´ıduo de Pearson e (iv) encontre a fun¸c˜ao desvio supondo uma amostra de n vari´aveis aleat´orias independentes.

3. Mostre que a distribui¸c˜ao logar´ıtmica, com fun¸c˜ao de probabilidades f (y; ρ) = ρy/{−ylog(1 − ρ)},

em que y = 1, 2, . . . e 0 < ρ < 1, pertence `a fam´ılia exponencial. Calcule µ e V (µ). 4. Considere a distribui¸c˜ao est´avel cuja densidade ´e dada por

f (y; θ, φ) = a(y, φ)exp[φ{θ(y + 1) − θlogθ}],

em que θ > 0, −∞ < y < ∞, φ−1 > 0 ´e o parˆametro de escala e a(·, ·) ´e uma

fun¸c˜ao normalizadora. Mostre que essa distribui¸c˜ao pertence `a fam´ılia exponencial. Encontre µ e V (µ). Obtenha a fun¸c˜ao desvio supondo uma amostra de n vari´aveis aleat´orias independentes.

5. Encontre a fun¸c˜ao desvio para as distribui¸c˜oes binomial negativa e logar´ıtmica. Mostre que o desvio da distribui¸c˜ao gama para o caso i.i.d ´e dado por D∗(y; ˆµ) =

2nφlog(¯y/˜y), em que ˜y ´e a m´edia geom´etrica das observa¸c˜oes.

6. (Paula e Cordeiro, 1986). Suponha o modelo g(µ; λ) = η, em que η = Xβ com λ univariado. Mostre que o processo iterativo para estimar (βT, λ) ´e o mesmo de um MLG com parte sistem´atica g(µ, λ) = Xβ + Λλ, em que a matriz modelo ´e dada por ˜X = [X, Λ] e Λ = ∂η/∂λ. Particularize esse processo iterativo para as liga¸c˜oes Box-Cox e de Aranda-Ordaz.

7. Supor o modelo normal linear com parte sistem´atica dada por ηi = β1(x1i− ¯x1) +

β2(x2i− ¯x2). Sabe-se que a correla¸c˜ao amostral entre x1 e x2´e dada por corr(x1, x2)

= Pn

i=1(x1i− ¯x1)(x2i− ¯x2)/(n − 1)s1s2, em que s1 e s2 s˜ao os respectivos desvios-

padr˜ao amostrais de x1 e x2. Calcule a correla¸c˜ao corr( ˆβ1, ˆβ2). Discuta e tente

explicar a rela¸c˜ao entre as duas correla¸c˜oes. Use o fato de que det(XTX)−1 > 0.

8. Suponha o modelo de an´alise de variˆancia com erros normais yij = α + βi+ ij,

em que ij ∼ N(0, σ2), i = 1, . . . , p e j = 1, . . . , ni. Supor β1 = 0. Mostre que

Var(rij) = σ2(1 − 1/ni).

9. Considere o modelo normal linear

yi = xTi β+ i, i = 1, . . . , n,

em que i s˜ao mutuamente independentes tais que i ∼ N(0, σ2). Considere uma

nova observa¸c˜ao y(z) (que n˜ao est´a na amostra) e que satisfaz y(z) = zTβ+ , em

que  ∼ N(0, σ2). Mostre que um intervalo de confian¸ca de coeficiente 1 − α para

y(z) pode ser dado por

y(z) ± tn−p(1 − α 2)s{1 + z T(XTX)−1 z}1/2], em que ˆy(z) = zTβ, tˆ

n−1(1 − α2) ´e o percentil (1 − α2) da distribui¸c˜ao t de Student

com n − p graus de liberdade e s2 ´e o erro quadr´atico m´edio do modelo ajustado.

10. Suponha agora o modelo de regress˜ao normal linear simples yi = α + βxi+ i, i = 1, . . . , n.

Mostre a equivalˆencia entre as estat´ısticas ξRV, ξW, ξSR para testar H0 : β = 0

contra H1 : β 6= 0.

11. Um outro crit´erio tradicional para a sele¸c˜ao de modelos em regress˜ao normal linear ´e atrav´es da estat´ıstica PRESS, definida por ˆ∆ =Pni=1(yi− ˆy(i))2, em que ˆy(i) = xTi βˆ(i)

denota o valor predito para a i-´esima observa¸c˜ao quando esta n˜ao ´e considerada no ajuste. O crit´erio ´e selecionar o ajuste com menor valor para ˆ∆. Mostre que

ˆ ∆ = n X i=1  r i 1 − hii 2 , em que ri = yi− ˆyi e hii = xTi (XTX)−1xi.

12. Suponha duas popula¸c˜oes normais com m´edias µ1 e µ2, mesma variˆancia, e que

amostras independentes de tamanhos n1 e n2 foram, respectivamente, obtidas das

duas popula¸c˜oes. Para o modelo com parte sistem´atica µ1 = α + β e µ2 = α − β,

mostre que a estat´ıstica F para testar H0 : β = 0 contra H1 : β 6= 0 pode ser

expressa na forma simplificada

F = (n − 2) n1n2 n (¯y1− ¯y2)2 P (yi− ¯y)2− n1nn2(¯y1− ¯y2)2 , em que ¯y, ¯y1, ¯y2 s˜ao as respectivas m´edias amostrais.

13. (Paula e Sen, 1995). Suponha um MLG com liga¸c˜ao canˆonica e parte sitem´atica dada por g(µ1j) = α1 + βxj e g(µ2j) = α2 + βxj, j = 1, . . . , r. Interprete esse tipo

de modelo. Obtenha a matriz X correspondente. Como fica o teste de escore para testar H0 : β = 0? O que significa testar H0?

14. Sejam Yij, i = 1, 2, 3 e j = 1, . . . , m, vari´aveis aleat´orias mutuamente independentes

tais que E(Yij) = µij, Var(Yij) = Vijφ−1 e parte sistem´atica dada por g(µ1j) = α,

g(µ2j) = α + ∆ e g(µ3j) = α − ∆. Responda as seguintes quest˜oes:

(i) como fica a matriz modelo X?

(ii) O que significa testar H0 : ∆ = 0? Qual a distribui¸c˜ao nula assint´otica das

estat´ısticas ξRV, ξW e ξSR?

(iii) Calcular a variˆancia assint´otica de ˆ∆, Var( ˆ∆).

(iv) Mostre que o teste de escore para testar H0 : ∆ = 0 contra H1 : ∆ 6= 0 fica

dado por

ξSR =

φm(¯y2− ¯y3)2

2 ˆV0

15. Sejam Y1, . . . , Ynvari´aveis aleat´orias independentes tais que Yi ∼ G(µi, φ) com parte

sistem´atica dada por logµi = β0+ β1(xi− ¯x). Responda aos itens abaixo:

(a) Como fica a matriz de informa¸c˜ao de Fisher para θ = (β0, β1, φ)T e a variˆancia

assint´otica de ˆβ0, ˆβ1 e ˆφ?

(b) Como fica o teste de escore para testar H0 : φ = 1 contra H1 : φ 6= 1?

(c) Mostre que o teste de escore para testar as hip´oteses H0 : β0 = 1, β1= 0 contra

H1 : β0 6= 1 ou β1 6= 0 pode ser expresso na forma

ξSR = ˆ φ0 e2 " n(¯y − e)2+{ Pn

i=1(xi− ¯x)(yi− e)}2

Pn

i=1(xi− ¯x)2 #

. Qual a distribui¸c˜ao nula assint´otica de ξSR?

16. (Cordeiro, Paula e Botter, 1994). Sejam Yi, i = 1, . . . , n, vari´aveis aleat´orias inde-

pendentes com distribui¸c˜ao gama de m´edia µi e parˆametro de escala φ. Mostre que

a estat´ıstica da raz˜ao de verossimilhan¸cas para testar H0 : φ = 1 contra H1 : φ 6= 1

vale

ξRV = 2n[log ˆφ − logΓ( ˆφ) − ( ˆφ − 1){1 − ψ( ˆφ)}],

em que Γ(φ) ´e a fun¸c˜ao gama e ψ(φ) ´e a fun¸c˜ao digama. Use o resultado log( ˆφ) − ψ( ˆφ) = ¯D/2, em que D denota o desvio do modelo correspondente.

17. Obtenha as express˜oes para as estat´ısticas ξW e ξSR dadas na Tabela 1.4.

18. Mostre (1.15) e (1.16). Use o seguinte resultado de ´algebra linear: (A + UVT)−1 = A−1 (A

−1U)(VTA−1)

1 + VTA−1U ,

em que A ´e uma matriz n˜ao singular e U e V s˜ao vetores coluna. Mostre primeiro que: XT∆X = XTX − (1 − δ)x

ixTi e XT∆y = XTy − (1 − δ)xiyi, em que ∆ ´e uma

matriz de 10s com δ na i-´esima posi¸c˜ao.

19. (Cook e Weisberg, 1982). Suponha o modelo de regress˜ao dado em (1.13). Mostre que ˆγ ∼ N(γ, σ2/(1 − h

ii)). Mostre tamb´em que, sob a hip´otese H1 : γ 6= 0, a

estat´ıstica F tem uma distribui¸c˜ao F1,(n−p−1)(λ), em que λ = 12γ 2(1−h

ii)

σ2 ´e o parˆametro

de n˜ao-centralidade. Comente sobre o poder desse teste para 0 ≤ hii < 1. Use o

20. O conjunto de dados descrito na tabela abaixo refere-se a um estudo cujo objetivo foi tentar prever o pre¸co de venda de um im´ovel (em US$ mil) dada a ´area total (em p´es quadrados) numa regi˜ao de Eugene, EUA (Gray, 1989). Esses dados est˜ao armazenados no arquivo externo reg1.dat.

´ Area 800 950 910 950 1200 1000 1180 1000 1380 1250 Pre¸co 30,6 31,5 33,3 45,9 47,4 48,9 51,6 53,1 54,0 54,3 ´ Area 1500 1200 1600 1650 1600 1680 1500 1780 1790 1900 Pre¸co 55,2 55,2 56,7 57,9 58,5 59,7 60,9 60,9 62,4 63,0 ´ Area 1760 1850 1800 1700 1370 2000 2000 2100 2050 1990 Pre¸co 64,5 66,0 66,3 67,5 68,4 68,4 68,7 69,6 70,5 74,7 ´ Area 2150 2050 2200 2200 2180 2250 2400 2350 2500 2500 Pre¸co 75,0 75,3 79,8 80,7 80,7 83,4 84,0 86,1 87,0 90,3 ´ Area 2500 2500 2680 2210 2750 2500 2400 3100 2100 4000 Pre¸co 96,0 101,4 105,9 111,3 112,5 114,0 115,2 117,0 129,0 165,0

Tente inicialmente ajustar uma regress˜ao normal linear para explicar o pre¸co dada a renda. Fa¸ca uma an´alise de diagn´ostico e proponha algum modelo alternativo (se for o caso) a fim de reduzir as eventuais influˆencias de observa¸c˜oes discrepantes bem como afastamentos de outras suposi¸c˜oes feitas para o modelo. Interprete as estimativas obtidas para os coeficientes do modelo proposto.

21. (Pregibon, 1982). Mostre que o teste de escore para testar que o i-´esimo ponto ´e aberrante num MLG ´e dado por t2

Si. Sugest˜ao : chame η = x

Tβ+γz, em que z ´e um

vetor n × 1 de zeros com 1 na i-´esima posi¸c˜ao. Qual a distribui¸c˜ao nula assint´otica de t2

Si?

22. Mostrar que a express˜ao para AIC no modelo normal linear com σ2 desconhecido

pode ser expressa na forma equivalente

AIC = nlog{D(y; ˆµ)/n} + 2p, em que D(y; ˆµ) =Pni=1(yi− ˆµi)2.

23. Sejam Yi ∼ F E(µ1, φ1), i = 1, . . . , m, e Yi∼ F E(µ2, φ2), i = m + 1, . . . , n, vari´aveis

aleat´orias mutuamente independentes. Encontre a estimativa comum de m´axima verossimilhan¸ca para φ1 e φ2 sob a hip´otese H0 : φ1 = φ2. Particularize para os

casos gama e normal.

24. No arquivo reg3.dat s˜ao descritas as seguintes vari´aveis referente a 50 estados norte-americanos: (i) nome (nome do estado), (ii) pop (popula¸c˜ao estimada em julho de 1975), (iii) renda (renda per-capita em 1974), (iv) tt analf (porpor¸c˜ao de analfabetos em 1970), (v) expvida (expectativa de vida em anos 1969-70), (vi) crime(taxa de criminalidade por 100000 habitantes 1976), (vii) estud (porcentagem de estudantes que concluem o segundo grau 1970), (viii) temp (n´umero de dias do ano com temperatura abaixo de zero grau Celsus na cidade mais importante do estado) e (ix) area (´area do estado em milhas quadradas). Tente explicar e vari´avel expvida usando um modelo de regress˜ao normal linear dadas as vari´aveis explicativas renda, analf, crime, estud, temp e dens, em que dens=pop/area. Aplique o m´etodo stepwise de sele¸c˜ao de modelos. Fa¸ca uma an´alise completa de diagn´ostico com o modelo selecionado. Interprete os resultados.

25. (Neter et el., 1996, p. 449) No arquivo vendas.dat s˜ao descritas informa¸c˜oes a respeito das vendas no ano anterior de um tipo de telhado de madeira em 26 filiais de uma rede de lojas de constru¸c˜ao. As vari´aveis est˜ao colocadas na seguinte ordem: (i) telhados, total de telhados vendidos (em mil metros quadrados), (ii) gastos, gastos pela loja com promo¸c˜oes do produto (em mil US$), (iii) clientes, n´umero de clientes cadastrados na loja (em milhares), (iv) marcas, n´umero de marcas concor- rentes do produto e (v) potencial, potencial da loja (quanto maior o valor maior o potencial). Um dos objetivos do estudo com esse conjunto de dados ´e tentar prever o n´umero esperado de telhados vendidos dadas as vari´aveis explicativas. Fa¸ca inicial- mente uma an´alise descritiva construindo, por exemplo, os diagramas de dispers˜ao de cada vari´avel explicativa contra a vari´avel resposta telhados. Calcule tamb´em as correla¸c˜oes entre as vari´aveis. Use os m´etodos stepwise e AIC para selecionar um modelo de regress˜ao normal linear. Se o modelo selecionado for diferente pelos dois m´etodos, adote algum crit´erio para escolher um dos modelos. Interprete os coeficientes estimados do modelo selecionado. Fa¸ca uma an´alise de diagn´ostico para verificar se existem afastamentos s´erios das suposi¸c˜oes feitas para o modelo e se

existem observa¸c˜oes discrepantes.

26. (Wood, 1973). No arquivo reg4.dat est˜ao os dados referentes `a produ¸c˜ao de gasolina numa determinada refinaria segundo trˆes vari´aveis observadas durante o processo e uma quarta vari´avel que ´e uma combina¸c˜ao das trˆes primeiras. A resposta ´e o n´umero de octanas do produto produzido. A octanagem ´e a propriedade que de- termina o limite m´aximo que a gasolina, junto com o ar, pode ser comprimida na cˆamara de combust˜ao do ve´ıculo sem queimar antes de receber a centilha vinda das velas. As melhores gasolinas tˆem uma octanagem alta. Em grandes refinarias, o aumento de um octana na produ¸c˜ao de gasolina pode representar um aumento de alguns milh˜oes de dolares no custo final da produ¸c˜ao. Assim, torna-se impor- tante o controle dessa vari´avel durante o processo de produ¸c˜ao. Use o m´etodo stepwise para selecionar as vari´aveis explicativas significativas. Fa¸ca uma an´alise de diag´ostico com o modelo selecionado. Comente.

27. (Narula e Stangenhaus, 1988, p. 32) No arquivo imoveis.dat s˜ao apresentados dados relativos a uma amostra de 27 im´oveis. Na ordem s˜ao apresentados os valores das seguintes vari´aveis: (i) imposto do im´ovel (em 100 dolares), (ii) ´area do terreno (em 1000 p´es quadrados), (iii) ´area constru´ıda (em 1000 p´es quadrados), (iv) idade da residˆencia (em anos) e (v) pre¸co de venda do im´ovel (em 1000 dolares). Ajuste um modelo normal linear do pre¸co de venda contra as demais vari´aveis. Use o m´etodo AIC para selecionar as vari´aveis explicativas. Fa¸ca uma an´alise de diagn´ostico com o modelo selecionado. Interprete os coeficientes estimados.

28. (Paula e Oshiro, 2001). O espinhel de fundo ´e definido como um m´etodo de pesca passivo, sendo utilizado em todo o mundo em opera¸c˜oes de pesca de diferentes magnitudes, da pesca artesanal a modernas pescarias mecanizadas. ´E adequado para capturar peixes com distribui¸c˜ao dispersa ou com baixa densidade, al´em de ser poss´ıvel utiliz´a-lo em ´areas irregulares ou em grandes profundidades. ´E um dos m´etodos que mais satisfazem `as premissas da pesca respons´avel, com alta seletivi- dade de esp´ecies e comprimentos, alta qualidade do pescado, consumo de energia baixo e pouco impacto sobre o fundo oceˆanico. No arquivo pesca.dat est˜ao parte dos dados de um estudo sobre a atividade das frotas pesqueiras de espinhel de fundo baseadas em Santos e Ubatuba no litoral paulista. A esp´ecie de peixe considerada ´e o peixe-batata pela sua importˆancia comercial e ampla distribui¸c˜ao espacial. As

vari´aveis consideradas s˜ao as seguintes: (i) frota (Santos e Ubatuba), (ii) ano (95 a 99), trimestre (1 ao 4), (iii) latitude (de 23,25o a 28,25o), (iv) longitude (de

41,25o a 50,75o), (v) dias de pesca, (vi) captura (quantidade de peixes batata

capturados, em kg) e (vii) cpue (captura por unidade de esfor¸co, kg/dias de pesca). Um dos objetivos desse estudo ´e tentar explicar a cpue pelas vari´aveis frota, ano, trimestre, latitude e longitude. Estudos similares realizados em outros pa´ıses verficaram que ´e bastante razo´avel supor que a cpue tem distribui¸c˜ao assim´etrica `a direita, por exemplo gama. Dessa forma vamos supor que cpue ∼ G(µ, φ) e que a parte sistem´atica do modelo seja dada por logµ = η. Selecione, inicialmente, utilizando algum dos m´etodos de sele¸c˜ao um modelo apenas com efeitos principais. No passo seguinte, selecione itera¸c˜oes de primeira ordem. Se o teste da raz˜ao de verossimilhan¸cas for utilizado, use a fun¸c˜ao rv.gama(y, fit0, fit1) para fazer os testes, em que y denota a vari´avel resposta, fit0 o ajuste do modelo sob a hip´otese nula e fit1 o ajuste do modelo sob a hip´otese alternativa. Interprete o modelo ajus- tado utilizando m´etodos gr´aficos. Fa¸ca uma an´alise de diagn´ostico com o modelo ajustado.

29. (McCullagh e Nelder, 1989, pgs. 128-135). No arquivo grahani.dat est˜ao os dados referentes `a distribui¸c˜ao de de duas esp´ecies de lagarto (grahani e opalinus) segundo quatro fatores: (i) per´ıodo do dia (manh˜a, meio-dia, tarde), (ii) comprimento da madeira (curta, comprida), (iii) largura da madeira (estreita, larga) e (iv) local de ocupa¸c˜ao (claro, escuro). Suponha que o n´umero de lagartos encontrados da esp´ecie grahani tenha distribui¸c˜ao binomial.

(i) Proponha um modelo log´ıstico (sem intera¸c˜ao) para explicar a propor¸c˜ao de lagartos da esp´ecie grahani. Ajuste o modelo e verifique atrav´es do teste da RV quais efeitos s˜ao significativos ao n´ıvel de 10%.

(ii) Verifique separadamente se cada intera¸c˜ao de primeira ordem pode ser inclu´ıda no modelo ao n´ıvel de 5%. Construa o ANODEV.

(iii) Interprete os resultados tentando falar de uma forma n˜ao t´ecnica sobre as preferˆencias dos dois tipos de lagarto. Sugest˜ao: calcule log{π/(1 − π)}, em que π ´e a probabilidade de lagarto grahani.

30. (Feigl e Zelen, 1965) Apresentamos a seguir um conjunto de dados em que pa- cientes com leucemia foram classificados segundo a ausˆencia ou presen¸ca de uma

caracter´ıstica morfol´ogica nas c´elulas brancas. Pacientes classificados de AG posi- tivo foram aqueles com a presen¸ca da caracter´ıstica e pacientes classificados de AG negativo n˜ao apresentaram a caracter´ıstica. ´E apresentado tamb´em o tempo de so- brevivˆencia do paciente (em semanas) ap´os o diagn´ostico da doen¸ca e o n´umero de c´elulas brancas (WBC) no momento do diagn´ostico. Supondo que o tempo de so- brevivˆencia ap´os o diagn´ostico segue uma distribui¸c˜ao gama, proponha um modelo para explicar o tempo m´edio de sobrevivˆencia dados log(WBC) e AG(=1 positivo, =0 negativo). Interprete as estimativas.

AG Positivo AG Negativo WBC Tempo WBC Tempo 2300 65 4400 56 750 156 3000 65 4300 100 4000 17 2600 134 1500 7 6000 16 9000 16 10500 108 5300 22 10000 121 10000 3 17000 4 19000 4 5400 39 27000 2 7000 143 28000 3 9400 56 31000 8 32000 26 26000 4 35000 22 21000 3 100000 1 79000 30 100000 1 100000 4 52000 5 100000 43 100000 65

31. (Lawless, 1982, p. 338) Na tabela abaixo s˜ao apresentados os resultados de um experimento em que a resistˆencia (em horas) de um determinado tipo de vidro foi avaliada segundo quatro n´ıveis de voltagem (em kilovolts) e duas temperaturas (em graus Celsus). Esses dados est˜ao tamb´em dispon´ıveis no arquivo vidros.dat. Na primeira coluna do arquivo tem-se o tempo de resistˆencia, na segunda coluna a voltagem( 1: 200kV, 2: 250kV, 3: 300kV e 4: 350kV) e na terceira coluna a temperatura (1: 170oC e 2: 180oC). Seja Y

ijk o tempo de resistˆencia da k-´esima

amostra de vidro submetida `a i-´esima temperatura e `a j-´esima voltagem. Supor que Yijk ∼ G(µij, φ). O interesse ´e comparar as m´edias µij, i = 1, 2 e j = 2, 3, 4. Propor

uma reparametriza¸c˜ao tipo casela de referˆencia em que µ11 = α, µ1j = α + βj, µ21 = α + γ e µ2j = α + γ + βj j = 2, 3, 4. Voltagem(kV) Temperatura (oC) 200 250 300 350 170 439 572 315 258 904 690 315 258 1092 904 439 347 1105 1090 628 588 180 959 216 241 241 1065 315 315 241 1065 455 332 435 1087 473 380 455

Procure responder de que forma os n´ıveis de voltagem e temperatura afetam o tempo m´edio de resistˆencia dos vidros. Fa¸ca tamb´em uma an´alise de diagn´ostico.

32. (Ryan e Joiner, 1994, p. 299). No arquivo trees.dat ´e apresentado um conjunto de dados que tem sido analisado sob diversos pontos de vista por v´arios pesquisadores (ver, por exemplo, Jørgensen, 1989). As vari´aveis observadas s˜ao o diˆametro (d), a altura (h) e o volume (v) de uma amostra de 31 cerejeiras numa floresta do estado da Pensilvˆania, EUA. A rela¸c˜ao entre diˆametro, altura e volume de uma ´arvore depende da forma da mesma e pode-se considerar duas possibilidades

v = 1 4πd

2h

para forma cil´ındrica e

v = 1 12πd

2h

para forma cˆonica. Em ambos os casos a rela¸c˜ao entre logv, logd e logh ´e dada por logv = a + blogd + clogh.

Supor inicialmente o modelo linear v = α + βd + γh + , em que  ∼ N(0, σ2). Fa¸ca

uma an´alise de diagn´ostico e verifique se ´e poss´ıvel melhorar o modelo, por exemplo incluindo algum termo quadr´atico.

33. (Neter et al., 1996, p. 613). Os dados do arquivo store.dat referem-se a uma amostragem feita por uma determinada loja com seus clientes, que foram divididos

segundo 110 ´areas da cidade onde a loja est´a instalada. Para cada ´area foram observadas as seguintes vari´aveis: (i) n´umero de clientes da ´area que frequentaram a loja num determinado per´ıodo, (ii) n´umero de domic´ılios, (iii) renda m´edia anual por domic´ılio (em US$), (iv) idade m´edia dos domic´ılios (em anos), (v) distˆancia entre a ´area e o concorrente mais pr´oximo (em milhas) e (vi) distˆancia entre a ´area e a loja (em milhas). Proponha um modelo log-linear de Poisson para explicar a primeira vari´avel, dadas as demais. Use o m´etodo AIC para selecionar as vari´aveis explicativas. Interprete o modelo ajustado atrav´es de raz˜oes de m´edias. Fa¸ca uma an´alise de diagn´ostico com o modelo ajustado. Interprete os resultados e trace o perfil da loja.

34. (Agresti, 1990, pgs. 122-123). Cinquenta e quatro indiv´ıduos considerados idosos s˜ao submetidos a um exame psiqui´atrico para avaliar a ocorrˆencia ou n˜ao de sin- toma de caduquice. Acredita-se que o escore obtido num exame psicol´ogico feito previamente esteja associado com a ocorrˆencia ou n˜ao do sintoma. Os dados s˜ao apresentados abaixo (score: escala no exame psicol´ogico e resp: ocorrˆencia (=1) ou n˜ao ocorrˆencia (=0) do sintoma).

Score Resp Score Resp Score Resp Score Resp Score Resp

9 1 7 1 7 0 17 0 13 0 13 1 5 1 16 0 14 0 13 0 6 1 14 1 9 0 19 0 9 0 8 1 13 0 9 0 9 0 15 0 10 1 16 0 11 0 11 0 10 0 4 1 10 0 13 0 14 0 11 0 14 1 12 0 15 0 10 0 12 0 8 1 11 0 13 0 16 0 4 0 11 1 14 0 10 0 10 0 14 0 7 1 15 0 11 0 16 0 20 0 9 1 18 0 6 0 14 0

(i) Ajustar um modelo log´ıstico para explicar a probabilidade de ocorrˆencia do sintoma em fun¸c˜ao do escore. Interpretar os resultados.

(ii) Fa¸ca os gr´aficos de tDi, tGi, t 2

Si e LDi contra os valores ajustados. Construa

envelopes com os res´ıduos tDi e tGi. Interprete os gr´aficos e identifique os pontos

Cap´ıtulo 2

Modelos para Dados Bin´arios

2.1

Introdu¸c˜ao

Neste cap´ıtulo ser˜ao apresentados modelos para a an´alise de dados com resposta bin´aria, isto ´e, que admite apenas dois resultados. Comumente ´e chamado de “sucesso”o resultado mais importante da resposta ou aquele que se pretende relacionar com as demais vari´aveis de interesse. ´E comum encontrar situa¸c˜oes pr´aticas em que esse tipo de resposta aparece. Para ilustrar, seguem alguns exemplos: (i) o resultado do diagn´ostico de um exame de lab- orat´orio, positivo ou negativo; (ii) o resultado da inspe¸c˜ao de uma pe¸ca rec´em-fabricada, defeituosa ou n˜ao-defeituosa; (iii) a opini˜ao de um eleitor a respeito da implanta¸c˜ao do voto distrital, favor´avel ou contr´ario; (iv) o resultado de um teste de aptid˜ao aplicado a um estudante, aprovado ou reprovado; (v) o resultado de uma promo¸c˜ao de uma rede de lojas enviando para cada cliente um cupom com desconto, cupom usado ou cupom n˜ao usado num determinado per´ıodo etc.

Inicialmente, apresentamos uma resenha dos principais m´etodos cl´assicos para a an´alise de tabelas de contingˆencia do tipo 2 × 2. Em seguida, introduzimos o modelo de regress˜ao log´ıstica para resposta bin´aria e fazemos uma analogia com os m´etodos tradicionais para tabelas 2×2. Discutimos tamb´em a sele¸c˜ao de modelos log´ısticos, m´etodos de diagn´ostico, alguns tipos de modelos de dose-resposta, superdispers˜ao e regress˜ao log´ıstica condicional.

Documentos relacionados