• Nenhum resultado encontrado

CE225 Modelos Lineares Generalizados

N/A
N/A
Protected

Academic year: 2021

Share "CE225 Modelos Lineares Generalizados"

Copied!
37
0
0

Texto

(1)
(2)

"Todos os modelos são errados; alguns modelos são úteis"

(3)

Objetivo da disciplina

Apresentar ao aluno a teoria e aplicações dos Modelos Lineares Generalizados, propostos originalmente em Nelder e Wedderburn (1972), que configuram extensões dos

modelos lineares clássicos (com erros normalmente distribuídos) e que permitem

analisar a relação funcional entre um conjunto de variáveis independentes e uma variável

aleatória dependente com distribuição pertencente à família exponencial de distribuições.

• A família exponencial contempla, dentre outras, as distribuições normal, exponencial, gama, normal inversa, Poisson, binomial e binomial negativa.

• Na sequência são descritos alguns dos problemas que serão analisados, ao longo do semestre, usando elementos de Modelos Lineares Generalizados.

(4)
(5)

Exemplo 1 – Análise da resistência de uma nova fibra sintética usada na produção de

camisas. Sabendo-se que a resistência da fibra é afetada pela quantidade de algodão utilizada, e que a quantidade de algodão no produto final, de acordo com as características desejadas, deve estar no intervalo de 10 a 40%, um experimento é delineado com cinco réplicas (amostras de tecidos) para cinco diferentes especificações referentes à quantidade de algodão.

Variável resposta: Resistência da fibra (em libras/pol2).

Variável explicativa: Porcentagem de algodão no tecido, com cinco níveis: 15, 20, 25, 30 e

(6)

Dados

Quadro 1 – Dados de resistência (em libras/pol2) para o experimento de fibra sintética. Amostra de tecido Porcentagem de algodão 1 2 3 4 5 15 7 7 15 11 9 20 12 17 12 18 18 25 14 18 18 19 19 30 19 25 22 19 23 35 7 10 11 15 11 Objetivos:

(7)

15 20 25 30 35 10 15 20 25 Porcentagem de algodão R e s is tê n c ia d a f ib ra

Figura 1 – Gráfico de dispersão para as resistências das fibras sob cinco porcentagens distintas de

(8)

Exemplo 2 – Amostras de 20 insetos (Heliothis virescens - praga do algodão) foram expostas

a doses crescentes do cipermetrina, dois dias depois da emergência da pupa (Collet, 2002). Após 72h, foram contados os insetos mortos.

Variável resposta: Número de insetos mortos.

Variáveis explicativas

• Dose de cipermetrina: 1, 2, 4, 8, 16, 32 u.m.: • Sexo do inseto (macho ou fêmea).

(9)

Quadro 2 – Números de insetos mortos em

amostras de 20 insetos machos e fêmeas submetidos a doses crescentes de

cipermetrina.

Nº insetos mortos Dose Log2(Dose)

Machos Fêmeas 1,0 0 1 0 2,0 1 4 2 4,0 2 9 6 8,0 3 13 10 16,0 4 18 12 32,0 5 20 16

(10)

Objetivos:

• Propor um modelo que descreva o aumento na mortalidade dos insetos segundo a dose de aplicada de cipermetrina;

Comparar as curvas de mortalidade para insetos machos e fêmeas;

Estimar doses letais, ou seja, doses efetivas (mortais) para uma determinada proporção p de insetos.

(11)

0 1 2 3 4 5 0.0 0.2 0.4 0.6 0.8 1.0 log(dose) P ro p o rç ã o d e i n s e to s m o rt o s Machos Fêmeas

(12)

Exemplo 3 - Uma população de mulheres indígenas vivendo numa região próxima a Phoenix,

Arizona, foi testada para diabetes de acordo com o critério estabelecido pela Organização Mundial de Saúde. Os dados foram coletados pelo Instituto Nacional de Diabetes e Doenças Digestivas e Renais dos EUA. São considerados os dados referentes aos 532 registros completos.

Variáveis explicativas

Gestações - número de gestações;

GlicOral - concentração de glicose no plasma no teste de tolerância à glicose oral. Pressão - pressão arterial diastólica (mm Hg).

Prega - espessura da prega tricipital (mm).

IMC - índice de massa corporal (peso/altura2).

Pedigree - função pedigree diabetes. Idade - idade em anos.

Variável resposta

(13)

Notas:

O Teste Oral de Tolerância à Glicose (também conhecido como Curva Glicêmica) é feito da seguinte maneira: a pessoa com suspeita de diabetes ingere 75g de glicose diluída em água. Após duas horas de espera, é feita a coleta de sangue para medir a taxa de glicose. Se o resultado for igual ou superior a 200mg/dl (miligramas por decilitro), o indivíduo é considerado portador de diabetes. Se a glicemia estiver entre 140mg/dl e 199mg/dl, então o diagnóstico é de pré-diabetes.

(14)

Dados - Seis primeiras linhas da base:

Indiv Gestações GlicOral Pressão Prega IMC Pedigree Idade Diagnóstico

1 5 86 68 28 30.2 0.364 25 Não 2 7 195 70 33 25.1 0.163 55 Sim 3 5 77 82 41 35.8 0.156 35 Não 4 0 165 76 43 47.9 0.259 26 Não 5 0 107 60 25 26.4 0.133 23 Não 6 5 97 76 27 35.6 0.378 52 Sim

(15)

Objetivos:

Identificar fatores associados à incidência de diabetes;

(16)

Não Sim 0 2 4 6 8 10 12 14 Diagnóstico G ra v id e z Não Sim 60 80 100 120 140 160 180 200 Diagnóstico G li c o s e Não Sim 40 50 60 70 80 90 100 110 Diagnóstico P re s s ã o a rt e ri a l (m m H g ) Não Sim 20 40 60 80 100 Diagnóstico E s p e s s u ra p re g a t ri c . Não Sim 20 25 30 35 40 45 Diagnóstico IM C ( k g /m 2 ) Não Sim 0.0 0.5 1.0 1.5 2.0 Diagnóstico P e d ig re e Não Sim 20 30 40 50 60 Diagnóstico Id a d e ( a m o s ) Não Sim Diagnóstico N ú m e ro d e p a c ie n te s 0 20 40 60 80 100 120

(17)

Tabela 1 – Médias, desvios padrões e estatística do teste t

(comparação de duas médias), para amostras independentes, para as variáveis explicativas segundo o diagnóstico

Diagnóstico Variável Não Sim Estatística t Número de gestações 2,9 (2,8) 4,8 (4,0) -3,56 Glicose (oral) 113 (26) 145 (30) -7,38 Pressão diastólica 69 (11) 74 (11) -2,95 Espessura – prega tricipital 27 (11) 33 (12) -3,39 Pedigree 0,41 (0,27) 0,55 (0,36) -4,51

(18)

npreg 60 100 140 180 20 40 60 80 100 0.0 0.5 1.0 1.5 2.0 0 2 4 6 8 10 12 14 60 80 100 120 140 160 180 200 glu bp 40 50 60 70 80 90 100 110 20 40 60 80 100 skin bmi 20 25 30 35 40 45 0.0 0.5 1.0 1.5 2.0 ped 0 2 4 6 8 12 40 60 80 100 20 30 40 20 30 40 50 60 20 30 40 50 60 age

(19)

Exemplo 4 – Estudo prospectivo com 100 indivíduos de pelo menos 65 anos de idade em boas

condições físicas. O objetivo do estudo é tentar relacionar o número de quedas num período de seis meses com as seguintes variáveis explicativas, descritas na ordem em que aparecem na base:

Variáveis explicativas:

• Intervenção – Fator com níveis ‘Educ’: educação somente; ‘Educ+Exerc’: educação e exercícios

físicos;

• Sexo – Fator com níveis ‘Fem’: feminino; ‘Masc’: masculino;

• Balanço – escore de equilíbrio do indivíduo, numa escala de 0 a 100 (quanto maior o escore,

maior o equilíbrio;

• Força – escore de força do indivíduo, numa escala de 0 a 100 (quanto maior o escore, maior a

força).

Variável resposta:

(20)

Dados - Seis primeiras linhas da base:

Indiv Número

de quedas Intervenção Sexo

Escore de equilíbrio Escore de força 1 1 Educ+Exerc Fem 45 70 2 1 Educ+Exerc Fem 62 66 3 2 Educ+Exerc Masc 43 64 4 0 Educ+Exerc Masc 76 48 5 2 Educ+Exerc Fem 51 72 6 1 Educ+Exerc Masc 73 39

(21)

Objetivos:

Avaliar o efeito da intervenção na prevenção das quedas;

(22)

• Análise descritiva (univariada)

> summary(geriatra)

quedas intervenção sexo balanço força Min. : 0.00 Educ :50 Fem :47 Min. :13.00 Min. :18.00 1st Qu.: 1.00 Educ+Exerc:50 Masc:53 1st Qu.:39.00 1st Qu.:52.00 Median : 3.00 Median :51.50 Median :60.00 Mean : 3.04 Mean :52.83 Mean :60.78 3rd Qu.: 4.00 3rd Qu.:66.25 3rd Qu.:70.25 Max. :11.00 Max. :98.00 Max. :90.00

(23)

• Análise descritiva (bivariada):

o Número de quedas vs intervenção;

> with(geriatra,describeBy(quedas, intervenção, mat = TRUE,digits=2))

item group1 vars n mean sd median trimmed mad min max range skew kurtosis se 11 1 Educ 1 50 4.52 2.40 4 4.25 1.48 1 11 10 0.89 -0.07 0.34 12 2 Educ+Exerc 1 50 1.56 1.33 1 1.43 1.48 0 5 5 0.62 -0.52 0.19

o Número de quedas vs sexo;

> with(geriatra,describeBy(quedas, sexo, mat = TRUE,digits=2))

item group1 vars n mean sd median trimmed mad min max range skew kurtosis se 11 1 Fem 1 47 3.47 2.49 3 3.21 1.48 0 11 11 0.98 0.70 0.36 12 2 Masc 1 53 2.66 2.34 2 2.35 1.48 0 10 10 1.18 1.08 0.32

(24)

o Número de quedas vs nível de balanço;

> with(geriatra,describeBy(quedas, cut(balanço,4), mat = TRUE,digits=2))

item group1 vars n mean sd median trimmed mad min max range skew kurtosis se 11 1 (12.9,34.2] 1 19 2.32 1.25 2 2.35 1.48 0 4 4 -0.09 -1.34 0.29 12 2 (34.2,55.5] 1 39 2.95 2.70 2 2.58 1.48 0 11 11 1.36 1.35 0.43 13 3 (55.5,76.8] 1 31 3.32 2.60 3 3.16 2.97 0 9 9 0.43 -0.92 0.47 14 4 (76.8,98.1] 1 11 3.82 2.44 3 3.67 1.48 0 9 9 0.68 -0.31 0.74

o Número de quedas vs nível de força;

> with(geriatra,describeBy(quedas, cut(força,4), mat = TRUE,digits=2))

item group1 vars n mean sd median trimmed mad min max range skew kurtosis se 11 1 (17.9,36] 1 5 2.80 1.30 3 2.80 1.48 1 4 3 -0.26 -1.96 0.58 12 2 (36,54] 1 25 2.32 2.19 2 2.10 2.97 0 7 7 0.61 -0.74 0.44 13 3 (54,72] 1 50 3.30 2.55 3 2.92 1.48 0 10 10 1.10 0.25 0.36 14 4 (72,90.1] 1 20 3.35 2.60 3 3.06 1.48 0 11 11 1.10 1.45 0.58

(25)

0 1 2 3 4 5 -4 -2 0 2 4 6 Fitted values R e s id u a ls Residuals vs Fitted 52 93 67 -2 -1 0 1 2 -1 0 1 2 3 Theoretical Quantiles S ta n d a rd iz e d r e s id u a ls Normal Q-Q 52 93 67 0 1 2 3 4 5 0 .0 0 .5 1 .0 1 .5 Fitted values S ta n d a rd iz e d r e s id u a ls Scale-Location 52 93 67 0.00 0.05 0.10 0.15 -2 -1 0 1 2 3 Leverage S ta n d a rd iz e d r e s id u a ls Cook's distance 0.5 Residuals vs Leverage 52 93 42

Figura 5 – Gráficos para os resíduos de um modelo de regressão linear múltipla ajustado aos dados de

(26)

Exemplo 5 – Dados de 4624 apólices de seguros de automóveis que registraram sinistros no

período de um ano, entre 2004 e 2005.

Variáveis explicativas:

Valor: Valor do veículo (x10.000 dólares);

Tipo: tipo de veículo, com níveis:

o BUS: ônibus;

o CONVT: conversível;

o COUPE;

o HBACK: hathback;

o HDTOP: hardtop;

o MCARA: trailer motorizado;

o MIBUS: mini-ônibus; o RDSTR: roadster; o SEDAN; o STNWG: station wagon; o TRUCK: caminhão; o UTE: utilitário.

Idade: idade do veículo, com níveis 1 (veículos mais novos), 2, 3 e 4;

Sexo: sexo do motorista, com níveis: M (masculino) e F (Feminino);

Area: área de residência do motorista: A, B, C, D, E e F;

Idademot: idade do motorista, com níveis: 1 (mais novos), 2, 3, 4, 5 e 6.

(27)

Objetivos:

Identificar fatores associados a sinistros mais caros;

• Estabelecer um modelo preditivo, que sirva de base para estabelecer a tabela de preços para períodos futuros.

(28)

Dados

• Dez primeiras linhas da base:

> head(dados2,10)

Valorcar Quantia Tipo Idade Sexo Area Idademot 15 1.66 669.5100 SEDAN 3 M B 6 17 1.51 806.6100 SEDAN 3 F F 4 18 0.76 401.8055 HBACK 3 M C 4 41 1.89 1811.7100 STNWG 3 M F 2 65 4.06 5434.4400 STNWG 2 M F 3 66 1.39 865.7900 HBACK 3 F A 4 96 2.66 1105.7700 STNWG 1 F F 5 99 0.50 200.0000 HBACK 4 F A 5 116 1.16 739.2300 STNWG 4 F B 2 125 3.56 3230.6000 MCARA 3 M F 4

(29)

• Análise descritiva (univariada):

> summary(dados2)

Valorcar Quantia Tipo Idade Sexo Area Idademot Min. : 0.000 Min. : 200.0 SEDAN :1476 1: 825 F:2648 A:1085 1: 496 1st Qu.: 1.100 1st Qu.: 353.8 HBACK :1264 2:1259 M:1976 B: 965 2: 932 Median : 1.570 Median : 761.6 STNWG :1173 3:1362 C:1412 3:1113 Mean : 1.859 Mean : 2014.4 UTE : 260 4:1178 D: 496 4:1104 3rd Qu.: 2.310 3rd Qu.: 2091.4 HDTOP : 130 E: 386 5: 614 Max. :13.900 Max. :55922.1 TRUCK : 120 F: 280 6: 365 (Other): 201

> sum(dados2$Quantia>15000) ### Numero de apólices que geraram mais de $15.000 em sinistros.

(30)

Todas as apólices com sinistros

Valor dos sinistros (x$10.000)

F re q u ê n c ia 0 5 10 15 20 25 30 35 40 45 50 55 60 0 200 400 600 800 1000 1200 1400 1600 1800

Apólices com sinistros inferiores a $15.000

Valor dos sinistros (x$10.000)

F re q u ê n c ia 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 200 400 600 800 1000 1200 1400 1600 1800

(31)

• Análise descritiva (bivariada) – Valores dos sinistros vs tipo de veículo:

> with(dados2,describeBy(Quantia, Tipo, mat = TRUE,digits=2))

item group1 vars n mean sd median trimmed mad min max range skew kurtosis se 11 1 BUS 1 9 1484.79 1483.53 876.48 1484.79 613.99 371.82 4790.84 4419.02 1.13 -0.11 494.51 12 2 CONVT 1 3 2296.27 3319.80 530.00 2296.27 440.33 233.00 6125.81 5892.81 0.38 -2.33 1916.69 13 3 COUPE 1 68 2760.64 4197.29 1171.92 1819.55 1440.97 200.00 19847.74 19647.74 2.66 7.15 509.00 14 4 HBACK 1 1264 2048.37 3291.24 783.58 1313.14 865.22 200.00 47296.61 47096.61 4.52 37.81 92.57 15 5 HDTOP 1 130 2267.78 5015.92 584.16 1064.98 484.53 200.00 32814.80 32614.80 4.26 19.88 439.93 16 6 MCARA 1 14 762.42 812.92 379.97 591.53 38.81 345.00 3230.60 2885.60 2.02 3.21 217.26 17 7 MIBUS 1 43 2700.11 4529.85 1286.59 1471.73 1068.48 200.00 20545.10 20345.10 2.67 6.29 690.80 18 8 PANVN 1 62 2146.99 3552.48 714.79 1333.94 626.92 200.00 22216.09 22016.09 3.41 14.50 451.17 19 9 RDSTR 1 2 684.73 685.51 684.73 684.73 718.66 200.00 1169.46 969.46 0.00 -2.75 484.73 110 10 SEDAN 1 1476 1816.82 2928.87 759.81 1144.24 829.98 200.00 29634.63 29434.63 4.09 24.18 76.24 111 11 STNWG 1 1173 2014.57 4063.93 734.19 1164.22 674.26 200.00 55922.13 55722.13 6.27 55.03 118.66 112 12 TRUCK 1 120 2662.47 4675.85 807.55 1392.42 672.78 200.00 22405.44 22205.44 2.81 7.30 426.84 113 13 UTE 1 260 2296.96 3728.77 782.51 1384.33 755.53 200.00 28012.83 27812.83 3.35 14.33 231.25

(32)

• Valores dos sinistros vs idade do motorista:

> with(dados2,describeBy(Quantia, Idademot, mat = TRUE,digits=2))

item group1 vars n mean sd median trimmed mad min max range skew kurtosis se 11 1 1 1 496 2635.83 4320.54 994.66 1705.46 1178.16 200 46868.18 46668.18 4.37 29.93 194.00 12 2 2 1 932 2129.66 4106.12 760.19 1241.36 830.55 200 55922.13 55722.13 5.64 47.35 134.50 13 3 3 1 1113 1915.64 3065.13 743.77 1201.50 806.19 200 31974.77 31774.77 3.74 19.19 91.88 14 4 4 1 1104 1943.21 3503.93 750.47 1165.36 816.13 200 47296.61 47096.61 5.36 43.88 105.46 15 5 5 1 614 1728.68 2798.37 702.76 1054.16 745.40 200 22216.09 22016.09 3.68 16.95 112.93 16 6 6 1 365 1872.79 3405.27 852.32 1110.64 826.48 200 31243.67 31043.67 4.69 27.66 178.24

(33)

3 3 BUS CONVT COUPE HBACK HDTOP MCARA MIBUS PANVN RDSTR SEDAN STNWG TRUCK UTE 0 10 20 30 40 50

Valor dos sinistros x $10.000

1 2 3 4 0 10 20 30 40 50 Id a d e d o m o to ris ta

Valor dos sinistrosx $10.000

F M 0 10 20 30 40 50 S e x o

Valor dos sinistrosx $10.000 A B C D E F 0 10 20 30 40 50 Á re a d e r e s id ê n c ia

Valor dos sinistrosx $10.000

1 2 3 4 5 6 0 10 20 30 40 50 Id a d e d o m o to ris ta

Valor dos sinistrosx $10.000

0 2 4 6 8 10 12 14 0 10 20 30 40 50 V a lo r d o v e íc u lo

Valor dos sinistrosx $10.000

F ig u r a 7 D is tr ib u iç ã o d o s v a lo re s d o s s in is tr o s s eg u n d o a s c o v a ri á v ei s ( to d a s a s a p ó lic es c o m s in is tr o ).

(34)

Exemplo 6 – Análise do desempenho de cinco tipos de turbinas de aviões. Foi conduzido um

experimento com 10 turbinas de cada tipo

Variável explicativa – Tipo de turbina, com níveis I, II, III, IV e V.

Variável resposta – Tempo de vida da turbina,em milhões de ciclos até verificada a perda de

velocidade.

Objetivos –

• Estimar parâmetros correspondentes às distribuições dos tempos de vida dos cinco tipos de turbinas;

(35)

Dados: Turbina I II III IV V 1 3.03 3.19 3.46 5.88 6.43 2 5.53 4.26 5.22 6.74 9.97 3 5.60 4.47 5.69 6.90 10.39 4 9.30 4.53 6.54 6.98 13.55 5 9.92 4.67 9.16 7.21 14.45 6 12.51 4.69 9.40 8.14 14.72 7 12.95 5.78 10.19 8.59 16.81 8 15.21 6.79 10.71 9.80 18.39 9 16.04 9.37 12.58 12.28 20.84 10 16.84 12.75 13.41 25.46 21.51

(36)

Análise descritiva:

Turbina 1 Turbina 2 Turbina 3 Turbina 4 Turbina 5

5 1 0 1 5 2 0 2 5 Tipo de turbina T e m p o a té p e rd a d e v e lo c id a d e ( m ilh õ e s d e c ic lo s )

(37)

> medias=with(turbdata,tapply(Tempo,Turbina,mean)); medias Turbina 1 Turbina 2 Turbina 3 Turbina 4 Turbina 5

10.693 6.050 8.636 9.798 14.706

> variancias=with(turbdata,tapply(Tempo,Turbina,var)); variancias Turbina 1 Turbina 2 Turbina 3 Turbina 4 Turbina 5

23.225512 8.497489 10.828116 33.711796 23.652316

> cvs=sqrt(variancias)/medias;cvs # Coeficientes de variação. Turbina 1 Turbina 2 Turbina 3 Turbina 4 Turbina 5

Referências

Documentos relacionados

Two multimode adhesives (Scotchbond Universal, 3M ESPE; All-Bond Universal, Bisco) were tested in both self-etch and etch-and-rinse modes and compared to

Vincent Ru-Chu Shih - National Pingtung University of Science and Technology, Taiwan Assoc.Prof.Dr.. Wu - Yuin Hwang - National Central

transcendendo inclusive à própria dimensão de combate às drogas. No que se refere à questão de luta contra o narcotráfi co, o plano teve como linha mestra a política

Sendo assim, este estudo teve como objetivo comparar as produções de [s] e [ S] de adultos e crianças com DFT, considerando os seguintes parâmetros acústicos: duração do

Como resultado da deliberação entre os parceiros (São Bernardo do Campo, SHAMA e SABESP), em relação ao Centro de Estudo e Experimentação Ambiental e Centro de Gerenciamento

1 – O subsídio por prematuridade é concedido nas situações em que, fruto do nascimento prematuro medicamente certificado, se verifica uma situação de

Disto pode-se observar que a autogestão se fragiliza ainda mais na dimensão do departamento e da oferta das atividades fins da universidade, uma vez que estas encontram-se