• Nenhum resultado encontrado

MODELOS DE REGRESSÃO APLICADOS EM EPIDEMIOLOGIA I, II e III. (HEP- 5743, HEP-5763 e HEP-5764)

N/A
N/A
Protected

Academic year: 2021

Share "MODELOS DE REGRESSÃO APLICADOS EM EPIDEMIOLOGIA I, II e III. (HEP- 5743, HEP-5763 e HEP-5764)"

Copied!
78
0
0

Texto

(1)

MODELOS DE REGRESSÃO

APLICADOS EM EPIDEMIOLOGIA

I, II e III

(HEP- 5743, HEP-5763 e HEP-5764)

Profa. Dra. MARIA DO ROSARIO DIAS DE OLIVEIRA LATORRE Professora Titular do Departamento de Epidemiologia

(2)

PROGRAMA 1. Introdução à análise de regressão;

2. Nocões de covariância e correlação;

3. Regressão linear simples e múltipla: • estimação dos parâmetros;

• tabela de análise de variância (ANOVA);

• distribuições de probabilidades: Normal, t-Student, F-Snedecor e χ²;

• interpretação dos coeficientes; • análise dos resíduos;

• teste F-parcial;

• correlação parcial e múltipla; • variáveis indicadora; • confusão e interação; • escolha do melhor modelo;

4. Regressão polinomial;

5. Análise de tendência em séries históricas usando modelos de regressão;

6.Análise de regressão logística simples e múltipla: • o modelo logístico;

• estimação dos parâmetros; • interpretação dos coeficientes; • medidas de ajuste do modelo; • confusão e interação; • escolha do melhor modelo; • análise de resíduos;

7. Noções do modelo de riscos proporcionais de Cox (regressão de Cox) e modelo de regressão de Poisson.

(3)

BIBLIOGRAFIA RECOMENDADA

1. Barros AJD. Modelagem Estatística em Estudos Epidemiológicos. O Modelo Logístico. Campinas, 1990.[Dissertação de Mestrado - Instituto de Matemática, Estatística e Ciências da Computação da Universidade Estadual de Campinas]

2. Berquó ES, Souza JMP; Gotlieb SLD. Bioestatística. EPU, 1ª edição revista, São Paulo, 1981. 3. Breslow NE; Day NE. Statistical Methods in Cancer Research: vol. 1 - The Analysis of

Case-Controls Studies. IARC, Lyon, 1980.

4. DAWSON-SANDERS B; TRAPP RG. Bioestatística Básica e Clínica. 3a. edição, Lange - Appleton & Lange/Mc Graw-Hill, 2001.

5. DIGGLE PJ.Time series: a Biostatistical introduction. Oxford:Oxford University Press; 1992. 6. Draper NR; Smith H. Applied Regression Analysis. John Wiley and Sons, 3rd edition. New York, 1998.

7. Hosmer DW; Lemeshow S. Applied logistic regression. John Wiley and Sons, 2nd edition. New York,

2000.

8. Hulley, SB; Cummings SR; Browner WS; Grady D; Hearst N; Newman TB. Designing Clinical Research. Lippincott Williams & Wilkins, Philadelphia, 2001.

9. Kleinbaum DG; Kupper LL; Muller KE; Nizam A. Applied regression analysis and other multivariable methods. 3rd edition. Brooks/Cole Pub Co, Boston, 1997.

10. Curns AT; Mizam A. Student solutions manual for Kleimbaum, Kupper, Muller and Nizam´s Applied regression analysis and other multivariable methods. Brooks/Cole Pub Co, Boston, 1998. 11. Kleinbaum DG; Klein M. Logistic regression. A self-learning text. 2nd edition. Springer-Verlag, New

York, 2002.

12. Lee ET. Statistical methods for survival data analysis. 2nd edition. New York, John Wiley & Sons

INC, 1992.

13. Magalhães MN; Lima ACP. Noções de Probabilidade e Estatística. EDUSP. São Paulo, 2002. 14. Morettin PA; Toloi CMC. Previsão de Séries Temporais. Atual Editora Ltda. 2ª edição. São Paulo,

1987.

15. Massad E; Menezes RX; Silveira PSP; Ortega NRS. Métodos Quantitativos em Medicina. Manole Editora Ltda. São Paulo 2004.

16. Pereira MG. Epidemiologia Teoria e Prática. Rio de Janeiro: Editora Guanabara Koogan, 1999. 17. Revista Brasileira de Epidemiologia. 2001; 4(3):178-90.

(4)

CRONOGRAMA

AGOSTO

6- Introdução à análise de regressão. 13 - regressão linear simples.

20 - regressão linear simples e regressão linear múltipla. 27- regressão linear múltipla

SETEMBRO

3 - regressão polinomial.

seminário 1

10 - análise de tendência em séries históricas usando modelos de regressão.

17- entrega do exercício 1- seminário 2

24 - regressão logística univariada OUTUBRO

1- regressão logística univariada e múltipla 8- regressão logística univariada e múltipla 15 - regressão logística múltipla - seminário 3

22 - regressão logística múltipla - modelagem hierárquica 29 - regressão logística múltipla - seminário 4

NOVEMBRO

5-regressão de Cox e de Poisson.

12- seminário 5:The risk of determining risk with multivariable models entrega do exercício 2

19- ????????? PROVA????????

(5)

Carga horária: 120 horas (12 créditos)

Horário da aula teórica/prática: 3ª feiras, das 8 às 12

horas

Horário para exercícios com monitor: 5ª feiras, das 9

às 12 horas

Locais :

• aula teórica: Sala Fernando Guimarães • aula prática: Sala de Informática do subsolo

(6)
(7)

INTRODUÇÃO À ANÁLISE DE REGRESSÃO

Na prática há diversas situações em que a análise de regressão é apropriada:

1. Quando se deseja caracterizar a relação entre uma variável dependente (Y) e uma ou mais variáveis independentes (Xi), ié, avaliar a extensão, direção e força da relação (associação).

2. Procurar uma função matemática ou equação para descrever

a variável dependente (Y) como função da variáveis

independentes (Xi), ié, predizer Y em função dos Xi;

determinando o melhor modelo estatístico que descreva essa relação.

3. Descrever quantitativa e/ou qualitativamente a relação entre os Xi e Y, controlando o efeito de outras variáveis (Ci).

4. Verificar o efeito interativo de 2 ou mais variáveis

independentes às quais se relacionam com a variável dependente.

5. Determinar quais das muitas variáveis independentes são importantes para descrever ou predizer a variável dependente. Ordenar as variáveis independentes em sua ordem de

(8)

É importante ser cauteloso sobre os resultados obtidos em uma análise de regressão, ou, de uma maneira mais geral, em qualquer análise utilizando técnicas estatísticas que procurem quantificar uma associação entre 2 ou mais variáveis.

A análise estatística pode estar correta, porém os

dados podem estar viciados e/ou incompletos.

(vícios no delineamento, na amostragem, nas

medidas, na escolha das variáveis e outros)

O achado de uma associação estatística

significativa em um particular estudo não estabelece uma relação causal.

(9)

QUESTÕES BÁSICAS

• Qual a função matemática mais apropriada a ser

utilizada? (Em outras palavras: os dados se ajustam melhor a uma reta? A uma parábola? A uma função logística?)

• Como determinar o melhor modelo que se ajuste

aos dados?

• Qual a validade e a precisão da(s) estimativa(s)

do(s) coeficiente(s) de regressão?

• A presença, no modelo, de determinada variável

independente melhora a precisão do mesmo?

• Dado um modelo específico, o que ele significa?

ESTRATÉGIAS

(stepwise):

MODELO MAIS COMPLEXO  MAIS SIMPLES

(10)

SUPOSIÇÕES

1. Distribuição Normal

Para um valor fixo da variável aleatória (v.a.) X (que, idealmente,deve ser contínua), Y é uma v.a. com distribuição normal, com média e variância finitas.

(

Y

X

S

Y Xi

)

N

Y

i

;

/

2. Os valores de Y são independentes uns dos outros.

(às vezes esta suposição é violada quando se faz diferentes observações no mesmo indivíduo, em tempos diferentes)

3. Linearidade

O valor médio de Y (YXi ) é uma função de linha

reta sobre os Xi.

4. Homocedasticidade

A variância de Y é a mesma, qualquer que seja X.

X.

todo

para

ie,

;

e

,

2 2 / 2 / 2 /

S

i

k

S

S

S

i K i Y X Y X X Y

=

=

(11)

MÉTODOS DE ESTIMATIVAS DE

PARÂMETROS

1. MÉTODO DOS MÍNIMOS QUADRADOS

É o método que determina a linha reta mais apropriada, minimizando a soma dos quadrados das diferenças entre os valores estimados de Y por meio

da reta de regressão (Y^) e os valores observados de

Y.

2. MÉTODO DA MÁXIMA VEROSSIMILHANÇA

Consiste em determinar uma função, denominada

função de verossimilhança

[

L y

(

)

]

, que é a função

de probabilidade de ocorrência daquele específico consjunto de dados e estimar os parâmetros que maximizam a mesma.

(12)

O MODELO DE REGRESSÃO LINEAR

SIMPLES

A função que determina uma reta é: Y = β0 + β1 X.

Porém, como se deseja fazer uma estimativa, a reta de regressão estimada pode ser escrita da seguinte maneira:

Y^ = β^0 + β^1 X , e Y = β0 + β1 X+ε , onde ε = erro =Y - Y^

β^0 e β^1 são estimados pelo Método dos Mínimos

Quadrados da seguinte maneira:

Em uma amostra de tamanho n tem-se n pares de

observações das v.a. X e Y: (X1, Y1), ... (Xn,Yn) e n

equações do tipo .

Somando-se todas as n equações, tem-se:

+

+

=

= =         n i i i n i

X

1 0 1 1 i

Y

β

β

ε

(13)

Para se encontrar os valores de β0 e β1 que minimizam a equação acima deve-se derivá-la em relação a β0 e β1, igualando as equações a zero. (Não se preocupem que não irei demonstrar isso nesse curso!!).

Dessa maneira os valores estimados para β0 e β1

são: β^ 1 1 1 1 2 1 = −           −     

= = = = n X Y X Y n X X i =1 i i i i 2 i n i i n i n i n i n  β1 1 2 1 ^ _ = −       −    −       = =

X X Y Y X X i i _ i _ i n i n  β^0 = −Y_ β^1 X_ 

(14)

Analisando melhor a equação  ...

Y=β01X+

ε (

lembrando que ε =resíduo= Y Yi − ^ i)

Qual o valor esperado para ε ? (ε → 0)

Na verdade,

ε

~ N

(

0,Sε

)

.

Substituindo-se o valor de β^0 na equação 

encontra-se que:

Y

^i

=

Y +

X

i

X

_

_ ^

β

1 .

(15)

PRECISÃO DA RETA ESTIMADA

Considera-se a seguinte identidade:

Y

i

Y

^ i

Y

i

Y

_

Y

^ i

Y

_

=

.

Elevando-se ao quadrado os 2 lados da igualdade acima e fazendo-se a soma de todas as n equações (i=1,2, ...,n), obtem-se: Yi Y_ Yi Y^ i + Y Y 2 i ^ −       =  −     −    = = =

i n i n i n 1 2 2 1 1 _ + 0 

SQT

SQR

SQM

•••• SQT: soma de quadrados total, ié, soma dos

quadrados dos desvios do valor de Y da i-ésima observação em relação à média dos Y.

SQR: soma dos quadrados devido aos resíduos,

ié,a soma dos quadrados dos desvios entre o valor de Y da i-ésima observação e seu valor estimado.

SQM:

soma dos quadrados devido à regressão,

(16)

Yi Y_ Yi Y^ i + Y Y 2 i ^ −       =  −     −    = = =

i n i n i n 1 2 2 1 1 _

(17)

A equação  é chamada a EQUAÇÃO FUNDAMENTAL DA REGRESSÃO e pode ser reescrita como:

soma dos quadrados sobre a média (SQT) = soma de quadrados sobre a regressão (SQR) + soma de quadrados devida à regressão (SQM).

Isso significa que a variação total dos Y's sobre

sua média pode ser explicada uma parte pela linha de regressão e outra pelos resíduos. Se todos os Y's

caíssem sempre na linha de regressão a SQR seria

zero!!

Portanto, quanto mais a SQM for próxima da SQT melhor.

Daí deriva-se uma medida quantitativa de precisão da reta estimada denominada r2 (coeficiente de determinação).

1

r

0

SQT

SQM

r

2

=

2

(18)

ANOVA

FONTE SQ GL MÉDIA QUADRÁTICA (MQ) F DEVIDO A REGRESSÃO ( )( ) β^1 X Y X Y n i i i i −       ∑ ∑ ∑ 1 SQM/GL Fc

(

1, −n 2

)

= DEVIDO AO RESÍDUO por subtração n-2 S SQR GL 2 = MQM MQR TOTAL

(

)

Yi2 Yi

2 n n-1 SQT = SQR + SQM

Y Y

i _

Y Y

i ^i

Y Y

^ i _

=

 +

= = =

2 1 2 1 2 1 i n i n i n

(19)

REGRESSÃO LINEAR SIMPLES 1. O MODELO Y Y Y que lembrar X -X Y = X = Y X = Y _ Y/X ^ i ^ _ 1 ^ _ ^ 1 0 ^ ^ 1 0 i         = =       + + + + β β β ε β β       + ^1 i 2 ^ 0 i ~ X ; Y N β β S 1.1.Estimativas para

( )

2 Y/X 2 s S a) S SQR n n n S S Y/X2 Y2 1 X2 , se 1 2 2 1 2 0 = − = − − −       ≠ β^ β b) SY / X2 SQM 1 , se = = 1 β 0

(20)

2.1.INTERVALO DE CONFIANÇA PARA Y^i Y_ Y/X Y X X _ i _ i = = +  −     

β

^1 ( ) ( ) IC = Y n X X n - 1 2 .2 . T E S T E D E H IP Ó T E S E S P A R A Y = Y H : Y = Y H : Y Y Y X X Y 1 n X X n - 1 o n d e i ^ n - 2 ,1 - Y / X i _ X 2 i ^ i ' 0 i ^ i ' a i ^ i ' o _ i _ i ' Y / X i _ X 2 ± + −       ≠     = +  −    − + −       − t S S t S S tc tn α β 1 2 1 2 2 ^ ~

2.3 INTERVALO DE PREDIÇÃO PARA Yi ^

, onde Yi ^

é observação e não parâmetro.

(

)

IP = Y X X n X X n -1 _ i i _ Y/X i _ X 2 +  −    ± + + −       − − β α ^ , t S S n 2 1 2 1 1

(21)

3. A INCLINAÇÃO: β1.

(

)(

)

(

)

a ) o e s tim a d o r: X X Y Y X X n X Y X Y n X X b ) o In te r v a lo d e C o n fia n c a (IC ) : IC = n - 1 c ) o te s te d e h ip o te s e : H H c .1 . ) te s te F : F M Q M M Q R , o n d e F c .2 . ) te s te ^ i _ i _ i _ i i i i i 2 i Y / X X o a o c β β β β α 1 2 2 1 2 1 1 1 1 2 0 0 = −            −     = − − ± = ≠     = =

− − − ^ , ^ ^ , : : ~ : t S S F t t n n o ( ) β β ^ ~ ^ 1 2 2 1 n - 1 , o n d e d ) n - 1 X Y / X Y / X 2 X 2 S S t t S S S c n− =

(22)

4. O INTERCEPTO: β0

(

)

(

)

(

)

a ) o e s t i m a d o r : Y X b ) o i n t e r v a l o d e c o n f i a n c a ( IC ) : IC = n X n - 1 c ) o t e s t e d e h i p o t e s e : H : H : 1 n X n - 1 ; o n d e d ) 1 n X n - 1 ^ _ ^ _ ^ Y / X 2 _ X 2 0 ^ a ^ ^ Y / X 2 _ X 2 Y / X 2 _ X 2 ^ β β β β β β α β 0 1 0 2 1 0 0 0 2 2 2 1 0 0 0 = − ± + = ≠     = + = +           − − − t S S t S S t t S S S n o c n , ~

(23)

(24)

5. O COEFICIENTE DE CORRELAÇÃO (ρ ) E A ANÁLISE DE REGRESSÃO

(

)(

)

(

)

[

]

[

(

)

]

Y e X de unidades das depende não ié, dimensão, possui não b) +1 ≤ ≤ 1 - a) : ES PROPRIEDAD = : DEFINIÇÃO 2 2 2 2 2 2 Y X XY ρ ρ ρ σ σ σ ρ i i i i i i i i i i i i Y Y n X X n Y X Y X n Y Y X X Y Y X X ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ ∑ − − − =               −       −       −       − = − − − −

Na análise de regressão linear, um estimador para o coeficiente de correlação é:

ρ β β β β β ^ = = ∴ > ⇒ > = ⇒ = < ⇒ <        r S S r r r r X Y ^ ^ ^ ^ ^ p r o p r i e d a d e : t e m o m e s m o s i n a l d e s e s e s e 1 1 1 1 1 0 0 0 0 0 0

(25)

TESTE DE HIPÓTESE PARA ρ :

3

-n

-1

+

1

ln

2

1

=

-1

+

1

ln

2

1

IC

:

(IC)

CONFIANÇA

DE

INTERVALO

=

pois

~

onde

;

-1

2

-n

0

:

H

0

=

:

H

-1 X Y 1 ^ X Y 1 2 2 a 0 α

β

σ

σ

ρ

β

ρ

ρ

z

r

r

r

r

S

S

r

t

t

r

r

t

o c n

±

=

=

OBS: como H0 : ρ = 0 pode ser escrito inteiramente em termos de r e de n, pode-se realizar o teste de hipótese mesmo sem o ajuste de uma linha reta.

0, = : H teste ao e equivalent é : obs 0 β^1

(26)

Lembram-se do r2? Na verdade, r2 = (r)2.

R SQMSQT

como -1 +1 0 R

quando R e SQR = 0 o ajuste é perfeito!!!

por outro lado, quando R e que SQT = SQR

não há melhora na predição de Y, quando se utiliza X. 2 2 2 2 = = ≤ ≤ ⇒ = ⇒ ≠ ∴ = ⇒ = ⇒ r r 2 1 1 1 1 0 0 0 β β ^ ^

O que r2 não mede:

1. a magnitude da inclinação de uma reta de regressão;

2. não é uma medida apropriada para avaliar a linearidade do modelo.

(27)

6. ANÁLISE DOS RESÍDUOS (εi=ei):

ei = Y Y , i = 1,2, ...ni − ^i

Suposições:

a) os ei são independentes, ié, COV(ei,ek) =0, para i≠k.

b) e ~

(

0,

)

, onde 2 =constante i N Se Se 6.1. Análise Global:

(

)

( )

[

1.96; 1.96

]

IC indep. variáveis de no. = p ; p -n e p -n X e onde ) 1 ; 0 ( ~ ; 0 ~ e se 95% 2 i 2 _ e i 2 i + − = ∴ =       − = − ⇒

i e e e i e e S N S X e S N

(28)
(29)

 a variância não é constante (conforme suposto):

deve-se fazer uma transformação na variável

dependente Yi, antes da análise de regressão ou fazer

a estimação por mínimos quadrados ponderados.

erro na análise de regressão: o modelo está viciado.

o modelo é inadequado. São necessários termos adicionais (ex:quadrático ou produtos cruzados) ou é necessário que se faça uma transformação na variável

dependente Y antes da análise.

(30)

6.4. Seqüência no tempo

(obs: é necessário que se conheça a seqüência, no tempo, em que os resíduos ocorrem)

 a variância não é constante no tempo: deve-se utilizar mínimos quadrados ponderados.

o tempo deve ser uma variável independente a ser introduzida no modelo (termo linear).

idem ao , mas acrescentar, também, o termo de 2o. grau

6.5. testes estatísticos:

(31)

7. VALORES ABERRANTES (OUTLIERS)

Um valor aberrante é um ponto peculiar do conjunto de dados e, por isso, deve ser examinado cuidadosamente para que se descubra a razão de sua particularidade.

Não é prudente descartá-lo sem antes se proceder à uma investigação. Ele pode ser descartado quando seu valor for devido à um erro de mensuração e/ou registro ou devido à outro fator externo ao estudo.

(32)

ANÁLISE DE REGRESSÃO LINEAR

MÚLTIPLA

(MULTIVARIADA ????)

(

)

k k k k X X X Y n X X X Y ^ 2 ^ 2 1 ^ 1 ^ 0 ^ k 2 1 2 2 1 1 0 ... tamanho de amostra utilizando , X ,..., X , X f Y variaveis de numero : k ; ...

β

β

β

β

ε

β

β

β

β

+ + + + = = + + + + + = Y : v.a. dependente

Xj : v.a. independentes (regressores)

βj : coeficientes de regressão (a serem estimados)

(cada βj representa a mudança em YY X/ ,...,X k

_

1 para uma

unidade de cada Xj, quando todas as outras variáveis independentes permanecem constantes)

(

)

(

)

(

)

(

)

ex:

E

/

E

/

E

/

E

/

Y X

X

X

Y X

X

X

Y X

X

X

X

k k k 1 2 0 1 2 0 1 2 1 3 0 2

0

1

0

1

0

1

0

=

=

=

=

=

=

=

=

=

=

+

=

=

=

=

=

=

+

=

=

=

=

=

=

=

+

+

...

,

...

,

...

,

...

β

β

β

β

β

β

β

β

(33)

ESTIMATIVA POR MÍNIMOS QUADRADOS: Yi Yi i n −       → =

^ 2 1

achar os que minimizam esta expressãoβj

εεεε : erro = resíduo (desvio do verdadeiro valor de Y em relação ao valor estimado pelo modelo, ié, YiY^i

(34)

SUPOSIÇÕES BÁSICAS

São as mesmas do modelo simples, porém com extensão para múltiplas variáveis.

1. Distribuição Normal

Para um conjunto de valores fixos das v.a. Xj

(que, idealmente, devem ser contínuas), Y é uma v.a. com distribuição normal, com média e variância finitas (aqui se trabalha em um espaço k-dimensional).

Yi ~ N (_ YY/X1,X2,...,Xk ;S)

2. Os valores de Y são independentes uns dos outros.

3. Linearidade

O valor médio de Y (Y_Y X/ 1,X2,...,Xk ) é uma função de

linear sobre os Xj.

4. Homocedasticidade

A variância de Y é a constante, qualquer que seja

o conjunto dos Xj.

5.Não existe correlação entre os erros, ié, para quaisquer 2 amostras tem-se que :

(

)

(35)

6.Cada variável independente não está correlacionada com o termo de erro, ié, para cada

(

)

Xj, COV Xji j, = 0

7.Não há colinearidade perfeita entre as variáveis independentes, ié, nenhuma variável independente está relacionada linearmente, de maneira perfeita, com uma ou mais variáveis independentes.

EQUAÇÃO GERAL DA REGRESSÃO

Yi Y_ Y Yi ^ i + Y Y 2 i ^ −       =  −     −      ↓ ↓ ↓ = = =

i n i n i n 1 2 2 1 1 _ + 0 

SQT

SQR

SQM

(36)

ANOVA (modelo geral)

FONTE SQ GL MQ FTOTAL regressão Y^i Y _ −      

2 k SQM k

F

o

(

k n, − −k 1

)

=

resíduo Y Y ii      

^ 2 n-k-1 SQRn− − 1k MQM MQR TOTAL YiY      

_ 2 n-1 1 , 2 ; ~ − − = Fc Fk n k SQT SQM r

(37)

MATRIZ DE CORRELAÇÃO

É uma matriz (k+1) x (k+1), sendo k o número de

variáveis independentes que serão testadas no modelo múltiplo. Nesta matriz aparecem os

coeficientes de correlação (r) entre todas as

variáveis de estudo, sendo que na primeira linha

deverão estar os coeficientes de correlação entre a

variável dependente e as variáveis independentes. Esta é uma matriz com a diagonal unitária

Y X1 X2 X3 ... Xk

Y 1 rY,X1 rY,X2 rY,X3 rY,Xk ordem de entrada das variáveis independentes

X1 1 rX1,X2 rX1,X3 rX1,Xk

X2 1 rX2,X3 rX2,Xk colinearidade

... ...

(38)

ANOVA (adição de variáveis) FONTE SQ GL MQ Fparcial regressão X1 * 1 SQMX11 Fo( ) MQM MQR X n 1, − −1 1 = 1 X2/X1 * 1 SQMX2 1 F( ) MQM MQR o X n 1, − −2 1 = 2 .... Xk/X1,X2,...Xk-1 * ... 1 ... SQMX k 1 ... ( ) Fo MQM MQR X n k k 1, − −1 = resíduo YiYi       ∑ ^ 2 n-k-1 SQRn− − 1k TOTAL Y Y i −       ∑ _ 2 n-1

(39)

TESTES DE HIPÓTESES

1. Teste de significância do modelo geral

H

H existe pelo menos um dos

onde 0 a j : ... : , ~ , β β β β 1 2 1 0 2 2 0 0 1 1 = = = = ≠    = = − − − − − k o c k n k F MQM MQR F F F R k R n k 2. teste do intercepto

(

)

(

)

(

)

H H

modelo sem modelo com

modelo com n - k -1 0 0 a 0 0 0 : : , ~ , ~ , _ _ , β β β β β = ≠    = − =   − − − 0 0 1 1 0 0 1 1 0 2 2 1 1 F SQR SQR SQR F F F n Y F F c n k c n

(40)

3. Teste do F parcial

+

+

+

+

=

modelo

no

estao

X

,...,

X

,

X

que

dado

Y,

de

predicao

a

ivamente

significat

melhora

X

:

H

0

:

H

...

=

Y

modelo

no

,

0

:

H

p 2 1 * a * a * * 1 1 0 * 0

β

β

β

β

β

β

X

p

X

p

X

(

)

(

)

(

)

(

)

(

(

)

)

(

)

( ) SQM X X X X SQM X X X X SQM X X X F X X X X SQM X X X X MQR X X X X F X X X X F p p p p p p p p p n p o c * * * * * * , / , ,..., , ,..., , , ,..., / , ,..., / , ,..., , ,..., , / , ,..., ~ 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 1 1 1 = − ∴ = − + −

(41)

4. Teste múltiplo do F parcial



+

+

+

+

+

+

+

=

=

=

=

modelo

no

estão

X

,...,

X

,

X

que

dado

Y,

de

predicão

a

ivamente

significat

melhora

X

dos

inteiro

bloco

o

:

H

0

um

menos

pelo

:

H

...

...

=

Y

modelo

no

0

...

:

H

p 2 1 * j a * a * * * 2 * 2 * 1 * 1 1 1 0 * * 2 * 1 0 variáveis de bloco j k k p p k

X

X

X

X

X

β

β

β

β

β

β

β

β

β

β

4

4

4

4

3

4

4

4

4

2

1

(

)

(

)

(

)

(

)

(

(

)

)

SQM X X X X X X SQM X X X X X X SQM X X X F X X X X X X SQM X X X X X X k MQR X X X X X X F X X k p p k p mp k p k p p k mp o c 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 * * * * * * * * * * * * * * * * * , ,..., / , ,..., , ,..., , , ,..., , ,..., , ,..., / , ,..., , ,..., / , ,..., , ,..., , , ,..., , ,... = = − ∴ =

(

,Xk*/ X X1, 2,...,Xp

)

~Fk n, − + −(p k) 1 OBS:

1. como reconhecer variável de confusão?

(42)

CORRELAÇÃO MÚLTIPLA

Y =

β

0

+

β

1

X

1

+

β

2

X

2

+

....

+

β

k

X

k DEF.

(

)

(

)

(

)

(

)

r r Y Y Y Y Y Y Y Y Y Y i i i n i i n i i n Y/ X X1, 2,...Xk , $ $ $ $ $ = = − − − − = = =

1 2 1 2 1 r Y Y nY Y nY Y nY Y Y i i i n i i n i i n , $ $ . $ $ = − −        −      = = =

1 2 1 1

DEF: coeficiente de determinação múltipla (r2)

(

)

(

)

(

)

SQT SQM Y Y Y Y Y Y R r n i i n i i i n i i Y Y = − − − − = =

= = = 1 2 1 2 1 2 ˆ , 2 X ,... X , Y/X 2 ˆ k 2 1

(43)

Coef. de determinação múltipla ajustado (r aj.)

(

)

(

)

1 . 1 1 1 2 2 2 2 − − − − = − − − − = k n k r n r k n k r raj 2 aj

r  leva em conta a chance de contribuição de cada variável

incluída, subtraindo-se o valor que seria esperado se nenhuma variável independente fosse associada à variável dependente.

(44)

O COEFICIENTE DE CORRELAÇÃO PARCIAL

rY,Xi/Xj  é uma estimativa de ρY,Xi/Xj

Vamos supor a situação em que tenho apenas duas variáveis independentes X1 e X2. ρ σ σ σ Y X X Y X Y X X Y X , / / / , / 1 2 2 1 2 2 2 2 2 2 = −

Nesta situação particular, tem-se que o coeficiente de correlação parcial ao quadrado é:

(

)

(

)

(

)

r SQR SQR SQR Y X, /X mod 1 2

2 = do modelo so com X − do modelo completo,ie, com X e X

elo so com X 2 1 2 2

(

)

r SQ SQR Y X, /X , 1 2

2 = extra devido a adicao de X dado que X ja estava no modelo

modelo so com X 1 2 2

(

) (

)

r

r

r

r

r

r

Y X X Y X Y X X X Y X X X , / , , , , ,

.

.

1 2 1 2 1 2 2 1 2

1

2

1

2

=

(45)

Representação alternativa do modelo de regressão.

Todos os coeficientes de regressão podem ser escritos em função das correlações parciais.

Por exemplo, para k=3 (ié, 3 variáveis independentes), tem-se: $ $ $ $ β0 =Y − β1X1−β2X2 −β3X3

$

.

$

$

, / / . / . , / / . / . , / / . / .

β

β

β

1 2 3 1 2 3 2 3 1 2 3 2 1 3 1 3 2 1 3 3 1 2 1 2 3 1 2

=

=

=

r

S

S

r

S

S

r

S

S

Y X X X Y X X X X X Y X X X Y X X X X X Y X X X Y X X X X X

(46)

COLINEARIDADE 95 . 0 ⇒ 90 . 0 ⇒ 10 ade colinearid há ⇒ 10 quando -1 1 variância da rio inflacioná fator : -1 1 a ais proporcion e diretament são e , que e -1 1 : que demonstrar se -pode 2 2 2 2 , 1 ^ 2 ^ 1 ^ 0 2 2 1 j 2 2 1 1 > > > > =         = + + = j j j X X X X j o r R FIV FIV R FIV FIV r r c X X Y β β β β β β β

Para se evitar a colinearidade pode-se "centralizar" a variável.

(47)

VARIÁVEIS CATEGÓRICAS EM REGRESSÃO LINEAR

Há dois métodos para se analisar variáveis categóricas em regressão linear:

MÉTODO 1

Estimar uma equação de regressão para cada categoria da variável.

MÉTODO 2

Definir uma(algumas) variável(eis) dummy e incorporá-la(s) no modelo. Este método é menos poderoso.

VARIÁVEIS INDICADORAS

Variáveis indicadoras (ou dummy ) são quaisquer variáveis que têm um número finito de valores que representam diferentes categorias de uma variável qualitativa.

(48)

Exemplo: Y= PAS

X = idade ;

Z = sexo Z = 0 sexo = masculino

Z = 1 sexo = feminino ⇒ ⇒   

( )

( )

( )

Y = X Z + XZ 1 qdo Z = 0 Y = X 2 qdo Z = 1 Y = X + X Y = ( ) + )X 3 0 3 M 0 F 0 3 F 0 3 β β β β β β β β β β β β β β + + ⇒ ++ + + + 1 2 1 1 2 2 ( 1

O modelo (1) incorpora as 2 equações de regressão separadas [(2) e (3)] em um único modelo.

(49)

COMPARAÇÃO DE 2 RETAS DE REGRESSÃO Questão:será que a associação entre PAS e idade é a mesma para homens e mulheres?

Perguntas:

1. As inclinações das 2 retas são iguais?(ié, existe paralelismo?)

2. Os interceptos das 2 retas são iguais?(somente no caso das 2 retas não serem paralelas)

3. As 2 retas têm interceptos e inclinações iguais?(ié, são coincidentes?)

(50)

CONTINUAÇÃO DO MÉTODO 1

1. teste de paralelismo de 2 retas

(

)

(

)

(

)

(

)

(

)

(

)

(

)

(

)

β β β β β β β β β β β β β 1 1M 1F 0 a H H ^ ^ ^ ^ ^ , / , / / / : : ~ ^ ^ = − + − − + − = ≠    = − = − + −         = − + − + − − + − − n S n S n S n S t S t t S S n S n S S n S n S n n M X F X M X F X M F M F o M F c n n P Y X M X F X P Y X M Y X F Y X M F M F M F M F F M M F M F M F 1 1 1 1 1 1 1 1 2 2 4 2 2 2 2 1 1 1 1 1 1 4 2 2 2 2 2 2 1 1 1 1

(51)

2.teste do intercepto

(

)

(

)

β β β β β β β β β β β β β 0 ^ ^ 0M ^ 0F 0 a H H = + + = ≠    = − = + + − + −           − + − − n n n n t S t t S S n n X n S X n S M F M F M F M F o M F c n n P Y X M F M M X F F X M F F M M F M F : : ~ ^ ^ , / _ _ ^ ^ 0 0 0 0 0 0 4 2 2 2 2 2 2 0 0 0 0 1 1 1 1

3. teste de coincidência de 2 retas

Se ambas as hipóteses nulas forem aceitas: a de paralelismo e mesmo intercepto.

(52)

"PASSOS" PARA SE FAZER MODELAGEM EM REGRESSÃO

1.Selecionar as variáveis independentes, não se esquecendo das possíveis variáveis de confusão;

2.Codificar previamente as variáveis;

3.Fazer gráficos de dispersão (scatter plot) com todas as variáveis, 2 a 2;

4.Fazer a análise univariada das variáveis independentes, não se esquecendo de fazer a análise de resíduos.

5. Fazer a matriz de correlação para avaliar a colinearidade das variáveis independentes e definir a ordem de entrada das mesmas no modelo múltiplo.

6.Fazer a análise múltipla, avaliando a significância do modelo geral, de cada uma das variáveis e do incremento de cada uma delas, através do teste F e Fparcial. Não se esquecer de avaliar os possíveis efeitos de confusão e a colinearidade entre as variáveis;

7.Decidir pelo melhor modelo, ié, o mais "ajustado". Fazer a estimação por ponto e por intervalo de cada um dos

β

j;

8.Avaliar as interações apenas para as variáveis de confusão;

(53)

ANÁLISE DE REGRESSÃO POLINOMIAL

Y

=

β

0

+

β

1

X

+

β

2

X

2

+

...

+

β

k

X

k

ANOVA (regressão polinomial)

FONTE SQ GL MQ Fparcial regressão X * 1 SQMX 1 F( ) MQM MQR o X n 1, − −1 1= X2/X * 1 SQM X2 1 ( ) Fo1n 2 1 MQMX MQR 2 , − − = .... Xk/X,X2,...Xk-1 * ... 1 ... SQM Xk 1 ...

(

)

Fo 1, − −n k 1 = MQM MQR Xk resíduo YiYi       ∑ ^ 2 n-k-1 SQRn− − 1k TOTAL YiY      

_ 2 n-1

(54)

MODELO DE REGRESSÃO LINEAR

X

Y

=

β

0

+

β

1

MODELO DE REGRESSÃO DE 2a ORDEM

2 2 1

0

X

X

Y

=

β

+

β

+

β

MODELO DE REGRESSÃO DE 3a ORDEM

3 3 2 2 1 0

X

X

X

Y

=

β

+

β

+

β

+

β

MODELO DE REGRESSÃO EXPONENCIAL

(

)

(

)

X

Y

ou

e

Y

=

β

0

*

β1X

ln(

)

=

ln(

β

0

)

+

β

1

(55)

ANÁLISE DE SÉRIES (HISTÓRICAS) TEMPORAIS Uma série histórica, também denominada série temporal, é uma seqüência de observações obtidas em intervalos regulares de tempo, durante um período específico. Este conjunto pode ser obtido através de amostras periódicas do evento de interesse, ou cumulativamente. Denomina-se trajetória de um processo, a curva obtida no gráfico da série histórica. O conjunto de todas possíveis trajetórias é denominado um processo estocástico, sendo a série temporal uma amostra deste processo.

(56)

DEFINIÇÕES

série temporal (Z)

É um conjunto de observações ordenadas no tempo. Essas observações podem ser discretas ou contínuas.

discreta: Zt → t = 1, 2, ...n

• valores semanais do número de casos de Aids em São Paulo

• coeficientes de mortalidade (mensais, anuais)

contínua: Z(t) → t 0,T∈

[ ]

• o registro de um eletrocardiograma de uma pessoa.

• o movimento da costa terrestre, obtido através de um sismógrafo.

Essas observações podem ser obtidas através de amostras periódicas ou cumulativamente.

(57)

processo estocástico

É um conjunto de todas as possíveis trajetórias que poder-se-ia observar. Cada trajetória é chamada de uma série temporal.

processo estocástico → população

série temporal → amostra

ciclo:

É o tempo que um determinado fenômeno leva para ter um comportamento periódico. Diz-se, nesse caso, que o fenômeno é cíclico. Esse ciclo pode ou não ser conhecido a priori. Um fenômeno cíclico envolve um comportamento sazonal. Porém o inverso não é verdadeiro.

estacionariedade:

Uma série é considerada estacionária quando as suas observações ocorrem, aleatoriamente, ao redor de uma média constante. Essa é a suposição de grande parte dos modelos. Quando isso não ocorre é necessário

(58)

Diz-se que uma série é estacionária quando, para qualquer instante de tempo t e para qualquer m, tem-se:

( )

(

)

( )

(

)

( )

(

)

f Z f Z m E Z E Z t e Var Z Var Z t t t m t t + m t t + m = = ± ± ⇒ = = ∀ = = ∀      + , , ,... , , 1 2 2 µ σ

(59)

COMPONENTES DE UMA SÉRIE TEMPORAL

Uma série histórica pode ser decomposta em 3

componentes não observáveis: tendência (Tt),

sazonalidade (St) e a variação aleatória denominada de ruído branco (at).

T

t → tendência

Esse é um componente não aleatório que, muitas vezes, só consegue ser medido e/ou detectado em longas séries de tempo.

S

t → componente sazonal

Ocorre quando duas observações no tempo são correlacionadas, ou seja, não são independentes. Para se avaliá-lo é necessário analisar as funções de auto-covariância e de auto-correlação da série.

(60)

Modelo aditivo: Zt=Tt+St+at

(pode haver , também, o modelo multiplicativo, que ao se realizar a transformação log, ele se transforma no modelo log-linear).

Ao ser feita a análise de uma série histórica, deve-se estudar cada um destes componentes separadamente, retirando-se o efeito dos outros.

TENDÊNCIA

Para analisar a tendência os 2 métodos mais utilizados são: a) ajustar uma função polinomial do tempo ou b) analisar o comportamento da série ao redor de um ponto, estimando a tendência naquele ponto.

Após a estimativa da tendência, uma série “livre de tendência” seria a série (Zt-Tt).

(61)

SAZONALIDADE

Esta parte da série histórica é difícil de ser estimada, compatibilizando a questão conceitual do fenômeno em estudo, com a questão estatística. Se houver uma sazonalidade dita determinística pode-se utilizar modelos de regressão que incorporem funções do tipo seno ou cosseno à variável tempo.

Para se retirar o efeito da sazonalidade de uma série, pode-se fazer a média móvel centrada no número de períodos que compõem uma repetição (por exemplo, para sazonalidade anual, seria utilizada a média móvel de 12 meses), ou, então, poderia-se trabalhar com a diferença entre a série original (Zt) e o polinômio estimado para a sazonalidade.

(62)

REGRESSÃO LOGÍSTICA

• Variável dependente é qualitativa dicotômica (presença/ausência)

• Objetivo principal do estudo é estudar os fatores associados à presença do evento de interesse.

EXEMPLO

Y= doença coronariana(DC) Y = 1 DC = sim

Y = 0 DC = nao ⇒ ⇒    IDADE DC

SIM NÃO TOTAL p=% de sim

20 - 29 1 9 10 0.10 30 - 34 2 13 15 0.13 35 - 39 3 9 12 0.25 40 - 44 5 10 15 0.33 45 - 49 6 7 13 0.46 50 - 54 5 3 8 0.63 55 - 59 13 4 17 0.76 60 - 69 8 2 10 0.80 Total 43 57 100 0.43

(63)

(

)

( )

(

)

(

)

(

)

(

)

1

=

1

1

-1

=

-1

=

0)

=

Prob(Y

=

1)

Prob(Y

e

1

1

1

que

se

tem

linear,

função

uma

é

f(x)

a

Quando

1

1

1

1 0 1 0 1 0 1 0 X X X X

e

e

e

p

e

p

)

Y

(

ob

Pr

e

p

Y

ob

Pr

f x β β β β β β β β + + + + − − − − −

+

+

+

=

=

=

+

=

=

=

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 50-54 55-59 60-64 65-69 70-74 75-79 80-89

(64)

doente não doente TOTAL

EXPOSTO a b a+b

NÃO EXPOSTO c d c+d

TOTAL a+c b+d N=a+b+c+d

Medidas de risco: RP: razão de prevalências  d + c c b + a a = RP RR: risco relativo RR = a a + b c c + d

OR: odds ratio OR = acb d

a.d b.c =

(65)

Y = variável dependente; variável categórica (0,1)

( )

(

)

(

)

(

)

(

)

( )

(

)

( )

( )( )

( )

( )

( )

X x x e e e x e e x x X Y E x Y P Y P y Y P y Bernoulli Y X X X x f x f i i i 1 0 -1 0 1 0 2 1 ln , de logito o para ação transform a se -Fazendo 1 1 1 que se tem linear, função uma e (x) f a Quando 1 / Y. não e X de função como Y de ade probabilid a escreve se logística, regressão na , porém X, de função em Y escrever é objetivo O -1 0 1 0 0 1 1 Y E -1 = 0) = P(Y = 1) = P(Y ⇒ ~ ⇒ 0 = Y 1 = Y ∑ β β π π π π π π π π π π β β β β β β + =     + = + = + = = = = + = = + = = = =             + + + =

(66)

SUPOSIÇÕES

1. Y é uma variável dicotômica (0,1). A extensão para outras variáveis categóricas não será vista neste curso.

2. Os valores de Y são independentes.

3. .

( )

( )

( )

( )

( )

( )

( )

[

]

( )

( )

( )

[

]

( )

[

( )

]

{

1

}

variâncianãoéconstante 0 = -1 prob. com , 0 Y E se , prob. com , 1 Y E se , 1 = pois , ~ resíduo = erro Y E Y E 2 _ ^ ^ ^ ^     → − = ∴          = − = − = + = ⇒ = x x S x x x x Binomial x x π π ε π π π π ε ε ε ε π π ε

(67)

ESTIMATIVA DOS PARÂMETROS ββββi

Na regressão logística é utilizado o Método da Máxima Verossimilhança para se estimar os

parâmetros βi .

De uma maneira genérica, pode-se dizer que o método da máxima verossimilhança fornece os valores para os parâmetros a serem estimados, os quais maximizam a probabilidade de se obter o conjunto de dados existente.

Para se aplicar este método, em primeiro lugar precisa-se definir a função de verossimilhança. Na situação em que a variável dependente é dicotômica, tem-se:

(68)

( )

( )

(

)

( )

( )

(

)

(

)

( )

(

)

(

)

( )

( )

( )

( ) (

) (

)

[

]

∑ ∏ 1 1 i i -1 i 1 0 1 0 -1 0 -1 0 -1 ln -1 ln ln . ln o maximizar fácil mais e entanto, No ié, acima, dados termos dos produto pelo definida é lhança verossimi de função A . -1 é ão contribuiç a , 0 Y onde naqueles e é lhança verossimi de função a para ão contribuiç a , 1 , x pares aqueles para Assim, 1,2,...n = i 0,1 = Y onde , -1 Y é Y de ades probabilid de função A ⇒ , de valor arbitrário um para 1/X = Y P 1 1 0/X = Y P 1 -1 ⇒ 1 0 = Y Seja n i i i i i n i i i Y i i Y i X X X y y L L Y f L x x f e x e e x = = + + + + =                         =       =    = =       = + = = + =    π π β β β π π π π β β β π π β β β β β β

(69)

Para encontrar os valores dos βi que maximizam a função acima deve-se derivar ln L β

~           em relação

a cada um dos βi e igualar a zero. Como estas equações não são lineares, são necessários métodos interativos e sua solução não é fácil! Porém os

softwares fazem isso por nós !!!!

As equações são:

( )

[

]

( )

[

]

y x x y x i i i n i i i i n − = − =        = =

π π 1 1 0 0 e

Estas são as chamadas equações de verossimilhança.

Normalmente as saídas de computador fornecem

não só os valores dos βi, mas, também, os respectivos

erros padrão (SEβi). Os valores dos SEβi serão

utilizados para os testes de significância dos coeficientes e para o cálculos dos respectivos intervalos de confiança.

(70)

No caso do pior modelo (modelo só com β0), o

logaritmo da função de verossimilhança pode ser calculado por:

( )

[

]

( )

( )

( )

ln L

β

o

=

n

1

.ln

n

1

+

n

0

ln

n

0

n

ln

n

onde: n1: número de casos de Y=1

n0: número de casos de Y=0

(71)

TESTES DE HIPÓTESES

Na regressão logística a comparação entre o valor observado e o valor predito pela regressão não é feita através da ANOVA, mas é baseada no logarítmo

da função de verossimilhança já definida ln L β

~          .

1. Teste da razão de verossimilhança

É feita a comparação entre a função de verossimilhança dos valores observados na amostra e a função de verossimilhança do modelo saturado. O modelo saturado é aquele que contém tantos parâmetros quanto o número de pontos da amostra (ex: ajustar uma linha reta com 2 pontos).

(

)

[

]

[

(

)

]

{

}

(

)

(

)

D deviance D L L D L L = = − − ⇒ = −         2 2 ln ln ln

modelo reduzido modelo saturado

modelo reduzido

(72)

Para verificar a significância de uma variável independente, compara-se o valor de D com e sem a variável independente na equação. A mudança de D devido à inclusão da variável independente é:

(

)

(

)

(

)

(

)

(

(

)

)

(

)

(

)

categorias 2 com variável 1 de cia significân de teste o para ~ variável com elo mod variável sem modelo ln 2 saturado elo mod variavel com mod. ln 2 saturado elo mod variavel mod.sem ln 2 variavel a com modelo o para variavel a sem modelo o para 2 1 →       − =             −       − = − =

χ

G L L G L L L L G D D G

no caso do modelo univariado,

H

0

:

β

1

=

0

2. Teste Wald (baixo poder)

( )

1

:

0

:

1 0 1 0

=

H

OR

X

=

H

β

W i W N c = β ^ , onde ~ ( , )0 1

(73)

3. Intervalo de Confiança

(

)

( )

z

x

SE

i

IC

1α %

β

i

=

β

ˆ

i

±

1α βˆ

4. Cálculo do RR

Vamos supor o caso mais simples em que a variável dependente X é dicotômica. Então,

(

)

(

)

( ) ( ) ( ) ( 0 1) 0 1 0 1

exp

1

exp

1

exp

1

1

exp

1

1

0

/

1

Pr

1

/

1

Pr

0 1 β β β β β β β + − − + − + −

+

+

=

+

+

=

=

=

=

=

=

x x

X

Y

ob

X

Y

ob

RR

logo,

( )

1

:

( )

1

:

0

:

1 0 1 0 0

=

H

OR

X

=

H

RR

X

i

=

H

β

(74)

5. Caso múltiplo

Utilizar o teste da razão de verossimilhança para verificar a adequação do modelo como um todo, ié:

modelo

do

s

'

de

número

:

k

onde

,

~

0

um

pelo

existe

ie

adequado,

é

modelo

o

:

H

0

...

:

H

2 a 2 1 o

β

χ

β

β

β

β

k k

G

=

=

=

=

Para testar a significância de cada coeficiente, utilizar o teste Wald:

( )

( )

( )

( )

( )

0

,

1

~

onde

,

1

:

1

:

0

:

H

1

:

1

:

0

:

H

^ ^ 0 0 ^ a 0 0 ^ 0

N

W

SE

W

X

RR

H

X

OR

H

X

RR

H

X

OR

H

ic i i i i i i i i i β

β

β

β

=



=

=

=

(75)

Estimativa da odds ratio (OR) a partir do

modelo de regressão logística múltipla

chance:

p

p

Y

ob

Y

ob

=

=

=

1

)

0

(

Pr

)

1

(

Pr

( )

(( (( )) )) ( 0 1 2 2 ) ( 0 2 2 ) 1 2 2 1 1 0 2 2 1 1 0 1 1 1 1 ... ... ... 0 ... 1 0 0 1 1 1

1

1

β β β β β β β β β β β β β β β β

e

e

e

e

p

p

p

p

X

OR

k k k k k k k k X X X X X X X X X X X X X X

=

=

=

=

+ + + − + + + + + + + = + + + + = + = = = =

(76)

6.Análise de confusão e interação na regressão logística

Outra maneira de testar interação: criar uma 3a. variável (Z), que é a combinação de X1 e X2.

X

1

X

2

Z

Z

1

Z

2

Z

3

1

1

3

0

0

1

1

0

2

0

1

0

0

1

1

1

0

0

0

0

0

0

0

0

2 2 1 1 0

1

ln

X

X

p

p

β

β

β

+

+

=





2 1 3 2 2 1 1 0

.

1

ln

X

X

X

X

p

p

β

β

β

β

+

+

+

=





(77)

MODELOS DE REGRESSÃO LOGÍSTICA

• Não condicional: estudos transversais, coorte e caso-controle não pareado

• Condicional: estudos caso-controle e outros onde haja pareamento. Nestes casos, no banco de dados

(78)

ANÁLISE DOS RESÍDUOS

1. Estatística do χ2 de Pearson

2. Teste de Hosmer-Lemeshow

--- Hosmer and Lemeshow Goodness-of-Fit Test--- LOW = 0 LOW = 1

Group Observed Expected Observed Expected Total 1 35.000 34.180 3.000 3.820 38.000 2 25.000 26.537 9.000 7.463 34.000 3 29.000 29.743 10.000 9.257 39.000 4 16.000 14.736 6.000 7.264 22.000 5 10.000 9.460 7.000 7.540 17.000 6 8.000 9.877 12.000 10.123 20.000 7 7.000 5.466 12.000 13.534 19.000 Chi-Square df Significance Goodness-of-fit test 2.3862 5 .7935 ---

Referências

Documentos relacionados

As espécies predominantes (mais freqüentes, constantes e dominantes) foram Anastrepha obliqua (Macquart) em Campos dos Goytacazes e São Francisco do Itabapoana, Anastrepha fraterculus

Neste estudo foram estipulados os seguintes objec- tivos: (a) identifi car as dimensões do desenvolvimento vocacional (convicção vocacional, cooperação vocacio- nal,

A edição e veiculação de um Boletim, inicialmente de periodicidade bimestral, voltado exclusivamente à atuação do Ministério Público dentro do Processo Civil,

Por fim, destacamos que esta recomendação para o elemento Atividades de Controle tem o potencial de, após verificado êxito de atuação dos controladores adstritos a cada

Neste capítulo foram descritas: a composição e a abrangência da Rede Estadual de Ensino do Estado do Rio de Janeiro; o Programa Estadual de Educação e em especial as

Trata-se de áreas onde estão localizados o “Areal”, que surgiu a partir da doação de lotes para funcionários públicos do GDF (Governo do Distrito Federal),

seems to be a transmembrane protein with an intracellular segment containing at least one phosphorylation accessible site and an extracellular region containing two glycosylation

Figura 13 - Efeitos do aumento na taxa de extração de frutos sobre a taxa de crescimento populacional λ de populações de Caryocar coriaceum Wittm.. na Floresta nacional do