• Nenhum resultado encontrado

Slides

N/A
N/A
Protected

Academic year: 2021

Share "Slides"

Copied!
56
0
0

Texto

(1)

Cesar Augusto Taconeli

(2)
(3)
(4)

A regressão linear múltipla é uma extensão da regressão linear simples, em que duas ou mais variáveis explicativas são incorporadas ao modelo.

Ao considerar conjuntamente o efeito de duas ou mais variáveis explicativas temos condições de avaliar o efeito de uma particular variável ajustado (controlando) o efeito das demais.

A regressão linear múltipla requer maior esforço que a regressão linear simples quanto à especificação do modelo e à avaliação do ajuste.

(5)

O modelo de regressão linear múltipla é definido da seguinte forma:

yi = β0+ β1xi1+ β2xi2+ ... + βkxik+ i.

As seguintes suposições são assumidas:

Linearidade: E(i) = 0;

Variância constante: V ar(i) = σ2;

Independência: i e j são independentes para i 6= j;

xi é independente de i, para todo i;

(6)

Como consequências da especificação do modelo, temos:

1 E(yi|xi= (xi1, xi2, ..., xik)0) = β0+ β1xi1+ β2xi2+ ... + βkxik;

2 V ar(yi|xi) = σ2;

3 yi|xi ∼ N (β0+ β1xi1+ β2xi2+ ... + βkxik, σ2);

4 Condicional aos respectivos vetores de variáveis explicativas, yi e yj

(7)

Observe que:

∂E(y|x) ∂xj

= βj.

Desta forma, βj representa a alteração esperada na resposta (y)

para uma unidade a mais em xj quando os valores das demais

variáveis (xk 6= xj) são mantidos fixos.

Desta forma, os parâmetros de regressão (βj0s) refletem os efeitos

(8)

O intercepto (β0) é a resposta esperada quando x1 = 0, x2 = 0, . . . ,

xk = 0, e só tem interpretação válida caso esse ponto pertença ao

escopo do problema;

A interpretação apresentada para os parâmetros βj0s somente é

válida na ausência de interações (efeitos combinados das covariáveis);

Para fins de ilustração, considere o seguinte modelo de regressão linear múltipla com termo de interação:

(9)

Nesse caso, por exemplo:

∂E(y|x) ∂x1

= β1+ β3x2.

Assim, mantendo x2 fixa, espera-se uma variação de β1+ β3x2 em y

para cada unidade acrescida em x1.

De forma semelhante, mantendo x1 fixa, espera-se uma variação de

β2+ β3x1 em y para cada unidade acrescida em x2.

Assim, a superfície de regressão produzida não é mais plana, pois a taxa de variação de x1 varia com o valor de x2 e vice-versa.

(10)

Considere n observações (yi, xi), em que xi= (xi1, xi2, ..., xik)0: y1 = β0+ β1x11+ β2x12+ ... + βkx1k+ 1 y2 = β0+ β1x21+ β2x22+ ... + βkx2k+ 2 .. . yn= β0+ β1xn1+ β2xn2+ ... + βkxnk+ n

(11)

O modelo de regressão linear múltipla pode ser representado matricialmente por: y = Xβ + , em que y =       y1 y2 .. . yn       , X =       1 x11 x12 · · · x1k 1 x21 x22 · · · x2k .. . ... ... . .. ... 1 xn1 xn2 · · · xnk       , β =       β0 β1 .. . βk       ,  =       1 2 .. . n      

(12)

As suposições e propriedades do modelo de regressão linear múltipla podem ser representados na forma matricial:

1 E() = 0;

2 V ar() = σ2I;

3 E(y|X) = Xβ;

4 V ar(y|X) = σ2I;

5 y|X ∼ N (Xβ, σ2I),

(13)
(14)

A estimação dos parâmetros do modelo de regressão linear múltipla baseia-se, novamente, no método de mínimos quadrados, mediante determinação de β0, β1, ..., βk que minimizam a soma de quadrados

dos erros: S = S(β0, β1, ..., βk) = n X i=1 2i = n X i=1 (yi− (β0+ β1xi1+ ... + βkxik))2

(15)

Assim, os estimadores de mínimos quadrados para β0, β1, ..., βk devem satisfazer: ∂S(β) ∂β =                ∂S(β) ∂β0 ∂S(β) ∂β1 ∂S(β) ∂β2 .. . ∂S(β) ∂βk                =             0 0 0 0 0            

(16)

Derivando parcialmente em relação aos parâmetros de regressão obtemos: ∂S ∂β0 ˆ β0, ˆβ1,..., ˆβk = −2 n X i=1  yi− β0− k X j=1 βjxij  = 0 e ∂S ∂βj ˆ β0, ˆβ1,..., ˆβk = −2 n X i=1  yi− β0− k X j=1 βjxij  xij = 0, j = 1, 2, ..., k.

(17)

Na forma matricial: S(β) = n X i=1 2i = 0 = (y − Xβ)0(y − Xβ),

de maneira que o vetor ˆβ tal que:

∂S ∂β ˆ β= 0

é o estimador de mínimos quadrados de β, dado por:

ˆ

(18)

Observe que os estimadores de mínimos quadrados somente existem se a matriz X0X tiver inversa;

A condição de existência da inversa de X0X é que as colunas de X sejam linearmente independentes, ou seja, que nenhuma coluna de X seja combinação linear das demais;

O valor ajustado, para um vetor x0 = (1, x01, x02, ..., x0k). é:

ˆ

(19)

O vetor de valores ajustados para os dados usados no ajuste,

ˆ

y = (ˆy1, ˆy2, ..., ˆyn), é dado por:

ˆ

y = X ˆβ = X(X0X)−1X0y = Hy.

A matriz H = X(X0X)−1X0, de dimensão n × n, é chamada matriz chapéu (hat matrix) e mapeia o vetor de valores observados no vetor de valores ajustados.

O vetor de resíduos r = (r1, r2, ..., rn) fica definido, em notação

matricial, por:

r = y − ˆy,

(20)

Propriedades dos estimadores:

i. E( ˆβ) = β ( ˆβ é um estimador não viciado de β);

ii. V ar( ˆβ) = σ2(X0X)−1;

iii. β é o estimador linear não viciado mais eficiente para β (teoremaˆ

de Gauss Markov);

iv. Sob a suposição de que os erros têm distribuição normal os

estimadores de mínimos quadrados equivalem aos de máxima verossimilhança.

(21)

Um estimador não viciado para σ2, baseado na soma de quadrados

de resíduos, é dado por:

ˆ σ2 = QMRes= SQRes n − p = Pn i=1(yi− ˆyi)2 n − p ,

(22)
(23)

Ortogonalidade é uma propriedade útil em regressão por permitir avaliar o efeito de uma covariável independente dos efeitos das demais.

Em geral, ortogonalidade é algo característico de estudos

experimentais, em que o desenho do experimento produz variáveis ortogonais, e algo incomum em estudos observacionais;

Suponha que a matriz do modelo X possa ser particionada em duas matrizes na forma X = [X1|X2] tais que X01X2= 0:

(24)

Assim: X0X = X01X1 X01X2 X0 2X1 X02X2  = X01X1 0 0 X02X2 

Os estimadores de mínimos quadrados ficam dados por:

ˆ β1 = (X10X1)−1X10y e ˆβ2 = (X 0 2X2) −1 X20y.

Note que a estimação de β1 não depende de X2, da mesma forma que a estimação de β2 não depende de X1.

Desta forma, o efeito de X1 será o mesmo, ajustado ou não o efeito

(25)
(26)

Assim como no caso de RLS, também na RLM a inferência sobre os parâmetros do modelo é um ponto importante, que permitirá:

1 Checar a significância do modelo ajustado;

2 Identificar quais variáveis explicativas são relevantes na análise;

3 Avaliar o erro de estimativas e das predições geradas pelo modelo

ajustado.

Deste ponto em diante assumiremos todas as suposições especificadas para os erros, inclusive a de normalidade.

(27)

Na análise de variância, em regressão linear múltipla, a variação total (corrigida pela média) é novamente decomposta em duas partes: variação explicada pela regressão e variação residual, tal que:

(28)

Usando notação matricial, as somas de quadrados ficam definidas por: SQRes = n X i=1 (yi− ˆyi)2= y0y − ˆβ0X0y; SQReg= n X i=1yi− ¯y)2 = ˆβ0X0y − (Pn i=1yi)2 n ; SQT otal = n X i=1 (yi− ¯y)2 = y0y −( Pn i=1yi)2 n .

(29)

Table 1: Quadro de análise de variância para o modelo de RLM

Fonte de variação Graus de liberdade

Soma de quadrados Quadrados médios F

Regressão p − 1 βˆ0X0y − Pn i=1yi 2 n QMReg=SQRegp−1 F = QMReg QMRes Resíduos n − p y0y − ˆβ0X0y QMRes=SQResn−p

Total n − 1 y0y −

Pn i=1yi

2

n

Vale lembrar que n é o tamanho da amostra e p = k + 1 o número de parâmetros do modelo.

(30)

Podemos testar a significância do modelo ajustado com base no seguinte par de hipóteses:

H0 : β1 = β2 = ... = βk= 0;

H1: βj 6= 0 para pelo menos um j (j = 1, 2, ..., k).

Sob a hipótese nula (não significância do modelo) a estatística F segue distribuição F −Snedecor, com p − 1 e n − p graus de liberdade.

Assim, fixado um nível de significância α, H0 deve ser rejeitada se o valor da estatística F for maior que o quantil 1 − α da distribuição

(31)

O coeficiente de determinação, como anteriormente, fica definido por: R2 = 1 − SQRes SQT otal = SQReg SQT otal ,

e expressa a proporção da variabilidade original dos dados explicada pelo modelo de regressão ajustado.

Uma propriedade de R2 que o torna pouco apropriado para a comparação dos ajustes de diferentes modelos é que ele nunca decresce à medida que incluímos novas variáveis ao modelo.

(32)

Como alternativa ao R2 podemos considerar o R2 ajustado, definido por:

R2Aj = 1 − SQRes/(n − p)

SQT otal/(n − 1)

.

Como SQT otal/(n − 1) é fixo, então R2Aj somente aumentará se houver redução do quadrado médio de resíduos.

Diferentemente de R2, R2Aj penaliza a inclusão de variáveis não importantes ao modelo, permitindo comparar adequadamente modelos com diferentes complexidades (números de variáveis).

(33)

Primeiramente vamos considerar TH’s e IC’s para parâmetros individuais do modelo.

Suponha que se deseja testar a significância de xj no modelo. Partimos do seguinte par de hipóteses:

H0 : βj = 0 vs H1 : βj 6= 0.

A estatística do teste é dada por:

t = ˆ βj ep( ˆβj) , em que ep( ˆβj) = q ˆ σ2(X0X)−1 jj , sendo (X0X) −1 jj o j − ésimo termo da diagonal de (X0X)−1 e ˆσ2= QMRes.

(34)

Sob a hipótese nula a estatística t tem distribuição t − Student com

n − p graus de liberdade.

Assim, a hipótese H0 deverá ser rejeitada, para um nível de

significância α, se |t| > |tn−p,α/2|, em que tn−p,α/2 é o quantil α/2 da distribuição t − Student com n − p graus de liberdade.

Usando a distribuição tn−p como referência, um intervalo de confiança 100(1 − α)% para βj fica definido por:

ˆ βj± tn−p,α/2 q ˆ σ2(X0X)−1 jj .

Para qualquer valor βj0 pertencente ao intervalo de confiança não se

(35)
(36)

Considere interesse em estimar a resposta média em um ponto x00= (1, x01, x02, ..., x0k), ou seja, E(y|x0).

A estimativa pontual é dada pelo valor ajustado pelo modelo em x0:

\

E(y|x0) = ˆy0= x00β.ˆ

O estimador apresentado é não viciado para a real resposta média, com variância:

(37)

Um intervalo de confiança 100(1 − α)% para a resposta média em x00= (1, x01, x02, ..., x0k) é dado por: \ E(y|x0) ± tn−p,α/2 q ˆ σ2x0 0(X 0X)−1x 0. em que ˆσ2 = QMRes.

Considere agora que se deseja predizer a resposta em um ponto x00= (1, x01, x02, ..., x0k).

A estimativa pontual, novamente, é dada pelo valor ajustado de y em x00:

ˆ

(38)

A variância de ˆy0 fica dada por: V ar(ˆy0) = σ2  1 + x00(X0X)−1x0  .

Um intervalo de confiança 100(1 − α)% para a predição de uma nova observação em x0 fica dada por:

ˆ y0± tn−p,α/2 r ˆ σ21 + x0 0(X 0X)−1x 0  , em que ˆσ2 = QMRes.

(39)
(40)

Em geral os estimadores dos parâmetros do modelo de RLM são correlacionados (a menos que as correspondentes variáveis sejam ortogonais);

Avaliar a significância das variáveis explicativas individualmente e conjuntamente, neste caso, são coisas distintas.

É comum o interesse em analisar a significância conjunta de dois ou mais parâmetros, como no caso de modelos polinomiais e na inclusão de variáveis com múltiplas categorias.

(41)

Considere o modelo de regressão linear múltipla:

y = β0+ β1x1+ β2x2+ ... + βkxk+ ,

ˆ

β0= ( ˆβ0, ˆβ1, ..., ˆβk) o vetor de estimativas de mínimos quadrados e

ˆ

σ2 = SQRes/n a estimativa de máxima verossimilhança para σ2.

O interesse aqui é testar uma hipótese do tipo

H0= β1= β2 = ... = βq= 0, q ≤ k. Por simplicidade de notação,

vamos considerar que a hipótese nula contemple os q primeiros parâmetros do modelo.

(42)

O modelo induzido pela hipótese nula é dado por:

y = β0+ βq+1xq+1+ ... + βkxk+ 

Vamos denotar por ˆβ00 = ( ˆβ0, 0, 0, ..., ˆβq+1, ..., ˆβk) o estimador de

mínimos quadrados para o modelo restrito.

Também para o caso da regressão linear múltipla, os estimadores de máxima verossimilhança dos β0s são idênticos aos estimadores de

(43)

A verossimilhança para o modelo completo, avaliada nas estimativas de máxima verossimilhança, é dada por:

L =  2πSQRes n −n/2 ,

em que SQRes é a soma de quadrados de resíduos do modelo.

Para o modelo restrito a verossimilhança maximizada fica dada por:

L0 =  2πSQRes0 n −n/2 ,

em que SQRes0 é a soma de quadrados de resíduos para o modelo restrito (ajustado apenas com as k − q variáveis não restritas a zero).

(44)

O teste da razão de verossimilhanças para testar H0 baseia-se na seguinte estatística: L0 L = SQ Res0 SQRes −n/2 = SQ Res SQRes0 n/2 .

Sob a hipótese H0, assintoticamente:

Λ = −2 ln L 0 L  ∼ χ2q, em que χ2

q denota a distribuição qui-quadrado com q graus de liberdade.

Para um nível de significância α, H0 será rejeitada se Λ superar o

(45)

Após algumas manipulações, é simples verificar que o TRV baseia-se na rejeição de H0 se:

SQRes0− SQRes

SQRes

> c,

(46)

No caso de modelos lineares, no entanto, temos um teste exato como alternativa ao teste χ2 assintótico;

Sob a hipótese nula, a estatística:

F0=

(SQRes0 − SQRes)/q

SQRes/(n − p)

tem distribuição F-Snedecor com q e n − p graus de liberdade. Observe que F0 baseia-se na variação da soma de quadrados de resíduos resultante da restrição aplicada aos parâmetros do modelo. A hipótese H0 deverá ser rejeitada, ao nível de significância α, se F0

(47)

A estatística F0 pode ser calculada por:

F0 =

( ˆβq− β(0)q )0V−1qq( ˆβq− β(0)q )

qQMRes

,

em que ˆβq denota o vetor de q entradas de ˆβ referente aos parâmetros restritos e Vqq a matriz quadrada com as q entradas (linhas e colunas) de (X0X)−1 correspondentes aos parâmetros restritos sob H0.

Repare que nesta representação β(0)q representa o vetor postulado para os q parâmetros restritos sob H0 (geralmente um vetor de

(48)

O teste da significância do modelo de regressão, baseado na hipótese nula:

H0 : β1 = β2 = ... = βk= 0

é um caso particular desse teste, em que a estatística F , apresentada no quadro da análise de variância, tem distribuição F-Snedecor com p − 1 e

(49)

Seja βq um subconjunto de elementos de β, com os parâmetros que se deseja inferir.

Adicionalmente, seja ˆβq o vetor de estimadores de mínimos quadrados de βq.

Uma região de confiança 100(1 − α)% para os componentes de βq é definido pelo conjunto de todos os vetores β(0)q tais que:

F0=

( ˆβq− β(0)q )0V−1qq( ˆβq− β(0)q )

qQMRes

≤ Fq,n−p(1 − α)

em que Fq,n−p(α) é o quantil 1 − α da distribuição F-Snedecor com q e

(50)

De forma mais geral, podemos definir hipóteses lineares na forma:

H0 : Lβ = c,

em que L é uma matriz de constantes de dimensão q × p, de rank linha completo, e c um vetor de constantes de dimensão q (ambos

especificados).

Neste caso, H0 compreende q hipóteses lineares sobre os parâmetros

do modelo, do tipo:

L11β0+ L12β1+ L13β2+ ... + L1pβk = c1

L21β0+ L22β1+ L23β2+ ... + L2pβk = c2

.. .

(51)

modelo

Sob a hipótese H0, a estatística:

F = (Lβ − c)

0[L(X0X)−1L0]−1(Lβ − c)

qQMRes

tem distribuição F-Snedecor com q e n − p graus de liberdade.

Assim, a hipótese nula será rejeitada, ao nível de significância α, se o valor calculado da estatística F exceder o quantil 1 − α da distribuição F-Snedecor com q e n − p graus de liberdade.

(52)

Seja l0= (l0, l1, l2, ..., lp) um vetor de constantes e considere

interesse em estimar θ = l0β.

A estimativa pontual de l0β é dada por l0β .ˆ

Um intervalo de confiança 100(1 − α)% para l0β tem limites:

l0β ± tˆ n−p,α/2

q

ˆ

(53)
(54)

possível devido ao impacto das diferentes unidades de medidas dos

x0js.

Caso seja desejado que tais estimativas sejam comparáveis, pode-se padronizar cada uma das variáveis de forma que as variáveis resultantes tenham mesma escala.

Uma allternativa de padronização consiste em ‘normalizar’ cada uma das variáveis, aplicando:

zij = xij− ¯xj sj , i = 1, 2, ..., n; j = 1, 2, ..., k, e y∗ = yi− ¯y, i = 1, 2, ..., n.

(55)

Neste caso, ¯xj e sj são a média e o desvio padrão amostrais de xj e

¯

y e sy a média e desvio padrão amostrais de y.

Usando as variáveis normalizadas, o modelo de regressão linear múltipla fica definido por:

yi = b1zi1+ b2zi2+ ... + bkzik+ i, i = 1, 2, ..., n.

A análise segue da maneira usual de forma que o estimador de mínimos quadrados de b fica dado por:

ˆ

(56)

Ao centrar as variáveis, o intercepto do modelo é deslocado para o ponto (x1 = 0, x2= 0, ..., xk = 0).

As interpretações dos parâmetros do modelo devem ser feitas em termos dos valores escalonados das variáveis originais (alterações em unidades dos respectivos desvios padrões).

Referências

Documentos relacionados

Antes porém me identifico com a abertura da noção conceitual de pansexualidade, a qual pode ser vista/lida como intensa manifestação sociocultural de uma sexualidade

Para lidar com o problema de regressão linear múltipla, é mais conveniente usar notação matricial, pois assim tem-se uma apresentação muito compacta dos dados, do modelo e dos

Qualquer outra ação, omissão ou comportamento que, a critério exclusivo dos oficiais da BASE, violar estas regras e/ou padrões de integridade estabelecidos poderão acarretar

O próximo, então, passa a ser o limite da individualidade do homem que progride como pessoa humana e que se torna responsável e comprometido não só com os direitos,

AFE – Análise Fatorial Exploratória AIP - Avaliação dos Interesses Profissionais AT – Atitude BBT - Teste de Fotos de Profissões BPR - Bateria de Provas de Raciocínio CAAE

O objetivo deste trabalho foi alcançado, na medida em que, com base foi explicitado no referencial teórico, foi possível a realização do estudo de tempos com

O fenômeno população em situação de rua surgiu nas sociedades pré-industriais dos séculos XIV e XV, na Europa Ocidental, no processo chamado de “acumulação primitiva

BRA233 UNIVERSIDADE FEDERAL DO SUL DA BAHIA BRA236 INSTITUTO PAULISTA DE ENSINO E PESQUISA BRA239 INSTITUTO SUMARE DE EDUCAÇÃO SUPERIOR LTDA BRA240 INSTITUTO TECNOLÓGICO