Modelos lineares generalizados - Equa¸c˜ oes normais

1.5 Equa¸c˜ oes normais

2.1.2 Modelos lineares generalizados

Os modelos lineares generalizados (Paula, 2004 e McCullagh e Nelder, 1989, por exemplo, ) compõem uma teoria geral de regressão para o caso em que a distribui¸cão da variável resposta pertence à fam´ılia exponencial de distribui¸cões ou para o caso em que a fun¸cão densidade de probabilidade ou fun¸cão de probabilidade possa ser escrita na forma (2.1), independentemente de ϕ ser ou não conhecido.

Para deﬁnirmos um modelo linear generalizado, seja yi, i = 1,· · · , n, uma

amostra de variáveis aleatórias independentes, com distribui¸cão na classe da fam´ılia exponencial, com m´edia µi e parâmetro de dispers˜ao ϕ−1. Associado

a observa¸c˜ao i, admita a existˆencia de um vetor p-dimensional de covari´aveis ﬁxas, xi. Assuma que

g(µi) = x⊤i β = ηi,

na qual g(·) é uma fun¸cão monótona e diferenciável, denominada fun¸cão de liga¸c˜ao e β ´e um vetor p-dimensional de parâmetros desconhecidos.

A fun¸c˜ao escore de β ´e dada por

un(β) = ϕX⊤HW−1(y− µ), (2.2)

Deﬁnindo D⊤= X⊤H, temos que a matriz de informa¸c˜ao de Fisher de β ´e dada por

in(β) = ϕD⊤W−1D.

Apresentamos a seguir alguns modelos lineares generalizados.

Regress˜ao linear m´ultipla: Seja yi ∼ N (µi, σ2). Nesse caso, tomando a

fun¸c˜ao de liga¸c˜ao identidade, temos que µi = x⊤i β, o que corresponde

ao modelo de regress˜ao linear normal.

Regress˜ao log´ıstica: Seja yi uma vari´avel com distribui¸c˜ao Bernoulli de

parˆametro µi. Nesse caso,

g(µi) = log ( µi 1− µi ) .

Modelos log-lineares para dados de contagem: Nesse caso, assuma que yi siga uma distribui¸c˜ao de Poisson de m´edia µi. A fun¸c˜ao de

liga¸c˜ao correspondente ao modelo log-linear ´e g(µi) = log(µi).

Além desses exemplos, a teoria dos modelos lineares generalizados inclui uma grande variedade de outros modelos, como, por exemplo, modelos de regressão para variáveis positivas e assimétricas (distribui¸cões gama e normal inversa, por exemplo).

Sob condi¸c˜oes gerais de regularidade, demonstra-se que

√

n(βˆ− β)→ Np

(

0, ϕ−1J−1) `

a medida em que n tende a inﬁnito, sendo J = lim

n→∞

in(β)

n (ver Sen e Singer,

1993, por exemplo).

Algoritmo de estima¸c˜ao

Exceto em alguns casos espec´ıficos, como, por exemplo, a distribui¸cão normal para liga¸cão identidade, não há uma forma expl´ıcita para os estimadores de

β. As estimativas podem ser obtidas da aplica¸c˜ao de m´etodos iterativos. Um dos m´etodos utilizados ´e o scoring de Fisher, no qual o valor da estimativa de β no passo j + 1 do processo ´e dado por

sendo i(j)

n e u(j)n , respectivamente, a matriz de informa¸c˜ao de Fisher e a fun¸c˜ao

escore avaliadas no ponto β(j). Desenvolvendo (2.3), temos β(j+1) = β(j)+(D(j)TW−1D(j))−1D(j)T(y− µ(j)) =(D(j)TW−1D(j))−1D(j)TD(j)β(j)+(D(j)TW−1D(j))−1D(j)T(y− µ(j)) = ( D(j)TW−1D(j) )₋₁ D(j)Tz(j),

na qual, z(j) _{= D}(j)_β(j) _{+ (y} _{− µ}(j)_{) e o sobre-escrito (j) indica que as}

matrizes e vetores s˜ao avaliados no ponto β(j). Trata-se de um procedimento de m´ınimos quadrados reponderados.

Fun¸c˜ao desvio

O logaritmo da fun¸cão de verossimilhan¸ca da média de um modelo linear generalizado é dado por

L(µ; y) = ϕ

∑

i=1

[yiθ(µi)− b{θ(µi)} + c(yi; ϕ)] . (2.4)

A fun¸cão desvio é uma medida de qualidade de ajuste de um modelo linear generalizado constru´ıda a partir de (2.4). Assuma um caso extremo, no qual o modelo prevê com exatidão todos os valores da amostra. Nessa situa¸cão, teremos que o logaritmo da fun¸cão de verossimilhan¸ca, avaliado no valor previsto é dado por

L(y; y) = ϕ

∑

i=1

[yiθ(yi)− b{θ(yi)} + c(yi; ϕ)] . (2.5)

A fun¸cão desvio é definida como o dobro da distância entre o logaritmo da fun¸cão de verossimilhan¸ca avaliado na estimativa de máxima verossimilhan¸ca (ˆθ = θ(ˆµ)) e (2.5). A fun¸c˜ao é então definida por

D∗(y; ˆµ) = 2{L(y, y) − L(ˆµ; y)} = 2ϕ

n ∑ i=1 [ yi { θ(yi)− ˆθ } − b(ˆθ) + b{θ(yi)} ] .

Uma defini¸cão alternativa para a fun¸cão desvio é dada por

D(y; ˆµ) = 2 n ∑ i=1 [ yi { θ(yi)− ˆθ } − b(ˆθ) + b{θ(yi)} ] .

Tabela 2.1: Fun¸c˜ao desvio para alguns modelos lineares generalizados

Modelo Fun¸c˜ao desvio

Normal ∑n_i=1(yi− ˆµi)2

Poisson 2∑n_i=1{yilog(yi/ˆµi)− (yi− ˆµi)}

se yi = 0, sua respectiva parcela ´e 2ˆµi

2∑n_i=1({yilog(yi/niµˆi)

Binomial +(ni− yi) log{(1 − yi/ni)/(1− ˆµi)}

se yi = 0, sua parcela ´e −2nilog(1− ˆµi)

se yi = ni, sua parcela ´e−2nilog(ˆµi)

Gama 2∑n_i=1{− log(yi/ˆµi) + (yi− ˆµi)/ˆµi}, y > 0

Normal inversa ∑n_i=1(yi− ˆµi)2/(yiµˆ2i)

Quanto menor o valor de D, melhor ser´a o ajuste do modelo. Paula (2004) calcula a fun¸c˜ao desvio para alguns modelos lineares generalizados. A Tabela 2.1 resume as informa¸c˜oes fornecidas por Paula.

Na Tabela 2.2 são apresentadas algumas propriedades da fun¸cão desvio. São apresentadas as condi¸cões sob as quais podemos testar a adeqüa¸cão do modelo assumindo uma distribui¸c˜ao qui-quadrado com (n− p) graus de li- berdade para D.

Tabela 2.2: Propriedades assint´oticas da fun¸c˜ao desvio para alguns modelos lineares generalizados

Modelo Propriedade

Normal Se a variˆancia for constante, D∼ σ2_χ2

n−p

Poisson D ˜χ2_n_−p ´a medida em que os µi → ∞

Binomial D ˜χ2

Res´ıduos

Exceto para a distribui¸cão normal, os modelos lineares generalizados tendem a ser heterocedásticos, uma vez que a variância da variável resposta é fun¸cão da média. Dessa forma, seria dif´ıcil avaliar o ajuste do modelo através do res´ıduo simples ri = yi− µi.

Como Var(yi) = ϕ−1v(µi) = ϕ−1vi, temos que a variˆancia de

rp =

yi− µi

√ vi

e constante para todo i. Desse modo, o res´ıduo de Pearson ´e deﬁnido como ˆ rp = yi− ˆµi √ v(ˆµi) .

Observe que Var(rp) = ϕ−1, desse modo, um estimador de ϕ−1 pode ser

obtido atrav´es de ˆ ϕ−1 = n ∑ i=1 ˆ r2 p n− p.

Um outro res´ıduo interessante pode ser obtido a partir das parcelas da fun¸c˜ao desvio. Trata-se do res´ıduo do desvio.

Testes de hip´oteses

A fun¸cão desvio tem um papel importante na constru¸cão de testes de hipóteses para os modelos lineares generalizaddos. Por exemplo, admita que o vetor de parˆametros β possa ser particionado em β = (β⊤₁, β⊤₂)⊤. Se estivermos interessados em testar H0 : β1 = β

1 contra H1 : β1 ̸= β 0

1, o teste da raz˜ao de

verossimilhan¸cas pode ser obtido através da diferen¸ca entre duas fun¸cões des- vios. Seja ˆµ0 e ˆµ1 as médias avaliadas sob, respectivamente, as hipóteses nula e alternativa. Temos que a estat´ıstica do teste da razão de verossimilhan¸cas ´

a dada por

TRV = ϕ{D(y, ˆµ0)− D(y, ˆµ1)}.

O teste de Wald é outra alternativa para testar as hipóteses mencionadas. Tal teste tem uma grande importância na teoria das fun¸cões de estima¸cão, uma vez que se baseia na distribui¸cão (assintótica) do estimador obtido, não

sendo, então, necessário conhecer a distribui¸cão de probabildiades geradora dos dados. A estat´ıstica para as hipóteses acima é dada por

WD =(βˆ₁− β0₁)⊤Covˆ −1(βˆ₁) (βˆ₁− β0₁). (2.6) Se q ´e a dimens˜ao de β₁, temos que TRV e WD convergem, para n ten- dendo a infinito, para uma distribui¸c˜ao qui-quadrado com q graus de liber- dade. Paula(2004) discute e apresenta outros testes de hipóteses adequados para a análise de modelos lineares generalizados.

No caso em que ϕ ´e desconhecido a estat´ıstica Wald pode ser obtida simplesmente substituindo-se ϕ por uma estimativa consistente.

Aplica¸c˜ao

Exemplo 7 Em 2000, foi realizado o primeiro censo de moradores de rua

da cidade de São Paulo (Schor e Artes, 2001). Naquela pesquisa, 95 dos 96 distritos municipais da cidade foram percorridos, no per´ıodo noturno, por equipes de campo. As pessoas encontradas nas ruas, em terrenos, em mocós e dormindo em casarões abandonados ou ve´ıculos foram abordadas. Desse contingente, 5013 foram identificados como moradores de rua, sendo que para 4 deles não se fez o registro do distrito municipal em que se encontravam. Essa pesquisa originou um banco de dados com o número de moradores de rua encontrados em cada distrito.

Ao analisar a distribui¸cão dos moradores de rua no munic´ıpio, constatou- se que havia altas concentra¸cões em algumas regiões e baixas em outras. Para explicar essa diferen¸ca, levantou-se a hipótese de que os moradores de rua procurariam regiões em que encontrassem condi¸cões satisfatórias para sua sobrevivência: lixo reciclável abundante, alta circula¸cão de pessoas durante o dia e baixa à noite e áreas habitadas por fam´ılias com poder aquisitivo mais alto. Para caracterizar regiões com esse perfil, Schor, Artes e Bomfim (2003) propuseram os seguintes indicadores

CV: raz˜ao entre a área constru´ıda dos imóveis verticais para uso comercial e de servi¸cos e o total da área constru´ıda no distrito (SEMPLA, 1998);

CH: raz˜ao entre a área constru´ıda dos imóveis horizontais para uso comer- cial e de servi¸cos e o total da área constru´ıda no distrito municipal (SEMPLA, 1998);

Fluxo: para medir a circula¸cão de pessoas em cada um dos distritos dispu- nha-se de dados sobre o número de pessoas presentes em cada distrito ao longo de 24 horas, em intervalos de 2 horas e o número de residentes no distrito (Companhia Metropolitana, 1997). A partir desses dados, para cada per´ıodo de duas horas, construiu-se a razão entre o número de presentes e o número de domiciliados. O indicador de fluxo para cada distrito foi definido como o valor máximo dessa razão;

RFPC: a renda monet´aria das fam´ılias residentes nos distritos foi medida pela renda familiar per capita, em reais (Companhia Metropolitana, 1997) e

Empregos: o n´umero de empregos existentes no distrito (Companhia Metro- politana, 1997) .

Para verificar a hipótese formulada, ajustamos um modelo linear genera- lizado tendo o número de moradores de rua por distrito como variável depen- dente e os demais indicadores como independentes. Assumimos a distribui¸cão de Poisson para a variável dependente e uma fun¸cão de liga¸cão logaritmica. A Tabela 2.3 traz as estimativas do modelo. À primeira vista, parece que as hipóteses foram confirmadas, dados os valores das estat´ısticas t1 correspon- dentes a cada estimativa. No entanto, é necessário checar a adequa¸cão do modelo.

Tabela 2.3: Estimativas dos parˆametros do modelo Efeito Estimativa Erro-padr˜ao t Intercepto 9, 08 10−1 7, 14 10−2 12,71 CV 3, 16 1, 76 10−1 17,91 CH 4, 49 1, 87 10−1 23,97 Fluxo 1, 83 10−1 2, 21 10−2 8,28 RFPC 9, 70 10−4 5, 81 10−5 16,69 Empregos 7, 38 10−6 8, 85 10−7 8,34

O desvio do res´ıduo para esse modelo ´e 1.998,71 com 89 graus de li- berdade, indicando problemas de ajuste. A Figura 2.1 traz os res´ıduos de

1_{O quadrado dessa estat´ıstica corresponde `}_{a estat´ıstica do teste de Wald para testar se}

Pearson e do desvio em fun¸c˜ao do logaritimo do valor previsto2_{. Note que a}

variabilidade dos pontos parece aumentar na medida em que o valor previsto aumenta. Concluindo, o modelo parece n˜ao ser adequado.

ln(Valor ajustado)

2 4 6

Resíduo de Pearson vs ln(Valor ajustado)

ln(Valor ajustado)

2 4 6

Resíduo do desvio vs ln(Valor ajustado)

Figura 2.1: Gráficos de res´ıduo para a regressão de Poisson

Para entender melhor a falta de adequa¸cão do modelo, o banco de da- dos foi ordenado segundo a variável CV. Em seguida, a cada 5 observa¸cões ordenadas, calculou-se o número médio de moradores de rua e o respectivo desvio-padrão. Caso a distribui¸cão fosse realmente Poisson, ter´ıamos que o desvio-padrão seria, aproximadamente, a raiz quadrada da média. A Figura 2.2 traz esses dados. Note que o o desvio-padrão não se comporta conforme o esperado, uma vez que os pontos parecem estar dispostos ao redor de uma linha reta. Da´ı os problemas de ajuste. Temos indica¸cões de que a variância depende da média, mas não da maneira esperada para um modelo de Poisson.

No documento Rinaldo Artes. Denise Aparecida Botter (páginas 31-38)