1.5 Equa¸c˜ oes normais
2.1.2 Modelos lineares generalizados
Os modelos lineares generalizados (Paula, 2004 e McCullagh e Nelder, 1989, por exemplo, ) comp˜oem uma teoria geral de regress˜ao para o caso em que a distribui¸c˜ao da vari´avel resposta pertence `a fam´ılia exponencial de distri- bui¸c˜oes ou para o caso em que a fun¸c˜ao densidade de probabilidade ou fun¸c˜ao de probabilidade possa ser escrita na forma (2.1), independentemente de ϕ ser ou n˜ao conhecido.
Para definirmos um modelo linear generalizado, seja yi, i = 1,· · · , n, uma
amostra de vari´aveis aleat´orias independentes, com distribui¸c˜ao na classe da fam´ılia exponencial, com m´edia µi e parˆametro de dispers˜ao ϕ−1. Associado
`
a observa¸c˜ao i, admita a existˆencia de um vetor p-dimensional de covari´aveis fixas, xi. Assuma que
g(µi) = x⊤i β = ηi,
na qual g(·) ´e uma fun¸c˜ao mon´otona e diferenci´avel, denominada fun¸c˜ao de liga¸c˜ao e β ´e um vetor p-dimensional de parˆametros desconhecidos.
A fun¸c˜ao escore de β ´e dada por
un(β) = ϕX⊤HW−1(y− µ), (2.2)
Definindo D⊤= X⊤H, temos que a matriz de informa¸c˜ao de Fisher de β ´e dada por
in(β) = ϕD⊤W−1D.
Apresentamos a seguir alguns modelos lineares generalizados.
Regress˜ao linear m´ultipla: Seja yi ∼ N (µi, σ2). Nesse caso, tomando a
fun¸c˜ao de liga¸c˜ao identidade, temos que µi = x⊤i β, o que corresponde
ao modelo de regress˜ao linear normal.
Regress˜ao log´ıstica: Seja yi uma vari´avel com distribui¸c˜ao Bernoulli de
parˆametro µi. Nesse caso,
g(µi) = log ( µi 1− µi ) .
Modelos log-lineares para dados de contagem: Nesse caso, assuma que yi siga uma distribui¸c˜ao de Poisson de m´edia µi. A fun¸c˜ao de
liga¸c˜ao correspondente ao modelo log-linear ´e g(µi) = log(µi).
Al´em desses exemplos, a teoria dos modelos lineares generalizados inclui uma grande variedade de outros modelos, como, por exemplo, modelos de regress˜ao para vari´aveis positivas e assim´etricas (distribui¸c˜oes gama e normal inversa, por exemplo).
Sob condi¸c˜oes gerais de regularidade, demonstra-se que
√
n(βˆ− β)→ Np
(
0, ϕ−1J−1) `
a medida em que n tende a infinito, sendo J = lim
n→∞
in(β)
n (ver Sen e Singer,
1993, por exemplo).
Algoritmo de estima¸c˜ao
Exceto em alguns casos espec´ıficos, como, por exemplo, a distribui¸c˜ao normal para liga¸c˜ao identidade, n˜ao h´a uma forma expl´ıcita para os estimadores de
β. As estimativas podem ser obtidas da aplica¸c˜ao de m´etodos iterativos. Um dos m´etodos utilizados ´e o scoring de Fisher, no qual o valor da estimativa de β no passo j + 1 do processo ´e dado por
sendo i(j)
n e u(j)n , respectivamente, a matriz de informa¸c˜ao de Fisher e a fun¸c˜ao
escore avaliadas no ponto β(j). Desenvolvendo (2.3), temos β(j+1) = β(j)+(D(j)TW−1D(j))−1D(j)T(y− µ(j)) =(D(j)TW−1D(j))−1D(j)TD(j)β(j)+(D(j)TW−1D(j))−1D(j)T(y− µ(j)) = ( D(j)TW−1D(j) )−1 D(j)Tz(j),
na qual, z(j) = D(j)β(j) + (y − µ(j)) e o sobre-escrito (j) indica que as
matrizes e vetores s˜ao avaliados no ponto β(j). Trata-se de um procedimento de m´ınimos quadrados reponderados.
Fun¸c˜ao desvio
O logaritmo da fun¸c˜ao de verossimilhan¸ca da m´edia de um modelo linear generalizado ´e dado por
L(µ; y) = ϕ
n
∑
i=1
[yiθ(µi)− b{θ(µi)} + c(yi; ϕ)] . (2.4)
A fun¸c˜ao desvio ´e uma medida de qualidade de ajuste de um modelo linear generalizado constru´ıda a partir de (2.4). Assuma um caso extremo, no qual o modelo prevˆe com exatid˜ao todos os valores da amostra. Nessa situa¸c˜ao, teremos que o logaritmo da fun¸c˜ao de verossimilhan¸ca, avaliado no valor previsto ´e dado por
L(y; y) = ϕ
n
∑
i=1
[yiθ(yi)− b{θ(yi)} + c(yi; ϕ)] . (2.5)
A fun¸c˜ao desvio ´e definida como o dobro da distˆancia entre o logaritmo da fun¸c˜ao de verossimilhan¸ca avaliado na estimativa de m´axima verossimilhan¸ca (ˆθ = θ(ˆµ)) e (2.5). A fun¸c˜ao ´e ent˜ao definida por
D∗(y; ˆµ) = 2{L(y, y) − L(ˆµ; y)} = 2ϕ
n ∑ i=1 [ yi { θ(yi)− ˆθ } − b(ˆθ) + b{θ(yi)} ] .
Uma defini¸c˜ao alternativa para a fun¸c˜ao desvio ´e dada por
D(y; ˆµ) = 2 n ∑ i=1 [ yi { θ(yi)− ˆθ } − b(ˆθ) + b{θ(yi)} ] .
Tabela 2.1: Fun¸c˜ao desvio para alguns modelos lineares generalizados
Modelo Fun¸c˜ao desvio
Normal ∑ni=1(yi− ˆµi)2
Poisson 2∑ni=1{yilog(yi/ˆµi)− (yi− ˆµi)}
se yi = 0, sua respectiva parcela ´e 2ˆµi
2∑ni=1({yilog(yi/niµˆi)
Binomial +(ni− yi) log{(1 − yi/ni)/(1− ˆµi)}
se yi = 0, sua parcela ´e −2nilog(1− ˆµi)
se yi = ni, sua parcela ´e−2nilog(ˆµi)
Gama 2∑ni=1{− log(yi/ˆµi) + (yi− ˆµi)/ˆµi}, y > 0
Normal inversa ∑ni=1(yi− ˆµi)2/(yiµˆ2i)
Quanto menor o valor de D, melhor ser´a o ajuste do modelo. Paula (2004) calcula a fun¸c˜ao desvio para alguns modelos lineares generalizados. A Tabela 2.1 resume as informa¸c˜oes fornecidas por Paula.
Na Tabela 2.2 s˜ao apresentadas algumas propriedades da fun¸c˜ao desvio. S˜ao apresentadas as condi¸c˜oes sob as quais podemos testar a adeq¨ua¸c˜ao do modelo assumindo uma distribui¸c˜ao qui-quadrado com (n− p) graus de li- berdade para D.
Tabela 2.2: Propriedades assint´oticas da fun¸c˜ao desvio para alguns modelos lineares generalizados
Modelo Propriedade
Normal Se a variˆancia for constante, D∼ σ2χ2
n−p
Poisson D ˜χ2n−p ´a medida em que os µi → ∞
Binomial D ˜χ2
Res´ıduos
Exceto para a distribui¸c˜ao normal, os modelos lineares generalizados tendem a ser heteroced´asticos, uma vez que a variˆancia da vari´avel resposta ´e fun¸c˜ao da m´edia. Dessa forma, seria dif´ıcil avaliar o ajuste do modelo atrav´es do res´ıduo simples ri = yi− µi.
Como Var(yi) = ϕ−1v(µi) = ϕ−1vi, temos que a variˆancia de
rp =
yi− µi
√ vi
´
e constante para todo i. Desse modo, o res´ıduo de Pearson ´e definido como ˆ rp = yi− ˆµi √ v(ˆµi) .
Observe que Var(rp) = ϕ−1, desse modo, um estimador de ϕ−1 pode ser
obtido atrav´es de ˆ ϕ−1 = n ∑ i=1 ˆ r2 p n− p.
Um outro res´ıduo interessante pode ser obtido a partir das parcelas da fun¸c˜ao desvio. Trata-se do res´ıduo do desvio.
Testes de hip´oteses
A fun¸c˜ao desvio tem um papel importante na constru¸c˜ao de testes de hip´oteses para os modelos lineares generalizaddos. Por exemplo, admita que o vetor de parˆametros β possa ser particionado em β = (β⊤1, β⊤2)⊤. Se estivermos interessados em testar H0 : β1 = β
0
1 contra H1 : β1 ̸= β 0
1, o teste da raz˜ao de
verossimilhan¸cas pode ser obtido atrav´es da diferen¸ca entre duas fun¸c˜oes des- vios. Seja ˆµ0 e ˆµ1 as m´edias avaliadas sob, respectivamente, as hip´oteses nula e alternativa. Temos que a estat´ıstica do teste da raz˜ao de verossimilhan¸cas ´
a dada por
TRV = ϕ{D(y, ˆµ0)− D(y, ˆµ1)}.
O teste de Wald ´e outra alternativa para testar as hip´oteses mencionadas. Tal teste tem uma grande importˆancia na teoria das fun¸c˜oes de estima¸c˜ao, uma vez que se baseia na distribui¸c˜ao (assint´otica) do estimador obtido, n˜ao
sendo, ent˜ao, necess´ario conhecer a distribui¸c˜ao de probabildiades geradora dos dados. A estat´ıstica para as hip´oteses acima ´e dada por
WD =(βˆ1− β01)⊤Covˆ −1(βˆ1) (βˆ1− β01). (2.6) Se q ´e a dimens˜ao de β1, temos que TRV e WD convergem, para n ten- dendo a infinito, para uma distribui¸c˜ao qui-quadrado com q graus de liber- dade. Paula(2004) discute e apresenta outros testes de hip´oteses adequados para a an´alise de modelos lineares generalizados.
No caso em que ϕ ´e desconhecido a estat´ıstica Wald pode ser obtida simplesmente substituindo-se ϕ por uma estimativa consistente.
Aplica¸c˜ao
Exemplo 7 Em 2000, foi realizado o primeiro censo de moradores de rua
da cidade de S˜ao Paulo (Schor e Artes, 2001). Naquela pesquisa, 95 dos 96 distritos municipais da cidade foram percorridos, no per´ıodo noturno, por equipes de campo. As pessoas encontradas nas ruas, em terrenos, em moc´os e dormindo em casar˜oes abandonados ou ve´ıculos foram abordadas. Desse contingente, 5013 foram identificados como moradores de rua, sendo que para 4 deles n˜ao se fez o registro do distrito municipal em que se encontravam. Essa pesquisa originou um banco de dados com o n´umero de moradores de rua encontrados em cada distrito.
Ao analisar a distribui¸c˜ao dos moradores de rua no munic´ıpio, constatou- se que havia altas concentra¸c˜oes em algumas regi˜oes e baixas em outras. Para explicar essa diferen¸ca, levantou-se a hip´otese de que os moradores de rua procurariam regi˜oes em que encontrassem condi¸c˜oes satisfat´orias para sua sobrevivˆencia: lixo recicl´avel abundante, alta circula¸c˜ao de pessoas durante o dia e baixa `a noite e ´areas habitadas por fam´ılias com poder aquisitivo mais alto. Para caracterizar regi˜oes com esse perfil, Schor, Artes e Bomfim (2003) propuseram os seguintes indicadores
CV: raz˜ao entre a ´area constru´ıda dos im´oveis verticais para uso comercial e de servi¸cos e o total da ´area constru´ıda no distrito (SEMPLA, 1998);
CH: raz˜ao entre a ´area constru´ıda dos im´oveis horizontais para uso comer- cial e de servi¸cos e o total da ´area constru´ıda no distrito municipal (SEMPLA, 1998);
Fluxo: para medir a circula¸c˜ao de pessoas em cada um dos distritos dispu- nha-se de dados sobre o n´umero de pessoas presentes em cada distrito ao longo de 24 horas, em intervalos de 2 horas e o n´umero de residentes no distrito (Companhia Metropolitana, 1997). A partir desses dados, para cada per´ıodo de duas horas, construiu-se a raz˜ao entre o n´umero de presentes e o n´umero de domiciliados. O indicador de fluxo para cada distrito foi definido como o valor m´aximo dessa raz˜ao;
RFPC: a renda monet´aria das fam´ılias residentes nos distritos foi medida pela renda familiar per capita, em reais (Companhia Metropolitana, 1997) e
Empregos: o n´umero de empregos existentes no distrito (Companhia Metro- politana, 1997) .
Para verificar a hip´otese formulada, ajustamos um modelo linear genera- lizado tendo o n´umero de moradores de rua por distrito como vari´avel depen- dente e os demais indicadores como independentes. Assumimos a distribui¸c˜ao de Poisson para a vari´avel dependente e uma fun¸c˜ao de liga¸c˜ao logaritmica. A Tabela 2.3 traz as estimativas do modelo. `A primeira vista, parece que as hip´oteses foram confirmadas, dados os valores das estat´ısticas t1 correspon- dentes a cada estimativa. No entanto, ´e necess´ario checar a adequa¸c˜ao do modelo.
Tabela 2.3: Estimativas dos parˆametros do modelo Efeito Estimativa Erro-padr˜ao t Intercepto 9, 08 10−1 7, 14 10−2 12,71 CV 3, 16 1, 76 10−1 17,91 CH 4, 49 1, 87 10−1 23,97 Fluxo 1, 83 10−1 2, 21 10−2 8,28 RFPC 9, 70 10−4 5, 81 10−5 16,69 Empregos 7, 38 10−6 8, 85 10−7 8,34
O desvio do res´ıduo para esse modelo ´e 1.998,71 com 89 graus de li- berdade, indicando problemas de ajuste. A Figura 2.1 traz os res´ıduos de
1O quadrado dessa estat´ıstica corresponde `a estat´ıstica do teste de Wald para testar se
Pearson e do desvio em fun¸c˜ao do logaritimo do valor previsto2. Note que a
variabilidade dos pontos parece aumentar na medida em que o valor previsto aumenta. Concluindo, o modelo parece n˜ao ser adequado.
ln(Valor ajustado)
2 4 6
Resíduo de Pearson vs ln(Valor ajustado)
ln(Valor ajustado)
2 4 6
Resíduo do desvio vs ln(Valor ajustado)
Figura 2.1: Gr´aficos de res´ıduo para a regress˜ao de Poisson
Para entender melhor a falta de adequa¸c˜ao do modelo, o banco de da- dos foi ordenado segundo a vari´avel CV. Em seguida, a cada 5 observa¸c˜oes ordenadas, calculou-se o n´umero m´edio de moradores de rua e o respectivo desvio-padr˜ao. Caso a distribui¸c˜ao fosse realmente Poisson, ter´ıamos que o desvio-padr˜ao seria, aproximadamente, a raiz quadrada da m´edia. A Figura 2.2 traz esses dados. Note que o o desvio-padr˜ao n˜ao se comporta conforme o esperado, uma vez que os pontos parecem estar dispostos ao redor de uma linha reta. Da´ı os problemas de ajuste. Temos indica¸c˜oes de que a variˆancia depende da m´edia, mas n˜ao da maneira esperada para um modelo de Poisson.