• Nenhum resultado encontrado

Modelos lineares generalizados

No documento Rinaldo Artes. Denise Aparecida Botter (páginas 31-38)

1.5 Equa¸c˜ oes normais

2.1.2 Modelos lineares generalizados

Os modelos lineares generalizados (Paula, 2004 e McCullagh e Nelder, 1989, por exemplo, ) comp˜oem uma teoria geral de regress˜ao para o caso em que a distribui¸c˜ao da vari´avel resposta pertence `a fam´ılia exponencial de distri- bui¸c˜oes ou para o caso em que a fun¸c˜ao densidade de probabilidade ou fun¸c˜ao de probabilidade possa ser escrita na forma (2.1), independentemente de ϕ ser ou n˜ao conhecido.

Para definirmos um modelo linear generalizado, seja yi, i = 1,· · · , n, uma

amostra de vari´aveis aleat´orias independentes, com distribui¸c˜ao na classe da fam´ılia exponencial, com m´edia µi e parˆametro de dispers˜ao ϕ−1. Associado

`

a observa¸c˜ao i, admita a existˆencia de um vetor p-dimensional de covari´aveis fixas, xi. Assuma que

g(µi) = x⊤i β = ηi,

na qual g(·) ´e uma fun¸c˜ao mon´otona e diferenci´avel, denominada fun¸c˜ao de liga¸c˜ao e β ´e um vetor p-dimensional de parˆametros desconhecidos.

A fun¸c˜ao escore de β ´e dada por

un(β) = ϕXHW−1(y− µ), (2.2)

Definindo D= XH, temos que a matriz de informa¸c˜ao de Fisher de β ´e dada por

in(β) = ϕDW−1D.

Apresentamos a seguir alguns modelos lineares generalizados.

Regress˜ao linear m´ultipla: Seja yi ∼ N (µi, σ2). Nesse caso, tomando a

fun¸c˜ao de liga¸c˜ao identidade, temos que µi = x⊤i β, o que corresponde

ao modelo de regress˜ao linear normal.

Regress˜ao log´ıstica: Seja yi uma vari´avel com distribui¸c˜ao Bernoulli de

parˆametro µi. Nesse caso,

g(µi) = log ( µi 1− µi ) .

Modelos log-lineares para dados de contagem: Nesse caso, assuma que yi siga uma distribui¸c˜ao de Poisson de m´edia µi. A fun¸c˜ao de

liga¸c˜ao correspondente ao modelo log-linear ´e g(µi) = log(µi).

Al´em desses exemplos, a teoria dos modelos lineares generalizados inclui uma grande variedade de outros modelos, como, por exemplo, modelos de regress˜ao para vari´aveis positivas e assim´etricas (distribui¸c˜oes gama e normal inversa, por exemplo).

Sob condi¸c˜oes gerais de regularidade, demonstra-se que

n(βˆ− β)→ Np

(

0, ϕ−1J−1) `

a medida em que n tende a infinito, sendo J = lim

n→∞

in(β)

n (ver Sen e Singer,

1993, por exemplo).

Algoritmo de estima¸c˜ao

Exceto em alguns casos espec´ıficos, como, por exemplo, a distribui¸c˜ao normal para liga¸c˜ao identidade, n˜ao h´a uma forma expl´ıcita para os estimadores de

β. As estimativas podem ser obtidas da aplica¸c˜ao de m´etodos iterativos. Um dos m´etodos utilizados ´e o scoring de Fisher, no qual o valor da estimativa de β no passo j + 1 do processo ´e dado por

sendo i(j)

n e u(j)n , respectivamente, a matriz de informa¸c˜ao de Fisher e a fun¸c˜ao

escore avaliadas no ponto β(j). Desenvolvendo (2.3), temos β(j+1) = β(j)+(D(j)TW−1D(j))−1D(j)T(y− µ(j)) =(D(j)TW−1D(j))−1D(j)TD(j)β(j)+(D(j)TW−1D(j))−1D(j)T(y− µ(j)) = ( D(j)TW−1D(j) )−1 D(j)Tz(j),

na qual, z(j) = D(j)β(j) + (y − µ(j)) e o sobre-escrito (j) indica que as

matrizes e vetores s˜ao avaliados no ponto β(j). Trata-se de um procedimento de m´ınimos quadrados reponderados.

Fun¸c˜ao desvio

O logaritmo da fun¸c˜ao de verossimilhan¸ca da m´edia de um modelo linear generalizado ´e dado por

L(µ; y) = ϕ

n

i=1

[yiθ(µi)− b{θ(µi)} + c(yi; ϕ)] . (2.4)

A fun¸c˜ao desvio ´e uma medida de qualidade de ajuste de um modelo linear generalizado constru´ıda a partir de (2.4). Assuma um caso extremo, no qual o modelo prevˆe com exatid˜ao todos os valores da amostra. Nessa situa¸c˜ao, teremos que o logaritmo da fun¸c˜ao de verossimilhan¸ca, avaliado no valor previsto ´e dado por

L(y; y) = ϕ

n

i=1

[yiθ(yi)− b{θ(yi)} + c(yi; ϕ)] . (2.5)

A fun¸c˜ao desvio ´e definida como o dobro da distˆancia entre o logaritmo da fun¸c˜ao de verossimilhan¸ca avaliado na estimativa de m´axima verossimilhan¸ca (ˆθ = θ(ˆµ)) e (2.5). A fun¸c˜ao ´e ent˜ao definida por

D∗(y; ˆµ) = 2{L(y, y) − L(ˆµ; y)} = 2ϕ

ni=1 [ yi { θ(yi)− ˆθ } − b(ˆθ) + b{θ(yi)} ] .

Uma defini¸c˜ao alternativa para a fun¸c˜ao desvio ´e dada por

D(y; ˆµ) = 2 ni=1 [ yi { θ(yi)− ˆθ } − b(ˆθ) + b{θ(yi)} ] .

Tabela 2.1: Fun¸c˜ao desvio para alguns modelos lineares generalizados

Modelo Fun¸c˜ao desvio

Normal ∑ni=1(yi− ˆµi)2

Poisson 2∑ni=1{yilog(yi/ˆµi)− (yi− ˆµi)}

se yi = 0, sua respectiva parcela ´e 2ˆµi

2∑ni=1({yilog(yi/niµˆi)

Binomial +(ni− yi) log{(1 − yi/ni)/(1− ˆµi)}

se yi = 0, sua parcela ´e −2nilog(1− ˆµi)

se yi = ni, sua parcela ´e−2nilog(ˆµi)

Gama 2∑ni=1{− log(yi/ˆµi) + (yi− ˆµi)/ˆµi}, y > 0

Normal inversa ∑ni=1(yi− ˆµi)2/(yiµˆ2i)

Quanto menor o valor de D, melhor ser´a o ajuste do modelo. Paula (2004) calcula a fun¸c˜ao desvio para alguns modelos lineares generalizados. A Tabela 2.1 resume as informa¸c˜oes fornecidas por Paula.

Na Tabela 2.2 s˜ao apresentadas algumas propriedades da fun¸c˜ao desvio. S˜ao apresentadas as condi¸c˜oes sob as quais podemos testar a adeq¨ua¸c˜ao do modelo assumindo uma distribui¸c˜ao qui-quadrado com (n− p) graus de li- berdade para D.

Tabela 2.2: Propriedades assint´oticas da fun¸c˜ao desvio para alguns modelos lineares generalizados

Modelo Propriedade

Normal Se a variˆancia for constante, D∼ σ2χ2

n−p

Poisson D ˜χ2n−p ´a medida em que os µi → ∞

Binomial D ˜χ2

Res´ıduos

Exceto para a distribui¸c˜ao normal, os modelos lineares generalizados tendem a ser heteroced´asticos, uma vez que a variˆancia da vari´avel resposta ´e fun¸c˜ao da m´edia. Dessa forma, seria dif´ıcil avaliar o ajuste do modelo atrav´es do res´ıduo simples ri = yi− µi.

Como Var(yi) = ϕ−1v(µi) = ϕ−1vi, temos que a variˆancia de

rp =

yi− µi

vi

´

e constante para todo i. Desse modo, o res´ıduo de Pearson ´e definido como ˆ rp = yi− ˆµiv(ˆµi) .

Observe que Var(rp) = ϕ−1, desse modo, um estimador de ϕ−1 pode ser

obtido atrav´es de ˆ ϕ−1 = ni=1 ˆ r2 p n− p.

Um outro res´ıduo interessante pode ser obtido a partir das parcelas da fun¸c˜ao desvio. Trata-se do res´ıduo do desvio.

Testes de hip´oteses

A fun¸c˜ao desvio tem um papel importante na constru¸c˜ao de testes de hip´oteses para os modelos lineares generalizaddos. Por exemplo, admita que o vetor de parˆametros β possa ser particionado em β = (β1, β2). Se estivermos interessados em testar H0 : β1 = β

0

1 contra H1 : β1 ̸= β 0

1, o teste da raz˜ao de

verossimilhan¸cas pode ser obtido atrav´es da diferen¸ca entre duas fun¸c˜oes des- vios. Seja ˆµ0 e ˆµ1 as m´edias avaliadas sob, respectivamente, as hip´oteses nula e alternativa. Temos que a estat´ıstica do teste da raz˜ao de verossimilhan¸cas ´

a dada por

TRV = ϕ{D(y, ˆµ0)− D(y, ˆµ1)}.

O teste de Wald ´e outra alternativa para testar as hip´oteses mencionadas. Tal teste tem uma grande importˆancia na teoria das fun¸c˜oes de estima¸c˜ao, uma vez que se baseia na distribui¸c˜ao (assint´otica) do estimador obtido, n˜ao

sendo, ent˜ao, necess´ario conhecer a distribui¸c˜ao de probabildiades geradora dos dados. A estat´ıstica para as hip´oteses acima ´e dada por

WD =(βˆ1− β01)Covˆ −1(βˆ1) (βˆ1− β01). (2.6) Se q ´e a dimens˜ao de β1, temos que TRV e WD convergem, para n ten- dendo a infinito, para uma distribui¸c˜ao qui-quadrado com q graus de liber- dade. Paula(2004) discute e apresenta outros testes de hip´oteses adequados para a an´alise de modelos lineares generalizados.

No caso em que ϕ ´e desconhecido a estat´ıstica Wald pode ser obtida simplesmente substituindo-se ϕ por uma estimativa consistente.

Aplica¸c˜ao

Exemplo 7 Em 2000, foi realizado o primeiro censo de moradores de rua

da cidade de S˜ao Paulo (Schor e Artes, 2001). Naquela pesquisa, 95 dos 96 distritos municipais da cidade foram percorridos, no per´ıodo noturno, por equipes de campo. As pessoas encontradas nas ruas, em terrenos, em moc´os e dormindo em casar˜oes abandonados ou ve´ıculos foram abordadas. Desse contingente, 5013 foram identificados como moradores de rua, sendo que para 4 deles n˜ao se fez o registro do distrito municipal em que se encontravam. Essa pesquisa originou um banco de dados com o n´umero de moradores de rua encontrados em cada distrito.

Ao analisar a distribui¸c˜ao dos moradores de rua no munic´ıpio, constatou- se que havia altas concentra¸c˜oes em algumas regi˜oes e baixas em outras. Para explicar essa diferen¸ca, levantou-se a hip´otese de que os moradores de rua procurariam regi˜oes em que encontrassem condi¸c˜oes satisfat´orias para sua sobrevivˆencia: lixo recicl´avel abundante, alta circula¸c˜ao de pessoas durante o dia e baixa `a noite e ´areas habitadas por fam´ılias com poder aquisitivo mais alto. Para caracterizar regi˜oes com esse perfil, Schor, Artes e Bomfim (2003) propuseram os seguintes indicadores

CV: raz˜ao entre a ´area constru´ıda dos im´oveis verticais para uso comercial e de servi¸cos e o total da ´area constru´ıda no distrito (SEMPLA, 1998);

CH: raz˜ao entre a ´area constru´ıda dos im´oveis horizontais para uso comer- cial e de servi¸cos e o total da ´area constru´ıda no distrito municipal (SEMPLA, 1998);

Fluxo: para medir a circula¸c˜ao de pessoas em cada um dos distritos dispu- nha-se de dados sobre o n´umero de pessoas presentes em cada distrito ao longo de 24 horas, em intervalos de 2 horas e o n´umero de residentes no distrito (Companhia Metropolitana, 1997). A partir desses dados, para cada per´ıodo de duas horas, construiu-se a raz˜ao entre o n´umero de presentes e o n´umero de domiciliados. O indicador de fluxo para cada distrito foi definido como o valor m´aximo dessa raz˜ao;

RFPC: a renda monet´aria das fam´ılias residentes nos distritos foi medida pela renda familiar per capita, em reais (Companhia Metropolitana, 1997) e

Empregos: o n´umero de empregos existentes no distrito (Companhia Metro- politana, 1997) .

Para verificar a hip´otese formulada, ajustamos um modelo linear genera- lizado tendo o n´umero de moradores de rua por distrito como vari´avel depen- dente e os demais indicadores como independentes. Assumimos a distribui¸c˜ao de Poisson para a vari´avel dependente e uma fun¸c˜ao de liga¸c˜ao logaritmica. A Tabela 2.3 traz as estimativas do modelo. `A primeira vista, parece que as hip´oteses foram confirmadas, dados os valores das estat´ısticas t1 correspon- dentes a cada estimativa. No entanto, ´e necess´ario checar a adequa¸c˜ao do modelo.

Tabela 2.3: Estimativas dos parˆametros do modelo Efeito Estimativa Erro-padr˜ao t Intercepto 9, 08 10−1 7, 14 10−2 12,71 CV 3, 16 1, 76 10−1 17,91 CH 4, 49 1, 87 10−1 23,97 Fluxo 1, 83 10−1 2, 21 10−2 8,28 RFPC 9, 70 10−4 5, 81 10−5 16,69 Empregos 7, 38 10−6 8, 85 10−7 8,34

O desvio do res´ıduo para esse modelo ´e 1.998,71 com 89 graus de li- berdade, indicando problemas de ajuste. A Figura 2.1 traz os res´ıduos de

1O quadrado dessa estat´ıstica corresponde `a estat´ıstica do teste de Wald para testar se

Pearson e do desvio em fun¸c˜ao do logaritimo do valor previsto2. Note que a

variabilidade dos pontos parece aumentar na medida em que o valor previsto aumenta. Concluindo, o modelo parece n˜ao ser adequado.

ln(Valor ajustado)

2 4 6

Resíduo de Pearson vs ln(Valor ajustado)

ln(Valor ajustado)

2 4 6

Resíduo do desvio vs ln(Valor ajustado)

Figura 2.1: Gr´aficos de res´ıduo para a regress˜ao de Poisson

Para entender melhor a falta de adequa¸c˜ao do modelo, o banco de da- dos foi ordenado segundo a vari´avel CV. Em seguida, a cada 5 observa¸c˜oes ordenadas, calculou-se o n´umero m´edio de moradores de rua e o respectivo desvio-padr˜ao. Caso a distribui¸c˜ao fosse realmente Poisson, ter´ıamos que o desvio-padr˜ao seria, aproximadamente, a raiz quadrada da m´edia. A Figura 2.2 traz esses dados. Note que o o desvio-padr˜ao n˜ao se comporta conforme o esperado, uma vez que os pontos parecem estar dispostos ao redor de uma linha reta. Da´ı os problemas de ajuste. Temos indica¸c˜oes de que a variˆancia depende da m´edia, mas n˜ao da maneira esperada para um modelo de Poisson.

No documento Rinaldo Artes. Denise Aparecida Botter (páginas 31-38)

Documentos relacionados