Formula¸c˜ ao de modelos - Modelos Lineares Generalizados e

2.5 Metodologia

2.5.1 Formula¸c˜ ao de modelos

A etapa de formula¸cão dos modelos compreende a escolha de op¸cões para a distribui¸cão de probabilidade da variável resposta, variáveis explanatórias (matriz modelo) e fun¸cão de liga¸cão. Essas op¸cões visam a descrever as caracter´ısticas principais da variável resposta.

nar cuidadosamente os dados, principalmente quanto aos seguintes pontos b´asicos: assimetria, natureza cont´ınua ou discreta (por exemplo, contagens) e intervalo de varia¸c˜ao.

As distribui¸cões gama e normal inversa são associadas a dados cont´ınuos assimétricos. Se os dados exibem simetria e o intervalo de varia¸cão é o conjunto dos reais, a distribui¸cão normal deve ser escolhida. Entretanto, se os dados têm intervalo de varia¸c˜ao em (0,∞), a suposi¸cão de normalidade pode ser mais apropriada para alguma transforma¸cão dos dados, por exemplo, a logar´ıtmica. Alternativamente, podem-se supor as distribui¸cões normal inversa e gama, cujos intervalos de varia¸cão são positivos. Quando os dados apresentam coeficientes de varia¸cão constante, o modelo gama deve ser o preferido.

A distribui¸cão de Poisson aplica-se a observa¸cões na forma de contagens, mas pode, também, ser usada na análise de dados cont´ınuos que apresentam variância, aproximadamente, igual à média. Quando a variância dos dados é maior do que a média (ao invés de igual), pode-se trabalhar com as distribui¸cões gama, normal inversa e binomial negativa. Esse fenômeno ´e denominado superdispersão para

distribui¸cões discretas (Hinde e Demétrio, 1998a,b). A escolha entre essas três distribui¸cões pode depender, exclusivamente, da dispersão dos dados. A variância da binomial negativa (V (µ) = µ+µ2/r) pode ser aproximada, para um intervalo razoável de varia¸c˜ao de µ, por V (µ) = λµ, em que a fun¸c˜ao de variância contém um parâmetro multiplicador λ > 1, desconhecido. Portanto, a distribui¸c˜ao de Poisson pode ser em- pregada para análise de dados que apresentam superdispersão, desde que seja obtida uma estimativa para λ. O fenˆomeno de subdispersão, em que a variância dos dados ´

e menor do que a m´edia, pode ser tratado usando-se o modelo de Poisson com λ < 1, mas ´e muito incomum na pr´atica. Nesse caso, o modelo binomial pode ser mais adequado.

A distribui¸cão binomial serve para análise de dados na forma de propor¸cões, podendo ainda ser útil na análise de dados cont´ınuos ou discretos apresentando subdispersão. A superdispersão pode ser analisada usando-se a distribui¸cão binomial

e poss´ıvel, com um parâmetro multiplicador na fun¸cão de variância, porém não é frequente na prática.

A escolha de uma fun¸cão de liga¸cão compat´ıvel com a distribui¸cão proposta para os dados deve resultar de considera¸cões a priori, exame intensivo dos dados, facilidade de interpreta¸cão do modelo e, mais usualmente, uma mistura de tudo isso. No modelo clássico de regressão, a fun¸cão de liga¸cão é a identidade no sentido de que valores esperados e preditores lineares podem ter qualquer valor real. Entretanto, quando os dados estão na forma de contagens e a distribui¸cão é de Poisson, a fun¸cão de liga¸cão identidade, como observado anteriormente, é menos atrativa, pois n˜ao restringe os valores esperados ao intervalo (0,∞). Quando efeitos sistemáticos multiplicativos contribuem para as médias dos dados, uma fun¸cão de liga¸cão logar´ıtmica torna os efeitos aditivos contribuindo para os preditores lineares e, portanto, pode ser a mais apropriada. Analogamente, as fun¸cões de liga¸cão ade- quadas para dados na forma de propor¸cões, devem ser fun¸c˜oes de (0, 1) no conjunto dos reais, como probito, log´ıstica, complemento log-log e arco seno. As fun¸cões de liga¸cão compat´ıveis com os modelos gama, normal inverso e binomial negativo devem restringir as m´edias dos dados ao intervalo (0,∞).

A Tabela 2.7 apresenta a combina¸cão distribui¸cão da variável resposta/fun¸cão de liga¸c˜ao para os casos especiais dos MLG (a), (b), . . . , (l), descritos na Se¸cão 2.1.

Existem fun¸cões de liga¸cão que produzem propriedades estat´ısticas de- sejáveis para o modelo, particularmente, em pequenas amostras. Essas fun¸cões são definidas visando aos seguintes efeitos de forma separada: constância da informa¸cão de Fisher e da curvatura do logaritmo da fun¸cão de verossimilhan¸ca, estat´ısticas su- ficientes de dimensão m´ınima, normaliza¸cão aproximada das estimativas de máxima verossimilhan¸ca dos parâmetros lineares e simetria do logaritmo da fun¸cão de verossimilhan¸ca. Nenhuma fun¸cão de liga¸cão pode produzir todos estes efeitos desejados e, muitas vezes, se existe uma fun¸cão de liga¸cão superior às demais, ela pode conduzir a dificuldades de interpreta¸cão.

Tabela 2.7: Combina¸cão da distribui¸cão da variável resposta e da fun¸cão de liga¸cão para os casos especiais de MLG descritos na Se¸cão 2.1.

Fun¸c˜ao Distribui¸c˜ao

de liga¸c˜ao Normal Poisson Binomial Gama Normal Inversa

Identidade (a) – – (i) –

Logar´ıtmica – (e) – – – Inversa (h) – – (g)(j) – Inversa do quadrado – – – – (l) Log´ıstica – – (d)(f) – – Probito – – (c) – – Complemento log-log – – (b) – –

Observa¸cão: Para os casos (g), (j) e (l) foram escolhidas as fun¸cões de liga¸cão mais usuais (canˆonicas) que correspondem a θ = η.

A terceira escolha na formula¸cão do modelo é a do conjunto de variáveis ex- planatórias para representar a estrutura linear do MLG, ou seja, a forma¸cão da matriz modelo. Em geral, as variáveis explanatórias escolhidas devem ser não- correlacionadas. Os termos da estrutura linear podem ser cont´ınuos, qualitativos e mistos.

Uma variável explanatória quantitativa (covari´avel) x, geralmente, corres- ponde a um único parˆametro β, contribuindo com o termo βx para o modelo, en- quanto uma variável explanat´oria qualitativa A, denominada frequentemente de fa- tor, inclui na estrutura linear um conjunto de parˆametros αi, em que i ´e o ´ındice que

representa os n´ıveis do fator. Assim, na estrutura linear ηi = αi+ βx, representando

grupos distintos de um fator A mais uma covari´avel x, a ordenada varia com o n´ıvel do fator, mas a declividade ´e a mesma. Entretanto, em alguns casos, a declividade deve variar com o n´ıvel do fator e, portanto, o termo βx deve ser substitu´ıdo pelo mais geral βix, produzindo η = αi + βix. O termo βix ´e denominado misto, pois a

fator.

Freqüentemente, as observa¸cões são classificadas por dois ou mais fatores si- multaneamente e, então, termos representando intera¸cões entre os fatores devem ser inclu´ıdos no modelo. Uma covari´avel x pode ser transformada por uma fun¸c˜ao não- linear h(x), sem prejudicar a linearidade do modelo, desde que h(.) n˜ao contenha parâmetros desconhecidos. Assim, a estrutura linear do modelo pode conter po- linˆomios em x. Transforma¸c˜oes simples nas variáveis explanatórias podem implicar num grande aperfei¸coamento do componente sistemático do modelo. O caso de fun¸cões não-lineares das variáveis explanatórias com parâmetros desconhecidos será discutido na Se¸cão 5.7. Em muitas aplica¸cões, a combina¸cão linear das variáveis explanat´orias x1, . . . , xp depende, fortemente, das caracter´ısticas do experimento e

deve propiciar uma contribui¸cão útil na explica¸cão do comportamento da variável resposta associada às observa¸c˜oes y.

Um MLG é considerado como uma boa representa¸cão dos dados se conseguir explicar a rela¸cão variância/média satisfatoriamente, e se produzir efeitos aditivos na escala definida pela fun¸cão de liga¸cão. Um modelo parcimonioso é, também, uma exigência, no sentido de que o número de parâmetros seja tão pequeno quanto poss´ıvel. Por exemplo, se os dados são classificados por dois ou mais fatores, um modelo parcimonioso deve minimizar o número de intera¸cões entre os fatores.

Um ponto fundamental no processo de escolha de um MLG é que não se deve ficar restrito a um único modelo, achando-o mais importante e excluir outros modelos alternativos. É prudente considerar a escolha restrita a um conjunto am- plo de modelos estabelecidos por princ´ıpios como: facilidade de interpreta¸cão, boas previsões anteriores e conhecimento profundo da estrutura dos dados. Algumas caracter´ısticas nos dados podem não ser descobertas, mesmo por um modelo muito bom e, portanto, um conjunto razoável de modelos adequados aumenta a possibilidade de se detectarem essas caracter´ısticas.

No documento Modelos Lineares Generalizados e (páginas 64-69)