• Nenhum resultado encontrado

Formula¸c˜ ao de modelos

No documento Modelos Lineares Generalizados e (páginas 64-69)

2.5 Metodologia

2.5.1 Formula¸c˜ ao de modelos

A etapa de formula¸c˜ao dos modelos compreende a escolha de op¸c˜oes para a distribui¸c˜ao de probabilidade da vari´avel resposta, vari´aveis explanat´orias (ma- triz modelo) e fun¸c˜ao de liga¸c˜ao. Essas op¸c˜oes visam a descrever as caracter´ısticas principais da vari´avel resposta.

nar cuidadosamente os dados, principalmente quanto aos seguintes pontos b´asicos: assimetria, natureza cont´ınua ou discreta (por exemplo, contagens) e intervalo de varia¸c˜ao.

As distribui¸c˜oes gama e normal inversa s˜ao associadas a dados cont´ınuos assim´etricos. Se os dados exibem simetria e o intervalo de varia¸c˜ao ´e o conjunto dos reais, a distribui¸c˜ao normal deve ser escolhida. Entretanto, se os dados tˆem intervalo de varia¸c˜ao em (0,∞), a suposi¸c˜ao de normalidade pode ser mais apropriada para alguma transforma¸c˜ao dos dados, por exemplo, a logar´ıtmica. Alternativamente, podem-se supor as distribui¸c˜oes normal inversa e gama, cujos intervalos de varia¸c˜ao s˜ao positivos. Quando os dados apresentam coeficientes de varia¸c˜ao constante, o modelo gama deve ser o preferido.

A distribui¸c˜ao de Poisson aplica-se a observa¸c˜oes na forma de contagens, mas pode, tamb´em, ser usada na an´alise de dados cont´ınuos que apresentam variˆancia, aproximadamente, igual `a m´edia. Quando a variˆancia dos dados ´e maior do que a m´edia (ao inv´es de igual), pode-se trabalhar com as distribui¸c˜oes gama, normal inversa e binomial negativa. Esse fenˆomeno ´e denominado superdispers˜ao para

distribui¸c˜oes discretas (Hinde e Dem´etrio, 1998a,b). A escolha entre essas trˆes dis- tribui¸c˜oes pode depender, exclusivamente, da dispers˜ao dos dados. A variˆancia da binomial negativa (V (µ) = µ+µ2/r) pode ser aproximada, para um intervalo razo´avel de varia¸c˜ao de µ, por V (µ) = λµ, em que a fun¸c˜ao de variˆancia cont´em um parˆametro multiplicador λ > 1, desconhecido. Portanto, a distribui¸c˜ao de Poisson pode ser em- pregada para an´alise de dados que apresentam superdispers˜ao, desde que seja obtida uma estimativa para λ. O fenˆomeno de subdispers˜ao, em que a variˆancia dos dados ´

e menor do que a m´edia, pode ser tratado usando-se o modelo de Poisson com λ < 1, mas ´e muito incomum na pr´atica. Nesse caso, o modelo binomial pode ser mais adequado.

A distribui¸c˜ao binomial serve para an´alise de dados na forma de propor¸c˜oes, podendo ainda ser ´util na an´alise de dados cont´ınuos ou discretos apresentando subdispers˜ao. A superdispers˜ao pode ser analisada usando-se a distribui¸c˜ao binomial

´

e poss´ıvel, com um parˆametro multiplicador na fun¸c˜ao de variˆancia, por´em n˜ao ´e frequente na pr´atica.

A escolha de uma fun¸c˜ao de liga¸c˜ao compat´ıvel com a distribui¸c˜ao proposta para os dados deve resultar de considera¸c˜oes a priori, exame intensivo dos dados, facilidade de interpreta¸c˜ao do modelo e, mais usualmente, uma mistura de tudo isso. No modelo cl´assico de regress˜ao, a fun¸c˜ao de liga¸c˜ao ´e a identidade no sen- tido de que valores esperados e preditores lineares podem ter qualquer valor real. Entretanto, quando os dados est˜ao na forma de contagens e a distribui¸c˜ao ´e de Poisson, a fun¸c˜ao de liga¸c˜ao identidade, como observado anteriormente, ´e menos atrativa, pois n˜ao restringe os valores esperados ao intervalo (0,∞). Quando efeitos sistem´aticos multiplicativos contribuem para as m´edias dos dados, uma fun¸c˜ao de liga¸c˜ao logar´ıtmica torna os efeitos aditivos contribuindo para os preditores lineares e, portanto, pode ser a mais apropriada. Analogamente, as fun¸c˜oes de liga¸c˜ao ade- quadas para dados na forma de propor¸c˜oes, devem ser fun¸c˜oes de (0, 1) no conjunto dos reais, como probito, log´ıstica, complemento log-log e arco seno. As fun¸c˜oes de liga¸c˜ao compat´ıveis com os modelos gama, normal inverso e binomial negativo devem restringir as m´edias dos dados ao intervalo (0,∞).

A Tabela 2.7 apresenta a combina¸c˜ao distribui¸c˜ao da vari´avel respos- ta/fun¸c˜ao de liga¸c˜ao para os casos especiais dos MLG (a), (b), . . . , (l), descritos na Se¸c˜ao 2.1.

Existem fun¸c˜oes de liga¸c˜ao que produzem propriedades estat´ısticas de- sej´aveis para o modelo, particularmente, em pequenas amostras. Essas fun¸c˜oes s˜ao definidas visando aos seguintes efeitos de forma separada: constˆancia da informa¸c˜ao de Fisher e da curvatura do logaritmo da fun¸c˜ao de verossimilhan¸ca, estat´ısticas su- ficientes de dimens˜ao m´ınima, normaliza¸c˜ao aproximada das estimativas de m´axima verossimilhan¸ca dos parˆametros lineares e simetria do logaritmo da fun¸c˜ao de veros- similhan¸ca. Nenhuma fun¸c˜ao de liga¸c˜ao pode produzir todos estes efeitos desejados e, muitas vezes, se existe uma fun¸c˜ao de liga¸c˜ao superior `as demais, ela pode conduzir a dificuldades de interpreta¸c˜ao.

Tabela 2.7: Combina¸c˜ao da distribui¸c˜ao da vari´avel resposta e da fun¸c˜ao de liga¸c˜ao para os casos especiais de MLG descritos na Se¸c˜ao 2.1.

Fun¸c˜ao Distribui¸c˜ao

de liga¸c˜ao Normal Poisson Binomial Gama Normal Inversa

Identidade (a) – – (i) –

Logar´ıtmica – (e) – – – Inversa (h) – – (g)(j) – Inversa do quadrado – – – – (l) Log´ıstica – – (d)(f) – – Probito – – (c) – – Complemento log-log – – (b) – –

Observa¸c˜ao: Para os casos (g), (j) e (l) foram escolhidas as fun¸c˜oes de liga¸c˜ao mais usuais (canˆonicas) que correspondem a θ = η.

A terceira escolha na formula¸c˜ao do modelo ´e a do conjunto de vari´aveis ex- planat´orias para representar a estrutura linear do MLG, ou seja, a forma¸c˜ao da matriz modelo. Em geral, as vari´aveis explanat´orias escolhidas devem ser n˜ao- correlacionadas. Os termos da estrutura linear podem ser cont´ınuos, qualitativos e mistos.

Uma vari´avel explanat´oria quantitativa (covari´avel) x, geralmente, corres- ponde a um ´unico parˆametro β, contribuindo com o termo βx para o modelo, en- quanto uma vari´avel explanat´oria qualitativa A, denominada frequentemente de fa- tor, inclui na estrutura linear um conjunto de parˆametros αi, em que i ´e o ´ındice que

representa os n´ıveis do fator. Assim, na estrutura linear ηi = αi+ βx, representando

grupos distintos de um fator A mais uma covari´avel x, a ordenada varia com o n´ıvel do fator, mas a declividade ´e a mesma. Entretanto, em alguns casos, a declividade deve variar com o n´ıvel do fator e, portanto, o termo βx deve ser substitu´ıdo pelo mais geral βix, produzindo η = αi + βix. O termo βix ´e denominado misto, pois a

fator.

Freq¨uentemente, as observa¸c˜oes s˜ao classificadas por dois ou mais fatores si- multaneamente e, ent˜ao, termos representando intera¸c˜oes entre os fatores devem ser inclu´ıdos no modelo. Uma covari´avel x pode ser transformada por uma fun¸c˜ao n˜ao- linear h(x), sem prejudicar a linearidade do modelo, desde que h(.) n˜ao contenha parˆametros desconhecidos. Assim, a estrutura linear do modelo pode conter po- linˆomios em x. Transforma¸c˜oes simples nas vari´aveis explanat´orias podem implicar num grande aperfei¸coamento do componente sistem´atico do modelo. O caso de fun¸c˜oes n˜ao-lineares das vari´aveis explanat´orias com parˆametros desconhecidos ser´a discutido na Se¸c˜ao 5.7. Em muitas aplica¸c˜oes, a combina¸c˜ao linear das vari´aveis explanat´orias x1, . . . , xp depende, fortemente, das caracter´ısticas do experimento e

deve propiciar uma contribui¸c˜ao ´util na explica¸c˜ao do comportamento da vari´avel resposta associada `as observa¸c˜oes y.

Um MLG ´e considerado como uma boa representa¸c˜ao dos dados se conseguir explicar a rela¸c˜ao variˆancia/m´edia satisfatoriamente, e se produzir efeitos aditivos na escala definida pela fun¸c˜ao de liga¸c˜ao. Um modelo parcimonioso ´e, tamb´em, uma exigˆencia, no sentido de que o n´umero de parˆametros seja t˜ao pequeno quanto poss´ıvel. Por exemplo, se os dados s˜ao classificados por dois ou mais fatores, um modelo parcimonioso deve minimizar o n´umero de intera¸c˜oes entre os fatores.

Um ponto fundamental no processo de escolha de um MLG ´e que n˜ao se deve ficar restrito a um ´unico modelo, achando-o mais importante e excluir outros modelos alternativos. ´E prudente considerar a escolha restrita a um conjunto am- plo de modelos estabelecidos por princ´ıpios como: facilidade de interpreta¸c˜ao, boas previs˜oes anteriores e conhecimento profundo da estrutura dos dados. Algumas ca- racter´ısticas nos dados podem n˜ao ser descobertas, mesmo por um modelo muito bom e, portanto, um conjunto razo´avel de modelos adequados aumenta a possibilidade de se detectarem essas caracter´ısticas.

No documento Modelos Lineares Generalizados e (páginas 64-69)

Documentos relacionados