• Nenhum resultado encontrado

COMPARAÇÃO ENTRE TESTES PARA SUPERDISPERSÃO EM DADOS BINÁRIOS

N/A
N/A
Protected

Academic year: 2021

Share "COMPARAÇÃO ENTRE TESTES PARA SUPERDISPERSÃO EM DADOS BINÁRIOS"

Copied!
16
0
0

Texto

(1)

COMPARAÇÃO ENTRE TESTES PARA

SUPERDISPERSÃO EM DADOS BINÁRIOS

Tânia Fernandes BOGUTCHI1 Enrico Antônio COLOSIMO2 Joel Alves LAMOUNIER3

RESUMO:

Modelos lineares generalizados para resposta binária ou contagem exigem que a

variância seja uma função conhecida da média. Entretanto, este tipo de dados é freqüentemente mais heterogêneo que a variância especificada pelo modelo. Este fato é conhecido como superdispersão a qual pode ser acomodada introduzindo um coeficiente extra, fixo ou aleatório, no modelo ou usar o método de quase-verossimilhança que abranda a relação média-variância permitindo o inflacionamento da variância. O objetivo deste trabalho é apresentar e comparar alguns testes propostos na literatura para identificar superdispersão em dados com resposta binomial. Os testes selecionados foram os apresentados por Ganio e Schafer (1992), Dean (1992) e Smith e Heitjan (1993) além do tradicional qui-quadrado de Pearson. Esse trabalho é ilustrado com os dados reais referentes ao II Estudo Epidemiológico em Saúde Escolar em Belo Horizonte – MG. A variável resposta utilizada neste estudo foi o nível de colesterol total, no qual foi considerado como risco grave os valores baixos para o desenvolvimento de doenças cardiovasculares.

PALAVRAS-CHAVE: Modelo logístico; testes; variação extra-binomial.

1

Introdução

Nelder e Wedderburn (1972) mostraram que a maioria dos problemas estatísticos podem ser formulados como modelos de regressão envolvendo uma variável resposta univariada, variáveis explanatórias (covariáveis) e uma amostra aleatória de n observações.

Um Modelo Linear Generalizado (MLG), (McCullagh e Nelder, 1989), é composto

por três elementos: (1) Componente aleatório: Y (variável resposta); (2) Componente determinístico: η= Xtβ (preditor linear) e (3) Função de ligação: g(µ) = η, em que X é a

matriz n x p do planejamento, β é o vetor p-dimensional de parâmetros e µ = E(Y). Os métodos de estimação nos modelos lineares generalizados baseiam-se fundamentalmente na teoria da máxima verossimilhança (MV). Se não for possível

1Departamento de Matemática e Estatística, Pontitícia Universidade Católica de Minas Gerais - PUC, CEP

30535-610, Belo Horizonte, MG, Brasil, E-mail: bogutchi@pucminas.br

2Departamento de Estatística, Universidade Federal de Minas Gerais - UFMG, CEP 31270-901, Belo

Horizonte, MG, Brasil, E-mail: enricoc@est.ufmg.br

3Faculdade de Medicina, Universidade Federal de Minas Gerais - FMG, CEP 30130-100 , Belo Horizonte,

(2)

especificar uma função de verossimilhança, ou seja, uma distribuição de probabilidade explícita e completa para a variável resposta, uma aproximação possível é a construção de uma função de quase-verossimilhança (QV) ou quase-verossimilhança estendida (QVE) (McCullagh e Nelder, 1989).

A partir da teoria assintótica do estimador de máxima verossimilhança, existem três estatísticas para testar hipóteses relativas aos parâmetros β’s: a da Razão de Máxima

Verossimilhança, a de Wald e a Escore (Demétrio, 2001). Nesse trabalho vamos utilizar especialmente a estatística escore que tem a seguinte forma:

β β β − = , em que θ ∂ ∂

= é chamado de função escore, onde é a função log-verossimilhança, e I é a matriz de informação de Fisher.

A estatística escore, S, tem, para grandes amostras, uma distribuição qui-quadrado com p graus de liberdade.

Existem técnicas conhecidas, e amplamente divulgadas, de tratamento para dados cuja variável resposta assume apenas dois valores possíveis, binária ou dicotômica, sob a suposição de independência entre as observações. Uma técnica de utilização bastante comum, por sua facilidade de interpretação, é a regressão logística linear que permite incorporar variáveis explicativas na modelagem dos dados.

O modelo logístico é um caso particular de MLG, cuja média não-linear, num conjunto de parâmetros lineares, é linearizada pela função de ligação logit que tem a seguinte forma, β π π π π = = = i i -1 ) ( logit ,

em que xi é um vetor p x 1 de covariáveis referente a i-ésima observação, yi é a i-ésima

resposta observada e πi = P[Yi=1|Xi]. A média é ligada ao preditor linear, β, pela

função g(.). A função de ligação logística, canônica, é uma das três principais funções de ligação dos Modelos Lineares Generalizados para resposta binária. As outras duas são:

Probit (η =Φ− π ), onde Φ(.) é a função de distribuição acumulada da Normal

padronizada, e a Complementar log-log (η =

{

(

−π

)

}

.

O termo superdispersão quer dizer que a variância da resposta observada Y excede a variância nominal estabelecida pelo modelo, conforme foi definido por Hinde e Demétrio (1998).

A superdispersão acarreta desvios-padrão incorretos, podendo estar seriamente subestimados; alterações na deviance, associadas com os termos do modelo, muito grandes as quais acarretariam a seleção de modelos excessivamente complexos, com interpretações incorretas e algumas predições imprecisas.

Reconhecer dados com superdispersão é primordial para que sejam tomadas precauções e medidas capazes de garantir uma estimação com menor margem de erro, ou seja, com maior segurança.

(3)

Os testes apresentados por Ganio e Schafer (1992), Dean (1992) e Smith e Heitjan (1993), além dos tradicionais como o qui-quadrado de Pearson, têm como objetivo identificar superdispersão em respostas binárias. Estes testes têm formulações diferentes e as características próprias de cada um podem, eventualmente, apresentar resultados diferentes.

Os testes estão apresentados na seção 2 e são comparados, via simulação de Monte Carlo, na seção 3. A seção 4 apresenta a aplicação desses testes em dois exemplos: um utilizando os dados de McCullagh e Nelder (1989, pág.145) e o outro, os dados de um estudo realizado em Belo Horizonte, MG, no ano 2000.

2

Testes para superdispersão

Na literatura encontramos vários testes para identificar ausência de superdispersão em Modelos Lineares Generalizados tais como os apresentados por Ganio e Schafer (1992), Dean (1992), Smith e Heitjan (1993), os quais estão sendo comparados nesse trabalho, além dos propostos por Commenges et al. (1994), Jacqmin-Gadda e Commenges (1995), Paula e Artes (2000). Além destes, são citadas muitas variações e generalizações dos testes apresentados por estes autores. Por exemplo, o teste escore proposto por Dean, em 1992, é um caso particular do apresentado por Commenges et al, em 1994, o qual verifica a presença de superdispersão em dados binários com variáveis explicativas, fatores de riscos, no desenvolvimento de uma determinada doença, para diferentes agrupamentos de uma população.

Os testes, discutidos neste trabalho, utilizam os Modelos Lineares Generalizados como plataforma, mas com diferentes especificações nas funções de variância.

2.1 DEAN (1992)

O modelo proposto por Dean (1992) supõe Y1, Y2, ...,Yn variáveis respostas

independentes provenientes da família exponencial uniparamétrica com a notação:

θi=θi(xi,βi), i=1,...,n, função de um vetor px1 de covariáveis e parâmetros de regressão βi ,

a média, =µ

( )

θ , e a variância de Yi , σ θ .

Para testar se o Modelo Linear Generalizado é adequado, constrói-se uma família estendida de modelos considerando superdispersão, ou seja, onde a ≥σ , sendo que a igualdade ocorre apenas quando a distribuição de Yi é da família exponencial.

Para tanto, seja f(Yi |θ∗), a densidade de Yi dado θ∗, onde os θ∗’s são variáveis

aleatórias independentes e contínuas com média e variância finitas dadas por: E(θ∗) = θi (xi , βi ) e Var (θ∗) = τ bi (θi) > 0, em que b(.) é uma função conhecida.

Supondo que, E{(θ∗- θi)r} = αr ; αr = o(τ), r 3, quando τ→ 0, este modelo

reduz-se a f(Yi; θi) , função de densidade de Yi, componente aleatório do MLG, resultado obtido através do valor esperado da expansão em série de Taylor em torno de θi de θ ,

e das suposições das condições de regularidade da teoria da máxima verossimilhança (Dean,1992).

(4)

O teste escore para testar a hipótese ττττ = 0, isto é, o modelo linear generalizado é adequado, é baseado em = = =

=

n 1 i 0 1

ˆ

)

(

T

i i n i i τ

τ

,

em que θ é a estimativa de máxima verossimilhança de θi quando τ=0 e

( )

{

(

)

2

ˆ

2

}

2

1

i i i i i

Y

T

θ

=

µ

σ

,

em que µi (.) e σ (.) são funções dependentes de θi e Ti possui distribuição

assintoticamente normal com média zero e variância V2, que será apresentada a seguir.

A variância assintótica de Ti é obtida através dos elementos da matriz de informação

de Fisher e dos quatros primeiros momentos centrais de Yi, avaliados em τ=0 e é dada

por:

V

2

=I

τ

- 1

t

W

2

U(U

t

W

1

U)

-1

U

t

W

2

1,

em que Iτ é uma partição da matriz de informação de Fisher, pxp; 1 é um vetor unitário,

nx1, W1 e W2 são as matrizes diagonais com i-ésimo elemento dado por

= ∂ ∂ − = τ θ , = ∂ ∂ ∂ − = τ τ θ e U é a função escore (∂θ/∂β), nxp.

O teste estatístico padronizado para testar se τ=0 é dado por:

=

=

θ

,

que sob H0 tem uma distribuição N(0,1).

2.2 SMITH E HEITJAN (1993)

Supondo que a relação entre a média µi do componente aleatório e o vetor de p

covariáveis seja conforme as definições do MLG e considerando um vetorβ de efeitos aleatórios provenientes de uma distribuição desconhecida F, cuja média é o vetor de parâmetros estimados β e ξ a matriz diagonal da variância, de ordem p. Seja g(.) uma

função de ligação, monótona e derivável de ordem 2, temos, então, o modelo de superdispersão,

= =

= µ β

η .

Se ξj = 0 para j=1,..,p, então o modelo assim definido corresponde ao modelo linear

generalizado (sem superdispersão). Se ξj > 0, a variância de Y é aumentada devido à

(5)

Para a determinação da estatística do teste de Smith e Heitjan (1993), será utilizado

β=(β1, ..., βp)t no modelo de superdispersão acima. A contribuição da i-ésima observação

para a função de verossimilhança é:

∞ ∞ − = =# " " ! " $ # β τ β τ β β β τ .

Dessa maneira, a estatística escore pode ser obtida a partir da expansão de

" β em série de Taylor até a segunda ordem em relação à média β. Usando as regras de L’Hôspital e supondo as condições de regularidade que permitem a inversão da ordem de integração e diferenciação (Cramér, 1946), a estatística escore para testar a hipótese ξj=0 é: = ∂ ∂ = % % τ # " β = = ∂ ∂ − − ∂ ∂ % % & " ' & " ' β β β β ,

com j=1,..., p e β avaliado na estimativa de máxima verossimilhança sob a hipótese nula (ξ=0).

Na expressão obtida acima para a estatística Uj. temos que,

% % ( ) " = − ∂ ∂ η µ β β e % % % % ( ( ) ) " + + − = ∂ ∂ µ θ η µ η µ η µ β β

,

em que xij é o j-ésimo elemento de xi com si = yi - µi , θi é o parâmetro canônico, µi e vi

são, respectivamente, a média e a variância de Yi (Hines,1997).

Dessa maneira, o teste escore proposto é = *ξ− , em que

βξ ββ βξ ξξ ξ

* = − − é a matriz de covariância de U corrigida pela estimação de β

com = ∂ ∂ ∂ ∂ = ξ ξ ξξ , = ∂ ∂ ∂ ∂ = ξ β βξ e =

=

n i t i i 1

I

β

β

ββ em que os escores ξ ∂ ∂ e β ∂ ∂

e suas esperanças são calculados em ξ = com β

substituído por sua estimativa de máxima verossimilhança sob a hipótese nula (ξ = ). Quando H0 é verdadeira, a distribuição assintótica de S2 é uma qui-quadrado com p graus de liberdade. Se a estatística S2 for relativamente grande em relação aos seus graus

(6)

composição da estatística S2 não fornece indicação da natureza desse afastamento e para

uma investigação mais específica pode-se tomar

C

τ

=

{ }

C

ij e usar a estatística:

# % *%% % % = = τ ,

que sob a hipótese nula tem distribuição aproximadamente N(0,1), e na presença de superdispersão possui média positiva .

2.3 Qui-quadrado de PEARSON

McCullagh e Nelder (1989) utilizam a estatística de Pearson,

= − = " " + µ ,

como teste para superdispersão, em que µ e são estimativas amostrais da média e da variância respectivamente. Sob a hipótese nula, modelo sem superdispersão, X2 têm

distribuição qui-quadrado com n-p graus de liberdade.

2.4 GANIO e SCHAFER (1992)

A função de distribuição da família exponencial uniparamétrica mais comumente utilizada é " " θ φ =$ # "θ−-φ θ +, " φ

,

com

. φ

φ = . Por outro lado, se for utilizada a relação, /

φ

φ = , chega-se à notação função de densidade da família exponencial, " " θ φ/ =$ #

{

φ/ 0"θ−- θ +, " φ/

}

,

utilizada por

Cordeiro (1986), em que c1(.) é conhecida.

Ganio e Schafer (1992) utilizam a mesma notação de Cordeiro (1986) e, dessa maneira, a variância do teste proposto é especificada por

φ µ

= , com

1 γ

φ = , γ =λ+2, onde V(.) é uma função positiva conhecida, os a

i’s são

constantes conhecidas, h(.) é uma função positiva diferenciável de ordem 2, λ é um parâmetro escalar, zi é um vetor qx1 de covariáveis que são tomadas como centradas, ou seja, 2 = e α é o vetor qx1 de parâmetros desconhecidos.

O teste de superdispersão é aplicado nos parâmetros α’s, ou seja, sob a hipótese

nula:4 3α = e, se essa hipótese for verdadeira, então φi é um parâmetro de dispersão

constante e temos o modelo linear generalizado, isto é, sem superdispersão.

O método de estimação utiliza a suposição de Y pertencer à família exponencial dupla, que permite um parâmetro de escala adicional, φ, na variância (Efron, 1986) e o

(7)

logaritmo da função quase-verossimilhança estendida, para essa família, é

(

µ φ "

)

=

( )

[

φ −φ 5 " µ

]

, em que 5

(

" µ

)

, componente da

Deviance Residual, é obtido por

[

(

(

" −µ

)

]

[

5

(

" µ

)

]

, com base na família exponencial uniparamétrica, tendo exatamente uma distribuição 6

(

φ−

)

.

No caso da distribuição binomial, com índice mi, a escolha de 5 =5

(

" µ

)

, em

que

(

)

= +

(

)

(

(

)

)

7 " 7 " 7 " " " 5 µ µ µ ,

faz de

(

µ φ "

)

o logaritmo da função de verossimilhança para a distribuição binomial dupla (Efron,1986).

As estimativas de µ e φ que maximizam

(

µ φ "

)

podem ser obtidas iterativamente: a cada iteração os parâmetros da média são estimados por máxima quase-verossimilhança com vetor de pesos φ, e então os parâmetros estimados em φ são atualizados pela maximização de

(

µ φ "

)

. O último estágio é acompanhado pelo ajuste de um modelo linear generalizado para 5

(

" µ

)

, supondo Yi com distribuição gama.

O teste escore proposto é: 5 =

( )

552

(

2 2/

)

5 2/ , em que

" 5

5 = µ é o i-ésimo componente da estatística deviance para o ajuste do modelo reduzido e 5 = 5 é a média dos n 5 ’s. Sob a hipótese nula, DS tem uma distribuição qui-quadrado com q graus de liberdade caso o modelo da família exponencial dupla esteja correto. Observa-se que a estatística do teste é independente da forma de h(.) e que DS é a soma de quadrados devido à regressão linear de 5em z, padronizado por

( )

5 − .

Ganio e Schafer (1992) também propuseram mais outros três testes para identificar superdispersão no modelo especificado para a variância: Razão de verossimilhança; Razão de pseudo-verossimilhança e Escore da pseudo-verossimilhança, onde os componentes da Deviance residual são substituídos pela estatística de Pearson.

3

Simulações de Monte Carlo

As simulações de Monte Carlo para comparar os testes da Dean (1992), Smith e Heitjan (1993), Pearson e o da Ganio e Schafer (1992), consistiram de 1.000 repetições e foram geradas no software Splus-2000. As simulações foram feitas em dados com e sem superdispersão e o número de repetições foi uma escolha arbitrária.

(8)

3.1 Simulação em dados sem superdispersão

Os passos para a simulação foram os seguintes: (1) geração da covariável X, N(0,1) ou Bernoulli (1/2), com tamanhos de amostra, n= 10, 20, 40, 60, 80 e 100; (2) considerando β0=0 e β1=1, foram calculadas as probabilidades de sucesso,

$ # $ # #

+

= ; (3) considerando valores fixos para m (10, 20, 40 e 60) foram geradas as variáveis Y~Bin(m,p), para os vários valores de n; (4) foram ajustados os modelos utilizando o comando glim do Splus para obtenção das estimações dos β’s e das probabilidades de sucesso; (5) realização dos testes.

Os passos (3) a (5) foram repetidos 1000 vezes e os resultados dos testes, considerando o nível nominal de 5%, foram computados. As representações gráficas, desses resultados considerando a covariável X~N(0,1) e X~Bernoulli(1/2), são apresentadas nas Figuras 1 e 2 (a), (b), (c) e (d), respectivamente.

Y~B(10,p) 0% 2% 4% 6% 8% 10% 12% 14% 16% N=20 N=40 N=60 N=80 N=100 Tamanho da amostra P er ce nt ua l d e re je ão d e H o

Smith Dean Pearson Ganio

Y~B(20,p) 0% 2% 4% 6% 8% 10% N=20 N=40 N=60 N=80 N=100 Tamanho da amostra P er ce nt ua l d e re je ão d e H o

Smith Dean Pearson Ganio

(a) (b)

Y~B(40,p) 0% 2% 4% 6% 8% 10% 12% N=20 N=40 N=60 N=80 N=100 Tamanho da amostra P er ce nt ua l d e re je ão d e H o

Smith Dean Pearson Ganio

Y~B(60,p) 0% 2% 4% 6% 8% 10% 12% N=20 N=40 N=60 N=80 N=100 Tamanho da amostra P er ce nt ua l d e re je ão d e H o

Smith Dean Pearson Ganio

(c) (d)

FIGURA 1 - (a) m=10; (b) m=20; (c) m=40 e (d) m=60: Comparação entre os testes considerando dados sem superdispersão e covariável com distribuição normal padronizada.

(9)

Y~B(10,p) 0% 2% 4% 6% 8% N=20 N=40 N=60 N=80 N=100 Tamanho da amostra P er ce nt ua l d e re je ão d e H o

Smith Dean Pearson Ganio

Y~B(20,p) 0% 2% 4% 6% 8% N=20 N=40 N=60 N=80 N=100 Tamanho da amostra P er ce nt ua l de r ej ei çã o d e H o

Smith Dean Pearson Ganio

(a) (b) Y~B(40,p) 0% 2% 4% 6% 8% N=20 N=40 N=60 N=80 N=100 Tamanho da amostra P e rc en tu a l d e r e je ão d e H o

Smith Dean Pearson Ganio

Y~B(60,p) 0% 2% 4% 6% 8% N=20 N=40 N=60 N=80 N=100 Tamanho da amostra P er ce nt ua l d e re je ão d e H o

Smith Dean Pearson Ganio

(c) (d)

FIGURA 2 - (a) m=10; (b) m=20; (c) m=40 e (d) m=60: Comparação entre os testes considerando dados sem superdispersão e covariável com distribuição Bernoulli(1/2).

Algumas considerações a partir dos resultados apresentados nas Figuras 1 e 2: (a) o teste da Ganio e Schafer (1992) apresentou muita instabilidade de cálculo para m=10 nos dois tipos de distribuição da covariável; (b) o teste da Dean (1992), Ganio e Schafer (1992) e o de Pearson são melhores que o de Smith e Heitjan (1993), principalmente no caso da covariável com distribuição N(0,1), pois os níveis empíricos desses testes ficaram mais próximos do nominal; (c) com o aumento no tamanho da amostra os testes tendem a se aproximar do valor nominal; (d) nos casos da covariável com distribuição de Bernoulli e tamanho da amostra igual a 10, os testes não convergiram para o valor nominal em nenhum dos dois valores de m (10 ou 20) e para a covariável com distribuição normal padronizada, os testes não apresentaram diferenças relevantes, entre si, para esses dois valores de m; (e) considerando apenas o teste de Smith e Heitjan (1993) os melhores resultados, isto é, mais próximos do valor nominal, foram obtidos com a utilização da covariável de Bernoulli em relação à Normal.

3.2 Simulação em dados com superdispersão

Os passos para essa simulação foram os seguintes: (1) geração das covariáveis:

X1~Bernoulli(1/2) e X2~Bernoulli(1/2), com tamanhos da amostra, n= 40, 60, 80 e 100; (2)

(10)

$ # $ # # β β +

= ; (3) considerando valores fixos para m (40 e 60) foram geradas as

variáveis Y~Bin(m,p), para os vários valores de n; (4) foram ajustados os modelos considerando apenas a covariável X1, utilizando o comando glim do Splus para obtenção

das estimações dos β’s e das probabilidades de sucesso; (5) realização dos testes.

Os passos (3) a (5) foram repetidos 1000 vezes e os resultados dos testes, considerando a rejeição da hipótese nula, foram computados.

Para a geração de Y superdisperso foram testados vários valores para β2, sendo

inicializado com o valor 5, o qual gerou uma superdispersão muito alta e conseqüentemente todos os testes apresentaram 100% de rejeição da hipótese nula. Após algumas tentativas optou-se pelo valor 3.

As Figuras 3 (a) e (b) apresentam os resultados dessa simulação para os testes Dean, Smith e Heitjan e Pearson.

Y~B(40,p) 20 30 40 50 60 70 80 90 100 110 N=40 N=60 N=80 N=100 Tamanho da amostra P er ce nt ua l de r ej ei çã o de H o

Smith Dean Pearson

Y~B(60,p) 20 30 40 50 60 70 80 90 100 110 N=40 N=60 N=80 N=100 Tamanho da amostra P er ce n tu al d e re je ão d e H o

Smith Dean Pearson

(a) (b)

FIGURA 3 - Comparação entre os testes considerando Y superdisperso considerando (a) m=40; (b) m=60.

Observando as Figuras 3 (a) e (b) pode-se concluir que: (a) o teste de Smith e Heitjan (1993) apresenta os piores resultados para o poder em todos os tamanhos de amostra; (b) o poder de todos os testes aumenta com o crescimento do tamanho da amostra; (c) os testes da Dean (1992) e o de Pearson apresentam resultados mais estáveis principalmente para o valor de m = 60.

Comparando os resultados apresentados nos pares de Figuras, (2 (c) e 3 (a)) e (2 (d) e 3 (b)), verifica-se que os testes são consistentes em seus resultados, ou seja, os melhores na detecção da superdispersão também são os que apresentam níveis empíricos mais próximos dos valores nominais.

4

Aplicações dos testes

Os testes, estudados neste trabalho, serão aplicados em dois conjuntos de dados com o objetivo de observar a consistência e robustez em situações diversificadas. A primeira aplicação utilizará os dados da Tabela 4.10, página 145 do livro de McCullagh e Nelder

(11)

(1989), com as informações de um estudo sobre hereditariedade que considera o número de filhos com olhos claros em 78 famílias, com no mínimo 6 filhos cada, em relação à cor dos olhos dos pais e dos avós. No processo de modelagem o teste da razão de verossimilhança mostrou que a contribuição dos avós não era significativa, dessa maneira será considerada somente a contribuição da cor dos olhos dos pais. A segunda aplicação será no conjunto de dados do II Estudo Epidemiológico em Saúde Escolar em Belo Horizonte, MG, realizado em 2000, onde buscou-se verificar a influência de algumas covariáveis explicativas para o nível do colesterol total considerado como fator de risco para o desenvolvimento de doenças cardiovasculares.

4.1 Aplicação 1: Tabela 4.10, pág. 145 – McCullagh e Nelder (1989)

Foram criadas as variáveis indicadoras das combinações possíveis para as cores dos olhos dos pais, segundo as classificações fornecidas, L (light), H (hazel) e D (dark). Dessa maneira, para a cor dos olhos dos pais foi obtido um fator em 6 níveis, em que, por exemplo, LL indica olhos claros do pai e da mãe. Por simplicidade, será chamado de P o conjunto das variáveis indicadoras da cor dos olhos dos pais.

O ajuste dos dados, com a covariável P, pelo MLG no software Glim-4, apresentou

deviance de 119,10 e 72 graus de liberdade residual. O valor da deviance é maior que os

graus de liberdade do resíduo indicando uma provável superdispersão ou um ajuste inadequado do modelo devido, entre outras causas, à presença de “outliers” (Hinde e Demétrio, 1998).

Utilizando a técnica gráfica do envelope Half-normal plot desenvolvido por Hinde e Demétrio (1998) para o modelo ajustado no Glim-4, observa-se, na Figura 4, a existência de duas observações discrepantes e a indicação de ocorrência de uma leve superdispersão para a covariável P, fato esse, também observado em Paula e Artes (2000).

Os pontos soltos (outliers) são referentes às famílias números 18 e 47. Após a retirada dessas duas observações do conjunto de dados, o novo modelo ajustado apresentou uma deviance de 72,22 e 70 graus de liberdade do resíduo e o Half-normal

plot indicou adequação do modelo.

A Tabela 1 apresenta os resultados da aplicação dos testes para diagnóstico de superdispersão, nesse conjunto de dados, considerando o nível nominal de 5%.

Tabela 1- Resultados dos testes para superdispersão no modelo univariado, covariável P, nos dados do exemplo de McCullagh e Nelder (1989)

Teste aplicado Valor obtido Distribuição Pvalor superdispersão Indicação de

Deviance 119,10

χ

com 72 gl - Sim

Pearson 141,1528

χ

com 72 gl 0,0000 Sim

Smith e Heitjan 3,113483

χ

com 6 gl 0,7945 Não

Ganio e Schafer 0,6582123

χ

com 1 gl 0,4172 Não

(12)

FIGURA 4 - Envelope Half-normal plot no modelo do McCullagh e Nelder (1989), com a covariável P: cor dos olhos dos pais.

O único teste que indicou superdispersão foi o de Pearson. Os outros não foram influenciados pela presença dos outliers desse exemplo.

4.2 Aplicação 2: II Estudo Epidemiológico em Minas Gerais (2000)

Os dados reais utilizados nesse trabalho foram obtidos no II Estudo Epidemiológico em Saúde Escolar em Belo Horizonte – MG4 e a variável resposta utilizada foi a proporção do nível de colesterol total considerado como risco grave para o desenvolvimento de doenças cardiovasculares na idade adulta. Os pontos de corte, para esse risco, são os valores acima do percentil 90 fornecidos pelo Lipid Research Clinics –

Prevalence Study (LRC) considerando a idade, o gênero e a raça para a população

norte-americana.

Foram aplicados os testes propostos para a verificação da ocorrência, ou não, de superdispersão para se ter garantia no uso da técnica de análise por regressão logística. Foi feito o ajustamento do modelo linear generalizado com função de ligação logit da família binomial no Splus-2000 e as covariáveis que foram significativas, na modelagem final,

4 Resultados apresentados na dissertação de mestrado em Pediatria da Faculdade de Medicina da UFMG de Robespierre Q.R. Costa com orientação do Prof. Dr. Joel A. Lamounier.

(13)

foram a raça, a classificação econômica, o sexo e o sobrepeso/obesidade cujas codificações encontram-se na Tabela 2.

Tabela 2 - Variáveis para o estudo das dislipidemias

Variável Codificação

Resposta: (LRC90) RISCO GRAVE

(Colesterol total acima do percentil 90 (LRC)) 1 = Sim; 0 = Não

NEGROS (Raça) 1 = Negra; 0 = Não negra

TIPOCSE (Classificação econômica) 1 = A1 a B2; 0 = C a E

SEXO (Gênero) 1 = Feminino; 0 = Masculino

IMC85 (IMC acima do percentil 85 do Rosner) 1 = Com sobrepeso ou obeso; 0 = Normal

A variável resposta é binária e representa o nível de colesterol total considerado como risco grave para o desenvolvimento de doenças cardiovasculares em relação ao número obtido em cada configuração possível. A prevalência do nível de colesterol total considerado como risco grave foi de 12,0% (160/1331).

Os alunos amostrados foram categorizados em três níveis por raça: branca, morena e negra. Através da modelagem por regressão logística foi verificado que o efeito da raça morena era o mesmo da raça branca. Esse fato motivou o agrupamento da raça branca e morena numa única categoria, surgindo então a covariável “negros”, indicadora da raça negra e com participação de 15% na amostra. A classificação econômica foi obtida através do critério de classificação econômica da ABA/ABIPEME/ANEP de 1997, que pode ser obtido através do site: http://www.anep.org.br . As classes econômicas foram agrupadas de “A1 à B2” e de “C à E”, pelo método análogo ao do agrupamento efetuado na raça, sendo a covariável “tipocse” a indicadora da classe “A1 à B2” com 43,3% de participação na amostra. A covariável “sexo” é indicadora do gênero feminino e representa 53,3% da amostra. A covariável “imc85” é a indicadora do sobrepeso/obesidade. Para a indicação de sobrepeso/obesidade considera-se o valor do índice de massa corporal, IMC, que é uma relação entre o peso, em kg, e o quadrado da altura, em metros, comparado ao valor tabelado para o percentil 85. Os valores acima do percentil 95 são considerados como obesidade. Os pontos de corte foram obtidos na tabela de Rosner (1998), considerando a população norte americana. Nessa amostra, 11,5% dos alunos foram considerados com sobrepeso/obesidade, sendo de 3,1% o percentual dos obesos.

Ajustando o MLG no software Glim-4, ou com função de ligação logit da família binomial no Splus-2000, o valor da deviance residual foi de 23,964 e 11 graus de liberdade sendo, essa, indicação de uma possível existência de superdispersão.

A Figura 5 mostra que o envelope do Half-normal plot (Hinde e Demétrio, 1998), indica ocorrência de uma leve superdispersão.

(14)

FIGURA 5 - Envelope Half-normal plot no modelo do II Estudo Epidemiológico (2000) para a variável resposta, Colesterol total.

A Tabela 3 apresenta os resultados dos testes aplicados nos dados do colesterol total, considerando a variável resposta como risco grave ao desenvolvimento de doenças coronarianas. Os testes são consistentes em concluir pela ausência de superdispersão. Tabela 3 - Resultados dos testes para superdispersão no modelo multivariado ajustado

para os dados do colesterol total do II Estudo Epidemiológico em 2000 Teste aplicado Valor obtido Distribuição Pvalor superdispersão Indicação de

Pearson 27,14729

χ

com 12 gl 0,0074 Sim

Smith e Heitjan 6,230571

χ

com 4 gl 0,1826 Não

Ganio e Schafer 0,1990

χ

com 1 gl 0,6555 Não

(15)

5

Considerações finais

Dentre os testes propostos e comparados nesse trabalho, o da Dean (1992) parece ser o melhor, considerando as características exploradas nessa simulação. Apesar de ser o mais antigo dentre eles, o teste de Pearson mostrou-se extremamente poderoso e adequado o suficiente para continuar sendo utilizado, conforme indicação de McCullagh e Nelder (1989).

O teste da Ganio e Schafer (1992) apresenta um formato aparentemente simples, mas a sua aplicação nos dados gerados não convergiu em algumas das situações simuladas devido ao tipo de parametrização utilizada nos demais testes.

O teste proposto por Smith e Heitjan (1993) apresentou duas grandes dificuldades em sua implementação. Primeiramente, o cálculo do teste escore apresentava erros nos elementos da matriz como função dos quatro primeiros momentos centrais relacionados com os cumulantes de Y e necessitou de um longo tempo despendido para correção desses cálculos que envolviam complexas derivadas da função de verossimilhança. A segunda dificuldade, neste teste, é sua sensibilidade à codificação das covariáveis categóricas e à sua distribuição.

BOGUTCHI, T., F.; COLOSIMO, E. A.; LAMOUNIER, J. A. Overdispersion tests for binary data. Rev. Mat. Est., São Paulo, v.23, n.3, p.55-70, 2005.

ABSTRACT:

Generalized linear models for binary and counting response require that variance be a function of the mean. However, a greater variance than the one specified by the model is not uncommon observed. This fact is known as overdispersion and can be solved by adding an extra term, fixed or random, to the model or by using quasi-likelihood methods. The aim of this study was to compare some overdispersion tests proposed in the literature. The selected tests are those presented by Ganio e Schafer (1992), Dean (1992) and Smith e Heitjan (1993), in addition to the well-known Pearson´s chi-square teste. This study used a data set from the II Epidemiological Study of Health School in Belo Horizonte - MG. The response variable was the cholesterol level.

KEY-WORDS: Extra-binomial variation; logit model; statistical tests.

Referências

COMMENGES, D. ; et al. Test of homogeneity of binary data with explanatory variables.

Biometrics, Washington, v.50, p.613-620, 1994.

CORDEIRO, G. M. Modelos lineares generalizados. In: SINAPE, 7., 1986, Campinas.

Resumos… Campinas: ABE, 1986.

COX, D. R. Some remarks on overdispersion. Biometrika, London, v.70, p.269-274, 1983.

CRAMÉR, H. Mathematical methods of statistics. Princeton: Princeton University Press, 1946.

DEAN, C. B. Testing for overdispersion in poisson and binomial models. J. Am. Stat.

Assoc., New York, v.87, p.451-457, 1992.

EFRON, B. Double exponential families and their use in generalized linear models. J. Am.

(16)

GANIO, L. M., SCHAFER, D. W. Diagnostics for overdispersion. J. Am. Stat. Assoc., New York, v.87, p.795-804, 1992.

HINDE, J., DEMÉTRIO, C. G. B. Overdispersion: models and estimation. In: SINAPE. 13., 1998, Caxambu. Resumos… Caxambu: ABE, 1998.

HINES, R. J. O. A Comparison of testes for overdispersion in generalized linear models.

J. Stat. Comput. Simul., New York, v.58, p.343-359, 1997.

JACQMIN-GADDA, H., COMMENGES, D. Tests of homogeneity for generalized linear models. J. Am. Stat. Assoc., New York, v.90, p.1237-1246, 1995.

McCULLAGH, P., NELDER, J. A. Generalized linear models. 2nd. ed., London: Chapman and Hall, 1989.

NELDER, J. A.; WEDDERBURN, R. W. M. generalized linear models. J. R. Stat. Soc., Serie A, London, v.135, n.3, p.370-84, 1972.

PAULA, G. A., ARTES, R. One-sided test to assess correlation in linear logistic models using estimating equations. Biom. J., Berlin, v.42, p.701-714, 2000.

ROSNER, B et al. Percentiles for body mass index in U.S. children 5 to 17 years age. J.

Pediatr., St. Louis, v.132, n.2, p.211-22, 1998.

SMITH, P. J., HEITJAN, D. F. Testing and adjusting for departures from nominal dispersion in generalized linear models. J. R. Stat. Soc. Ser.C, Apll. Stat., London, v.42, p.31-41, 1993.

Recebido em 05.10.2004. Aprovado após revisão em 08.02.2006.

Referências

Documentos relacionados

A Lista de Fauna Ameaçada de Extinção e os Entraves para a Inclusão de Espécies – o Exemplo dos Peixes Troglóbios Brasileiros.. The List of Endangered Fauna and Impediments

Este trabalho buscou, através de pesquisa de campo, estudar o efeito de diferentes alternativas de adubações de cobertura, quanto ao tipo de adubo e época de

“Ao lado das formas diversas de vida consagrada, acrescentam-se as sociedades de vida apostólica, cujos membros, sem os votos religiosos, buscam a finalidade apostólica própria da

O objetivo do curso foi oportunizar aos participantes, um contato direto com as plantas nativas do Cerrado para identificação de espécies com potencial

Esta pesquisa discorre de uma situação pontual recorrente de um processo produtivo, onde se verifica as técnicas padronizadas e estudo dos indicadores em uma observação sistêmica

• A falta de registro do imóvel no CAR gera multa, impossibilidade de contar Áreas de Preservação Permanente (APP) na Reserva Legal (RL), restrição ao crédito agrícola em 2018

No sentido de reverter tal situação, a realização deste trabalho elaborado na disciplina de Prática enquanto Componente Curricular V (PeCC V), buscou proporcionar as

Podem treinar tropas (fornecidas pelo cliente) ou levá-las para combate. Geralmente, organizam-se de forma ad-hoc, que respondem a solicitações de Estados; 2)