Modelo binomial - Modelos especiais - Modelos Lineares Generalizados e

2.4 Modelos especiais

2.4.3 Modelo binomial

A distribui¸c˜ao binomial foi deduzida por James Bernoulli em 1713, embora tenha sido encontrada anteriormente em trabalhos de Pascal.

Suponha que Y = mP tenha distribui¸cão binomial B(m, π), com fun¸c˜ao de probabilidade especificada no Exemplo 1.2, sendo que P representa a propor¸c˜ao de sucessos em m ensaios independentes com probabilidade de sucesso π. A fun¸c˜ao geratriz de momentos de Y é expressa por M (t; π, m) ={π[exp(t)−1]+1}m e os seus momentos centrais, µ2r e µ2r+1, s˜ao de ordem O(mr), para r = 1, 2, . . . O r-´esimo

momento central de P ´e, simplesmente, m−rµr. Todos os cumulantes de Y s˜ao de

ordem O(m) e, portanto,

Y − mπ

[mπ(1− π)]1/2 ∼ N(0, 1) + Op(m −1/2_),

sendo a taxa de convergência expressa pelo terceiro cumulante padronizado. A moda de Y pertence ao intervalo [(m+1)π−1, (m+1)π], e os seus coeficientes de assimetria e curtose são, respectivamente,

(1− 2π) [mπ(1− π)]1/2 e 3− 6 m + 1 mπ(1− π).

Quando mπ > 5 e 0, 1≤ π ≤ 0, 9, ou mπ > 25, sendo π qualquer, o modelo binomial B(m, π) pode ser aproximado pelo modelo normal N(mπ, mπ(1−π)). Uma melhor aproxima¸c˜ao ´e obtida de P(Y ≤ y) = Φ(y1) + ϕ(y1)/{2[mπ(1 − π)]1/2}, em

que y1 = (y− mπ)/[mπ(1 − π)] e ϕ(.) é a f.d.p. da distribui¸cão normal padrão, cujo

erro ´e inferior a (0, 2 + 0, 25 | 1 − 2π |)/[mπ(1 − π)] + exp{−1, 5[mπ(1 − π)]−1/2}, se mπ(1− π) ≥ 25. A aproxima¸c˜ao normal com corre¸c˜ao de continuidade P(Y ≤ y) = Φ(y2), em que y2 = (y + 0, 5− mπ)/[mπ(1 − π)]1/2, tem erro menor do que

0, 140[mπ(1− π)]−1/2 (Cordeiro, 1986).

binomiais s˜ao baseadas na equa¸c˜ao P(Y ≥ y) = m ∑ i=y ( m i ) πi(1− π)m−i = B(y, m− y + 1)−1 ∫ π 0 ty−1(1− t)m−ydt = Iπ(y, m− y + 1),

em que Iπ(y, m− y + 1) representa a fun¸c˜ao raz˜ao beta incompleta.

Pode-se ainda usar a aproxima¸cão da distribui¸cão binomial pela distribui¸cão de Poisson P(mπ) quando π < 0, 1, o erro da aproxima¸cão sendo O(m−1), ou, então, a f´ormula P(Y ≤ y) = 1 − P{F[2(y + 1), 2(m − y)] < π(m − y)/[(1 + y)(1 − π)]}, em que F[2(y + 1), 2(m− y)] representa a distribui¸cão F de Snedecor com 2(y + 1) e 2(m− y) graus de liberdade.

Para finalizar, sejam B(y) = ( m y ) πy(1−π)m−y e P(y) = e −µ_µy y! , as probabi- lidades pontuais das distribui¸cões binomial e de Poisson, respectivamente. Supondo µ = mπ e µ fixo, pode-se mostrar, com base na aproxima¸c˜ao de Stirling para o fatorial, que quando m− y → ∞,

B(y) P(y) ≈ ( m m− y )1/2 .

Esse resultado pode ser, tamb´em, facilmente, comprovado numericamente.

O modelo binomial é usado, principalmente, no estudo de dados na forma de propor¸cões, como nos casos da análise probito (Finney, 1971), log´ıstica (ou “logit”) (Ashton, 1972) e complemento log-log (Fisher, 1922) (Se¸cão 2.2), e na análise de dados binários, como na regressão log´ıstica linear (Cox, 1970).

2.4.3.1 Dados na forma de propor¸c˜oes

Considera-se o modelo binomial para o estudo de dados na forma de propor¸c˜oes em que s˜ao aplicadas doses de uma droga a n conjuntos de indiv´ıduos, sendo mi o n´umero de indiv´ıduos testados no conjunto i, i = 1, . . . , n. Conforme descrito

na Se¸cão 2.2, o sucesso de um teste é determinado por uma vari´avel latente U , de- nominada tolerância, com f.d.a. especificada como F(.). Os indiv´ıduos do conjunto

i recebem uma dose ﬁxa xi da droga e a probabilidade de sucesso correspondente

e expressa como πi = P(U ≤ xi) = F(α + βxi), em que α e β s˜ao parˆametros

desconhecidos que dependem dos parˆametros da distribui¸c˜ao proposta para U . Sejam P1, . . . , Pn as propor¸c˜oes de sucessos, supostas independentes, nos

conjuntos 1, . . . , n. O modelo para o estudo dessas propor¸c˜oes, no contexto dos MLG, tem vari´avel resposta Yi = miPi com distribui¸cão binomial, fun¸cão de liga¸cão

F−1(.) e estrutura linear ηi = α + βxi. Conv´em salientar, que ´e postulada uma

rela¸cão linear entre alguma fun¸c˜ao de µ e x, ao inv´es de uma fun¸c˜ao de P e x. A variância da variável resposta não é constante, como no modelo clássico de regressão, e depende do valor da média.

Vários casos especiais desse modelo binomial são obtidos pela defini¸cão da distribui¸cão da tolerância conforme explicado na Se¸cão 2.2. Se se supõe que a to- lerância tem distribui¸c˜ao normal, o modelo correspondente πi = Φ(α + βxi) é deno-

minado probito (Finney, 1971). Se se supõe que tem distribui¸cão log´ıstica, o modelo πi = exp(α + βxi)/[1 + exp(α + βxi)] é denominado log´ıstico (Berkson, 1944), e

quando tem distribui¸cão de valor extremo, a fun¸cão de liga¸cão F−1(.) corresponde ao modelo complemento log-log. O modelo log´ıstico, postulando uma regressão linear para log[π/(1− π)] (“log odds”), tem sido muito usado na área de Medicina, pois tem uma interpreta¸cão simples, enquanto que o probito é o mais usado na área de Entomologia, por influência do artigo de Bliss (1935).

Existe pouca diferen¸ca entre as distribui¸cões normal e log´ıstica para a to- lerância, e, quando essas são re-escaladas adequadamente, por exemplo, para te- rem as médias e os desvios-padrão iguais, tornam-se bastante similares no intervalo [0, 1; 0, 9]. Por essa raz˜ao, é, geralmente, dif´ıcil diferenciá-las com base no ajuste do modelo. As fun¸cões de liga¸cão log´ıstica e probito são simétricas em rela¸cão ao ponto de inflexão, isto é, F−1(π) = −F−1(1− π), o que não ocorre com a fun¸cão de liga¸cão complemento log-log. Essa última fun¸cão de liga¸cão é mais apropriada para análise de dados sobre incidˆencia de doen¸cas. Para valores de µ pr´oximos de zero, as fun¸cões de liga¸cão complemento log-log e log´ıstica são equivalentes. A fam´ılia

de fun¸cões de liga¸cão de Aranda-Ordaz (1981) com um parâmetro especificada por g(µ; λ) = log{[(1 − µ)−λ − 1]/λ} contém a fun¸cão de liga¸cão log´ıstica (λ = 1) e a complemento log-log (λ = 0).

2.4.3.2 Dados bin´arios agrupados

Apresenta-se, agora, o estudo de variáveis binárias agrupadas. Sejam n variáveis aleatórias bin´arias, R1, . . . , Rn, tendo somente os valores 0 e 1, classificadas

em t grupos, o grupo i com mi vari´aveis independentes com probabilidade de sucesso

(resposta igual a 1) associada πi, i = 1, . . . , t, sendo t

∑

i=1

mi = n. Deﬁnem-se Yi

e Pi como o n´umero e a propor¸c˜ao de sucessos no grupo i, respectivamente, em

que Yi = miPi tem distribui¸c˜ao binomial B(mi, πi), i = 1, . . . , t. O modelo para

experimentos com respostas bin´arias n˜ao-agrupadas corresponde ao caso especial mi = 1 e n = t.

O modelo para miPicom distribui¸c˜ao binomial B(mi, πi) e fun¸c˜ao de liga¸c˜ao

g(πi) = g(µi/mi) = ηi =

∑p

r=1xirβr pertence `a classe dos MLG devendo a fun¸c˜ao

de liga¸c˜ao ser uma fun¸c˜ao do intervalo (0, 1) na reta real. O modelo log´ıstico linear ´

e obtido deﬁnindo g(πi) = g(µi/mi) = log[πi/(1− πi)] = log[µi/(mi− µi)].

Um modelo alternativo para análise de dados binários agrupados é formulado por variáveis aleat´orias independentes Zi = g(Yi/mi), i = 1, . . . , t. A variável Zi

tem, aproximadamente, distribui¸c˜ao normal de m´edia g(πi) e variˆancia g′(πi)2πi(1−

πi)/mi, desde que mi → ∞ e que πi não seja próximo de 0 ou 1. Essa variância é,

consistentemente, estimada por vi = g′(pi)2pi(1− pi)/mi, substituindo πi pelo valor

amostral pi de Pi.

Considera-se z = (z1, . . . , zt)T, em que zi = g(pi), como realiza¸c˜oes de

variáveis aleatórias com m´edias E(Z) = Xβ e estrutura de covariˆancia aproxi- mada V = diag{v1, . . . , vt}, sendo X a matriz do modelo de dimensões t × p e

β = (β1, . . . , βp)T. Se não ocorrerem propor¸cões de sucessos iguais a 0 ou 1, o método

em rela¸c˜ao a β, produzir´a o estimador ˆβ = (XTV−1X)−1XTV−1z. Esse estimador é diferente do estimador de m´axima verossimilhan¸ca de β. Nesse modelo alternativo, testes e regiões de confian¸ca para os parâmetros são obtidos como no contexto do modelo clássico de regressão.

Escolhendo a fun¸c˜ao de liga¸c˜ao g(.) como a log´ıstica, tem-se Zi =

log[Yi/(mi − Yi)], denominada transforma¸c˜ao log´ıstica emp´ırica de Yi/mi, sendo

Var(Zi) estimada por mi/[Yi(mi − Yi)]. Uma transforma¸c˜ao mais adequada ´e ob-

tida acrescentando-se 0, 5 ao numerador e ao denominador, implicando em Zi = log ( Yi + 0, 5 mi− Yi+ 0, 5 ) ,

pois E(Zi) = log[πi/(1− πi)] + O(m−2i ), além de ser definida para propor¸cões de

sucessos iguais a zero e um. Um estimador n˜ao-viesado de Var(Zi) ´e igual a

vi =

(mi+ 1)(mi+ 2)

mi(Yi+ 1)(mi− Yi+ 1)

. Escolhendo a fun¸c˜ao de liga¸c˜ao arco seno, tem-se Zi = arcsen(

√

Yi/mi), denominada

“transforma¸cão angular emp´ırica” que, aproximadamente, estabiliza a variância para mi grande. A média e a variˆancia de Zi são, aproximadamente, iguais a arcsen(√πi)

e 1/(4mi), respectivamente.

No documento Modelos Lineares Generalizados e (páginas 54-58)