2.4 Modelos especiais
2.4.3 Modelo binomial
A distribui¸c˜ao binomial foi deduzida por James Bernoulli em 1713, embora tenha sido encontrada anteriormente em trabalhos de Pascal.
Suponha que Y = mP tenha distribui¸c˜ao binomial B(m, π), com fun¸c˜ao de probabilidade dada no Exemplo 1.2, sendo que P representa a propor¸c˜ao de sucessos em m ensaios independentes com probabilidade de sucesso π. A fun¸c˜ao geratriz de momentos de Y ´e dada por M(t; π, m) = {π[exp(t) − 1] + 1}m e os seus momentos
centrais, µ2r e µ2r+1, s˜ao O(mr), para r = 1, 2, . . .. O r-´esimo momento central de P
´e, simplesmente, m−rµ
r. Todos os cumulantes de Y s˜ao de ordem O(m) e, portanto,
Y − mπ
[mπ(1 − π)]1/2 ∼ N(0, 1) + Op(m
−1/2),
sendo a taxa de convergˆencia dada pelo terceiro cumulante padronizado. A moda de
Y pertence ao intervalo [(m + 1)π − 1, (m + 1)π], e os seus coeficientes de assimetria
e curtose s˜ao, respectivamente, (1 − 2π) [mπ(1 − π)]1/2 e 3 − 6 m + 1 mπ(1 − π).
Quando mπ > 5 e 0, 1 ≤ π ≤ 0, 9, ou mπ > 25, sendo π qualquer, o modelo binomial B(m, π) pode ser aproximado pelo modelo normal N(mπ, mπ(1 − π)). Uma melhor aproxima¸c˜ao ´e dada por P(Y ≤ y) = Φ(y1) + Φ0(y1)/{2[mπ(1 − π)]1/2}, em
que y1 = (y − mπ)/[mπ(1 − π)] e Φ0(.) ´e a f.d.p. da distribui¸c˜ao normal padr˜ao,
com erro inferior a (0, 2 + 0, 25 | 1 − 2π |)/[mπ(1 − π)] + exp{−1, 5[mπ(1 − π)]−1/2},
se mπ(1 − π) ≥ 25. A aproxima¸c˜ao normal com corre¸c˜ao de continuidade P(Y ≤
y) = Φ(y2), em que y2 = (y + 0, 5 − mπ)/[mπ(1 − π)]1/2, tem erro menor do que
0, 140[mπ(1 − π)]−1/2 (Cordeiro, 1986).
binomiais s˜ao baseadas na equa¸c˜ao P(Y ≥ y) = m X i=y µ m i ¶ πi(1 − π)m−i = B(y, m − y + 1)−1 Z π 0 ty−1(1 − t)m−ydt = I π(y, m − y + 1),
em que Iπ(y, m − y + 1) representa a fun¸c˜ao raz˜ao beta incompleta.
Pode-se ainda usar a aproxima¸c˜ao da distribui¸c˜ao binomial pela distribui¸c˜ao de Poisson P(mπ) quando π < 0, 1, o erro da aproxima¸c˜ao sendo O(m−1), ou, ent˜ao,
a f´ormula P(Y ≤ y) = 1 − P{F[2(y + 1), 2(m − y)] < π(m − y)/[(1 + y)(1 − π)]}, em que F[2(y + 1), 2(m − y)] representa a distribui¸c˜ao F de Snedecor com 2(y + 1) e 2(m − y) graus de liberdade.
Para finalizar, sejam B(y) = µ m y ¶ πy(1−π)m−y e P(y) = e−µµy y! , as probabili-
dades pontuais das distribui¸c˜oes binomial e Poisson, respectivamente. Considerando
µ = mπ e supondo µ fixo, pode-se mostrar, com base na aproxima¸c˜ao de Stirling
para o fatorial, que quando m − y → ∞, B(y) P(y) ≈ µ m m − y ¶1/2 .
Esse resultado pode ser, tamb´em, facilmente, comprovado numericamente.
O modelo binomial ´e usado, principalmente, no estudo de dados na forma de propor¸c˜oes, como nos casos da an´alise probito (Finney, 1952), log´ıstica (ou “logit”) (Ashton, 1972) e complemento log-log (Fisher, 1922) (Se¸c˜ao 2.2), e na an´alise de dados bin´arios, como na regress˜ao log´ıstica linear (Cox, 1970).
2.4.3.1 Dados na forma de propor¸c˜oes
Considera-se o modelo binomial para o estudo de dados na forma de pro- por¸c˜oes e que s˜ao aplicadas doses de uma droga a n conjuntos de indiv´ıduos, sendo
mi o n´umero de indiv´ıduos testados no conjunto i, i = 1, . . . , n. Conforme visto na
Se¸c˜ao 2.2, o sucesso de um teste ´e determinado por uma vari´avel latente U, denomi- nada tolerˆancia, com distribui¸c˜ao de probabilidade acumulada F(.). Os indiv´ıduos
do conjunto i recebem uma dose fixa xi da droga e a probabilidade de sucesso cor-
respondente ´e dada por πi = P(U ≤ xi) = F(α + βxi) em que α e β s˜ao parˆametros
desconhecidos que dependem dos parˆametros da distribui¸c˜ao proposta para U. Sejam P1, . . . , Pn as propor¸c˜oes de sucessos, supostas independentes, nos
conjuntos 1, . . . , n. O modelo para o estudo dessas propor¸c˜oes, no contexto dos MLG, tem vari´avel resposta Yi = miPi com distribui¸c˜ao binomial, fun¸c˜ao de liga¸c˜ao
F−1(.) e estrutura linear η
i = α + βxi. Conv´em salientar, que ´e postulada uma
rela¸c˜ao linear entre alguma fun¸c˜ao de µ e x, ao inv´es de uma fun¸c˜ao de P e x. A variˆancia da vari´avel resposta n˜ao ´e constante, como no modelo cl´assico de regress˜ao, e depende do valor da m´edia.
V´arios casos particulares desse modelo binomial s˜ao obtidos atrav´es da defini¸c˜ao da distribui¸c˜ao da tolerˆancia conforme explicado na Se¸c˜ao 2.2. Se se sup˜oe que a tolerˆancia tem distribui¸c˜ao normal, o modelo correspondente πi = Φ(α + βxi)
´e denominado probito (Finney, 1952). Se se sup˜oe que tem distribui¸c˜ao log´ıstica, o modelo πi = exp(α + βxi)/[1 + exp(α + βxi)] ´e chamado log´ıstico (Berkson, 1944), e
quando tem distribui¸c˜ao de valor extremo, a fun¸c˜ao de liga¸c˜ao F−1(.) corresponde ao modelo complemento log-log. O modelo log´ıstico, postulando uma regress˜ao linear para log[π/(1 − π)] (“log odds”), tem sido muito usado na ´area de Medicina, pois tem uma interpreta¸c˜ao simples, enquanto que o probito ´e o mais usado na ´area de Entomologia, por influˆencia do artigo de Bliss (1935).
Existe pouca diferen¸ca entre as distribui¸c˜oes normal e log´ıstica para a tolerˆancia, e, quando essas s˜ao re-escaladas adequadamente, por exemplo, para terem as m´edias e os desvios-padr˜ao iguais, tornam-se bastante similares no intervalo [0, 1; 0, 9]. Por essa raz˜ao, ´e, geralmente, dif´ıcil diferenci´a-las com base no ajuste do modelo. As fun¸c˜oes de liga¸c˜ao log´ıstica e probito s˜ao sim´etricas em rela¸c˜ao ao ponto de inflex˜ao, isto ´e, F−1(π) = −F−1(1 − π), o que n˜ao ocorre com fun¸c˜ao de liga¸c˜ao complemento log-log. Essa ´ultima fun¸c˜ao de liga¸c˜ao ´e mais apropriada para an´alise de dados sobre incidˆencia de doen¸cas. Para valores de µ pr´oximos de 0, as fun¸c˜oes de liga¸c˜ao complemento log-log e log´ıstica s˜ao equivalentes. A fam´ılia de fun¸c˜oes de
liga¸c˜ao de Aranda-Ordaz (1981) com um parˆametro g(µ; λ) = log{[(1 − µ)−λ− 1]/λ}
cont´em a fun¸c˜ao de liga¸c˜ao log´ıstica (λ = 1) e a complemento log-log (λ = 0).
2.4.3.2 Dados bin´arios agrupados
Apresenta-se, agora, o estudo de vari´aveis bin´arias agrupadas. Sejam n vari´aveis bin´arias, R1, . . . , Rn, tendo somente os valores 0 e 1, classificadas em t
grupos, o grupo i com mi vari´aveis independentes com probabilidade de sucesso
(resposta igual a 1) associada πi, i = 1, . . . , t, sendo t
X
i=1
mi = n. Definem-se Yi
e Pi como o n´umero e a propor¸c˜ao de sucessos no grupo i, respectivamente, em
que Yi = miPi tem distribui¸c˜ao binomial B(mi, πi), i = 1, . . . , t. O modelo para
experimentos com respostas bin´arias n˜ao-agrupadas corresponde ao caso especial
mi = 1 e n = t.
O modelo para miPicom distribui¸c˜ao binomial B(mi, πi) e fun¸c˜ao de liga¸c˜ao
g(πi) = g(µi/mi) = ηi =
Pp
r=1xirβr pertence `a classe dos MLG devendo a fun¸c˜ao
de liga¸c˜ao ser uma fun¸c˜ao do intervalo (0, 1) na reta real. O modelo log´ıstico linear ´e obtido definindo g(πi) = g(µi/mi) = log[πi/(1 − πi)] = log[µi/(mi− µi)].
Um modelo alternativo para an´alise de dados bin´arios agrupados ´e formulado por vari´aveis aleat´orias independentes Zi = g(Yi/mi), i = 1, . . . , t. A vari´avel Zi
tem, aproximadamente, distribui¸c˜ao normal de m´edia g(πi) e variˆancia g0(πi)2πi(1 −
πi)/mi, desde que mi → ∞ e que πi n˜ao seja pr´oximo de 0 ou 1. Essa variˆancia ´e,
consistentemente, estimada por vi = g0(pi)2pi(1 − pi)/mi, substituindo πi pelo valor
amostral pi de Pi.
Considera-se z = (z1, . . . , zt)T em que zi = g(pi), como realiza¸c˜oes de
vari´aveis aleat´orias com m´edias E(Z) = Xβ e estrutura de covariˆancia aproxi- mada V = diag{v1, . . . , vt}, sendo X a matriz modelo de dimens˜oes t × p e
β = (β1, . . . , βp)T. Se n˜ao ocorrerem propor¸c˜oes de sucessos iguais a 0 ou 1, o m´etodo
de m´ınimos quadrados ponderados, que equivale a minimizar (z−Xβ)TV−1(z−Xβ)
diferente do estimador de m´axima verossimilhan¸ca de β. Nesse modelo alternativo, testes e regi˜oes de confian¸ca para os parˆametros s˜ao obtidos na forma do modelo cl´assico de regress˜ao.
Escolhendo a fun¸c˜ao de liga¸c˜ao g(.) como a log´ıstica, tem-se Zi =
log[Yi/(mi − Yi)], denominada transforma¸c˜ao log´ıstica emp´ırica de Yi/mi, sendo
Var(Zi) estimada por mi/[Yi(mi− Yi)]. Uma transforma¸c˜ao mais adequada ´e obtida
acrescentando-se 0, 5 ao numerador e denominador, implicando
Zi = log µ Yi + 0, 5 mi − Yi+ 0, 5 ¶ ,
pois E(Zi) = log[πi/(1 − πi)] + O(m−2i ), al´em de ser definida para propor¸c˜oes de
sucessos iguais a zero e um. Um estimador n˜ao-tendencioso de Var(Zi) ´e dado por
vi = (mi+ 1)(mi + 2)
mi(Yi+ 1)(mi− Yi+ 1)
.
Escolhendo a fun¸c˜ao de liga¸c˜ao arco seno, tem-se Zi = arcsen(
p
Yi/mi), denominada
“transforma¸c˜ao angular emp´ırica” que, aproximadamente, estabiliza a variˆancia para
mi grande. A m´edia e a variˆancia de Zi s˜ao, aproximadamente, iguais a arcsen(√πi)
e 1/(4mi), respectivamente.