Modelo binomial - Modelos especiais - Modelos Lineares Generalizados e

2.4 Modelos especiais

2.4.3 Modelo binomial

A distribui¸c˜ao binomial foi deduzida por James Bernoulli em 1713, embora tenha sido encontrada anteriormente em trabalhos de Pascal.

Suponha que Y = mP tenha distribui¸cão binomial B(m, π), com fun¸cão de probabilidade dada no Exemplo 1.2, sendo que P representa a propor¸cão de sucessos em m ensaios independentes com probabilidade de sucesso π. A fun¸cão geratriz de momentos de Y é dada por M(t; π, m) = {π[exp(t) − 1] + 1}m _{e os seus momentos}

centrais, µ2r e µ2r+1, s˜ao O(mr), para r = 1, 2, . . .. O r-´esimo momento central de P

´e, simplesmente, m−r_µ

r. Todos os cumulantes de Y s˜ao de ordem O(m) e, portanto,

Y − mπ

[mπ(1 − π)]1/2 ∼ N(0, 1) + Op(m

−1/2_),

sendo a taxa de convergˆencia dada pelo terceiro cumulante padronizado. A moda de

Y pertence ao intervalo [(m + 1)π − 1, (m + 1)π], e os seus coeficientes de assimetria

e curtose s˜ao, respectivamente, (1 − 2π) [mπ(1 − π)]1/2 e 3 − 6 m + 1 mπ(1 − π).

Quando mπ > 5 e 0, 1 ≤ π ≤ 0, 9, ou mπ > 25, sendo π qualquer, o modelo binomial B(m, π) pode ser aproximado pelo modelo normal N(mπ, mπ(1 − π)). Uma melhor aproxima¸c˜ao ´e dada por P(Y ≤ y) = Φ(y1) + Φ0(y1)/{2[mπ(1 − π)]1/2}, em

que y1 = (y − mπ)/[mπ(1 − π)] e Φ0(.) é a f.d.p. da distribui¸cão normal padrão,

com erro inferior a (0, 2 + 0, 25 | 1 − 2π |)/[mπ(1 − π)] + exp{−1, 5[mπ(1 − π)]−1/2_},

se mπ(1 − π) ≥ 25. A aproxima¸c˜ao normal com corre¸c˜ao de continuidade P(Y ≤

y) = Φ(y2), em que y2 = (y + 0, 5 − mπ)/[mπ(1 − π)]1/2, tem erro menor do que

0, 140[mπ(1 − π)]−1/2 _{(Cordeiro, 1986).}

binomiais s˜ao baseadas na equa¸c˜ao P(Y ≥ y) = m X i=y µ m i ¶ πi(1 − π)m−i = B(y, m − y + 1)−1 Z _π 0 ty−1_{(1 − t)}m−y_{dt = I} π(y, m − y + 1),

em que Iπ(y, m − y + 1) representa a fun¸c˜ao raz˜ao beta incompleta.

Pode-se ainda usar a aproxima¸cão da distribui¸cão binomial pela distribui¸cão de Poisson P(mπ) quando π < 0, 1, o erro da aproxima¸cão sendo O(m−1_{), ou, então,}

a f´ormula P(Y ≤ y) = 1 − P{F[2(y + 1), 2(m − y)] < π(m − y)/[(1 + y)(1 − π)]}, em que F[2(y + 1), 2(m − y)] representa a distribui¸c˜ao F de Snedecor com 2(y + 1) e 2(m − y) graus de liberdade.

Para finalizar, sejam B(y) = µ m y ¶ πy_(1−π)m−y _{e P(y) =} e−µµy y! , as probabili-

dades pontuais das distribui¸c˜oes binomial e Poisson, respectivamente. Considerando

µ = mπ e supondo µ fixo, pode-se mostrar, com base na aproxima¸c˜ao de Stirling

para o fatorial, que quando m − y → ∞, B(y) P(y) ≈ µ m m − y ¶_1/2 .

Esse resultado pode ser, tamb´em, facilmente, comprovado numericamente.

O modelo binomial é usado, principalmente, no estudo de dados na forma de propor¸cões, como nos casos da análise probito (Finney, 1952), log´ıstica (ou “logit”) (Ashton, 1972) e complemento log-log (Fisher, 1922) (Se¸cão 2.2), e na análise de dados binários, como na regressão log´ıstica linear (Cox, 1970).

2.4.3.1 Dados na forma de propor¸c˜oes

Considera-se o modelo binomial para o estudo de dados na forma de pro- por¸c˜oes e que s˜ao aplicadas doses de uma droga a n conjuntos de indiv´ıduos, sendo

mi o n´umero de indiv´ıduos testados no conjunto i, i = 1, . . . , n. Conforme visto na

Se¸cão 2.2, o sucesso de um teste é determinado por uma variável latente U, denomi- nada tolerância, com distribui¸cão de probabilidade acumulada F(.). Os indiv´ıduos

do conjunto i recebem uma dose fixa xi da droga e a probabilidade de sucesso cor-

respondente é dada por πi = P(U ≤ xi) = F(α + βxi) em que α e β são parâmetros

desconhecidos que dependem dos parâmetros da distribui¸cão proposta para U. Sejam P1, . . . , Pn as propor¸cões de sucessos, supostas independentes, nos

conjuntos 1, . . . , n. O modelo para o estudo dessas propor¸cões, no contexto dos MLG, tem variável resposta Yi = miPi com distribui¸cão binomial, fun¸cão de liga¸cão

F−1_{(.) e estrutura linear η}

i = α + βxi. Conv´em salientar, que ´e postulada uma

rela¸cão linear entre alguma fun¸cão de µ e x, ao invés de uma fun¸cão de P e x. A variância da variável resposta não é constante, como no modelo clássico de regressão, e depende do valor da média.

Vários casos particulares desse modelo binomial são obtidos através da defini¸cão da distribui¸cão da tolerância conforme explicado na Se¸cão 2.2. Se se supõe que a tolerância tem distribui¸cão normal, o modelo correspondente πi = Φ(α + βxi)

é denominado probito (Finney, 1952). Se se supõe que tem distribui¸cão log´ıstica, o modelo πi = exp(α + βxi)/[1 + exp(α + βxi)] é chamado log´ıstico (Berkson, 1944), e

quando tem distribui¸cão de valor extremo, a fun¸cão de liga¸cão F−1(.) corresponde ao modelo complemento log-log. O modelo log´ıstico, postulando uma regressão linear para log[π/(1 − π)] (“log odds”), tem sido muito usado na área de Medicina, pois tem uma interpreta¸cão simples, enquanto que o probito é o mais usado na área de Entomologia, por influência do artigo de Bliss (1935).

Existe pouca diferen¸ca entre as distribui¸cões normal e log´ıstica para a tolerância, e, quando essas são re-escaladas adequadamente, por exemplo, para terem as médias e os desvios-padrão iguais, tornam-se bastante similares no intervalo [0, 1; 0, 9]. Por essa razão, é, geralmente, dif´ıcil diferenciá-las com base no ajuste do modelo. As fun¸cões de liga¸cão log´ıstica e probito são simétricas em rela¸cão ao ponto de inflexão, isto é, F−1(π) = −F−1(1 − π), o que não ocorre com fun¸cão de liga¸cão complemento log-log. Essa última fun¸cão de liga¸cão é mais apropriada para análise de dados sobre incidência de doen¸cas. Para valores de µ próximos de 0, as fun¸cões de liga¸cão complemento log-log e log´ıstica são equivalentes. A fam´ılia de fun¸cões de

liga¸c˜ao de Aranda-Ordaz (1981) com um parˆametro g(µ; λ) = log{[(1 − µ)−λ_{− 1]/λ}}

contém a fun¸cão de liga¸cão log´ıstica (λ = 1) e a complemento log-log (λ = 0).

2.4.3.2 Dados bin´arios agrupados

Apresenta-se, agora, o estudo de variáveis binárias agrupadas. Sejam n variáveis binárias, R1, . . . , Rn, tendo somente os valores 0 e 1, classificadas em t

grupos, o grupo i com mi vari´aveis independentes com probabilidade de sucesso

(resposta igual a 1) associada πi, i = 1, . . . , t, sendo t

i=1

mi = n. Definem-se Yi

e Pi como o n´umero e a propor¸c˜ao de sucessos no grupo i, respectivamente, em

que Yi = miPi tem distribui¸c˜ao binomial B(mi, πi), i = 1, . . . , t. O modelo para

experimentos com respostas bin´arias n˜ao-agrupadas corresponde ao caso especial

mi = 1 e n = t.

O modelo para miPicom distribui¸cão binomial B(mi, πi) e fun¸cão de liga¸cão

g(πi) = g(µi/mi) = ηi =

P_p

r=1xirβr pertence `a classe dos MLG devendo a fun¸c˜ao

de liga¸cão ser uma fun¸cão do intervalo (0, 1) na reta real. O modelo log´ıstico linear é obtido definindo g(πi) = g(µi/mi) = log[πi/(1 − πi)] = log[µi/(mi− µi)].

Um modelo alternativo para análise de dados binários agrupados é formulado por variáveis aleatórias independentes Zi = g(Yi/mi), i = 1, . . . , t. A variável Zi

tem, aproximadamente, distribui¸cão normal de média g(πi) e variância g0(πi)2πi(1 −

πi)/mi, desde que mi → ∞ e que πi não seja próximo de 0 ou 1. Essa variância é,

consistentemente, estimada por vi = g0(pi)2pi(1 − pi)/mi, substituindo πi pelo valor

amostral pi de Pi.

Considera-se z = (z1, . . . , zt)T em que zi = g(pi), como realiza¸c˜oes de

variáveis aleatórias com médias E(Z) = Xβ e estrutura de covariância aproxi- mada V = diag{v1, . . . , vt}, sendo X a matriz modelo de dimensões t × p e

β = (β1, . . . , βp)T. Se não ocorrerem propor¸cões de sucessos iguais a 0 ou 1, o método

de m´ınimos quadrados ponderados, que equivale a minimizar (z−Xβ)T_V−1_(z−Xβ)

diferente do estimador de máxima verossimilhan¸ca de β. Nesse modelo alternativo, testes e regiões de confian¸ca para os parâmetros são obtidos na forma do modelo clássico de regressão.

Escolhendo a fun¸c˜ao de liga¸c˜ao g(.) como a log´ıstica, tem-se Zi =

log[Yi/(mi − Yi)], denominada transforma¸c˜ao log´ıstica emp´ırica de Yi/mi, sendo

Var(Zi) estimada por mi/[Yi(mi− Yi)]. Uma transforma¸c˜ao mais adequada ´e obtida

acrescentando-se 0, 5 ao numerador e denominador, implicando

Zi = log µ Yi + 0, 5 mi − Yi+ 0, 5 ¶ ,

pois E(Zi) = log[πi/(1 − πi)] + O(m−2i ), al´em de ser definida para propor¸c˜oes de

sucessos iguais a zero e um. Um estimador n˜ao-tendencioso de Var(Zi) ´e dado por

vi = (mi+ 1)(mi + 2)

mi(Yi+ 1)(mi− Yi+ 1)

Escolhendo a fun¸c˜ao de liga¸c˜ao arco seno, tem-se Zi = arcsen(

Yi/mi), denominada

“transforma¸c˜ao angular emp´ırica” que, aproximadamente, estabiliza a variˆancia para

mi grande. A média e a variância de Zi são, aproximadamente, iguais a arcsen(√πi)

e 1/(4mi), respectivamente.

No documento Modelos Lineares Generalizados e (páginas 56-60)