• Nenhum resultado encontrado

Modelo binomial

No documento Modelos Lineares Generalizados e (páginas 54-58)

2.4 Modelos especiais

2.4.3 Modelo binomial

A distribui¸c˜ao binomial foi deduzida por James Bernoulli em 1713, embora tenha sido encontrada anteriormente em trabalhos de Pascal.

Suponha que Y = mP tenha distribui¸c˜ao binomial B(m, π), com fun¸c˜ao de probabilidade especificada no Exemplo 1.2, sendo que P representa a propor¸c˜ao de sucessos em m ensaios independentes com probabilidade de sucesso π. A fun¸c˜ao geratriz de momentos de Y ´e expressa por M (t; π, m) ={π[exp(t)−1]+1}m e os seus momentos centrais, µ2r e µ2r+1, s˜ao de ordem O(mr), para r = 1, 2, . . . O r-´esimo

momento central de P ´e, simplesmente, m−rµr. Todos os cumulantes de Y s˜ao de

ordem O(m) e, portanto,

Y − mπ

[mπ(1− π)]1/2 ∼ N(0, 1) + Op(m −1/2),

sendo a taxa de convergˆencia expressa pelo terceiro cumulante padronizado. A moda de Y pertence ao intervalo [(m+1)π−1, (m+1)π], e os seus coeficientes de assimetria e curtose s˜ao, respectivamente,

(1− 2π) [mπ(1− π)]1/2 e 3 6 m + 1 mπ(1− π).

Quando mπ > 5 e 0, 1≤ π ≤ 0, 9, ou mπ > 25, sendo π qualquer, o modelo binomial B(m, π) pode ser aproximado pelo modelo normal N(mπ, mπ(1−π)). Uma melhor aproxima¸c˜ao ´e obtida de P(Y ≤ y) = Φ(y1) + ϕ(y1)/{2[mπ(1 − π)]1/2}, em

que y1 = (y− mπ)/[mπ(1 − π)] e ϕ(.) ´e a f.d.p. da distribui¸c˜ao normal padr˜ao, cujo

erro ´e inferior a (0, 2 + 0, 25 | 1 − 2π |)/[mπ(1 − π)] + exp{−1, 5[mπ(1 − π)]−1/2}, se mπ(1− π) ≥ 25. A aproxima¸c˜ao normal com corre¸c˜ao de continuidade P(Y ≤ y) = Φ(y2), em que y2 = (y + 0, 5− mπ)/[mπ(1 − π)]1/2, tem erro menor do que

0, 140[mπ(1− π)]−1/2 (Cordeiro, 1986).

binomiais s˜ao baseadas na equa¸c˜ao P(Y ≥ y) = mi=y ( m i ) πi(1− π)m−i = B(y, m− y + 1)−1π 0 ty−1(1− t)m−ydt = Iπ(y, m− y + 1),

em que Iπ(y, m− y + 1) representa a fun¸c˜ao raz˜ao beta incompleta.

Pode-se ainda usar a aproxima¸c˜ao da distribui¸c˜ao binomial pela distribui¸c˜ao de Poisson P(mπ) quando π < 0, 1, o erro da aproxima¸c˜ao sendo O(m−1), ou, ent˜ao, a f´ormula P(Y ≤ y) = 1 − P{F[2(y + 1), 2(m − y)] < π(m − y)/[(1 + y)(1 − π)]}, em que F[2(y + 1), 2(m− y)] representa a distribui¸c˜ao F de Snedecor com 2(y + 1) e 2(m− y) graus de liberdade.

Para finalizar, sejam B(y) = ( m y ) πy(1−π)m−y e P(y) = e −µµy y! , as probabi- lidades pontuais das distribui¸c˜oes binomial e de Poisson, respectivamente. Supondo µ = mπ e µ fixo, pode-se mostrar, com base na aproxima¸c˜ao de Stirling para o fatorial, que quando m− y → ∞,

B(y) P(y) ( m m− y )1/2 .

Esse resultado pode ser, tamb´em, facilmente, comprovado numericamente.

O modelo binomial ´e usado, principalmente, no estudo de dados na forma de propor¸c˜oes, como nos casos da an´alise probito (Finney, 1971), log´ıstica (ou “logit”) (Ashton, 1972) e complemento log-log (Fisher, 1922) (Se¸c˜ao 2.2), e na an´alise de dados bin´arios, como na regress˜ao log´ıstica linear (Cox, 1970).

2.4.3.1 Dados na forma de propor¸c˜oes

Considera-se o modelo binomial para o estudo de dados na forma de pro- por¸c˜oes em que s˜ao aplicadas doses de uma droga a n conjuntos de indiv´ıduos, sendo mi o n´umero de indiv´ıduos testados no conjunto i, i = 1, . . . , n. Conforme descrito

na Se¸c˜ao 2.2, o sucesso de um teste ´e determinado por uma vari´avel latente U , de- nominada tolerˆancia, com f.d.a. especificada como F(.). Os indiv´ıduos do conjunto

i recebem uma dose fixa xi da droga e a probabilidade de sucesso correspondente

´

e expressa como πi = P(U ≤ xi) = F(α + βxi), em que α e β s˜ao parˆametros

desconhecidos que dependem dos parˆametros da distribui¸c˜ao proposta para U . Sejam P1, . . . , Pn as propor¸c˜oes de sucessos, supostas independentes, nos

conjuntos 1, . . . , n. O modelo para o estudo dessas propor¸c˜oes, no contexto dos MLG, tem vari´avel resposta Yi = miPi com distribui¸c˜ao binomial, fun¸c˜ao de liga¸c˜ao

F−1(.) e estrutura linear ηi = α + βxi. Conv´em salientar, que ´e postulada uma

rela¸c˜ao linear entre alguma fun¸c˜ao de µ e x, ao inv´es de uma fun¸c˜ao de P e x. A variˆancia da vari´avel resposta n˜ao ´e constante, como no modelo cl´assico de regress˜ao, e depende do valor da m´edia.

V´arios casos especiais desse modelo binomial s˜ao obtidos pela defini¸c˜ao da distribui¸c˜ao da tolerˆancia conforme explicado na Se¸c˜ao 2.2. Se se sup˜oe que a to- lerˆancia tem distribui¸c˜ao normal, o modelo correspondente πi = Φ(α + βxi) ´e deno-

minado probito (Finney, 1971). Se se sup˜oe que tem distribui¸c˜ao log´ıstica, o modelo πi = exp(α + βxi)/[1 + exp(α + βxi)] ´e denominado log´ıstico (Berkson, 1944), e

quando tem distribui¸c˜ao de valor extremo, a fun¸c˜ao de liga¸c˜ao F−1(.) corresponde ao modelo complemento log-log. O modelo log´ıstico, postulando uma regress˜ao linear para log[π/(1− π)] (“log odds”), tem sido muito usado na ´area de Medicina, pois tem uma interpreta¸c˜ao simples, enquanto que o probito ´e o mais usado na ´area de Entomologia, por influˆencia do artigo de Bliss (1935).

Existe pouca diferen¸ca entre as distribui¸c˜oes normal e log´ıstica para a to- lerˆancia, e, quando essas s˜ao re-escaladas adequadamente, por exemplo, para te- rem as m´edias e os desvios-padr˜ao iguais, tornam-se bastante similares no intervalo [0, 1; 0, 9]. Por essa raz˜ao, ´e, geralmente, dif´ıcil diferenci´a-las com base no ajuste do modelo. As fun¸c˜oes de liga¸c˜ao log´ıstica e probito s˜ao sim´etricas em rela¸c˜ao ao ponto de inflex˜ao, isto ´e, F−1(π) = −F−1(1− π), o que n˜ao ocorre com a fun¸c˜ao de liga¸c˜ao complemento log-log. Essa ´ultima fun¸c˜ao de liga¸c˜ao ´e mais apropriada para an´alise de dados sobre incidˆencia de doen¸cas. Para valores de µ pr´oximos de zero, as fun¸c˜oes de liga¸c˜ao complemento log-log e log´ıstica s˜ao equivalentes. A fam´ılia

de fun¸c˜oes de liga¸c˜ao de Aranda-Ordaz (1981) com um parˆametro especificada por g(µ; λ) = log{[(1 − µ)−λ − 1]/λ} cont´em a fun¸c˜ao de liga¸c˜ao log´ıstica (λ = 1) e a complemento log-log (λ = 0).

2.4.3.2 Dados bin´arios agrupados

Apresenta-se, agora, o estudo de vari´aveis bin´arias agrupadas. Sejam n vari´aveis aleat´orias bin´arias, R1, . . . , Rn, tendo somente os valores 0 e 1, classificadas

em t grupos, o grupo i com mi vari´aveis independentes com probabilidade de sucesso

(resposta igual a 1) associada πi, i = 1, . . . , t, sendo t

i=1

mi = n. Definem-se Yi

e Pi como o n´umero e a propor¸c˜ao de sucessos no grupo i, respectivamente, em

que Yi = miPi tem distribui¸c˜ao binomial B(mi, πi), i = 1, . . . , t. O modelo para

experimentos com respostas bin´arias n˜ao-agrupadas corresponde ao caso especial mi = 1 e n = t.

O modelo para miPicom distribui¸c˜ao binomial B(mi, πi) e fun¸c˜ao de liga¸c˜ao

g(πi) = g(µi/mi) = ηi =

p

r=1xirβr pertence `a classe dos MLG devendo a fun¸c˜ao

de liga¸c˜ao ser uma fun¸c˜ao do intervalo (0, 1) na reta real. O modelo log´ıstico linear ´

e obtido definindo g(πi) = g(µi/mi) = log[πi/(1− πi)] = log[µi/(mi− µi)].

Um modelo alternativo para an´alise de dados bin´arios agrupados ´e formulado por vari´aveis aleat´orias independentes Zi = g(Yi/mi), i = 1, . . . , t. A vari´avel Zi

tem, aproximadamente, distribui¸c˜ao normal de m´edia g(πi) e variˆancia g′(πi)2πi(1

πi)/mi, desde que mi → ∞ e que πi n˜ao seja pr´oximo de 0 ou 1. Essa variˆancia ´e,

consistentemente, estimada por vi = g′(pi)2pi(1− pi)/mi, substituindo πi pelo valor

amostral pi de Pi.

Considera-se z = (z1, . . . , zt)T, em que zi = g(pi), como realiza¸c˜oes de

vari´aveis aleat´orias com m´edias E(Z) = Xβ e estrutura de covariˆancia aproxi- mada V = diag{v1, . . . , vt}, sendo X a matriz do modelo de dimens˜oes t × p e

β = (β1, . . . , βp)T. Se n˜ao ocorrerem propor¸c˜oes de sucessos iguais a 0 ou 1, o m´etodo

em rela¸c˜ao a β, produzir´a o estimador ˆβ = (XTV−1X)−1XTV−1z. Esse estimador ´e diferente do estimador de m´axima verossimilhan¸ca de β. Nesse modelo alternativo, testes e regi˜oes de confian¸ca para os parˆametros s˜ao obtidos como no contexto do modelo cl´assico de regress˜ao.

Escolhendo a fun¸c˜ao de liga¸c˜ao g(.) como a log´ıstica, tem-se Zi =

log[Yi/(mi − Yi)], denominada transforma¸c˜ao log´ıstica emp´ırica de Yi/mi, sendo

Var(Zi) estimada por mi/[Yi(mi − Yi)]. Uma transforma¸c˜ao mais adequada ´e ob-

tida acrescentando-se 0, 5 ao numerador e ao denominador, implicando em Zi = log ( Yi + 0, 5 mi− Yi+ 0, 5 ) ,

pois E(Zi) = log[πi/(1− πi)] + O(m−2i ), al´em de ser definida para propor¸c˜oes de

sucessos iguais a zero e um. Um estimador n˜ao-viesado de Var(Zi) ´e igual a

vi =

(mi+ 1)(mi+ 2)

mi(Yi+ 1)(mi− Yi+ 1)

. Escolhendo a fun¸c˜ao de liga¸c˜ao arco seno, tem-se Zi = arcsen(

Yi/mi), denominada

“transforma¸c˜ao angular emp´ırica” que, aproximadamente, estabiliza a variˆancia para mi grande. A m´edia e a variˆancia de Zi s˜ao, aproximadamente, iguais a arcsen(√πi)

e 1/(4mi), respectivamente.

No documento Modelos Lineares Generalizados e (páginas 54-58)

Documentos relacionados