2.2 M´etodos de Estima¸c˜ao
2.2.2 M´etodo da M´ axima Verossimilhan¸ca
O M´etodo da M´axima Verossimilhan¸ca(MMV) foi introduzido por Ronald A. Fisher em 1912. O forte apelo intuitivo, sua aplicabilidade em muitos casos e a existˆencia de propriedades desej´aveis para os estimadores resultantes do m´etodo s˜ao raz˜oes para o seu amplo uso dentre os m´etodos de estima¸c˜ao.
Defini¸c˜ao 2.2.2. (Fun¸c˜ao de Verossimilhan¸ca) SejamX1, X2, . . . , Xn vari´aveis aleat´orias (n˜ao nec-essariamente independentes ou identicamente distribu´ıdas) com fun¸c˜ao de distribui¸c˜ao conjunta de-notada por F(x
∼;θ) =F(x1, x2, . . . , xn;θ). A fun¸c˜ao de verossimilhan¸ca2 ´e definida por L(θ) =L(θ;x∼) =f(x∼;θ),
onde f(., θ) ´e fun¸c˜ao densidade no caso cont´ınuo e fun¸c˜ao de probabilidade no caso discreto, e θ ´e desconhecido.
A id´eia do m´etodo ´e “olhar”para a fun¸c˜ao densidade de probabilidade (ou fun¸c˜ao de probabilidade) conjunta da amostra n˜ao mais como fun¸c˜ao da amostra, mas, sim, como fun¸c˜ao do parˆametro θ, considerando a amostra observadax1, x2 . . . , xn fixa. Essa fun¸c˜ao passa a ser denominada fun¸c˜ao de verossimilhan¸ca. O m´etodo da m´axima verossimilhan¸ca procura estabelecer valor para o parˆametro θ que mais provavelmente resultou as observa¸c˜oesx1, x2 . . . , xn. Em geral, este valor ´e uma fun¸c˜ao da amostra.
Defini¸c˜ao 2.2.3. (Estimador de M´axima Verossimilhan¸ca) Seja L(θ) a fun¸c˜ao de verossimilhan¸ca para as vari´aveis aleat´orias X1, X2, . . . , Xn . Se θˆ=ϕ(x1, x2, . . . , xn)´e um valor de θ, emΘ , que maximizaL(θ), ent˜aoΘ =ˆ ϕ(X1, X2, . . . , Xn)´e o estimador de m´axima verossimilhan¸ca(EMV) de θ eθˆ´e a estimativa de m´axima verossimilhan¸ca deθ para a amostra x1, x2 . . . , xn .
A verossimilhan¸ca expressa a plausibilidade para diferentes valores deθ, fixada a amostrax1, x2, . . . , xn; e informa a preferˆencia por um dentre diversos valores poss´ıveis para o parˆametro. O valor que resulta a maior verossimilhan¸ca ´e denominado estimativa de m´axima verossimilhan¸ca.
Muitas fun¸c˜oes de verossimilhan¸ca satisfazem condi¸c˜oes de regularidade que permitem obter o respectivo m´aximo por deriva¸c˜ao. Nestes casos a estimativa de m´axima verossimilhan¸ca resulta de
∂L(θ;x
∼)
∂θ = 0. (2.1)
A estimativa de m´axima verossimihan¸ca(EMV) n˜ao coincide necessariamente com alguma solu¸c˜ao da Equa¸c˜ao 2.1. Mesmo que essa equa¸c˜ao tenha solu¸c˜ao ´unica, n˜ao significa que ela seja a EMV, que pode at´e mesmo n˜ao existir. O fato de operarmos derivando produt´orios (Equa¸c˜ao 2.1) torna trabalhosa a obten¸c˜ao do m´aximo paraL(θ). Para remediar essa dificuldade, fazemos uso da fun¸c˜ao logar´ıtmica que ´e uma fun¸c˜ao mon´otona crescente3, e, assim,L(θ) el(θ) = logL(θ) tem seus m´aximos para o mesmo valor de θ. Desse modo, podemos obter o EMV deθ atrav´es da equa¸c˜ao
∂l(θ)
∂θ = ∂l(θ;X
∼)
∂θ = 0. (2.2)
Defini¸c˜ao 2.2.4. (Fun¸c˜ao de Log-verossimilhan¸ca) A fun¸c˜ao de log-verossimilhan¸ca ´e definida como o logaritmo natural da fun¸c˜ao de verossimilhan¸ca: l(θ) = logL(θ).
Defini¸c˜ao 2.2.5. (Fun¸c˜ao escore) A fun¸c˜ao escore, denotada por U(θ), ´e definida como a primeira derivada da fun¸c˜ao de log-verossimilhan¸ca com respeito a θ:
U(θ) = ∂
∂θ logf(x
∼;θ). (2.3)
2Alguns autores definemL(θ) =c.f(x
∼;θ), ondec´e qualquer constante positiva, n˜ao dependente deθ. Diz-se ent˜ao que a verossimilhan¸ca ´e proporcional a probabilidade de ocorrˆencia da amostra
3L(θ1;x
∼)< L(θ2;x
∼)⇔logL(θ1;x
∼)<logL(θ2;x
∼), ∀θ1, θ2∈Θ
Muito freq¨uentemente trabalhamos com vari´aveis aleat´orias independentes, e as fun¸c˜oes de veros-similhan¸ca e de log-verosveros-similhan¸ca reduzem-se, respectivamente, a
L(θ) =
No desenvolvimento para a obten¸c˜ao da estimativa de m´axima verossimilhan¸ca, ˆθ, precisamos determinar o m´aximo de l(θ) (ou de L(θ)) para todos os valores poss´ıveis de θ, o que pode ser feito por diferencia¸c˜ao de l(θ) em rela¸c˜ao a θ, como exposto anteriormente. Entretanto, ´e poss´ıvel que esse procedimento resulte um m´ınimo relativo ou um ponto de inflex˜ao ao inv´es do m´aximo desejado.
Assim, ´e necess´ario verificar efetivamente se o m´aximo foi encontrado, o que pode ser feito (talvez) avaliando o sinal da derivada segunda del(θ).
Defini¸c˜ao 2.2.6. (Fun¸c˜ao de Informa¸c˜ao) A fun¸c˜ao de informa¸c˜ao (observada), denotada porI(θ),
´e definida como menos a derivada segunda da fun¸c˜ao de log-verossimilhan¸ca em rela¸c˜ao θ:
I(θ) =−∂2l(θ)
∂θ2 . (2.4)
Observa¸c˜oes:
(i) O EMV pode n˜ao existir ou n˜ao ser ´unico;
(ii) O EMV deve assumir vlor no espa¸co param´etrico;
(iii) I(θ) pode ser interpretada como a quantidade de informa¸c˜ao observada sobre θcontida na amostra.
Exemplo 2.2.6. Suponha que desejemos estimar o parˆametro θ de uma popula¸c˜ao representada pela vari´avel aleat´oriaX com distribui¸c˜aoExponencial(θ). Uma amostra aleat´oriaX1, X2, . . . , Xn de X
Igualando a fun¸c˜ao escore a zero e resolvendo em rela¸c˜ao a θ, temos: n θˆ−
Vemos que a fun¸c˜ao de verossimilhan¸ca tem um m´aximo relativo para θ = 1
x. Verificamos ainda quelimθ→0L(θ, x
∼) = 0elimθ→∞L(θ, x
∼) = 0, isto ´e, n˜ao h´a ponto de m´aximo nas fronteiras. Portanto, θˆresulta m´aximo absoluto paraL(θ, x
∼). Na Figura 2.1 s˜ao mostrados os gr´aficos paraL(θ)el(θ)versus θ, este ´ultimo chamado curva suporte. Em muitos casos esses gr´aficos s˜ao ´uteis para a verifica¸c˜ao do ponto de m´aximo. O c´odigo do Programa R usado para gerar a figura ´e apresentado em seguida.
#Sintaxe do programa R para gerar a Figura 2.1.
set.seed(123) # Semente aleat´oria
amostra<-rexp(10,1) # Amostra de tamanho 10 de uma Exponencial(1)
0 1 2 3 4 5 6
0.0000.0010.0020.0030.004
(a)θ
L(θ)
0 1 2 3 4 5 6
−25−20−15−10−5
(b)θ
l(θ)
Figura 2.1: Gr´aficos das fun¸c˜oes L(θ) el(θ).
emv<-1/mean(amostra) # estimativa de MV Lmax<-emv^10*exp(-emv*sum(amostra)) lmax<-10*log(emv)-emv*sum(amostra) oldpar<-par(mfrow=c(1,2))
plot(function(t) t^10*exp(-sum(amostra)*t),0,6,sub="(a)",xlab=expression(theta), ylab=expression(L(theta)))
points(emv,Lmax,pch=20)
lines(c(emv,emv),c(Lmax,-1),lty=3)
plot(function(t)10*log(t)-sum(amostra)*t,0,6,sub="(b)",xlab=expression(theta), ylab=expression(l(theta)))
points(emv,lmax,pch=20)
lines(c(emv,emv),c(lmax,-1000),lty=3) par<-oldpar
#Fim da sintaxe
Resumindo o procedimento para encontrarmos ˆθpelo m´etodo da m´axima verossimilhan¸ca, devemos determinar a ra´ız da equa¸c˜ao U(θ) = 0 e verificarmos seI(ˆθ)>0. Em muitos exemplos, a solu¸c˜ao da equa¸c˜aoU(θ) = 0 pode ser encontrada algebricamente. Para outros, ser´a necess´ario resolver a equa¸c˜ao atrav´es de m´etodos num´ericos como, por exemplo, o de Newton-Raphson. Se o param´etrico for um conjunto discreto, calculamosl(θ) para os diversos θ∈Θ, e o valor correspondente ao m´aximo del(θ) ser´a o EMV, ˆθ.
Exemplo 2.2.7. (Kalbfleisch, 1985) Um laborat´orio est´a avaliando se a ´agua de um rio est´a pr´opria para banho. O interesse no estudo ´e a concentra¸c˜ao de coliformes(bact´eria) na ´agua. O n´umero de coliformes ´e determinado para cada uma de n amostras(volume unit´ario) de ´agua do rio, resultando os valores observados x1, x2 . . . , xn . O problema se resume a estimar µ, o n´umero m´edio de co-liformes por unidade de volume de ´agua no rio. N´os iremos supor que os coliformes distribuem-se aleatoriamente e uniformemente na ´agua do rio, de modo que a suposi¸c˜ao de um processo de Poisson seja atendida. Deste modo, a probabilidade de observarmos xi coliformes em uma amostra de uma unidade de volume da ´agua ´e dada pela distribui¸c˜ao de Poisson com parˆametro µ:
f(xi;µ) =µxie−µ/xi!, xi= 0,1,2, . . . .
Sendo volumes disjuntos independentes, a probabilidade de observamosx1, x2 . . . , xn ´e
Da Defini¸c˜ao 2.2.2, a fun¸c˜ao de verossimilhan¸ca ´e dada porc.f(x∼;µ), ondec ´e qualquer constante positiva n˜ao dependente de µ. Por simplifica¸c˜ao, escolhemos c = 1/(x1!x2!. . . xn!). Deste modo, as fun¸c˜oes de verossimilhan¸ca e de log-verossimilhan¸ca s˜ao, respectivamente,
L(µ) =µ As fun¸c˜oes Escore e de Informa¸c˜ao s˜ao
U(µ) = Essas fun¸c˜oes independem da escolha para a constante c.
Igualando a fun¸c˜ao Escore a zero e resolvendo para µ, temos como estimativa de m´axima ve-orssimilhan¸ca µˆ =Pn os casos o estimador de m´axima verosimilhan¸ca ´e X. Assim, para maximizarmos a probabilidade de¯ ocorrˆencia dos dados x1, x2 . . . , xn, a m´edia populacional µ ter´a como estimador a m´edia amostral
¯ x.
Exemplo 2.2.8. Considere um sistema em que uma opera¸c˜ao realiza-se com “sucesso”ou “falha”, e seja p a probabilidade de “sucesso” da opera¸c˜ao. Oito realiza¸c˜oes da opera¸c˜ao foram executadas, fornecendo o seguinte resultado: 1, 0, 1, 1, 1, 0, 1, 1, onde o valor 1 representa “sucesso”e o valor 0, “fracaso”. Assumindo independˆencia nas realiza¸c˜oes, e denotando por X a vari´avel aleat´oria que registra a ocorrˆencia de sucesso, teremos uma distribui¸c˜ao Bernoulli(p) para X. A probabilidade da seq¨uˆencia observada ´e p
Pn
i=1xi(1−p)n−
Pn
i=1xi = p6(1−p)2. Esta fun¸c˜ao de p ser´a a fun¸c˜ao de verossimilhan¸ca, que ser´a positiva para 0 < p < 1 e zero para p = 1 ou p = 0, portanto, o m´aximo ocorre no interior do intervalo[0,1]. Para obtermos a estimativa de m´axima verossimilhan¸ca, resolvemos a equa¸c˜ao
i=1xi. Considere, agora, por simplicidade, uma amostra de tamanho n= 3. Neste caso, a estat´ısticaPn
i=1xi pode assumir um dos quatro valores: 0, 1, 2, 3. Abaixo s˜ao apresentadas as fun¸c˜oes de verossimilhan¸ca para essas quatro possibilidades.
L0 =L(p;Pn
Na Figura 2.2 s˜ao apresentadas as curvas para essas fun¸c˜oes. Note que o ponto onde o m´aximo de cada uma das curva ´e atingido, para0≤p≤1, ´e o mesmo: p= ¯x. Para as quatro curvas, os valores para x¯ s˜ao 0, 1/3, 2/3 e 1, respectivamente. O c´odigo do Programa R usado para gerar a figura ´e apresentado em seguida.
0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.0
p
L(p) L1
L2 L3
L4
Figura 2.2: Gr´aficos das fun¸c˜oes de verossimilhan¸ca
#Sintaxe do programa R para gerar a Figura 2.2.
par(adj=1,bty="l")
plot(function(p)(1-p)^3,xlab="p",ylab="L(p)") plot(function(p)p*(1-p)^2,col="red",add=TRUE) plot(function(p)p^2*(1-p),col="blue",add=TRUE) plot(function(p)p^3,col="darkgreen",add=TRUE) p<-c(0,1/3,2/3,1)
points(p,c((1-p[1])^3,p[2]*(1-p[2])^2,p[3]^2*(1-p[3]),p[4]^3),pch=20, col=c("black","red","blue","darkgreen"))
text(c(0.1,0.2,0.8,0.83),c(0.9,0.18,0.18,0.7),labels=c("L1","L2","L3","L4"), pos=c(3,2,4,3))
#Fim da sintaxe.
Exemplo 2.2.9. SejamX1, X2, . . . , Xn uma amostra aleat´oria proveniente deX ∼U nif orme[0, θ], θ > 0. A determina¸c˜ao do EMV de θ n˜ao pode ser feita com o uso da Equa¸c˜ao 2.1 (ou da Equa¸c˜ao 2.2). Temos L(θ) = 1/θnQn
i=1I(xi)
[0, θ]
, l(θ) = −nlog(θ) e U(θ) = −n/θ. Entretanto, para que a fun¸c˜ao de verossimilhan¸ca n˜ao se anule, devemos ter θ ≥ xi, ∀i = 1,2, . . . , n, o que ´e equiv-alente a θ ≥ m´aximo{x1, x2, . . . , xn}. Verificando a express˜ao de L(θ), conclu´ımos que L(θ) ´e maximizada quando θ assume seu menor valor. Portanto, L(θ) ´e maximizada quando θ ´e esti-mado por θˆ = m´aximo{x1, x2, . . . , xn} e, assim, o estimador de m´axima verossimilhan¸ca ´e Θ =ˆ m´aximo{X1, X2, . . . , Xn}. Como exerc´ıcio, refa¸ca esse exemplo supondo X ∼ U nif orme(0, θ) e verifique a n˜ao existˆencia do EMV.
Exemplo 2.2.10. SejamX1, X2, . . . , Xn uma amostra aleat´oria proveniente de X∼U nif orme[θ− 1/2, θ+ 1/2], θ > 0. Nesta situa¸c˜ao tamb´em n˜ao ´e poss´ıvel determinarmos o EMV de θ atrav´es da Equa¸c˜ao 2.1 (ou da Equa¸c˜ao 2.2). Neste caso, temos
L(θ) = Yn i=1
I(xi)
[θ−12, θ+12]
.
Devemos terθ−12 ≤xi≤θ+12, para todoi= 1,2, . . . , n,. Deste modo,y1=m´ınimo{x1, x2, . . . , xn} ≥ θ−12 eyn=m´aximo{x1, x2, . . . , xn} ≤θ+12, o que resultaθ≤y1+12 eθ≥yn−12. A verossimilhan¸ca
´e, ent˜ao, expressa por
L(θ) = I(θ)
[yn−12, y1+12]
.
Sendo a verossimilhan¸ca constante no intervalo[yn−12, y1+12]e nula para θ > y1+12 ou θ < yn−12, conclu´ımos que qualquer valor no intervalo citado ´e uma estimativa de m´axima verossimilhan¸ca de θ.
Por exemplo, (y1+yn)/2.
Exemplo 2.2.11. (Kalbfleisch, 1985) Para cada um de duzentos dias de trabalho, uma amostra aleat´oria de dez itens foi selecionada de uma linha de produ¸c˜ao e avaliada quanto as imperfei¸c˜oes. Os resultados foram:
N´umero de itens com defeito 0 1 2 3 ≥4 Total Freq¨uˆencia observada 133 52 12 3 0 200
Para determinarmos o EMV de θ, a probabilidade de que um item seja defeituoso, iremos supor que o n´umero de itens defeituosos na amostra de tamanho dez, denotado por X, tenha distribui¸c˜ao binomial. Deste modo, a probabilidade de x itens defeituosos em dez ´epx =P(X =x) = 10x
θx(1− θ)10−x, x = 1,2, . . . , 10. A probabilidade de quatro ou mais itens defeituosos ser´a dada por p4+ = 1−p0 −p1 −p2 −p3. Note que esse experimento apresenta as caracter´ısticas de um experimento multinomial, pois o resultado de uma ´unica observa¸c˜ao pertencer´a a uma de cinco categorias, com probabilidades pi, i= 0,1, . . . ,4+. A probabilidade de observarmos a tabela de freq¨uˆencia dada ´e
f(x
∼;θ) = 200
133! 52! 12! 3! 0!p1330 p521 p122 p33p04+ =w.p1330 p521 p122 p33p04+
A verossimilhan¸ca ser´a ent˜ao L(θ) =cf(x
∼, θ) =cw 10
0
θ0(1−θ)10 133
10 1
θ(1−θ)9 52
10 2
θ2(1−θ)8 12
10 3
θ3(1−θ)7 3
.
Escolhendo a constante c de modo conveniente para a simplifica¸c˜ao de L(θ), temos que:
L(θ) =
(1−θ)10133
θ(1−θ)952
θ2(1−θ)812
θ3(1−θ)73
=θ85(1−θ)1915. A fun¸c˜ao de verossimilhan¸ca ´e da forma apresentada no Exemplo 2.2.8, com Pn
i=1xi/n= 85 e n= 200. Deste modo, o estimador de m´axima verossimilhan¸ca ´e dado por θˆ= 85/2000 = 0.0425.
No quadro abaixo s˜ao apresentadas as estimativas para as probabilidades e freq¨uˆencias esperadas para cada uma das cinco classes.
N´umero de itens com defeito 0 1 2 3 ≥4 Total
Freq¨uˆencia observada 133 52 12 3 0 200
Probabilidades 0,6477 0,2875 0,0574 0,0068 0,0006 1
Freq¨uˆencia esperada 129,54 57,50 11,48 1,36 0,12 200
As estimativas para a probabilidade e a freq¨uˆencia esperada para a primeira classe (n´umero de itens com defeito igual a zero) s˜ao, respectivamente, pˆ0 = 100θˆ0(1−θ)ˆ 10 = 0,6477 e a estimativa da freq¨uˆencia esperada para essa classe ´e nˆp0 = 200(0,6477) = 129,54. Os demais resultados foram obtidas de modo similar.
Em muitos problemas, o interesse n˜ao est´a em estimar o parˆametroθ, mas, sim, uma fun¸c˜ao dele.
Por exemplo, estimar P(X = 0) = e−θ, se X ∼ P oisson(θ). O teorema seguinte nos ajudar´a em situa¸c˜oes como esta.
Teorema 2.1. (Princ´ıpio da invariˆancia) (i) Suponha que Θ =ˆ W(X1, X2, . . . , Xn) ´e o estimador de m´axima verossimilhan¸ca de θ que caracteriza f(x;θ). Se g(·) ´e uma fun¸c˜ao biun´ıvoca(isto ´e, g(θ1) = g(θ2) se, e somente se, θ1 = θ2), ent˜ao o EMV de g(θ) ´e g( ˆΘ). (ii) Este resultado pode generalizar-se em dois sentidos: primeiro, para θ vetor, e ,segundo, abandonando-se a condi¸c˜ao de fun¸c˜ao biun´ıvoca para g(·).
Demonstra¸c˜ao
(i) Sendo g(·) uma fun¸c˜ao biun´ıvoca, podemos escreverθ=g−1(g(θ)), pois g(·) ´e invert´ıvel.
Assim,L(θ;x
∼) =L(g−1(g(θ));x
∼), de modo que ˆθ maximiza os dois lados desta igualdade.
Portanto, ˆθ=g−1(g(θ)) ed g(ˆθ) =g(θ), ou seja, a EMV ded g(θ) ´eg(ˆθ) e o EMV de g(θ) ´eg( ˆΘ).
(ii) Ainda que v´arios valores deθ correspondam a um ´unico valor deg(θ), ˆθ (que maximiza L(θ), por hip´otese) ´e um dos valores de θque conduzem g(·) a g(ˆθ), e, portanto,g(ˆθ) corresponde ao m´aximo deL(·).
Exemplo 2.2.12. Sejam X1, X2, . . . , Xn uma amostra aleat´oria proveniente deX ∼Bernoulli(θ), θ ∈ [0,1]. O estimador de m´axima verossimilhan¸ca de θ ´e . . . . Para obtermos o EMV de V(X) = θ(1−θ), fazemos . . .
Exemplo 2.2.13. SejamX1, X2, . . . , Xnuma amostra aleat´oria proveniente deX∼Exponencial(θ), com fun¸c˜ao densidade de probabilidade f(x;θ) = θexp (−θx), x > 0, θ >0. Para determinarmos o EMV daP(X >1), note que . . .
Exemplo 2.2.14. SejamX1, X2, . . . , Xn uma amostra aleat´oria proveniente de X∼N ormal(µ, σ2, µ∈IR, σ2 >0. Vamos determinarmos o EMV deg(θ) =σ2+µ2. Inicialmente . . .. Veja o exemplo 2.2.15.
[Texto complementar: Distribui¸c˜ao do EMV em grandes amostras]
Fun¸c˜ao de verossimilhan¸ca com dois ou mais parˆametros
Abordaremos, agora, situa¸c˜oes em que o modelo probabil´ıstico para a vari´avel em estudo envolve dois ou mais parˆametros desconhecidos. Para uma fun¸c˜ao de verossimilhan¸ca contendor parˆametros, os estimadores de m´axima verossimilhan¸ca dos parˆametrosθ1, θ2, . . . , θr ser˜ao as vari´aveis aleat´orias Θˆ1,Θˆ2, . . . ,Θˆr, e ˆθ1,θˆ2, . . . , θˆrser˜ao os valores em Θ que maximizamL(θ
∼;x
∼). O ponto onde a fun¸c˜ao de verossimilhan¸ca atinge seu m´aximo pode ser obtido pela solu¸c˜ao das r equa¸c˜oes:
∂L(θ∼;x∼)
∂θ1
= 0, ∂L(θ∼;x∼)
∂θ2
= 0, . . . , ∂L(θ∼;∼x)
∂θr
= 0. (2.5)
A estimativa de m´axima verossimilhan¸ca n˜ao coincidir´a necessariamente com alguma solu¸c˜ao do sistema. Mesmo que o sistema tenha solu¸c˜ao ´unica, n˜ao significa que ela seja a EMV, que pode at´e mesmo n˜ao existir.
Na obten¸c˜ao do estimador de m´axima verossimilhan¸ca duas verifica¸c˜oes s˜ao importantes: (i) ver-ificar se a solu¸c˜ao esta em Θ e (ii) verver-ificar se a solu¸c˜ao ´e m´aximo local de l(θ
∼). Para esta ´ultima verifica¸c˜ao, ´e suficiente que U(ˆθ
∼) = ˆU(θ
∼) =U(θ)θ
∼= ˆθ
∼
= 0 e que a matriz de informa¸c˜ao observada Jˆ(θ
∼) =−∂U(θ
∼)
∂θ∼
=−∂2l(θ
∼, x
∼)
∂θ∼∂θ∼′ θ
∼= ˆθ
∼
seja positiva definida.
Neste texto, daremos aten¸c˜ao a modelos com dois parˆametros.
Suponha que o modelo probabil´ıstico para um experimento envolva dois parˆametros, θ1 e θ2. A estimativa de m´axima verossimilhan¸ca de (θ1,θ2) ´e o par de valores param´etricos (ˆθ1, ˆθ2) que maximiza as fun¸c˜oes de verossimilhan¸ca e de log-verossimilhan¸ca.
No caso de um parˆametro, ˆθ pode ser obtido resolvendo a equa¸c˜ao U(θ) = 0. Agora, a fun¸c˜ao escore ´e um vetor com dois componentes:
U(θ 0. Entretanto, se o m´aximo ocorrer no limite do espa¸co param´etrico, as estimativas n˜ao ser˜ao obtidas dessas equa¸c˜oes.
A condi¸c˜ao para o m´aximo relativo no caso uniparam´etrico foi J(θ) =−∂U(θ)
∂θ =−∂2l(θ, x
∼)
∂θ2 >0.
Agora, a fun¸c˜ao de informa¸c˜ao observada ´e uma matrix sim´etrica dois-por-dois:
J(θ∼) =J(θ1, θ2) =
Como no caso uniparam´etrico, a verossimilhan¸ca ´e invariante sob transforma¸c˜oes um-a-um dos parˆametros. Freq¨uentemente, esse tipo de transforma¸c˜ao traz simplifica¸c˜ao no c´alculo do m´aximo. A transforma¸c˜ao inversa pode ent˜ao ser aplicada para obter os estimadores de m´axima verossimilhan¸ca para os parˆametros originais. E ainda, segue da propriedade de invariˆancia que, seω =g(θ1, θ2), ent˜ao o estimador de m´axima verossimilhan¸ca de ω´e ˆω=g(ˆθ1,θˆ2).
Exemplo 2.2.15. Sejam X1, X2, . . . , Xn uma amostra aleat´oria proveniente de uma distribui¸c˜ao Normal de m´edia µ e variˆancia σ2. Vamos determinar os estimadores de m´axima verossimilhan¸ca para µ eσ2.
Solu¸c˜ao: Feito em sala de aula!
Em alguns casos, n˜ao ´e poss´ıvel obter (ˆθ1,θˆ2) de forma alg´ebrica, isto ´e, obter uma express˜ao para os estimadores. Nos exemplos abaixo, veremos o uso do m´etodo de Newton-Raphson (m´etodo de Newton ou das tangentes, no caso uniparˆam´etrico) que ´e um procedimento iterativo para a solu¸c˜ao de equa¸c˜oes.
Suponha que seja poss´ıvel resolver uma das equa¸c˜oes, digamos U1(θ1, θ2) = 0, e assim obter uma express˜ao alg´ebrica para θ1em fun¸c˜ao de θ2. Seja ˆθ1(θ2) a solu¸c˜ao dessa equa¸c˜ao. Esse ´e o esti-mador de m´axima verossimilhan¸ca deθ1dadoθ2; isto ´e, ˆθ1(θ2) ´e o valor deθ1que maximizal(θ1, θ2;x
∼) quando o valor de θ2 ´e suposto conhecido. Substituindo θ1 por ˆθ1(θ2) na segunda equa¸c˜ao resulta U2(ˆθ1(θ2), θ2) = 0, que pode, ent˜ao, ser resolvida paraθ2como no caso uniparam´etrico. O exemplo a seguir esclarece esse procedimento.
Exemplo 2.2.16. (Kalbfleisch, 1985) Suponha que para um teste de resistˆencia de um componente met´alico, 23 amostras(corpos de prova) foram avaliadas resultando nos valores
17,88 28,92 33,00 41,52 42,12 45,60 48,48 51,84 51,96 54,12 55,56 67,80 68,64 68,64 68,88 84,12 93,12 98,64 105,12 105,84 127,92 128,04 173,40
De estudos anteriores admite-se que a resistˆencia apresenta aproximadamente uma distribui¸c˜ao de Weibull, cuja densidade ´e dada porf(x;α, β) =αβxβ−1exp (−αxβ),0< x <∞, ondeα >0 eβ >0.
Nosso objetivo ´e determinar (ˆα,β)ˆ com base na amostra observada.
Solu¸c˜ao:
Fun¸c˜ao densidade de probabilidade conjunta:
f(x∼;α, β) =
Fun¸c˜ao de log-verossimilhan¸ca: l(α, β;x
∼) =nlog(α) +nlog(β) + (β−1)
´e a estimativa de m´axima verossimilhan¸ca de α quando β ´e suposto conhecido.
Para obter β, substitu´ımosˆ α pela sua estimativa α(β)ˆ na equa¸c˜ao U2(α, β) = 0 e resolvemos em iterativo de Newton (veja detalhes no Apˆendice):
β(t+1)=β(t)−U2(ˆα(β(t)), β(t))
No procedimento iterativo de Newton, obtemos uma nova estimativa β(t+1) a partir de uma anterior β(t), via a equa¸c˜ao acima. O superescrito(t)significa a t-´esima itera¸c˜ao do procedimento. O processo
´e repetido at´e a distˆancia entre β(t+1) e β(t) se tornar suficientemente pequena. Faz-se necess´ario, obviamente, um valor inicial para o parˆametro β(t). (acrescentar detalhes!!)
A derivada da fun¸c˜aoU2 em rela¸c˜ao a β ´e como valor inicial para a estimativa (β(0)= 1), obtemos:
Itera¸c˜ao 1(t=0)
Pn
i=1xβi(0) = 1.661,160, Pn
i=1xβi(0)logxi= 7.312,526, Pn
i=1xβi(0)(logxi)2 = 32.572,030, U2(ˆα(β(0)), β(0)) = 17,213, U2′(ˆα(β(0)), β(0)) =−28,287 e β(1)= 1,6085.
Itera¸c˜ao 2(t=1) Pn
i=1xβi(1) = 25.204,740, Pn
i=1xβi(1)logxi= 11.4257,600, Pn
i=1xβi(1)(logxi)2 = 523.008,800, U2(ˆα(β(1)), β(1)) = 5,496, U2′(ˆα(β(1)), β(1)) =−13,506 e β(2)= 2,0155.
Ap´os algumas itera¸c˜oes obtemos o valor 2,1021 como estimativa de m´axima verossimilhan¸ca para o parˆametro β e, conseq¨uentemente, a estimativa de m´axima verossimilhan¸ca para o parˆametro α ´e
ˆ
α=n/Pn
i=1xβiˆ = 9,515×10−5.
Para o modelo Weibull, podemos substituir α por θ−β. O parˆametro θ ´e interpretado como o sexag´esimo terceiro quantil da distribui¸c˜ao. Como a transforma¸c˜ao de (α, β) para (θ, β) ´e um-a-um, a estimativa de m´axima verossimilhan¸ca deθ ´e, pela propriedade de invariˆancia, θˆ= ˆα−1/βˆ = 81,88.
Abaixo ´e apresentado o c´odigo do programa R para obter as estimativas de m´axima verossimilhan¸ca para esse exemplo. A fun¸c˜ao fitdistr retorna as estimativas e os respectivos erros-padr˜ao.
#Sintaxe do programa R para o exemplo com a distribui¸c~ao Weibull.
require(MASS)
x<-c(17.88, 28.92, 33.00, 41.52, 42.12, 45.60, 48.48, 51.84, 51.96, 54.12, 55.56, 67.80, 68.64, 68.64, 68.88, 84.12, 93.12, 98.64, 105.12, 105.84, 127.92, 128.04, 173.40)
fitdistr(x, "weibull")
#Fim da sintaxe
Resultado da fun¸c~ao fitdistr.
shape scale
2.1021225 81.8682777 ( 0.3286951) ( 8.5986003)
O exemplo seguinte ilustra o caso onde n˜ao ´e poss´ıvel adequar o problema de modo a trabalhar com apenas uma equa¸c˜ao.
Exemplo 2.2.17.
2.2.3 M´etodo dos M´ınimos Quadrados