Método da M´ axima Verossimilhan¸ca - Métodos de Estima¸cão

2.2 M´etodos de Estima¸c˜ao

2.2.2 M´etodo da M´ axima Verossimilhan¸ca

O Método da Máxima Verossimilhan¸ca(MMV) foi introduzido por Ronald A. Fisher em 1912. O forte apelo intuitivo, sua aplicabilidade em muitos casos e a existência de propriedades desejáveis para os estimadores resultantes do método são razões para o seu amplo uso dentre os métodos de estima¸cão.

Defini¸cão 2.2.2. (Fun¸cão de Verossimilhan¸ca) SejamX₁, X₂, . . . , X_n variáveis aleatórias (não nec-essariamente independentes ou identicamente distribu´ıdas) com fun¸cão de distribui¸cão conjunta de-notada por F(x

∼;θ) =F(x₁, x₂, . . . , x_n;θ). A fun¸c˜ao de verossimilhan¸ca² ´e definida por L(θ) =L(θ;x_∼) =f(x_∼;θ),

onde f(., θ) é fun¸cão densidade no caso cont´ınuo e fun¸cão de probabilidade no caso discreto, e θ é desconhecido.

A idéia do método é “olhar”para a fun¸cão densidade de probabilidade (ou fun¸cão de probabilidade) conjunta da amostra não mais como fun¸cão da amostra, mas, sim, como fun¸cão do parâmetro θ, considerando a amostra observadax₁, x₂ . . . , x_n fixa. Essa fun¸cão passa a ser denominada fun¸cão de verossimilhan¸ca. O método da máxima verossimilhan¸ca procura estabelecer valor para o parâmetro θ que mais provavelmente resultou as observa¸cõesx₁, x₂ . . . , x_n. Em geral, este valor é uma fun¸cão da amostra.

Defini¸cão 2.2.3. (Estimador de Máxima Verossimilhan¸ca) Seja L(θ) a fun¸cão de verossimilhan¸ca para as variáveis aleatórias X₁, X₂, . . . , X_n . Se θˆ=ϕ(x₁, x₂, . . . , x_n)é um valor de θ, emΘ , que maximizaL(θ), entãoΘ =ˆ ϕ(X₁, X₂, . . . , X_n)é o estimador de máxima verossimilhan¸ca(EMV) de θ eθˆé a estimativa de máxima verossimilhan¸ca deθ para a amostra x₁, x₂ . . . , x_n .

A verossimilhan¸ca expressa a plausibilidade para diferentes valores deθ, fixada a amostrax1, x2, . . . , x_n; e informa a preferência por um dentre diversos valores poss´ıveis para o parâmetro. O valor que resulta a maior verossimilhan¸ca é denominado estimativa de máxima verossimilhan¸ca.

Muitas fun¸cões de verossimilhan¸ca satisfazem condi¸cões de regularidade que permitem obter o respectivo máximo por deriva¸cão. Nestes casos a estimativa de máxima verossimilhan¸ca resulta de

∂L(θ;x

∼)

∂θ = 0. (2.1)

A estimativa de máxima verossimihan¸ca(EMV) não coincide necessariamente com alguma solu¸cão da Equa¸cão 2.1. Mesmo que essa equa¸cão tenha solu¸cão única, não significa que ela seja a EMV, que pode até mesmo não existir. O fato de operarmos derivando produtórios (Equa¸cão 2.1) torna trabalhosa a obten¸cão do máximo paraL(θ). Para remediar essa dificuldade, fazemos uso da fun¸cão logar´ıtmica que é uma fun¸cão monótona crescente³, e, assim,L(θ) el(θ) = logL(θ) tem seus máximos para o mesmo valor de θ. Desse modo, podemos obter o EMV deθ através da equa¸cão

∂l(θ)

∂θ = ∂l(θ;X

∼)

∂θ = 0. (2.2)

Defini¸cão 2.2.4. (Fun¸cão de Log-verossimilhan¸ca) A fun¸cão de log-verossimilhan¸ca é definida como o logaritmo natural da fun¸cão de verossimilhan¸ca: l(θ) = logL(θ).

Defini¸cão 2.2.5. (Fun¸cão escore) A fun¸cão escore, denotada por U(θ), é definida como a primeira derivada da fun¸cão de log-verossimilhan¸ca com respeito a θ:

U(θ) = ∂

∂θ logf(x

∼;θ). (2.3)

2Alguns autores definemL(θ) =c.f(x

∼;θ), ondecé qualquer constante positiva, não dependente deθ. Diz-se então que a verossimilhan¸ca é proporcional a probabilidade de ocorrência da amostra

3L(θ1;x

∼)< L(θ2;x

∼)⇔logL(θ1;x

∼)<logL(θ2;x

∼), ∀θ1, θ2∈Θ

Muito freqüentemente trabalhamos com variáveis aleatórias independentes, e as fun¸cões de veros-similhan¸ca e de log-verosveros-similhan¸ca reduzem-se, respectivamente, a

L(θ) =

No desenvolvimento para a obten¸cão da estimativa de máxima verossimilhan¸ca, ˆθ, precisamos determinar o máximo de l(θ) (ou de L(θ)) para todos os valores poss´ıveis de θ, o que pode ser feito por diferencia¸cão de l(θ) em rela¸cão a θ, como exposto anteriormente. Entretanto, é poss´ıvel que esse procedimento resulte um m´ınimo relativo ou um ponto de inflexão ao invés do máximo desejado.

Assim, é necessário verificar efetivamente se o máximo foi encontrado, o que pode ser feito (talvez) avaliando o sinal da derivada segunda del(θ).

Defini¸cão 2.2.6. (Fun¸cão de Informa¸cão) A fun¸cão de informa¸cão (observada), denotada porI(θ),

é definida como menos a derivada segunda da fun¸cão de log-verossimilhan¸ca em rela¸cão θ:

I(θ) =−∂²l(θ)

∂θ² . (2.4)

Observa¸c˜oes:

(i) O EMV pode não existir ou não ser único;

(ii) O EMV deve assumir vlor no espa¸co param´etrico;

(iii) I(θ) pode ser interpretada como a quantidade de informa¸c˜ao observada sobre θcontida na amostra.

Exemplo 2.2.6. Suponha que desejemos estimar o parâmetro θ de uma popula¸cão representada pela variável aleatóriaX com distribui¸cãoExponencial(θ). Uma amostra aleatóriaX1, X2, . . . , Xn de X

Igualando a fun¸c˜ao escore a zero e resolvendo em rela¸c˜ao a θ, temos: n θˆ−

Vemos que a fun¸c˜ao de verossimilhan¸ca tem um m´aximo relativo para θ = 1

x. Verificamos ainda quelim_θ_→₀L(θ, x

∼) = 0elim_θ_→∞L(θ, x

∼) = 0, isto é, não há ponto de máximo nas fronteiras. Portanto, θˆresulta máximo absoluto paraL(θ, x

∼). Na Figura 2.1 são mostrados os gráficos paraL(θ)el(θ)versus θ, este último chamado curva suporte. Em muitos casos esses gráficos são úteis para a verifica¸cão do ponto de máximo. O código do Programa R usado para gerar a figura é apresentado em seguida.

#Sintaxe do programa R para gerar a Figura 2.1.

set.seed(123) # Semente aleat´oria

amostra<-rexp(10,1) # Amostra de tamanho 10 de uma Exponencial(1)

0 1 2 3 4 5 6

0.0000.0010.0020.0030.004

(a)θ

L(θ)

0 1 2 3 4 5 6

−25−20−15−10−5

(b)θ

l(θ)

Figura 2.1: Gr´aficos das fun¸c˜oes L(θ) el(θ).

emv<-1/mean(amostra) # estimativa de MV Lmax<-emv^10*exp(-emv*sum(amostra)) lmax<-10*log(emv)-emv*sum(amostra) oldpar<-par(mfrow=c(1,2))

plot(function(t) t^10*exp(-sum(amostra)*t),0,6,sub="(a)",xlab=expression(theta), ylab=expression(L(theta)))

points(emv,Lmax,pch=20)

lines(c(emv,emv),c(Lmax,-1),lty=3)

plot(function(t)10*log(t)-sum(amostra)*t,0,6,sub="(b)",xlab=expression(theta), ylab=expression(l(theta)))

points(emv,lmax,pch=20)

lines(c(emv,emv),c(lmax,-1000),lty=3) par<-oldpar

#Fim da sintaxe

Resumindo o procedimento para encontrarmos ˆθpelo método da máxima verossimilhan¸ca, devemos determinar a ra´ız da equa¸cão U(θ) = 0 e verificarmos seI(ˆθ)>0. Em muitos exemplos, a solu¸cão da equa¸cãoU(θ) = 0 pode ser encontrada algebricamente. Para outros, será necessário resolver a equa¸cão através de métodos numéricos como, por exemplo, o de Newton-Raphson. Se o paramétrico for um conjunto discreto, calculamosl(θ) para os diversos θ∈Θ, e o valor correspondente ao máximo del(θ) será o EMV, ˆθ.

Exemplo 2.2.7. (Kalbfleisch, 1985) Um laboratório está avaliando se a água de um rio está própria para banho. O interesse no estudo é a concentra¸cão de coliformes(bactéria) na água. O número de coliformes é determinado para cada uma de n amostras(volume unitário) de água do rio, resultando os valores observados x₁, x₂ . . . , x_n . O problema se resume a estimar µ, o número médio de co-liformes por unidade de volume de água no rio. Nós iremos supor que os coliformes distribuem-se aleatoriamente e uniformemente na água do rio, de modo que a suposi¸cão de um processo de Poisson seja atendida. Deste modo, a probabilidade de observarmos x_i coliformes em uma amostra de uma unidade de volume da água é dada pela distribui¸cão de Poisson com parâmetro µ:

f(xi;µ) =µ^xⁱe⁻^µ/xi!, xi= 0,1,2, . . . .

Sendo volumes disjuntos independentes, a probabilidade de observamosx₁, x₂ . . . , x_n ´e

Da Defini¸cão 2.2.2, a fun¸cão de verossimilhan¸ca é dada porc.f(x_∼;µ), ondec é qualquer constante positiva não dependente de µ. Por simplifica¸cão, escolhemos c = 1/(x₁!x₂!. . . x_n!). Deste modo, as fun¸cões de verossimilhan¸ca e de log-verossimilhan¸ca são, respectivamente,

L(µ) =µ As fun¸cões Escore e de Informa¸cão são

U(µ) = Essas fun¸c˜oes independem da escolha para a constante c.

Igualando a fun¸cão Escore a zero e resolvendo para µ, temos como estimativa de máxima ve-orssimilhan¸ca µˆ =Pn os casos o estimador de máxima verosimilhan¸ca é X. Assim, para maximizarmos a probabilidade de¯ ocorrência dos dados x₁, x₂ . . . , x_n, a média populacional µ terá como estimador a média amostral

¯ x.

Exemplo 2.2.8. Considere um sistema em que uma opera¸cão realiza-se com “sucesso”ou “falha”, e seja p a probabilidade de “sucesso” da opera¸cão. Oito realiza¸cões da opera¸cão foram executadas, fornecendo o seguinte resultado: 1, 0, 1, 1, 1, 0, 1, 1, onde o valor 1 representa “sucesso”e o valor 0, “fracaso”. Assumindo independência nas realiza¸cões, e denotando por X a variável aleatória que registra a ocorrência de sucesso, teremos uma distribui¸cão Bernoulli(p) para X. A probabilidade da seqüência observada é p

i=1xi(1−p)ⁿ⁻

i=1xi = p⁶(1−p)². Esta fun¸cão de p será a fun¸cão de verossimilhan¸ca, que será positiva para 0 < p < 1 e zero para p = 1 ou p = 0, portanto, o máximo ocorre no interior do intervalo[0,1]. Para obtermos a estimativa de máxima verossimilhan¸ca, resolvemos a equa¸cão

i=1x_i. Considere, agora, por simplicidade, uma amostra de tamanho n= 3. Neste caso, a estat´ısticaPn

i=1x_i pode assumir um dos quatro valores: 0, 1, 2, 3. Abaixo s˜ao apresentadas as fun¸c˜oes de verossimilhan¸ca para essas quatro possibilidades.

L₀ =L(p;Pn

Na Figura 2.2 são apresentadas as curvas para essas fun¸cões. Note que o ponto onde o máximo de cada uma das curva é atingido, para0≤p≤1, é o mesmo: p= ¯x. Para as quatro curvas, os valores para x¯ são 0, 1/3, 2/3 e 1, respectivamente. O código do Programa R usado para gerar a figura é apresentado em seguida.

0.0 0.2 0.4 0.6 0.8 1.0

0.00.20.40.60.81.0

L(p) L1

L2 L3

Figura 2.2: Gr´aficos das fun¸c˜oes de verossimilhan¸ca

#Sintaxe do programa R para gerar a Figura 2.2.

par(adj=1,bty="l")

plot(function(p)(1-p)^3,xlab="p",ylab="L(p)") plot(function(p)p*(1-p)^2,col="red",add=TRUE) plot(function(p)p^2*(1-p),col="blue",add=TRUE) plot(function(p)p^3,col="darkgreen",add=TRUE) p<-c(0,1/3,2/3,1)

points(p,c((1-p[1])^3,p[2]*(1-p[2])^2,p[3]^2*(1-p[3]),p[4]^3),pch=20, col=c("black","red","blue","darkgreen"))

text(c(0.1,0.2,0.8,0.83),c(0.9,0.18,0.18,0.7),labels=c("L1","L2","L3","L4"), pos=c(3,2,4,3))

#Fim da sintaxe.

Exemplo 2.2.9. SejamX₁, X₂, . . . , X_n uma amostra aleatória proveniente deX ∼U nif orme[0, θ], θ > 0. A determina¸cão do EMV de θ não pode ser feita com o uso da Equa¸cão 2.1 (ou da Equa¸cão 2.2). Temos L(θ) = 1/θⁿQn

i=1I(xi)

[0, θ]

, l(θ) = −nlog(θ) e U(θ) = −n/θ. Entretanto, para que a fun¸cão de verossimilhan¸ca não se anule, devemos ter θ ≥ x_i, ∀i = 1,2, . . . , n, o que é equiv-alente a θ ≥ máximo{x₁, x₂, . . . , x_n}. Verificando a expressão de L(θ), conclu´ımos que L(θ) é maximizada quando θ assume seu menor valor. Portanto, L(θ) é maximizada quando θ é esti-mado por θˆ = máximo{x₁, x₂, . . . , x_n} e, assim, o estimador de máxima verossimilhan¸ca é Θ =ˆ máximo{X₁, X₂, . . . , X_n}. Como exerc´ıcio, refa¸ca esse exemplo supondo X ∼ U nif orme(0, θ) e verifique a não existência do EMV.

Exemplo 2.2.10. SejamX₁, X₂, . . . , X_n uma amostra aleatória proveniente de X∼U nif orme[θ− 1/2, θ+ 1/2], θ > 0. Nesta situa¸cão também não é poss´ıvel determinarmos o EMV de θ através da Equa¸cão 2.1 (ou da Equa¸cão 2.2). Neste caso, temos

L(θ) = Yn i=1

I(x_i)

[θ−¹₂, θ+¹₂]

Devemos terθ−¹₂ ≤x_i≤θ+¹₂, para todoi= 1,2, . . . , n,. Deste modo,y₁=m´ınimo{x₁, x₂, . . . , x_n} ≥ θ−¹₂ ey_n=m´aximo{x₁, x₂, . . . , x_n} ≤θ+¹₂, o que resultaθ≤y₁+¹₂ eθ≥y_n−¹₂. A verossimilhan¸ca

´e, ent˜ao, expressa por

L(θ) = I(θ)

[yn−¹₂, y1+¹₂]

Sendo a verossimilhan¸ca constante no intervalo[yn−¹₂, y1+¹₂]e nula para θ > y1+¹₂ ou θ < yn−¹₂, conclu´ımos que qualquer valor no intervalo citado ´e uma estimativa de m´axima verossimilhan¸ca de θ.

Por exemplo, (y₁+y_n)/2.

Exemplo 2.2.11. (Kalbfleisch, 1985) Para cada um de duzentos dias de trabalho, uma amostra aleatória de dez itens foi selecionada de uma linha de produ¸cão e avaliada quanto as imperfei¸cões. Os resultados foram:

Número de itens com defeito 0 1 2 3 ≥4 Total Freqüência observada 133 52 12 3 0 200

Para determinarmos o EMV de θ, a probabilidade de que um item seja defeituoso, iremos supor que o número de itens defeituosos na amostra de tamanho dez, denotado por X, tenha distribui¸cão binomial. Deste modo, a probabilidade de x itens defeituosos em dez ép_x =P(X =x) = ¹⁰_x

θ^x(1− θ)¹⁰⁻^x, x = 1,2, . . . , 10. A probabilidade de quatro ou mais itens defeituosos será dada por p₄₊ = 1−p₀ −p₁ −p₂ −p₃. Note que esse experimento apresenta as caracter´ısticas de um experimento multinomial, pois o resultado de uma única observa¸cão pertencerá a uma de cinco categorias, com probabilidades pi, i= 0,1, . . . ,4+. A probabilidade de observarmos a tabela de freqüência dada é

f(x

∼;θ) = 200

133! 52! 12! 3! 0!p¹³³₀ p⁵²₁ p¹²₂ p³₃p⁰₄₊ =w.p¹³³₀ p⁵²₁ p¹²₂ p³₃p⁰₄₊

A verossimilhan¸ca ser´a ent˜ao L(θ) =cf(x

∼, θ) =cw 10

θ⁰(1−θ)¹⁰ 133

10 1

θ(1−θ)⁹ 52

10 2

θ²(1−θ)⁸ 12

10 3

θ³(1−θ)⁷ 3

Escolhendo a constante c de modo conveniente para a simplifica¸c˜ao de L(θ), temos que:

L(θ) =

(1−θ)¹⁰133

θ(1−θ)⁹52

θ²(1−θ)⁸12

θ³(1−θ)⁷3

=θ⁸⁵(1−θ)¹⁹¹⁵. A fun¸c˜ao de verossimilhan¸ca ´e da forma apresentada no Exemplo 2.2.8, com Pn

i=1x_i/n= 85 e n= 200. Deste modo, o estimador de m´axima verossimilhan¸ca ´e dado por θˆ= 85/2000 = 0.0425.

No quadro abaixo são apresentadas as estimativas para as probabilidades e freqüências esperadas para cada uma das cinco classes.

N´umero de itens com defeito 0 1 2 3 ≥4 Total

Freq¨uˆencia observada 133 52 12 3 0 200

Probabilidades 0,6477 0,2875 0,0574 0,0068 0,0006 1

Freq¨uˆencia esperada 129,54 57,50 11,48 1,36 0,12 200

As estimativas para a probabilidade e a freqüência esperada para a primeira classe (número de itens com defeito igual a zero) são, respectivamente, pˆ₀ = ¹⁰₀θˆ⁰(1−θ)ˆ ¹0 = 0,6477 e a estimativa da freqüência esperada para essa classe é nˆp₀ = 200(0,6477) = 129,54. Os demais resultados foram obtidas de modo similar.

Em muitos problemas, o interesse não está em estimar o parâmetroθ, mas, sim, uma fun¸cão dele.

Por exemplo, estimar P(X = 0) = e⁻^θ, se X ∼ P oisson(θ). O teorema seguinte nos ajudar´a em situa¸c˜oes como esta.

Teorema 2.1. (Princ´ıpio da invariância) (i) Suponha que Θ =ˆ W(X₁, X₂, . . . , X_n) é o estimador de máxima verossimilhan¸ca de θ que caracteriza f(x;θ). Se g(·) é uma fun¸cão biun´ıvoca(isto é, g(θ₁) = g(θ₂) se, e somente se, θ₁ = θ₂), então o EMV de g(θ) é g( ˆΘ). (ii) Este resultado pode generalizar-se em dois sentidos: primeiro, para θ vetor, e ,segundo, abandonando-se a condi¸cão de fun¸cão biun´ıvoca para g(·).

Demonstra¸c˜ao

(i) Sendo g(·) uma fun¸c˜ao biun´ıvoca, podemos escreverθ=g⁻¹(g(θ)), pois g(·) ´e invert´ıvel.

Assim,L(θ;x

∼) =L(g⁻¹(g(θ));x

∼), de modo que ˆθ maximiza os dois lados desta igualdade.

Portanto, ˆθ=g⁻¹(g(θ)) ed g(ˆθ) =g(θ), ou seja, a EMV ded g(θ) ´eg(ˆθ) e o EMV de g(θ) ´eg( ˆΘ).

(ii) Ainda que vários valores deθ correspondam a um único valor deg(θ), ˆθ (que maximiza L(θ), por hipótese) é um dos valores de θque conduzem g(·) a g(ˆθ), e, portanto,g(ˆθ) corresponde ao máximo deL(·).

Exemplo 2.2.12. Sejam X₁, X₂, . . . , X_n uma amostra aleatória proveniente deX ∼Bernoulli(θ), θ ∈ [0,1]. O estimador de máxima verossimilhan¸ca de θ é . . . . Para obtermos o EMV de V(X) = θ(1−θ), fazemos . . .

Exemplo 2.2.13. SejamX₁, X₂, . . . , X_numa amostra aleat´oria proveniente deX∼Exponencial(θ), com fun¸c˜ao densidade de probabilidade f(x;θ) = θexp (−θx), x > 0, θ >0. Para determinarmos o EMV daP(X >1), note que . . .

Exemplo 2.2.14. SejamX1, X2, . . . , Xn uma amostra aleat´oria proveniente de X∼N ormal(µ, σ², µ∈IR, σ² >0. Vamos determinarmos o EMV deg(θ) =σ²+µ². Inicialmente . . .. Veja o exemplo 2.2.15.

[Texto complementar: Distribui¸c˜ao do EMV em grandes amostras]

Fun¸c˜ao de verossimilhan¸ca com dois ou mais parˆametros

Abordaremos, agora, situa¸cões em que o modelo probabil´ıstico para a variável em estudo envolve dois ou mais parâmetros desconhecidos. Para uma fun¸cão de verossimilhan¸ca contendor parâmetros, os estimadores de máxima verossimilhan¸ca dos parâmetrosθ₁, θ₂, . . . , θ_r serão as variáveis aleatórias Θˆ₁,Θˆ₂, . . . ,Θˆ_r, e ˆθ₁,θˆ₂, . . . , θˆ_rserão os valores em Θ que maximizamL(θ

∼;x

∼). O ponto onde a fun¸cão de verossimilhan¸ca atinge seu máximo pode ser obtido pela solu¸cão das r equa¸cões:

∂L(θ_∼;x_∼)

∂θ1

= 0, ∂L(θ_∼;x_∼)

∂θ2

= 0, . . . , ∂L(θ_∼;_∼x)

∂θr

= 0. (2.5)

A estimativa de máxima verossimilhan¸ca não coincidirá necessariamente com alguma solu¸cão do sistema. Mesmo que o sistema tenha solu¸cão única, não significa que ela seja a EMV, que pode até mesmo não existir.

Na obten¸cão do estimador de máxima verossimilhan¸ca duas verifica¸cões são importantes: (i) ver-ificar se a solu¸cão esta em Θ e (ii) verver-ificar se a solu¸cão é máximo local de l(θ

∼). Para esta última verifica¸cão, é suficiente que U(ˆθ

∼) = ˆU(θ

∼) =U(θ)θ

∼= ˆθ

∼

= 0 e que a matriz de informa¸c˜ao observada Jˆ(θ

∼) =−∂U(θ

∼)

∂θ∼

=−∂²l(θ

∼, x

∼)

∂θ_∼∂θ_∼^′ θ

∼= ˆθ

∼

seja positiva definida.

Neste texto, daremos aten¸c˜ao a modelos com dois parˆametros.

Suponha que o modelo probabil´ıstico para um experimento envolva dois parâmetros, θ₁ e θ₂. A estimativa de máxima verossimilhan¸ca de (θ₁,θ₂) é o par de valores paramétricos (ˆθ₁, ˆθ₂) que maximiza as fun¸cões de verossimilhan¸ca e de log-verossimilhan¸ca.

No caso de um parâmetro, ˆθ pode ser obtido resolvendo a equa¸cão U(θ) = 0. Agora, a fun¸cão escore é um vetor com dois componentes:

U(θ 0. Entretanto, se o máximo ocorrer no limite do espa¸co paramétrico, as estimativas não serão obtidas dessas equa¸cões.

A condi¸cão para o máximo relativo no caso uniparamétrico foi J(θ) =−∂U(θ)

∂θ =−∂²l(θ, x

∼)

∂θ² >0.

Agora, a fun¸cão de informa¸cão observada é uma matrix simétrica dois-por-dois:

J(θ_∼) =J(θ1, θ2) =

Como no caso uniparamétrico, a verossimilhan¸ca é invariante sob transforma¸cões um-a-um dos parâmetros. Freqüentemente, esse tipo de transforma¸cão traz simplifica¸cão no cálculo do máximo. A transforma¸cão inversa pode então ser aplicada para obter os estimadores de máxima verossimilhan¸ca para os parâmetros originais. E ainda, segue da propriedade de invariância que, seω =g(θ₁, θ₂), então o estimador de máxima verossimilhan¸ca de ωé ˆω=g(ˆθ₁,θˆ₂).

Exemplo 2.2.15. Sejam X₁, X₂, . . . , X_n uma amostra aleatória proveniente de uma distribui¸cão Normal de média µ e variância σ². Vamos determinar os estimadores de máxima verossimilhan¸ca para µ eσ².

Solu¸c˜ao: Feito em sala de aula!

Em alguns casos, não é poss´ıvel obter (ˆθ₁,θˆ₂) de forma algébrica, isto é, obter uma expressão para os estimadores. Nos exemplos abaixo, veremos o uso do método de Newton-Raphson (método de Newton ou das tangentes, no caso uniparâmétrico) que é um procedimento iterativo para a solu¸cão de equa¸cões.

Suponha que seja poss´ıvel resolver uma das equa¸cões, digamos U1(θ1, θ2) = 0, e assim obter uma expressão algébrica para θ₁em fun¸cão de θ₂. Seja ˆθ₁(θ₂) a solu¸cão dessa equa¸cão. Esse é o esti-mador de máxima verossimilhan¸ca deθ₁dadoθ₂; isto é, ˆθ₁(θ₂) é o valor deθ₁que maximizal(θ₁, θ₂;x

∼) quando o valor de θ₂ é suposto conhecido. Substituindo θ₁ por ˆθ₁(θ₂) na segunda equa¸cão resulta U₂(ˆθ₁(θ₂), θ₂) = 0, que pode, então, ser resolvida paraθ₂como no caso uniparamétrico. O exemplo a seguir esclarece esse procedimento.

Exemplo 2.2.16. (Kalbfleisch, 1985) Suponha que para um teste de resistˆencia de um componente met´alico, 23 amostras(corpos de prova) foram avaliadas resultando nos valores

17,88 28,92 33,00 41,52 42,12 45,60 48,48 51,84 51,96 54,12 55,56 67,80 68,64 68,64 68,88 84,12 93,12 98,64 105,12 105,84 127,92 128,04 173,40

De estudos anteriores admite-se que a resistência apresenta aproximadamente uma distribui¸cão de Weibull, cuja densidade é dada porf(x;α, β) =αβx^β⁻¹exp (−αx^β),0< x <∞, ondeα >0 eβ >0.

Nosso objetivo ´e determinar (ˆα,β)ˆ com base na amostra observada.

Solu¸c˜ao:

Fun¸c˜ao densidade de probabilidade conjunta:

f(x_∼;α, β) =

Fun¸c˜ao de log-verossimilhan¸ca: l(α, β;x

∼) =nlog(α) +nlog(β) + (β−1)

é a estimativa de máxima verossimilhan¸ca de α quando β é suposto conhecido.

Para obter β, substitu´ımosˆ α pela sua estimativa α(β)ˆ na equa¸c˜ao U₂(α, β) = 0 e resolvemos em iterativo de Newton (veja detalhes no Apˆendice):

β^(t+1)=β^(t)−U₂(ˆα(β^(t)), β^(t))

No procedimento iterativo de Newton, obtemos uma nova estimativa β^(t+1) a partir de uma anterior β^(t), via a equa¸cão acima. O superescrito(t)significa a t-ésima itera¸cão do procedimento. O processo

é repetido até a distância entre β^(t+1) e β^(t) se tornar suficientemente pequena. Faz-se necessário, obviamente, um valor inicial para o parâmetro β^(t). (acrescentar detalhes!!)

A derivada da fun¸cãoU₂ em rela¸cão a β é como valor inicial para a estimativa (β⁽⁰⁾= 1), obtemos:

Itera¸c˜ao 1(t=0)

i=1x^β_i⁽⁰⁾ = 1.661,160, Pn

i=1x^β_i⁽⁰⁾logxi= 7.312,526, Pn

i=1x^β_i⁽⁰⁾(logxi)² = 32.572,030, U2(ˆα(β⁽⁰⁾), β⁽⁰⁾) = 17,213, U₂^′(ˆα(β⁽⁰⁾), β⁽⁰⁾) =−28,287 e β⁽¹⁾= 1,6085.

Itera¸c˜ao 2(t=1) P_n

i=1x^β_i⁽¹⁾ = 25.204,740, P_n

i=1x^β_i⁽¹⁾logx_i= 11.4257,600, P_n

i=1x^β_i⁽¹⁾(logx_i)² = 523.008,800, U₂(ˆα(β⁽¹⁾), β⁽¹⁾) = 5,496, U₂^′(ˆα(β⁽¹⁾), β⁽¹⁾) =−13,506 e β⁽²⁾= 2,0155.

Após algumas itera¸cões obtemos o valor 2,1021 como estimativa de máxima verossimilhan¸ca para o parâmetro β e, conseqüentemente, a estimativa de máxima verossimilhan¸ca para o parâmetro α é

α=n/Pn

i=1x^β_i^ˆ = 9,515×10⁻⁵.

Para o modelo Weibull, podemos substituir α por θ⁻^β. O parâmetro θ é interpretado como o sexagésimo terceiro quantil da distribui¸cão. Como a transforma¸cão de (α, β) para (θ, β) é um-a-um, a estimativa de máxima verossimilhan¸ca deθ é, pela propriedade de invariância, θˆ= ˆα⁻^1/^β^ˆ = 81,88.

Abaixo é apresentado o código do programa R para obter as estimativas de máxima verossimilhan¸ca para esse exemplo. A fun¸cão fitdistr retorna as estimativas e os respectivos erros-padrão.

#Sintaxe do programa R para o exemplo com a distribui¸c~ao Weibull.

require(MASS)

x<-c(17.88, 28.92, 33.00, 41.52, 42.12, 45.60, 48.48, 51.84, 51.96, 54.12, 55.56, 67.80, 68.64, 68.64, 68.88, 84.12, 93.12, 98.64, 105.12, 105.84, 127.92, 128.04, 173.40)

fitdistr(x, "weibull")

#Fim da sintaxe

Resultado da fun¸c~ao fitdistr.

shape scale

2.1021225 81.8682777 ( 0.3286951) ( 8.5986003)

O exemplo seguinte ilustra o caso onde não é poss´ıvel adequar o problema de modo a trabalhar com apenas uma equa¸cão.

Exemplo 2.2.17.

2.2.3 M´etodo dos M´ınimos Quadrados

No documento UFC DEMA UNIVERSIDADE FEDERAL DO CEAR Á DEPARTAMENTO DE ESTATÍSTICA E MATEM ÁTICA APLICADA Inferência Estat´ıstica Paramêtrica Ronald Targino Nojosa NOTAS DE AULA Versão preliminar Janeiro/2006 (páginas 27-36)