2.4.2 Teste de Wald
Suponha que deseja-se testar a hipótese bilateral H0 : θ = θ0 versus H1 : θ 6= θ0. Um teste aproximado poderia ter como base a estatística zn = (Wn−θ0)/Sn e rejeitaria H0se, e somente se,zn <−zα/2. SeH0for verdadeira, entãoθ = θ0eZn converge em distribuição paraZ ∼ N(0,1). Portanto, a probabilidade do Erro Tipo I, Pθ0(Zn < −zα/2 ou Zn >
zα/2) → P(Z < −zα/2 ou Z > zα/2) = α, este é, assintoticamente, um teste de tamanhoα. Em geral, um teste de Wald é um teste com base em uma estatística da forma,
Zn= Wn−θ0 Sn
ondeθ0é um valor hipotético do parâmetroθ,Wné um estimador deθeSn
é um erro padrão deWn, uma estimativa do desvio padrão deWn. SeWn
for o EMV paraθ, então, q
IO(θˆ)é um erro padrão razoável paraWn.
2.4.3 Teste escore
Definição 2.21. A estatística de escore é definida como U(θ) = ∂
∂θl(θ|Y)
Sabemos que para todoθ,Eθ(U(θ)) =0. Em particular, se estivermos testandoH0:θ=θ0e seH0for verdadeira, entãoU(θ)tem média 0. Além disso,
Vθ(U(θ)) =−Eθ ∂2
∂θ2l(θ|Y)
=IE(θ)
ou seja, o número de informações é a variância da estatística escore. A estatística de teste para o teste de escore é
ZS =U(θ0)/ q
IE(θ0). SeH0for verdadeira,ZStem média 0 e variância 1.
2.5 Exemplo - Estimação pontual
Neste exemplo consideramos um problema para no qual o estimador de máxima verossimilhança pode ser obtido analiticamente e ilustramos as propriedades básicas do estimador. Começamos mostrando quatro repre-sentações alternativas da verossimilhança.
SejaYi ∼ P(λ)comi = 1, . . . ,n, variáveis aleatórias independentes e denote Y = ∑ni=1Yi/n. A função de verossimilhança é o produto das n distribuições de Poisson com parâmetroλcomum a todas. A função de ve-rossimilhança é dada pela expressão a seguir, notando-se que, obtida uma determinada amostra, o termo no denominador é uma constante.
L(λ) =
∏
n i=1exp{−λ}λYi
Yi! = exp{−nλ}λ∑ni=1Yi
∏ni=1Yi! .
Um representação alternativa é a função de verossimilhança relativa.
Sendo, ˆλo EMV paraλa função de verossimilhança relativa é dada por LR(λ) = L(λ)
L(λ)ˆ que para esse exemplo tem a expressão a seguir. Os valores assumidos por esta função estão sempre no intervalo unitário o que facilita a construção e visualização de gráficos. Note-se ainda que nesta represen-tação o termo constante do denominador é cancelado.
LR(λ) =exp{−n(λ−λˆ)}(λ/ ˆλ)nY.
Outra possibilidade é usar a função de log-verossimilhança l(λ) = logL(λ) que normalmente é preferida para se trabalhar analítica e com-putacionalmente do que a L(λ). Para o exemplo, a expressão é como se segue com o último termo constante para uma determinada amostra.
l(λ) =−nλ+nYlog(λ)−
∑
n i=1log(Yi!).
Por fim, podemos ainda utilizar a função deviance dada por, D(λ) = 2{l(λˆ)−l(λ)}, que é comumente reportada por algoritmos e utilizada na obtenção de intervalos de confiança e testes de hipótese, devida a suas pro-priedades assintóticas. Assim como na verossimilhança relativa, a sua ex-pressão elimina o termo constante ficando na forma:
D(λ) =2n{(λ−λˆ)−Ylog(λ/ ˆλ)}.
Neste caso o estimador de máxima verossimilhança paraλpode ser
en-2.5. EXEMPLO- ESTIMAÇÃO PONTUAL 21
contrado analiticamente maximizando a função de log-verossimilhança.
L(λ) =
Vamos obter o gráfico das funções associadas à verossimilhança para uma amostra simulada da distribuição de Poisson com parâmetroλ=10.
set.seed(20)
(y <- rpois(20, lambda=10))
[1] 13 8 15 5 8 12 12 9 6 9 9 8 14 5 9 7 9 11 10 9
A Figura 2.1, apresenta os gráficos dessas quatro formas de visualiza-ção da funvisualiza-ção de verossimilhança para os dados simulados. Utilizamos a função definida no código 2.1 que permite escolher a representação dese-jada da verossimilhança. As verossimilhanças relativa edeviancerequerem que o valor da verossimilhança maximizada seja informado no argumento
maxlogL, que é constante para uma determinada amostra. Deixamos este cálculo fora da função para evitar que esta quantidade constante seja recal-culado nas sucessivas avaliações de função. Para facilitar o obtenção dos gráficos definimos a função na forma vetorizada utilizandosapply()para que a função possa receber um vetor de valores do parâmetro.
Código 2.1: Função com diferentes representações da verossimilhança para distribuição de Poisson.
veroPois <- function(par, dados, tipo, maxlogL){
tipo = match.arg(tipo, choices=c("L","LR","logL","dev")) ll <- sapply(par, function(p) sum(dpois(dados, lambda=p,
log=TRUE))) return(switch(tipo, "L" = exp(ll),
"LR" = exp(ll-maxlogL),
"logL" = ll,
"dev" = 2*(maxlogL-ll)))}
Os comandos a seguir mostram a obtenção da log-verossimilhança ma-ximizadal(λˆ)e a chamada para obter o gráfico da função deviance D(λ). Para os demais gráficos basta alterar os valores do argumentotipo.
mll <- sum(dpois(y, lambda=mean(y), log=TRUE))
curve(veroPois(x, dados=y, tipo="dev", maxlogL=mll), 8, 11, ylab=expression(D(lambda)), xlab=expression(lambda))
8.0 9.0 10.0 11.0
2e−226e−221e−21
λ
L(λ)
8.0 9.0 10.0 11.0
0.20.61.0
λ
LR(λ)
8.0 9.0 10.0 11.0
−50.5−49.5−48.5
λ
l(λ)
8.0 9.0 10.0 11.0
012345
λ
D(λ)
Figura 2.1: Diferentes formas de visualizar a função de verossimilhança -Distribuição Poisson.
Apesar das quatro formas serem equivalentes a forma usual para en-contrar o estimador de máxima verossimilhança é a log-verossimilhança.
De forma geral, cálculos analíticos com a função de verossimilhança L(λ) podem ser mais trabalhosos enquanto que sua computação mais sensível a valores que podem gerar problemas numéricos, por exemplo excedendo a capacidade de representação de números. A verosimilhança relativa e devi-ancerequerem o valor da função de verosimilhança avaliado na estimativa.
Para adeviance, pela definição, a estimativa corresponde à raiz de função, ou seja, onde a função toca o eixo com valores do parâmetro.
Embora neste exemplo o EMV pode ser encontrado analiticamente, vamos ilustrar métodos numéricos comumente utilizados para encontrar EMV. Mas antes disto vamos redefinir a função de verossimilhança escrita agora como função da estatística suficiente calculada com os valores da amostra. Definimos l(λ) como opçãodefault. O argumentoamostradeve receber uma lista com o tamanho e soma dos termos da amostra. Omitimos emL(λ)el(λ)o termo que não depende do parâmetro.LR(λ)eD(λ)não se alteram pois termos se cancelam em seu cálculo.
Código 2.2: Refefinição função com diferentes representações da verossimi-lhança para distribuição de Poisson.
veroPois <- function(par, amostra, tipo="logL", maxlogL){
tipo = match.arg(tipo, choices=c("L","LR","logL","dev")) ll <- with(amostra, -n*par + soma * log(par))
return(switch(tipo, "L" = exp(ll),
"LR" = exp(ll-maxlogL),
"logL" = ll,
"dev" = 2*(maxlogL-ll)))}
2.5. EXEMPLO- ESTIMAÇÃO PONTUAL 23
Comandos equivalentes aos anteriores para obtenção do gráfico seriam como a seguir.
am <- list(n=length(y), soma=sum(y)) (emv <- mean(y))
[1] 9.4
mll <- veroPois(emv, amostra=am, tipo="logL")
curve(veroPois(x, amostra=am, tipo="dev", maxlogL=mll), 8, 11, ylab=expression(D(lambda)), xlab=expression(lambda))
Para ilustrar obtenção da estimativa do parâmetro por métodos numé-ricos vamos considerar as seguintes opções: i) solução de equação de es-timação U(λ = 0) por um método sem uso de gradientes (Brent) e por um método com uso de gradientes (Newton-Raphson); ii) maximização de função de verossimilhança.
Código 2.3: Função escore para Poisson.
UPois <- function(lambda, amostra){
return(with(amostra, n - soma/lambda)) }
Para obter a estimativa utilizamos inicialmente a funçãouniroot() im-plementa um algoritmo para encontrar a raiz de uma equação.
uniroot(UPois, interval=range(y), amostra=am)$root [1] 9.400002
O algoritmo talvez mais comumente utilizado é o de Newton-Raphson que, utilizando uma expansão em séries de Taylor deU(λ), resolve a equa-ção a seguir até que algum critério de convergência seja atingido.
λr+1=λr−U(λ) H(λ)
Para implementar o algorítmo precisamos definir primeiro a função H(λ) =U0(λ).
Código 2.4: FunçãoH(λ) =IO(λ)para Poisson.
HPois <- function(lambda, amostra){
return(amostra$soma/lambda^2) }
Uma variante do método é utilizar H(λ) = IE(λ), conhecido como Fisher scoring. A estimativa é obtida por este algoritmo a partir de um valor inicial.
maxit <- 100; lambdaNR <- 5; iter <- 0; d <- 1 while(d > 1e-12 & iter <= maxit){
lambdaNR.new
<-lambdaNR - UPois(<-lambdaNR, am)/HPois(<-lambdaNR, am) d <- abs(lambdaNR - lambdaNR.new)
lambdaNR <- lambdaNR.new ; iter <- iter + 1 }
c(lambdaNR, iter) [1] 9.4 7.0
No exemplo a estimativa 9.4 foi obtida em 7 iterações. Os comandos acima podem ser encapsulados em uma função para facilitar o uso. Existem ainda funções noRque implementam esta algoritmo. Uma possível generaliza-ção é utilizar funçõesU(λ) eH(λ)obtidas numericamente para modelos em que não há expressões fechadas para estas funções. Isto nos remete a métodos numéricos para maximização del(λ). Para o caso de um único paramêtro utilizamos a funçãooptimize()que utiliza o algoritmo de Brent e diversas outras funções são disponíveis noRe pacotes, sendo mais co-mum o uso deoptim().
unlist(optimize(veroPois, int=range(y), maximum=TRUE, amostra=am)[1:2]) maximum objective
9.399997 233.253422
Como o estimador de máxima verossimilhança é uma função de uma variável aleatória ele também é uma variável aleatória. Conforme as pro-priedades apresentadas o EMV é assintoticamente não viciado e sua dis-tribuição amostral é assintoticamente gaussiana. Para exemplificar estas propriedades vamos fazer um pequeno estudo de simulação, para verifi-car como se comporta o viés e a distribuição do EMV conforme aumenta o tamanho da amostra.
Para isto, simulamos 1.000 conjuntos de dados de acordo com o modelo Poisson comλ= 3.5 eλ =10. Vamos retirar amostras de tamanho 5, 50 e 100, em cada amostra calcular o EMV. A Figura 2.2 apresenta os resultados deste estudo de simulação. Pelas propriedades do EMV temos que ˆλ ∼ N(λ,λny2). Na Figura 2.2 sobrepomos o histograma das estimativas obtidas nas simulações com a gráfico da distribuição assintótica (normal).
Como é possível visualizar na Figura 2.2 a distribuição empírica apre-senta um comportamento muito próximo da distribuição teórica, mesmo para valores baixos deλe amostras pequenasn = 5 e n = 50, o viés vai diminuindo conforme a amostra aumenta. É também evidente que com uma amostra maior a variância do EMV vai diminuindo, até no caso limite quandon→∞atinge o 0 mostrando a consistência do EMV. É interessante observar que mesmo com uma amostra pequena, os resultados válidos as-sintoticamente já apresentam resultados excelentes. É claro que este é um exemplo simples, porém como veremos mesmo em modelos mais