2.4.2 Teste de Wald

Suponha que deseja-se testar a hipótese bilateral H0 : θ = θ0 versus H1 : θ 6= θ0. Um teste aproximado poderia ter como base a estatística zn = (Wnθ0)/Sn e rejeitaria H0se, e somente se,zn <−zα/2. SeH0for verdadeira, entãoθ = θ0eZn converge em distribuição paraZ ∼ N(0,1). Portanto, a probabilidade do Erro Tipo I, Pθ0(Zn < −zα/2 ou Zn >

zα/2) → P(Z < −zα/2 ou Z > zα/2) = α, este é, assintoticamente, um teste de tamanhoα. Em geral, um teste de Wald é um teste com base em uma estatística da forma,

Zn= Wnθ0 Sn

ondeθ0é um valor hipotético do parâmetroθ,Wné um estimador deθeSn

é um erro padrão deWn, uma estimativa do desvio padrão deWn. SeWn

for o EMV paraθ, então, q

IO(θˆ)é um erro padrão razoável paraWn.

2.4.3 Teste escore

Definição 2.21. A estatística de escore é definida como U(θ) =

∂θl(θ|Y)

Sabemos que para todoθ,Eθ(U(θ)) =0. Em particular, se estivermos testandoH0:θ=θ0e seH0for verdadeira, entãoU(θ)tem média 0. Além disso,

Vθ(U(θ)) =−Eθ 2

∂θ2l(θ|Y)

=IE(θ)

ou seja, o número de informações é a variância da estatística escore. A estatística de teste para o teste de escore é

ZS =U(θ0)/ q

IE(θ0). SeH0for verdadeira,ZStem média 0 e variância 1.

2.5 Exemplo - Estimação pontual

Neste exemplo consideramos um problema para no qual o estimador de máxima verossimilhança pode ser obtido analiticamente e ilustramos as propriedades básicas do estimador. Começamos mostrando quatro repre-sentações alternativas da verossimilhança.

SejaYi ∼ P(λ)comi = 1, . . . ,n, variáveis aleatórias independentes e denote Y = ni=1Yi/n. A função de verossimilhança é o produto das n distribuições de Poisson com parâmetroλcomum a todas. A função de ve-rossimilhança é dada pela expressão a seguir, notando-se que, obtida uma determinada amostra, o termo no denominador é uma constante.

L(λ) =

n i=1

exp{−λ}λYi

Yi! = exp{−nλ}λni=1Yi

ni=1Yi! .

Um representação alternativa é a função de verossimilhança relativa.

Sendo, ˆλo EMV paraλa função de verossimilhança relativa é dada por LR(λ) = L(λ)

L(λ)ˆ que para esse exemplo tem a expressão a seguir. Os valores assumidos por esta função estão sempre no intervalo unitário o que facilita a construção e visualização de gráficos. Note-se ainda que nesta represen-tação o termo constante do denominador é cancelado.

LR(λ) =exp{−n(λλˆ)}(λ/ ˆλ)nY.

Outra possibilidade é usar a função de log-verossimilhança l(λ) = logL(λ) que normalmente é preferida para se trabalhar analítica e com-putacionalmente do que a L(λ). Para o exemplo, a expressão é como se segue com o último termo constante para uma determinada amostra.

l(λ) =−nλ+nYlog(λ)−

n i=1

log(Yi!).

Por fim, podemos ainda utilizar a função deviance dada por, D(λ) = 2{l(λˆ)−l(λ)}, que é comumente reportada por algoritmos e utilizada na obtenção de intervalos de confiança e testes de hipótese, devida a suas pro-priedades assintóticas. Assim como na verossimilhança relativa, a sua ex-pressão elimina o termo constante ficando na forma:

D(λ) =2n{(λλˆ)−Ylog(λ/ ˆλ)}.

Neste caso o estimador de máxima verossimilhança paraλpode ser

en-2.5. EXEMPLO- ESTIMAÇÃO PONTUAL 21

contrado analiticamente maximizando a função de log-verossimilhança.

L(λ) =

Vamos obter o gráfico das funções associadas à verossimilhança para uma amostra simulada da distribuição de Poisson com parâmetroλ=10.

set.seed(20)

(y <- rpois(20, lambda=10))

[1] 13 8 15 5 8 12 12 9 6 9 9 8 14 5 9 7 9 11 10 9

A Figura 2.1, apresenta os gráficos dessas quatro formas de visualiza-ção da funvisualiza-ção de verossimilhança para os dados simulados. Utilizamos a função definida no código 2.1 que permite escolher a representação dese-jada da verossimilhança. As verossimilhanças relativa edeviancerequerem que o valor da verossimilhança maximizada seja informado no argumento

maxlogL, que é constante para uma determinada amostra. Deixamos este cálculo fora da função para evitar que esta quantidade constante seja recal-culado nas sucessivas avaliações de função. Para facilitar o obtenção dos gráficos definimos a função na forma vetorizada utilizandosapply()para que a função possa receber um vetor de valores do parâmetro.

Código 2.1: Função com diferentes representações da verossimilhança para distribuição de Poisson.

veroPois <- function(par, dados, tipo, maxlogL){

tipo = match.arg(tipo, choices=c("L","LR","logL","dev")) ll <- sapply(par, function(p) sum(dpois(dados, lambda=p,

log=TRUE))) return(switch(tipo, "L" = exp(ll),

"LR" = exp(ll-maxlogL),

"logL" = ll,

"dev" = 2*(maxlogL-ll)))}

Os comandos a seguir mostram a obtenção da log-verossimilhança ma-ximizadal(λˆ)e a chamada para obter o gráfico da função deviance D(λ). Para os demais gráficos basta alterar os valores do argumentotipo.

mll <- sum(dpois(y, lambda=mean(y), log=TRUE))

curve(veroPois(x, dados=y, tipo="dev", maxlogL=mll), 8, 11, ylab=expression(D(lambda)), xlab=expression(lambda))

8.0 9.0 10.0 11.0

2e−226e−221e−21

λ

L(λ)

8.0 9.0 10.0 11.0

0.20.61.0

λ

LR(λ)

8.0 9.0 10.0 11.0

−50.5−49.5−48.5

λ

l(λ)

8.0 9.0 10.0 11.0

012345

λ

D(λ)

Figura 2.1: Diferentes formas de visualizar a função de verossimilhança -Distribuição Poisson.

Apesar das quatro formas serem equivalentes a forma usual para en-contrar o estimador de máxima verossimilhança é a log-verossimilhança.

De forma geral, cálculos analíticos com a função de verossimilhança L(λ) podem ser mais trabalhosos enquanto que sua computação mais sensível a valores que podem gerar problemas numéricos, por exemplo excedendo a capacidade de representação de números. A verosimilhança relativa e devi-ancerequerem o valor da função de verosimilhança avaliado na estimativa.

Para adeviance, pela definição, a estimativa corresponde à raiz de função, ou seja, onde a função toca o eixo com valores do parâmetro.

Embora neste exemplo o EMV pode ser encontrado analiticamente, vamos ilustrar métodos numéricos comumente utilizados para encontrar EMV. Mas antes disto vamos redefinir a função de verossimilhança escrita agora como função da estatística suficiente calculada com os valores da amostra. Definimos l(λ) como opçãodefault. O argumentoamostradeve receber uma lista com o tamanho e soma dos termos da amostra. Omitimos emL(λ)el(λ)o termo que não depende do parâmetro.LR(λ)eD(λ)não se alteram pois termos se cancelam em seu cálculo.

Código 2.2: Refefinição função com diferentes representações da verossimi-lhança para distribuição de Poisson.

veroPois <- function(par, amostra, tipo="logL", maxlogL){

tipo = match.arg(tipo, choices=c("L","LR","logL","dev")) ll <- with(amostra, -n*par + soma * log(par))

return(switch(tipo, "L" = exp(ll),

"LR" = exp(ll-maxlogL),

"logL" = ll,

"dev" = 2*(maxlogL-ll)))}

2.5. EXEMPLO- ESTIMAÇÃO PONTUAL 23

Comandos equivalentes aos anteriores para obtenção do gráfico seriam como a seguir.

am <- list(n=length(y), soma=sum(y)) (emv <- mean(y))

[1] 9.4

mll <- veroPois(emv, amostra=am, tipo="logL")

curve(veroPois(x, amostra=am, tipo="dev", maxlogL=mll), 8, 11, ylab=expression(D(lambda)), xlab=expression(lambda))

Para ilustrar obtenção da estimativa do parâmetro por métodos numé-ricos vamos considerar as seguintes opções: i) solução de equação de es-timação U(λ = 0) por um método sem uso de gradientes (Brent) e por um método com uso de gradientes (Newton-Raphson); ii) maximização de função de verossimilhança.

Código 2.3: Função escore para Poisson.

UPois <- function(lambda, amostra){

return(with(amostra, n - soma/lambda)) }

Para obter a estimativa utilizamos inicialmente a funçãouniroot() im-plementa um algoritmo para encontrar a raiz de uma equação.

uniroot(UPois, interval=range(y), amostra=am)$root [1] 9.400002

O algoritmo talvez mais comumente utilizado é o de Newton-Raphson que, utilizando uma expansão em séries de Taylor deU(λ), resolve a equa-ção a seguir até que algum critério de convergência seja atingido.

λr+1=λrU(λ) H(λ)

Para implementar o algorítmo precisamos definir primeiro a função H(λ) =U0(λ).

Código 2.4: FunçãoH(λ) =IO(λ)para Poisson.

HPois <- function(lambda, amostra){

return(amostra$soma/lambda^2) }

Uma variante do método é utilizar H(λ) = IE(λ), conhecido como Fisher scoring. A estimativa é obtida por este algoritmo a partir de um valor inicial.

maxit <- 100; lambdaNR <- 5; iter <- 0; d <- 1 while(d > 1e-12 & iter <= maxit){

lambdaNR.new

<-lambdaNR - UPois(<-lambdaNR, am)/HPois(<-lambdaNR, am) d <- abs(lambdaNR - lambdaNR.new)

lambdaNR <- lambdaNR.new ; iter <- iter + 1 }

c(lambdaNR, iter) [1] 9.4 7.0

No exemplo a estimativa 9.4 foi obtida em 7 iterações. Os comandos acima podem ser encapsulados em uma função para facilitar o uso. Existem ainda funções noRque implementam esta algoritmo. Uma possível generaliza-ção é utilizar funçõesU(λ) eH(λ)obtidas numericamente para modelos em que não há expressões fechadas para estas funções. Isto nos remete a métodos numéricos para maximização del(λ). Para o caso de um único paramêtro utilizamos a funçãooptimize()que utiliza o algoritmo de Brent e diversas outras funções são disponíveis noRe pacotes, sendo mais co-mum o uso deoptim().

unlist(optimize(veroPois, int=range(y), maximum=TRUE, amostra=am)[1:2]) maximum objective

9.399997 233.253422

Como o estimador de máxima verossimilhança é uma função de uma variável aleatória ele também é uma variável aleatória. Conforme as pro-priedades apresentadas o EMV é assintoticamente não viciado e sua dis-tribuição amostral é assintoticamente gaussiana. Para exemplificar estas propriedades vamos fazer um pequeno estudo de simulação, para verifi-car como se comporta o viés e a distribuição do EMV conforme aumenta o tamanho da amostra.

Para isto, simulamos 1.000 conjuntos de dados de acordo com o modelo Poisson comλ= 3.5 eλ =10. Vamos retirar amostras de tamanho 5, 50 e 100, em cada amostra calcular o EMV. A Figura 2.2 apresenta os resultados deste estudo de simulação. Pelas propriedades do EMV temos que ˆλ ∼ N(λ,λny2). Na Figura 2.2 sobrepomos o histograma das estimativas obtidas nas simulações com a gráfico da distribuição assintótica (normal).

Como é possível visualizar na Figura 2.2 a distribuição empírica apre-senta um comportamento muito próximo da distribuição teórica, mesmo para valores baixos deλe amostras pequenasn = 5 e n = 50, o viés vai diminuindo conforme a amostra aumenta. É também evidente que com uma amostra maior a variância do EMV vai diminuindo, até no caso limite quandon→atinge o 0 mostrando a consistência do EMV. É interessante observar que mesmo com uma amostra pequena, os resultados válidos as-sintoticamente já apresentam resultados excelentes. É claro que este é um exemplo simples, porém como veremos mesmo em modelos mais

No documento 20ªSINAPE. Simpósio Nacional de Probabilidade e Estatística MINICURSO. Métodos Computacionais em Inferência Estatística (páginas 26-32)