l(θˆ)−[l(θˆ) + (θθˆ)l0(θˆ) + 1

2(θθˆ)2l00(θˆ)]

. Como por definição de EMVl0(θˆ) = 0, eliminando termos a aproximação quadrática define a região

D(θ) =−(θθˆ)2l00(θˆ)≤c. que define então intervalos de confiança da forma,

θˆ± s c

−l00(θˆ).

Isto corresponde a fazer uma aproximação quadrática da função devi-ance, que torna o intervalo fácil de ser obtido. Estendendo para o caso de múltiplos parâmetros, tem-se que uma região de confiança paraθé dada pelo conjuntoθΘ:D(θ)≤c. Portanto, as duas formas de interpretar o intervalo de confiança discutidas no caso uniparamétrico podem ser esten-didas para o caso multiparamétrico, sem problemas. Novamente a questão que surge é a definição de um valor parac. Pela abordagem frequentista é desejável que o intervalo tenha uma interpretação em termos de probabili-dades ou frequência e isto é atingido através das proprieprobabili-dades assintóticas dos estimadores de máxima verossimilhança, que serão apresentadas na próxima Seção.

2.3 Propriedades do estimador

Apesar de definirmos a função de verossimilhança como uma quanti-dade fixa avaliada em y, devemos lembrar que ela é baseada em apenas

2.3. PROPRIEDADES DO ESTIMADOR 13

uma realização do vetor aleatórioY, sendo assim, estudar o comportamento probabilístico dos estimadores de máxima verossimilhança é de fundamen-tal importância para a construção de intervalos de confiança e testes de hi-póteses. Para isto, vamos precisar de mais algumas definições.

Definição 2.13(Função escore). Sendo l(θ)a função de log-verossimilhança, o vetor escore é definido por

U(θ) = é o vetor gradiente da função de log-verossimilhança.

Definimos as matrizes de informaçãoobservadaeesperada(matriz de in-formação de Fisher).

Definição 2.14 (Matriz de informação Observada). Sendo l(θ) a função de log-verossimilhança, a matriz de informação Observada é definida por

IO(θ) =

Definição 2.15(Matriz de informação Esperada). Sendo l(θ)a função de log-verossimilhança, a matriz de informação Esperada é definida por

IE(θ) =

Dois importantes resultados da funçãoescoree da matriz de informação observada é queE[U(θ)] =0 eV[U(θ)] =E[IO(θ)] =IE[θ].

ondeCov(Ui,Ui) =V(Ui). Uma propriedade importante de IO(θˆ)eIE(θˆ) é que elas são matrizes definida positiva, as quais mensuram a curvatura observada/esperada na superfície de log-verossimilhança. Com estas de-finições, pode-se escrever a funçãodevianceaproximada para um vetor de parâmetros da seguinte forma:

D(θ)≈(θθˆ)>IO(θˆ)(θθˆ).

AssimD(θ)é não negativa uma vez que IO(θˆ)é uma matriz positiva de-finida. Uma vez definidas estas quantidades envolvidas, estamos aptos a enunciar Teorema a seguir.

Teorema 2.2(Distribuição assintótica do EMV). Para um problema de estima-ção regular, no limite com n→∞, seθé o verdadeiro vetor de parâmetros, então

θˆ∼N Md(θ,IE(θ)−1),

ou seja, a distribuição assintótica deθˆé uma normal multivariada com matriz de variância/covariância dada pela inversa da matriz de informação esperada.

Corolário- Qualquer termo assintoticamente equivalente aIE(θ)pode ser usado no Teorema 2.2. Assim,

θˆ∼N Md(θ,IE−1(θˆ)) θˆ∼N Md(θ,IO−1(θ)) θˆ∼ N Md(θ,IO−1(θˆ)).

Teorema 2.3(Distribuição assintótica da deviance). Para um problema regular de estimação, no limite com n→∞, seθé o verdadeiro valor do parâmetro, então

D(θ) =−2[l(θ)−l(θˆ)]∼χ2d

ou seja, a função deviance segue uma distribuição Qui-Quadrado com d graus de liberdade, onde d é a dimensão do vetorθ.

De acordo com os teoremas apresentados, podemos chegar a algumas das principais propriedades dos estimadores de máxima verossimilhança:

• O estimador de máxima verossimilhança ˆθ de θ é assintoticamente não-viciado, isto é,E(θˆ)→θ.

• AssintoticamenteV(θˆ) → IE−1(θ), o qual por uma versão multivari-ada do limite de Cramér-Rao é o melhor possível, mostrando que o EMV é eficiente para o vetorθ.

2.3. PROPRIEDADES DO ESTIMADOR 15

• DenoteJ = IE−1(θ), entãoV(θˆ) = J, sendo que,Jé uma matriz simé-trica e definida positiva, com elementosJi,j=Cov(θˆi, ˆθj)então Ji,ié a variância de ˆθi. Denota-seJi,i12 de desvio padrão de ˆθi.

• Podemos construir intervalos de 100(1α)% de confiança paraθina forma ˆθi±zα

2Ji,i12. Intervalos desta forma serão denominados, interva-los de Wald ou baseados em aproximação quadrática da verossimi-lhança.

• Para regiões de confiança baseados nadevianceconsidera-se[θΘ: D(θ)≤ c], para algum valorca ser especificado. Pode-se escolher cbaseado em justificativas assintóticas de queD(θ)∼χ2dé uma es-colha razoável para c = cα com P(χ2d ≥ cα) = α, por exemplo se α = 0.05, então cα = 3.84. Isto gera uma região de 100(1−α)% de confiança. Estes intervalos serão denominados de intervalosdeviance.

De acordo com as propriedades apresentadas tem-se duas formas bási-cas de construir intervalos de confiança. A primeira mais simples é baseada na aproximação quadrática da log-verossimilhança e a segunda utilizando diretamente a função devianceobtida com os dados. A segunda opção é em geral mais trabalhosa computacionalmente, uma vez que usualmente gera uma equação não linear que precisa ser resolvida numericamente. A primeira opção é bastante direta, uma vez obtida a matriz de segundas de-rivadas basta invertê-la e tirar a raiz dos termos da diagonal para se obter o intervalo de confiança para cada parâmetro, marginalmente. Esta abor-dagem é muito simples mas apresenta limitações. Restrições naturais do espaço paramétrico como, por exemplo, para parâmetros de variância e correlação não são respeitadas e podem resultar em limites absurdos, com limite(s) do intervalo fora do espaço paramétrico. Os intervalos serão sem-pre simétricos ao aproximar a verossimilhança por uma forma quadrática, o que normalmente não produz resultados adequados para parâmetros de variância e correlação. Em modelos com efeitos aleatórios há um interesse natural nos parâmetros de variância, precisão e correlação. Testar a signifi-cância de tais efeitos utilizando as variâncias associadas às estimativas que indexam o modelo pode produzir resultados imprecisos. Logo, esta abor-dagem é restrita em classes mais gerais de modelos estatísticos.

A segunda opção resulta em uma região conjunta para o caso de dois ou mais parâmetros, enquanto que pela aproximação é possível obter um inter-valo marginal para cada parâmetro, porém baseado em uma aproximação quadrática da superfície de log-verossimilhança. Este tipo de representação é a mais desejável para inferência, porém não pode ser obtida diretamente apenas com o Teorema 2.3. Por exemplo, suponha que tem-se interesse em

um determinado componente do vetor de parâmetros, digamosθi. A partir da aproximação quadrática podemos facilmente construir um intervalo de confiança, tendo como ˆθL e ˆθUo seu limite inferior e superior, respectiva-mente. Pelo Teorema 2.3 para o caso em que a dimensão deθé maior que um, não temos um intervalo desta forma mas sim uma região o que ape-sar de mais informativa tem menor apelo prático e apresenta dificuldades de interpretação. Uma forma intuitiva de obter um intervalo da forma ˆθL e ˆθU é fixar o restante do vetor de parâmetros nas suas estimativas de má-xima verossimilhança e obter os limites em uma direção de cada vez. Esta abordagem tem uma clara restrição que é não levar em consideração a não ortogonalidade nem a incerteza associada ao restante do vetor de parâme-tros para a construção do intervalo.

Temos um método simples via aproximação quadrática, porém que não funciona bem quando a superfície de log-verossimilhança é assimétrica.

Por outro lado, o método dadeviancenão apresenta esta restrição mas for-nece regiões de confiança conjuntas, e nãodiretamentelimites ˆθL e ˆθUpara cada parâmetro. Duas abordagens básicas para este problema podem ser consideradas: a primeira é fazer uma reparametrização do modelo, nos parâmetros que apresentam forte assimetria ou são restritos, para torná-los irrestritos e aproximadamente simétricos, obter a variância baseada na aproximação quadrática nesta reparametrização e depois converter para a escala original. Quando este procedimento é satisfatório o custo computa-cional é pequeno.

Para formalizar esta situação, considere o problema de obter a estima-tiva pontual e intervalar para um parâmetro de interesseφ = g(θ), onde g(·) é uma função e, desde que L(φ) = L(g(θ)), a função de verossimi-lhança paraφé obtida da função de verossimilhança deθpor uma trans-formação de escala. Consequentemente, como ˆφ = g(θˆ), quando o inter-valo de confiança digamos ˆθL e ˆθU for obtido diretamente pela função de verossimilhança, log-verossimilhança oudeviance, o intervalo paraφpode ser obtido simplesmente transformando os limites obtidos paraθ, no caso unidimensional. Esta propriedade é conhecida como invariância do esti-mador de máxima verossimilhança. Porém, quando o intervalo for obtido pela aproximação quadrática isso não é válido e um Teorema adicional é necessário para esta transformação.

Teorema 2.4. Considere obter um intervalo de confiança paraφ=g(θ)por inva-riância temos queφˆ=g(θˆ)e a variância deφˆé dada por

V(φˆ) =V(g(θˆ)) =∇g(θˆ)>IE(θˆ)−1∇g(θˆ) com

∇g(θˆ) = ∂g(θˆ)

∂θ1 , . . . ,∂g(θˆ)

∂θd

!>

No documento 20ªSINAPE. Simpósio Nacional de Probabilidade e Estatística MINICURSO. Métodos Computacionais em Inferência Estatística (páginas 19-24)