l(θˆ)−[l(θˆ) + (θ−θˆ)l0(θˆ) + 1
2(θ−θˆ)2l00(θˆ)]
. Como por definição de EMVl0(θˆ) = 0, eliminando termos a aproximação quadrática define a região
D(θ) =−(θ−θˆ)2l00(θˆ)≤c∗. que define então intervalos de confiança da forma,
θˆ± s c∗
−l00(θˆ).
Isto corresponde a fazer uma aproximação quadrática da função devi-ance, que torna o intervalo fácil de ser obtido. Estendendo para o caso de múltiplos parâmetros, tem-se que uma região de confiança paraθé dada pelo conjuntoθ∈Θ:D(θ)≤c∗. Portanto, as duas formas de interpretar o intervalo de confiança discutidas no caso uniparamétrico podem ser esten-didas para o caso multiparamétrico, sem problemas. Novamente a questão que surge é a definição de um valor parac∗. Pela abordagem frequentista é desejável que o intervalo tenha uma interpretação em termos de probabili-dades ou frequência e isto é atingido através das proprieprobabili-dades assintóticas dos estimadores de máxima verossimilhança, que serão apresentadas na próxima Seção.
2.3 Propriedades do estimador
Apesar de definirmos a função de verossimilhança como uma quanti-dade fixa avaliada em y, devemos lembrar que ela é baseada em apenas
2.3. PROPRIEDADES DO ESTIMADOR 13
uma realização do vetor aleatórioY, sendo assim, estudar o comportamento probabilístico dos estimadores de máxima verossimilhança é de fundamen-tal importância para a construção de intervalos de confiança e testes de hi-póteses. Para isto, vamos precisar de mais algumas definições.
Definição 2.13(Função escore). Sendo l(θ)a função de log-verossimilhança, o vetor escore é definido por
U(θ) = é o vetor gradiente da função de log-verossimilhança.
Definimos as matrizes de informaçãoobservadaeesperada(matriz de in-formação de Fisher).
Definição 2.14 (Matriz de informação Observada). Sendo l(θ) a função de log-verossimilhança, a matriz de informação Observada é definida por
IO(θ) =
Definição 2.15(Matriz de informação Esperada). Sendo l(θ)a função de log-verossimilhança, a matriz de informação Esperada é definida por
IE(θ) =
Dois importantes resultados da funçãoescoree da matriz de informação observada é queE[U(θ)] =0 eV[U(θ)] =E[IO(θ)] =IE[θ].
ondeCov(Ui,Ui) =V(Ui). Uma propriedade importante de IO(θˆ)eIE(θˆ) é que elas são matrizes definida positiva, as quais mensuram a curvatura observada/esperada na superfície de log-verossimilhança. Com estas de-finições, pode-se escrever a funçãodevianceaproximada para um vetor de parâmetros da seguinte forma:
D(θ)≈(θ−θˆ)>IO(θˆ)(θ−θˆ).
AssimD(θ)é não negativa uma vez que IO(θˆ)é uma matriz positiva de-finida. Uma vez definidas estas quantidades envolvidas, estamos aptos a enunciar Teorema a seguir.
Teorema 2.2(Distribuição assintótica do EMV). Para um problema de estima-ção regular, no limite com n→∞, seθé o verdadeiro vetor de parâmetros, então
θˆ∼N Md(θ,IE(θ)−1),
ou seja, a distribuição assintótica deθˆé uma normal multivariada com matriz de variância/covariância dada pela inversa da matriz de informação esperada.
Corolário- Qualquer termo assintoticamente equivalente aIE(θ)pode ser usado no Teorema 2.2. Assim,
θˆ∼N Md(θ,IE−1(θˆ)) θˆ∼N Md(θ,IO−1(θ)) θˆ∼ N Md(θ,IO−1(θˆ)).
Teorema 2.3(Distribuição assintótica da deviance). Para um problema regular de estimação, no limite com n→∞, seθé o verdadeiro valor do parâmetro, então
D(θ) =−2[l(θ)−l(θˆ)]∼χ2d
ou seja, a função deviance segue uma distribuição Qui-Quadrado com d graus de liberdade, onde d é a dimensão do vetorθ.
De acordo com os teoremas apresentados, podemos chegar a algumas das principais propriedades dos estimadores de máxima verossimilhança:
• O estimador de máxima verossimilhança ˆθ de θ é assintoticamente não-viciado, isto é,E(θˆ)→θ.
• AssintoticamenteV(θˆ) → IE−1(θ), o qual por uma versão multivari-ada do limite de Cramér-Rao é o melhor possível, mostrando que o EMV é eficiente para o vetorθ.
2.3. PROPRIEDADES DO ESTIMADOR 15
• DenoteJ = IE−1(θ), entãoV(θˆ) = J, sendo que,Jé uma matriz simé-trica e definida positiva, com elementosJi,j=Cov(θˆi, ˆθj)então Ji,ié a variância de ˆθi. Denota-seJi,i12 de desvio padrão de ˆθi.
• Podemos construir intervalos de 100(1−α)% de confiança paraθina forma ˆθi±zα
2Ji,i12. Intervalos desta forma serão denominados, interva-los de Wald ou baseados em aproximação quadrática da verossimi-lhança.
• Para regiões de confiança baseados nadevianceconsidera-se[θ ∈ Θ: D(θ)≤ c∗], para algum valorc∗a ser especificado. Pode-se escolher c∗baseado em justificativas assintóticas de queD(θ)∼χ2dé uma es-colha razoável para c∗ = cα com P(χ2d ≥ cα) = α, por exemplo se α = 0.05, então cα = 3.84. Isto gera uma região de 100(1−α)% de confiança. Estes intervalos serão denominados de intervalosdeviance.
De acordo com as propriedades apresentadas tem-se duas formas bási-cas de construir intervalos de confiança. A primeira mais simples é baseada na aproximação quadrática da log-verossimilhança e a segunda utilizando diretamente a função devianceobtida com os dados. A segunda opção é em geral mais trabalhosa computacionalmente, uma vez que usualmente gera uma equação não linear que precisa ser resolvida numericamente. A primeira opção é bastante direta, uma vez obtida a matriz de segundas de-rivadas basta invertê-la e tirar a raiz dos termos da diagonal para se obter o intervalo de confiança para cada parâmetro, marginalmente. Esta abor-dagem é muito simples mas apresenta limitações. Restrições naturais do espaço paramétrico como, por exemplo, para parâmetros de variância e correlação não são respeitadas e podem resultar em limites absurdos, com limite(s) do intervalo fora do espaço paramétrico. Os intervalos serão sem-pre simétricos ao aproximar a verossimilhança por uma forma quadrática, o que normalmente não produz resultados adequados para parâmetros de variância e correlação. Em modelos com efeitos aleatórios há um interesse natural nos parâmetros de variância, precisão e correlação. Testar a signifi-cância de tais efeitos utilizando as variâncias associadas às estimativas que indexam o modelo pode produzir resultados imprecisos. Logo, esta abor-dagem é restrita em classes mais gerais de modelos estatísticos.
A segunda opção resulta em uma região conjunta para o caso de dois ou mais parâmetros, enquanto que pela aproximação é possível obter um inter-valo marginal para cada parâmetro, porém baseado em uma aproximação quadrática da superfície de log-verossimilhança. Este tipo de representação é a mais desejável para inferência, porém não pode ser obtida diretamente apenas com o Teorema 2.3. Por exemplo, suponha que tem-se interesse em
um determinado componente do vetor de parâmetros, digamosθi. A partir da aproximação quadrática podemos facilmente construir um intervalo de confiança, tendo como ˆθL e ˆθUo seu limite inferior e superior, respectiva-mente. Pelo Teorema 2.3 para o caso em que a dimensão deθé maior que um, não temos um intervalo desta forma mas sim uma região o que ape-sar de mais informativa tem menor apelo prático e apresenta dificuldades de interpretação. Uma forma intuitiva de obter um intervalo da forma ˆθL e ˆθU é fixar o restante do vetor de parâmetros nas suas estimativas de má-xima verossimilhança e obter os limites em uma direção de cada vez. Esta abordagem tem uma clara restrição que é não levar em consideração a não ortogonalidade nem a incerteza associada ao restante do vetor de parâme-tros para a construção do intervalo.
Temos um método simples via aproximação quadrática, porém que não funciona bem quando a superfície de log-verossimilhança é assimétrica.
Por outro lado, o método dadeviancenão apresenta esta restrição mas for-nece regiões de confiança conjuntas, e nãodiretamentelimites ˆθL e ˆθUpara cada parâmetro. Duas abordagens básicas para este problema podem ser consideradas: a primeira é fazer uma reparametrização do modelo, nos parâmetros que apresentam forte assimetria ou são restritos, para torná-los irrestritos e aproximadamente simétricos, obter a variância baseada na aproximação quadrática nesta reparametrização e depois converter para a escala original. Quando este procedimento é satisfatório o custo computa-cional é pequeno.
Para formalizar esta situação, considere o problema de obter a estima-tiva pontual e intervalar para um parâmetro de interesseφ = g(θ), onde g(·) é uma função e, desde que L(φ) = L(g(θ)), a função de verossimi-lhança paraφé obtida da função de verossimilhança deθpor uma trans-formação de escala. Consequentemente, como ˆφ = g(θˆ), quando o inter-valo de confiança digamos ˆθL e ˆθU for obtido diretamente pela função de verossimilhança, log-verossimilhança oudeviance, o intervalo paraφpode ser obtido simplesmente transformando os limites obtidos paraθ, no caso unidimensional. Esta propriedade é conhecida como invariância do esti-mador de máxima verossimilhança. Porém, quando o intervalo for obtido pela aproximação quadrática isso não é válido e um Teorema adicional é necessário para esta transformação.
Teorema 2.4. Considere obter um intervalo de confiança paraφ=g(θ)por inva-riância temos queφˆ=g(θˆ)e a variância deφˆé dada por
V(φˆ) =V(g(θˆ)) =∇g(θˆ)>IE(θˆ)−1∇g(θˆ) com
∇g(θˆ) = ∂g(θˆ)
∂θ1 , . . . ,∂g(θˆ)
∂θd
!>