• Nenhum resultado encontrado

Especificidades de Identificação do Modelo Logit Misto

Diferentes Variâncias Heteroscedaticidade

3. Modelos de Escolha Discreta mais Comuns

3.4.6. Especificidades de Identificação do Modelo Logit Misto

O conceito do modelo Logit misto pode ser sintetizado como um modelo de escolha discreta em que as perturbações ou erros das utilidades são formados por uma parte semelhante aos modelos Probit (podendo, no entanto, ter qualquer distribuição) adicionada a outra parte com distribuição IID de valores extremos semelhante aos modelos Logit padrão. Segundo Walker (2002), existem vários exemplos de aplicações deste tipo de modelo onde os problemas de identificação têm sido ignorados. Vários artigos científicos foram publicados com erros de especificação devido a estes problemas de identificação, que levam à estimação de parâmetros de atributos e das distribuições de erros aparentemente credíveis mas que não correspondem à otimização do modelo. Tal como existem procedimentos de identificação dos parâmetros para os modelos Logit padrão, como a restrição da escala à unidade ou a anulação da constante específica da alternativa a considerar como referência, existe a necessidade de desenvolver um conjunto de orientações para a identificação de modelos Logit mistos. Walker (2002) e Ben-Akiva et al. (2001) apresentam algumas sugestões encontradas empiricamente de modo a conseguir minimizar os problemas referidos. Estas sugestões são exemplos de

7 - Enquanto a correlação é definida entre diferentes variáveis, a auto-correlação de um processo aleatório, em estatística, descreve a correlação do processo em diferentes pontos no tempo. É definida como a auto-covariância normalizada através da divisão pela variância. Se um processo tiver um valor no tempo t de Xte no tempo s de Xs, se

tiver ainda média μ e variância σ2, então:

 







0 s s t s s t t s t s t γ γ .σ σ μ X . μ X E X , X Var X , X Cov s t, ρ     

Onde E[.] é o valor esperado, e se o processo estiver bem definido tem valores entre 1 (correlação perfeita) e -1 (anti-correlação perfeita) (Washington et al., 2003; Hensher et al., 2005).

estimação de diversas estruturas de erros tais como: estrutura de covariância sem restrições, similar à estimação para modelos Probit puros; modelos heteroscedásticos; modelos hierárquicos; e modelos Logit de parâmetros aleatórios, apesar de muitas outras também poderem ser especificadas.

Além das especificações gerais para os modelos de escolha discreta para a normalização da escala e da utilidade, existem ainda outras que necessitam de ser avaliadas para que o modelo seja identificável e assim estimável. Estudos empíricos (Walker, 2002) têm revelado que a consideração da ordem, da característica e da definição positiva da matriz de covariâncias entre diferenças de utilidade, se apresentam como verificações adicionais que permitem avaliar o número de parâmetros estimáveis (ver Anexo 11 do Capítulo III). O motivo de necessidade de normalizações adicionais provém da infinidade de possíveis soluções que resultam da hipotética estrutura de covariância assumida, de modo a estabelecer a existência de uma solução única que não altere a estrutura do modelo. A condição de definição positiva permite verificar se a normalização escolhida é válida e se os restantes parâmetros estimados (portanto, não normalizados) conseguem replicar a estrutura do modelo subjacente. As normalizações comuns para outros modelos de escolha discreta, e aparentemente óbvias (por exemplo, σ = 1 ou μ = 1), podem não ser válidas para os modelos Logit mistos pois a estrutura do modelo impede a recuperação da matriz de covariância das diferenças entre utilidades subjacente. Se as normalizações forem válidas os resultados do modelo mediante a estimação com essas mesmas normalizações serão idênticos. Assim, todas as normalizações válidas para uma determinada especificação resultam em matrizes de covariâncias idênticas, ou seja, os

parâmetros estimados com uma determinada normalização (por exemplo, σ11 = 0) podem ser

convertidos nos parâmetros estimados impostos por uma normalização diferente (por

exemplo, σ11=1), desde que ambas sejam válidas (ver Anexo 11 do Capítulo III).

A maioria dos programas informáticos para tratamento estatístico de modelos de escolha discreta permite a estimação de resultados mesmo que o modelo não seja identificável, necessitando que a sua aplicação seja antecedida de uma correta validação suplementar do mesmo por parte do analista. Para avaliar a identificabilidade do modelo, Walker (2002) sugere a análise da matriz hessiana e das estatísticas de t, cuja indeterminação é sinal claro de erros de identificação do modelo. Outro sinal de erros de identificação do modelo é a existência de erros padrão muito grandes ou a instabilidade dos parâmetros para valores iniciais diferentes ou quando o número de extração para simulação aumenta (sinal de a matriz hessiana ser próxima de singular). Ainda assim, existem evidências empíricas que os modelos Logit mistos não necessitam de tantas restrições para ser identificáveis como, por exemplo, os Probit, sugerindo Walker (2002) mesmo assim a sua normalização pois a diferença entre os resultados não apresenta valores que justifiquem a alteração da metodologia de identificação.

Nas restrições a aplicar a modelos Logit mistos deve atender-se que os mesmos estudos empíricos apontam que a escolha do elemento das perturbações da parte Probit a anular não seja arbitrária. Sugere-se que se escolha a alternativa, ou uma delas, com variância mínima para alternativa de base, e portanto, a anular.

Para evitar problemas de estimação devido a amostras muito reduzidas, a fracas rotinas de otimização, a valores iniciais errados, a problemas relacionados com a escala, ou com um número insuficiente de extrações nas simulações, sugere-se que se verifique a estabilidade da estimação dos parâmetros para sucessivos incrementos nas extrações e com a alteração dos valores iniciais de estimação.

Assim, para que a integração seja verosímil, existem ainda outros aspetos a definir a priori, nomeadamente (Hensher et al. 2003, 2005 – ver também Anexo 11 do Capítulo III): a seleção dos parâmetros aleatórios considerados mais importantes; as suas funções de distribuição; o número de extrações a realizar na simulação; a possibilidade de integrar heterogeneidade de preferências nos parâmetros aleatórios; a possibilidade de correlações entre situações de escolha e/ou entre parâmetros; os problemas inerentes à consideração da disponibilidade para pagarem; e a existência de atributos endógenos (Train, 2009; Louviere et al., 2005; Guevara e Ben-Akiva, 2009). Destes problemas, a seleção dos parâmetros aleatórios, as suas funções de distribuição e o número de extração a realizar, são comuns a todas as modelações, podendo as restantes existir ou não.

3.4.7. Simulação

Os modelos Logit mistos são adequados para a estimação através de métodos de simulação.

Atendendo à função utilidade que tem coeficientes aleatórios distribuídos com densidade f()

definida pelo analista, a estimação pretenderá conhecer os parâmetros que definem f(), por

exemplo a média e a variância dos . O procedimento é análogo à simulação para os Probit:

1. Escolha aleatória de um da distribuição f(|), designando-o de r para a r-ésima

escolha;

2. Cálculo da sua probabilidade Logit Lni(r);

3. Repetição dos passos anteriores R vezes;

4. A média ponderada das R probabilidades calculadas será a probabilidade de escolha estimada:

 

  R 1 r r ni ni R1 L θ P Exp. III- 110

Esta média ponderada é uma estimativa não enviesada de Pni, tem uma variância que diminui

à medida que R aumenta, é estritamente positiva (propriedade útil para a estimação dos parâmetros pela maximização da verosimilhança), é suave (permite a sua segunda derivação)

em relação aos parâmetros e às variáveis x, e a soma das probabilidades de todas as

alternativas é igual à unidade, útil para realizar previsões (Train, 2003).

Estas probabilidades são depois aplicadas na função de verosimilhança logarítmica para resultar na verosimilhança logarítmica simulada (SLL):

 



   N 1 n J 1 j nj nj.lnP d SLL  Exp. III- 111

Onde dnj tem o mesmo significado do in da MVL para os modelos Logit. A maximização desta

função permite determinar osque possibilitam o cálculo das probabilidades Logit mistas. É

comum realizar várias extrações para cada observação de modo a manter a independência das probabilidades simuladas em relação aos decisores.

Ortúzar e Willumsen (2001) referem que se se utilizarem valores aleatórios padrão, ou pseudoaleatórios, para o cálculo de probabilidades, que o número de repetições a efetuar seja no mínimo de 1 000. Ortúzar e Willumsen (2001) e Hensher et al. (2003) referem ainda estudos que usando sequências de Halton conseguiram apenas com 125 repetições uma precisão semelhante a 2 000 repetições com sequências aleatórias padrão (ver Anexo 12 do Capítulo III).