• Nenhum resultado encontrado

Vantagens e Desvantagens dos Logit Simples

Diferentes Variâncias Heteroscedaticidade

3. Modelos de Escolha Discreta mais Comuns

3.1.2. Vantagens e Desvantagens dos Logit Simples

O modelo Logit para a determinação da probabilidade de escolha apresenta diversas propriedades desejáveis:

- A probabilidade Pniestá necessariamente entre 0 e 1;

- Quando uma utilidade representativa de uma alternativa aumenta (devido a melhoria de algum atributo mensurável), mantendo as restantes constantes, a probabilidade de escolha também aumenta aproximando-se de 1. Quando a sua utilidade representativa

se aproxima de  , mantendo as restantes constantes, a sua probabilidade de escolha

diminui aproximando-se de 0;

- A probabilidade de escolha nunca é igual a 0, mas se se considerar que uma alternativa não tem hipóteses de ser escolhida, então pode ser retirada do conjunto de opções; - A probabilidade de escolha igual a 1 só pode ser obtida se só houver uma única

alternativa;

- O facto de o denominador ser a soma das utilidades representativas de todas as alternativas, assegura que o resultado da soma de todas as probabilidades seja a unidade, facilitando a interpretação dos seus resultados.

A forma sigmoide da função de distribuição cumulativa de probabilidade de escolha tem ainda as seguintes implicações:

- Se a utilidade representativa for muito reduzida comparativamente à das restantes, um pequeno acréscimo na utilidade dessa alternativa tem pouco impacto na sua probabilidade de escolha. As restantes ainda são suficientemente melhores para não serem afetadas. Do mesmo modo, numa alternativa com uma utilidade muito superior às restantes um acréscimo na sua utilidade também não afeta significativamente a sua probabilidade de escolha sobre as restantes (partes superior e inferior das curvas da figura III.2).

- O ponto onde um acréscimo da utilidade representativa tem maior impacto na probabilidade da sua escolha sobre as restantes será perto do ponto com probabilidade de 0,5, que significa uma probabilidade de 50% da alternativa ser escolhida. Nestes casos, uma pequena alteração da utilidade representativa pode provocar grandes alterações na sua probabilidade de escolha.

Estas características das formas sigmoides são extensíveis aos restantes modelos de escolha discreta que as utilizam para definir as probabilidades de escolha.

Train (2003) apresenta ainda três situações que devem ser consideradas ao ponderar a utilização dos modelos Logit:

- Os Logit conseguem representar variações de gostos sistémicas (relacionadas com as características observáveis dos decisores, como o rendimento, o tamanho do agregado, entre outros), mas não variações aleatórias (que não podem ser atribuídas às variáveis mensuráveis, como os gostos pessoais, antecedentes, entre outros);

- O modelo Logit implica a substituição proporcional entre alternativas (o aumento da probabilidade de uma implica um decréscimo proporcional das restantes) atendendo a especificação da utilidade representativa. Outras formas de substituição necessitam de outro tipo de modelo;

- Se os fatores não observados forem independentes em situações repetidas ao longo do tempo, o modelo Logit consegue apreender a dinâmica de escolhas repetidas, no entanto se estes estiverem correlacionados ao longo do tempo outro modelo terá que ser utilizado.

Ortúzar e Willumsen (2001) referem que o facto de o modelo considerar a independência entre alternativas irrelevantes, foi encarado inicialmente como uma vantagem destes modelos, uma vez que permitia tratar de forma simples a introdução de uma nova alternativa inexistente na altura da calibração do modelo (se os seus atributos fossem conhecidos), sendo atualmente encarado como uma desvantagem que invalida o modelo na presença de alternativas correlacionadas (célebre exemplo da linha de autocarros vermelha e azul).

3.1.3. Erros de Especificação

Existem algumas assunções restritivas que se consideram na formulação dos modelos Logit, que, quando não respeitados, podem resultar em erros de especificação potencialmente graves (Washington et al., 2003). Estes erros podem ser agravados pela inclusão de variáveis irrelevantes ou pela omissão de fatores chave na estimação estatística dos seus coeficientes. De longe a limitação mais frequente e mais mal entendida é a propriedade de independência entre alternativas irrelevantes. Os problemas surgem principalmente quando apenas algumas

das utilidades partilham os fatores não observados, implicando que na determinação da diferença entre utilidades, os fatores não observados não se anulem.

Outro possível erro de especificação tem a ver com a omissão de variáveis independentes relevantes que pode resultar em estimativas inconsistentes dos parâmetros do modelo e consequentemente das probabilidades de escolha previstas pelo mesmo. Esta omissão é principalmente penalizante se: as variáveis preteridas estão correlacionadas com outras incluídas no modelo; os valores médios das variáveis omitidas variarem nos resultados das alternativas e se as suas constantes específicas não forem incluídas no modelo; ou as variáveis em falta estão correlacionadas com os resultados das alternativas ou têm variâncias diferentes para resultados distintos. Como a probabilidade de alguma destas situações acontecer é elevada, a omissão de variáveis relevantes é um problema bastante grave. De modo semelhante, a presença de variáveis irrelevantes também constitui um problema, embora de grandeza incomparavelmente inferior. As estimativas dos parâmetros e das probabilidades de escolha mantêm a consistência mesmo na presença de parâmetros irrelevantes, mas os erros da estimação de parâmetros aumentam, diminuindo a eficiência da modelação.

A variação dos parâmetros aleatórios também pode constituir um erro de especificação, uma vez que na formulação Logit se assume que os parâmetros estimados são iguais para todas as observações. Violações a esta assunção podem ocorrer se por algum motivo se acreditar que os parâmetros variam ao longo das observações de um modo não considerado no modelo, como por exemplo a importância do custo da viagem, que será mais importante para os agregados de baixos rendimentos que para os de elevados rendimentos. Uma forma de tentar ultrapassar este tipo de problema pode ser a utilização de uma variável combinada, no exemplo o custo dividido pelo rendimento do agregado, mas parâmetros completamente aleatórios como o efeito da paciência associada ao tempo de viagem, em que não há dados para justificarem a variação, levam a uma estimação inconsistente dos parâmetros e das probabilidades de escolha, e à necessidade de modelos mais robustos.

Outro problema a considerar é a correlação entre as variáveis independentes e variáveis não mensuráveis, que pode tornar a estimação dos parâmetros inconsistente. Washington et al. (2003) dão o exemplo da modelação utilizando a distância como variável independente e o conforto como variável não mensurável, que num cenário com transportes coletivos em que o operador, de forma a melhorar o serviço, opta por colocar os veículos mais confortáveis nos percursos mais longos, estão efetivamente correlacionados. De forma similar deve considerar- se a existência de variáveis endógenas, isto é, internas aos sistemas, de forma a não incluir variáveis que aparentemente estão correlacionados mas que na realidade fazem parte do sistema. Um exemplo é a modelação discreta da gravidade de acidentes, incluindo nas variáveis independentes a sinalização de perigo de acidente. Como é nos locais com maior

número de acidentes que esta sinalização está localizada, a sua presença está correlacionada com a gravidade dos acidentes, e portanto é endógena.

Um potencial problema de estimação pode também ocorrer na modelação discreta se a informação de escolhas anteriores for utilizada na estimação da probabilidade de escolha atual. Conceptualmente este procedimento pode ter algum sentido uma vez que se pode considerar que se tenta capturar comportamentos habituais, designados dependências de estado (Washington et al., 2003). No entanto, o uso de procedimentos habituais também pode captar heterogeneidades residuais que podem sugerir falsos hábitos. Como exemplo considere-se um modelo onde o termo aleatório inclui características não observadas, e portanto heterogeneidade não observada, geralmente presentes nos condutores ao selecionarem um trajeto. Se uma variável que indique qual a escolha em situações anteriores for incluída no modelo, não há certeza se o parâmetro associado a esta variável revela verdadeiramente os seus hábitos ou se traduz um valor médio no termo aleatório para condutores. Este assunto é de extrema importância uma vez que a presença ou ausência de comportamentos habituais pode levar a conclusões comportamentais bastante diferentes. Isolar dependências de estado efetivas de heterogeneidades não observadas não é fácil, pelo que a interpretação de parâmetros calibrados com base em dados de escolhas anteriores deve ser realizada com extremo cuidado.