• Nenhum resultado encontrado

Agregação de Dados e Transmissibilidade

Diferentes Variâncias Heteroscedaticidade

2.4.7. Agregação de Dados e Transmissibilidade

Os modelos de escolha discreta são aplicados ao nível das decisões individuais, apesar de ser comum o analista necessitar de alguma agregação em determinadas características, tais como probabilidade média numa população ou a resposta média a alterações de um determinado atributo. Nos modelos de regressão linear estimativas de valores agregados da variável dependente são obtidos através da inserção no modelo de valores agregados das variáveis independentes ou explicativas. Os modelos de escolha discreta não são lineares em termos de variáveis explicativas, uma vez que a sua função cumulativa de probabilidades é uma curva sigmoide em S, pelo que a introdução de valores agregados das mesmas na modelação apresenta estimativas enviesadas das probabilidades médias ou das respostas médias (a função tem valores iniciais e finais com tendências muito diferentes dos valores intermédios comparativamente a uma função linear – figura III.2). A mesma situação aplica-se no cálculo das suas derivadas e elasticidades. Train (2003) refere estudos em que as elasticidades de utilidades médias apresentavam valores duas a três vezes superiores ou inferiores à média das elasticidades das utilidades individuais.

t

LL()

Inclinação positivaAvançar para a direita

LL()

t

Inclinação negativaRecuar para a esquerda

t

LL()

Maior curvaturamenor incremento

LL()

t

Menor curvaturamaior incremento

Figura III. 2 – Diferença entre a probabilidade média e a probabilidade calculada para o ponto médio da utilidade representativa ou mensurável (adaptado de Train (2003) e Washington et

al. (2003))

Existe, portanto, a necessidade de tomar precauções na obtenção de resultados agregados através de modelos de escolha discreta, sugerindo Train (2003) duas metodologias: a enumeração da amostra; e a segmentação ou classificação segundo as variáveis independentes.

Numa primeira metodologia, a mais popular e direta, as probabilidades de escolha de cada indivíduo são somadas ou ponderadas considerando toda a população cujos resultados agregados estejam em análise. Considerando uma amostra de N indivíduos selecionada de uma população (pode ser a amostra utilizada para estimar o modelo ou outra de uma área ou

data diferente), cada indivíduo da amostra tem um peso ωn que representa o número de

indivíduos com características semelhantes (por exemplo o rendimento) na população. Em amostras baseadas em fatores exógenos, variáveis independentes, estes pesos correspondem à probabilidade de cada indivíduo ser selecionado para a amostra. Se a amostra for aleatória, estes pesos são iguais para todos os n indivíduos selecionados, e se a amostra for segmentada e depois aleatória, o peso será igual para todos os n indivíduo desse segmento. A estimação do total de indivíduos da população que escolhem a alternativa i será a soma ponderada das probabilidades individuais:

  n ni n i P Nˆ Exp. III- 41

e a probabilidade média, ou a estimação da cota de mercado, será:

V

a   2 b a V

V

b

P

b

P

a Probabilidade média Probabilidade no ponto médio Utilidade representativa ou mensurável Probabilidade de Escolha

 

i W N

Nˆi Exp. III- 42

Washington et al. (2003), no entanto, referem que este procedimento tem restrições na transferência de resultados para outras populações.

Na segunda metodologia, se o número de variáveis independentes ou explicatórias for reduzido, é possível estimar os resultados agregados utilizando uma amostra da população. Selecionam-se as variáveis independentes que interessam e será a sua combinação que definirá os segmentos sobre os quais se determinará as probabilidades de escolha, e não as características dos indivíduos de cada segmento. Se o analista dispuser de dados sobre o número de indivíduos em cada segmento, o resultado agregado será estimado calculando a probabilidade de escolha dentro da cada segmento s, e realizando a soma ponderada dessas probabilidades:

  s si s i P Nˆ Exp. III- 43

onde Psi é a probabilidade de um indivíduo do segmento s escolher a alternativa i e ωs é o

número de indivíduos no segmento s. Apesar da sua facilidade de aplicação mediante a disponibilidade dos dados, Washington et al. (2003) referem que a assunção de homogeneidade da população no segmento pode ser dúbia introduzindo erros consideráveis. Ben-Akiva e Lerman (1985) referem que o ponto fundamental da classificação é a partição do universo de possíveis atributos, variáveis independentes, em subgrupos, uma vez que à medida que o número de subgrupos cresce, aumenta a precisão da estimação, mas também aumenta a necessidade de dados e de capacidade de processamento de informação. Este ponto levanta algumas questões que devem ser consideradas:

- Na classificação é mais importante realizar a divisão atendendo a grupos com pequenas variações na utilidade mensurável do que com pequenas variações nas próprias variáveis independentes;

- O número de variáveis a considerar para a definição da classificação deve ser reduzido para evitar um número inviável de classificações (por exemplo, uma utilidade com 16

variáveis independentes subdivididas em apenas 2 categorias daria 216 = 65 536 classes

diferentes), sugerindo-se o uso de uma ou duas variáveis consideradas importantes para realizar a classificação (que tenham um impacto significativo na utilidade de pelo menos um modo e com uma vasta distribuição pela população);

- Uma vez que o esforço de processamento é independente do tamanho da classe, sugere- se que estas sejam definidas evitando grupos desproporcionalmente pequenos.

Washington et al. (2003) e Ben-Akiva e Lerman (1985) referem ainda outras duas possíveis abordagens para evitar o enviesamento na agregação dos dados:

- A utilização de funções de densidade em integrais explícitos;

- E a definição de momentos de distribuição para diferenciação estatística (geralmente apenas os dois primeiros são considerados, sendo o 1º momento central a média e o 2º a variância).

A utilização de funções de densidade em integrais explícitos pretende representar a distribuição dos atributos na população através de uma distribuição analítica contínua conveniente. A repartição pode ser aproximada através de uma expressão do tipo:

 

   

x ni p~x.dx P i W Exp. III- 44

onde p~

 

x é a distribuição aproximada dos atributos x na população. Como os valores de x

podem ser contínuos e discretos há que ter em atenção que a resolução do integral pode necessitar de somas e integrais onde apropriado. Esta abordagem explora o facto de a

expressão III.44 ser resolúvel para determinadas combinações de Pni e p(x) permitindo a

obtenção da cota de mercado através de integração direta, se a aproximação a p(x) for realizada através de uma distribuição conhecida. Ben-Akiva e Lerman (1985) referem duas combinações possíveis a utilizar, os modelos Probit e Logit, considerando os atributos normalmente distribuídos. Os problemas de aplicação desta metodologia advêm da consideração da distribuição normal dos atributos pela população, principalmente para os qualitativos e inteiros (como as variáveis binárias ou o número de automóveis) que podem ser irrealistas. Outro problema referido deve-se ao facto de a soma de produtos de variáveis aleatórias, essenciais para a resolução do integral (ver Ben-Akiva e Lerman (1985) nas pág. 142-145), não ter distribuição normal mesmo que os seus componentes a tenham. Washington et al. (2003) refere ainda que a utilização de funções de densidade apresenta a vantagem de permitir uma grande flexibilidade do modelo para aplicação a outras populações, apesar da sua difícil definição tanto teórica como empírica, e de a quantificação da covariância entre as várias variáveis independentes ser complicada.

A diferenciação estatística pretende aproximar o valor esperado de uma função de variáveis aleatórias a partir de informações sobre os momentos da sua distribuição conjunta. Os momentos e momentos cruzados são utilizados para representar a dispersão e a forma da distribuição das variáveis e a sua interação na população. As limitações desta abordagem incluem:

- A dificuldade de reunir informação teórica e empírica para justificar a representação dos momentos e momentos cruzados, podendo ser necessário ignorar alguns ou estimar coerentemente outros;

- Na integração a inclusão de termos corretivos não garante uma maior precisão deste método em relação a segmentação/classificação, uma vez que na metodologia se

expande a função de probabilidade de escolha Pni numa série de Taylor em que os

termos superiores aos de segunda ordem (momentos superiores aos de segunda ordem) são ignorados. Mesmo a sua inclusão, no sentido de aumentar a sua precisão, não garante uma convergência mais célere do método (Ben-Akiva e Lerman, 1985).

Ben-Akiva e Lerman (1985) sintetizam o problema da agregação de escolhas individuais da seguinte forma:

“… A conclusão mais significativa deste capítulo é que as evidências empíricas sugerem que os erros devido a agregação entre indivíduos podem facilmente ser relativamente reduzidos…” Refere ainda que as aproximações utilizadas nas várias abordagens apresentadas são fiáveis, resultando em pequenos erros, mesmo com condições iniciais bastante diferentes das condições assumidas.

Outra análise a realizar de modo a avaliar a utilidade do modelo estimado refere-se à sua transmissibilidade ou possibilidade de transferência dos parâmetros estimados espacial e temporalmente. Da perspetiva espacial, tem interesse que o modelo possa ser utilizado noutras cidades, regiões ou culturas, poupando esforços de novas aquisições de dados e de estimação. Da perspetiva temporal, assegura que os parâmetros estimados são estáveis no tempo e valida as previsões realizadas recorrendo aos mesmos. Pode mesmo assumir-se que a estabilidade de parâmetros estimados fornece indicação direta sobre a validade do modelo (Ortúzar e Willumsen, 2001). Os mesmos autores, no entanto, referem que é irrealista esperar que um modelo operacional fundamentado em ciências sociais seja perfeitamente especificado, uma vez que qualquer modelo estimado será em princípio dependente do contexto de estimação. Assim, sugere que não se procure um modelo perfeitamente estável e que não se avalie a transmissibilidade do modelo em termos de valores dos parâmetros estimados em cada contexto. Os autores sugerem antes que a abordagem de transferência de modelos seja encarada como estimações de um modelo inicial que providenciem informações úteis para a estimação do mesmo modelo noutro contexto, necessitando-se ainda assim de procedimentos de atualização dos parâmetros para que o modelo seja representativo.

Neste sentido, Ortúzar e Willumsen (2001), propõem que se faça uma análise comparativa dos parâmetros estimados independentemente nos contextos em análise (temporal ou espacial) e a medição dos erros relacionados com a utilização de um modelo no contexto do outro.

Train (2003) sugere o ajustamento dos parâmetros e/ou das variáveis independentes para refletirem as alterações previstas no futuro. Se o ajustamento for para o modelo agregado por enumeração, a amostra é ajustada de modo a que “pareça” que foi escolhida no futuro. Por exemplo, para prever o número de cidadãos que escolherá determinada alternativa dentro de cinco anos, a amostra atual é ajustada de modo a refletir as alterações socioeconómicas e de outros fatores espectáveis no período em estudo. Este ajustamento pode ser realizado alterando o valor das variáveis independentes (por exemplo o rendimento familiar) associadas a cada decisor selecionado, ou alterando o peso de cada decisor, de modo a refletir as alterações no tempo do número de indivíduos na população com características semelhantes. Se a agregação for por segmentação as alterações no futuro têm de ser refletidas no número de indivíduos em cada segmento e não nas variáveis independentes que as definem. A alteração das variáveis independentes de um indivíduo selecionado apenas lhe modificaria o segmento a que pertence.

Washington et al. (2003) sugerem a aplicação de teste de razões de verosimilhança para avaliar a qualidade da transmissibilidade temporal e espacial dos parâmetros estimados. Se se considerarem duas regiões ou períodos temporais a e b, a transmissibilidade dos parâmetros de um modelo poder ser avaliada através da seguinte expressão:

 

   

T a b

2

2LLθ

LLθ

LLθ

Exp. III- 45

onde:

- 2: probabilidade dos modelos terem parâmetros diferentes. Esta variável tem

distribuição chi-quadrada4(2) com graus de liberdade iguais à soma do número total de

parâmetros estimados em todos os modelos (a e b ou inclusive outros) subtraído do número de parâmetros estimados no modelo total.

- LL

 

T : é a máxima verosimilhança logarítmica estimada com dados de ambas as regiões

ou períodos;

- LL

 

a : é a máxima verosimilhança logarítmica estimada com os dados de a;

- LL

 

b é a máxima verosimilhança logarítmica estimada com os dados de b;

4 - Distribuição Chi-Quadrada (2) (Montegomery e Runger, 2007): Uma variável aleatória contínua tem uma

distribuição (2) quando a sua função de densidade de probabilidades é igual a:

 

 

 

k2 1 x2 2 k x e 2 k Γ 2 1 x f       , com x > 0 Onde:

k – número de graus de liberdade;

Γ – função gama Γ(x) = (x-1)!, com x > 0 e inteiro.

A distribuição (2) tem média igual a k e variância igual a 2.k, e a sua função de probabilidades é enviesada para a

direita. Com o aumento de k, a distribuição torna-se mais simétrica e no caso extremo de k→ ∞ a função é igual a distribuição normal.

Neste teste os três modelos (total, região a, e região b) utilizam todos as mesmas variáveis. Outra abordagem sugerida também por Washington et al. (2003) e Ortúzar e Willumsen (2001) utiliza o designado teste estatístico de transmissibilidade (TET) utilizando a expressão:

   

b a a

2

2LL

θ

LLθ

Exp. III- 46

onde:

- LL b a : máxima verosimilhança logarítmica do modelo utilizando os parâmetros

estimados com os dados de b nos dados da região a;

- LL  a : máxima verosimilhança logarítmica do modelo utilizando os parâmetros

estimados com os dados da região a.

O TET pode ser realizado de forma inversa utilizando LL a b e LL  b . A função estatística tem

distribuição chi-quadrada com graus de liberdade iguais ao número de parâmetros estimados

em LL b a e permite avaliar a probabilidade dos modelos terem parâmetros diferentes.

Ortúzar e Willumsen (2001) referem que o TET não é simétrico pelo que é aceitável e razoável que a transmissibilidade numa direção entre contextos não se verifique na direção inversa.

Segundo Washington et al. (2003) a combinação destes dois testes assegura uma boa avaliação da transmissibilidade dos parâmetros no tempo ou no espaço, mas Ortúzar e Willumsen (2001) referem ainda um índice de transferência (IT) que descreve o grau em que a máxima verosimilhança logarítmica do modelo transferido excede o modelo nulo ou de referência (utilizando, por exemplo, as cotas de mercado) em relação à melhoria conseguida com o modelo aplicado ao novo contexto. Este índice é definido como:

 

  

  

R b b R b a b a b θ LLLLθθ LLLL θθ IT    Exp. III- 47 Onde:

 

a b

IT - índice de transferência do modelo utilizando os parâmetros estimados para a

região b com os dados da região a.

 

a

b

LL - máxima verosimilhança logarítmica do modelo utilizando os parâmetros

estimados com os dados de b nos dados da região a;

 

R

b

LL - máxima verosimilhança logarítmica do modelo utilizando os parâmetros

 

b

LL - máxima verosimilhança logarítmica do modelo utilizando os parâmetros estimados

com os dados da região b.

O IT tem limite superior igual à unidade (quando o modelo transferido tem a mesma precisão que o modelo local), mas não tem limite inferior, pelo que valores negativos implicam apenas que o modelo transferido é pior que o local. Assim, o IT permite avaliar a medida relativa de transmissibilidade do modelo, enquanto o TET permite uma medida estatística dessa transmissibilidade (Ortúzar e Willumsen, 2001).

Train (2003) ainda refere outra consideração sobre a transmissibilidade dos resultados dos modelos, referente às constantes específicas de cada alternativa. Estas são inseridas no modelo para capturar o efeito médio dos fatores não observados ou mensuráveis, mas a sua grandeza pode variar de local para local ou no tempo comparativamente à amostra analisada, pelo que há necessidade de as ajustar de modo a refletir essas alterações. Dados das cotas de mercado das zonas para onde se pretende realizar as previsões podem ser utilizadas para recalibrar as constantes, permitindo o uso do modelo na previsão de alterações das percentagens de indivíduos que escolhem uma alternativa devido a alterações das variáveis explicadoras ou independentes. Train (2003) e Ortúzar e Willumsen (2001) recomendam um processo iterativo utilizando a seguinte expressão:

          0 j j 0 j 1 j Sˆ S ln k k Exp. III- 48 onde:

- kj1: é a constante específica da alternativa j na iteração 1;

- kj0: é a constante específica da alternativa j na iteração inicial/anterior;

- Sj: percentagem de indivíduos na área de previsão que escolhem a alternativa j no ano

base (último com dados disponíveis);

- ˆ0

j

S : percentagem de indivíduos na área de previsão que escolhem a alternativa j

estimado pelo modelo de escolha discreta utilizando os valores de kj0;

Com as novas constantes devem estimar-se de novo as cotas de mercado (percentagem de cidadãos que escolhem determinada alternativa) e comparar com as do ano base, parando as iterações quando as previsões de aproximarem suficientemente das cotas conhecidas na área

de previsão (Sj). O modelo com as constantes ajustadas pode ser utilizado para a previsão de

alterações nas cotas de mercado em relação ao ano base devido a modificações nas variáveis independentes que afetam as escolhas dos indivíduos.