5 METODOLOGIA PROPOSTA PARA PREDIÇÃO DE ACIDENTES
5.4 ESCOLHA DO MODELO ESTATÍSTICO
5.4.1 Modelo proposto
O modelo proposto é classificado como modelo de Equações de Estimativas Generalizadas, que pode ser interpretado como uma extensão dos Modelos Lineares Generalizados para dados em painel e incorpora uma variedade de variáveis além de apenas volumes de tráfego. Variáveis como condições climáticas, geometrias das estradas, dados de tráfego e fatores humanos são usadas para calcular a frequência de acidentes. Ele segue a seguinte função inicial proposta por Liang e Zeger (1986), Equação 14:
𝜇𝑖 = 𝛽0∗(𝛽1𝑋1𝑖+ 𝛽2𝑋2𝑖+ ⋯ + 𝛽𝑛𝑋𝑛) + 𝜀 (14)
Em que:
𝜇𝑖=frequência de acidentes previstos por ano 𝛽0, 𝛽1, … , 𝛽𝑛 = são parâmetros de regressão
Usar essa análise requer especificar: a) função de ligação, b) distribuição da variável dependente e c) a estrutura de correlação (BALLINGER, 2013). Os parâmetros de regressão (β’s)
são estimados pelo estimador de máxima verossimilhança. Os cálculos das variâncias são realizados usando uma função de ligação, que transforma a variável dependente em uma equação de estimativas de parâmetros na forma de um modelo aditivo (y=β0+β1x1+β2x2+...). Os resultados a partir dessas equações dão início a um processo interativo usando procedimentos de mínimos quadrados que envolvem a minimização extensa da alteração do parâmetro estimado a partir de um modelo de regressão perfeitamente ajustado. À medida que o tamanho destas alterações tende a zero as estimativas dos parâmetros (β’s e erros padrão) estabilizam. As especificações corretas tornam as estimativas mais eficientes.
A eficiência das estimativas dos parâmetros β, depende da especificação da verdadeira estrutura de correlação de trabalho, e da magnitude dos parâmetros de correlação para obtenção das estimativas de α0. Estas estruturas permitem a especificação da correlação entre o número de acidentes observadas em um dado segmento de rodovia por diferentes períodos de tempo
(LIANG e ZEGER, 1986).
A verificação da presença e do tipo da estrutura de correlação dos dados de acidentes longitudinais de tráfego foi realizada testando as estruturas fornecidas pelo procedimento EEG. Dentre as possíveis estruturas de correlação, destacam-se a permutável, na qual considera-se que a correlação entre as observações dos indivíduos de um mesmo grupo é a mesma; a não estruturada, para a qual assume-se que entre cada observação dentro do grupo há um valor de correlação diferente; a auto regressiva de primeira ordem, quando supõe-se que as medidas dentro do grupo têm uma relação auto regressiva de primeira ordem, usualmente utilizada quando os dados estão correlacionados ao longo do tempo e, no caso de independência entre as observações, utiliza-se a estrutura independente (WANG e ABDEL-ATY, 2008).
O objetivo principal foi desenvolver um modelo simplificado que fosse capaz de incorporar os efeitos dos segmentos retos e curvos diretamente ao modelo considerando a dependência espacial, utilizando o mínimo de variáveis possíveis e disponíveis nas bases de dados consideradas, adequadas à realidade das rodovias rurais pista simples do estado de Pernambuco. Por outro lado, um número muito pequeno de variáveis explicativas poderia não ser suficiente para descrever bem os dados, embora fosse de fácil interpretação. Sendo assim, o que na realidade se buscou foi um modelo que pudesse expressar a realidade da dinâmica dos
acidentes com o mínimo de variáveis. A escolha desse tipo de rodovia deve-se as estatísticas crescentes do número acidentes, elevado número de óbitos, principalmente em curvas e foi influenciada pela disponibilidade de dados de mapeamento para algumas seções obtidas da base de estradas DNIT e da base cartográfica OSM.
A escolha do método se deve principalmente ao fato da possibilidade de misturar variáveis quantitativas e categóricas, não apenas como uma variável dummy (variável binária – 0 ou 1), mas, como uma variável multinomial (com mais de duas variáveis categóricas ordinais). A variável dependente é do tipo contagem (número de acidentes que ocorrem num determinado segmento), por isso foram verificados os pré-requisitos básicos do modelo: (1) as variáveis dependentes devem ser correlacionadas no vetor temporal (medidas repetidas) e (2) as unidades de análise devem ser independentes.
Para o ajuste de um modelo linear generalizado foi determinado o vetor (𝛽̂) de estimativas dos parâmetros. Esses coeficientes foram estimados a partir dos dados observados. A avaliação do modelo foi realizada utilizando uma medida de qualidade do ajuste que considerou a relação entre os dados observados e os valores estimados pelo modelo. Na determinação do vetor (𝛽̂) de estimativas dos parâmetros dos EEG foi utilizado a função de desvio (Deviance).
A função desvio é uma generalização da análise de variância, visando obter, a partir de uma sequência de modelos encaixados, ou seja, a partir de uma sequência de modelos onde cada modelo inclui mais termos que o modelo anterior, os efeitos de fatores, de covariáveis e de suas possíveis interações: grandes valores indicam uma inadequação do ajuste enquanto que, valores menores nesta escala indicam melhoria na qualidade do ajuste. A questão principal fica em decidir quais valores são pequenos e quais valores são grandes.
Nesse estudo, o primeiro passo foi verificar se os coeficientes estimados são significativos, isto é, se existe uma associação estatisticamente significativa entre as variáveis explicativas e a variável resposta. A escolha de outras medidas de ajustes partiu da avaliação e da análise, de quais haviam sido empregadas em alguns dos estudos selecionados na revisão bibliográfica. Para a avaliação da aderência da distribuição de acidentes nos segmentos, entre os dados reais e os previstos utilizou-se testes estatísticos Chi-quadrado de Wald. O x²calc é obtido a partir de dados experimentais, levando-se em consideração os valores observados e os esperados, conforme apresentado na Equação 15:
𝑥𝑐𝑎𝑙2 = ∑ (𝑂𝑖−𝐸𝑖)2
𝐸𝑖
𝑚
𝑖=1 (15)
Em que:
𝐸𝑖=frequência de acidentes previstas na categoria i; 𝑂𝑖 = frequência de acidentes observados na categoria i;
Como trata-se de uma hipótese alternativa, em que as frequências observadas de acidentes são diferentes das frequências previstas, houve a necessidade de verificar a associação entre os grupos através da comparação dos dados de x² calculado com o x² tabelado. O x² tabelado depende do número de graus de liberdade e do nível de significância adotado, sendo:
𝑣 = 𝑘 − 1 − 𝑟 (16)
Em que:
𝑣=número de graus de liberdade;
𝑘 = número de categorias em que a amostra foi dividida; 𝑟 = número de parâmetros estimados para o cálculo de Ei.
A hipótese do modelo se ajustar bem aos dados é rejeitada se o valor-p associado a estatística de teste for menor que o nível de significância α. Assim, para um nível de significância α, a tomada de decisão é realizada comparando-se os dois valores de x²:
Se x² calculado ≥ x² tabelado → rejeita-se o modelo Se x² calculado ≤ x² tabelado → aceita-se o modelo
Quanto maior for o valor de x² mais significante é a relação entre a variável dependente e a variável independente.
Como os dados de acidentes possuem uma localização geográfica, a análise de regressão em dados espaciais incorpora, na modelagem, a dependência espacial entre os dados, melhorando o poder preditivo do modelo. Primeiramente, fez-se a análise exploratória com o intuito de identificar a estrutura de dependência nos dados, visando a definição da forma de incorporação dessa dependência ao modelo de regressão. Existem dois tipos básicos de modelagem que
permitem incorporar o efeito espacial: as de forma Global e as de forma Local (ANSELIN, 2002
e CÂMARA et al., 2002). No entanto, a adoção de um modelo espacial acarretaria no acréscimo de novos parâmetros como erros aleatórios com média zero (ε), a variância σ2, matriz de vizinhança espacial ou matriz de ponderação espacial (W) e coeficiente espacial autoregressivo (ρ).
A forma considerada para analisar a dependência espacial nos modelos de regressão neste estudo foi através da introdução de indicadores de autocorrelação espacial (Globais e Locais), como variáveis explicativas dos trechos homogêneos, somadas às variáveis tradicionais no modelo (LOPES e SILVA, 2004; LOPES, 2005; LOPES e SILVA, 2005 e LOPES et al., 2005). Desta forma, são definidas variáveis espaciais globais e variáveis espaciais locais, que são obtidas pela análise espacial das variáveis socioeconômicas através de software de estatística espacial.
Como os estimadores e os diagnósticos tradicionais de regressão não levam em conta os efeitos espaciais, as inferências, como, por exemplo, as indicações de qualidade de ajuste baseadas somente no R2 serão incorretas. As consequências são similares às que acontecem quando uma variável explicativa significativa é omitida do modelo de regressão. Quando se deseja comparar um ajuste obtido por um modelo de regressão padrão com um ajuste obtido por um dos modelos cuja especificação considera a autocorrelação espacial, uma medida como o R2 não é mais confiável.
O método mais usual de seleção de modelos de regressão com distribuição não normal baseia-se nos valores do Teste de Hipóteses de Waldd os diferentes modelos. O teste de Wald é utilizado para testar a hipótese nula de que o parâmetro βj estimado é igual a zero. As hipóteses a testar são:
𝐻0: 𝛽𝑗 = 0 versus 𝐻1: 𝛽𝑗 ≠ 0, 𝑗 = 1, … , 𝑝 (17)
A estatística de teste e a respetiva distribuição, sob a validade de H0 são: 𝑤𝑗 = 𝛽𝑗
𝑠𝑒(𝛽̂𝑗)∩ 𝑁(0,1) (18)
Nos modelos com estrutura de dependência – espacial ou temporal – utilizam-se os critérios de informação onde a avaliação do ajuste é penalizada por uma função do número de parâmetros. Cabe observar que é necessário ainda levar em conta o número de parâmetros
independentes ao se incluir funções espaciais nos modelos. Para cada nova variável em modelo de regressão, acrescenta-se um parâmetro.
Dois elementos estatísticos foram considerados para a análise da qualidade do ajuste de cada modelo gerado: (1) o Quasi-likelihood Information Criterion (QIC) e (2) o teste dos resíduos acumulados (CURE Plot).
O QIC é uma modificação do critério informação de Akaike (AIC) no procedimento EEG. A comparação de modelos é feita utilizando o logaritmo da máxima verossimilhança, que é o que possui melhor ajuste para os dados observados. O QIC é expresso pela Equação 19.
𝑄𝐼𝐶 = −2 ∗ 𝐿𝐼𝐾 + 2𝐾 (19)
Onde:
𝐿𝐼𝐾= é o log de verossimilhança maximizado 𝑘 = é o número de coeficientes de regressão
𝑟 = número de parâmetros estimados para o cálculo de Ei.
Segundo esse critério, o melhor modelo é o que possui menor valor de QIC. Diversos outros critérios de informação estão disponíveis nas ferramentas de estatística espacial, a maior parte dos quais são variações do QIC, com mudanças na forma de penalização de parâmetros ou observações.
O método CURE para avaliar a qualidade do ajuste baseia-se no estudo de resíduos, ou seja, a diferença entre o número de acidentes observados em um local e o valor esperado no mesmo local e no mesmo período, considerando que os resíduos assumem a distribuição não normal.
O gráfico CURE Plot é usado para o exame de resíduos após a estimativa dos parâmetros do modelo e avaliar se a função escolhida encaixa cada variável explicativa ao longo de toda a faixa de seus valores representados. A tendência dos resíduos com relação ao VDMA (ou outras variáveis) podem ser avaliados em relação à variação. Um desvio para cima ou para baixo é um sinal de que o modelo prevê consistentemente menos ou mais acidentes, respectivamente, do que foram contados. Assim, é desejável que o gráfico acumulado dos resíduos oscile próximo do zero
ou pelo menos entre as duas curvas adicionais formadas por limites aceitáveis (± 2ρ*) para os resíduos acumulados.
Para a análise da validação do modelo será usada a Raiz do Erro Quadrático Médio (RMSE). A RMSE é comumente usada para expressar a acurácia dos resultados numéricos com a vantagem de que RMSE apresenta valores do erro nas mesmas dimensões da variável analisada.