• Nenhum resultado encontrado

CAPÍTULO III – QUESTÕES REGULAMENTARES E SISTEMAS DE CARONAS NO

4.3. PROCEDIMENTOS DE ANÁLISE DE DADOS

Os dados coletados foram analisados por meio do método de regressão logística. Entretanto, antes de entrar no método em si foram realizados testes de dependência e correlação entre as variáveis levantadas parar melhor ajuste do modelo. A Seção 4.3.1 e a Seção 4.3.2 trata dos métodos de medidas de associação utilizados, enquanto a Seção 4.3.3 explica o método propriamente dito. As notações matemáticas utilizadas nesta dissertação foram padronizadas, mas podem ser encontradas de diferentes modos na literatura, a depender do autor estudado.

Teste Qui-quadrado (χ²) para Independência

O teste de independência qui-quadrado (χ²), também denominado teste qui-quadrado de Pearson, permite a identificação de padrões de dependência entre variáveis com base na distribuição matemática qui-quadrado (Figura 12). Esse foi o método adotado para identificação de dependência entre as variáveis analisadas nesta dissertação.

Figura 12 – Distribuição qui-quadrado.

Fonte: Donnelly (2007).

Na Figura 12, o eixo horizontal corresponde aos valores da estatística, enquanto o eixo vertical é referente à probabilidade associada a cada valor de χ². A distribuição qui-quadrado não é simétrica e apresenta inclinação positiva. Em adição, a forma da distribuição varia a depender do número de graus de liberdade (df); ao se aumentar o número de df, há uma tendência da distribuição se tornar mais simétrica. O menor valor da estatística é zero, não existindo limite

superior. Ademais, a área total sob cada curva é igual a 1 (DONNELLY, 2007; GINGRICH, 2004).

O teste χ² compara frequências observadas de uma categoria de determinada variável com as frequências esperadas ao acaso nessa categoria. Para isso, o teste utiliza uma tabela de classificação cruzada (chamadas também de tabela de contingência) para avaliar a natureza da relação entre as variáveis (FIELD, 2009).

Field (2009, p. 656) define tabela de contingência como “uma tabela representando uma classificação cruzada de duas ou mais variáveis categóricas. Os níveis de cada variável são alocados em uma grade e o número de observações em cada categoria é apresentado nas células da tabela”. A notação geral de uma tabela de contingência é ilustrada na Tabela 10 (GINGRICH, 2004). A variável X é distribuída em c categorias e a variável Y em r categorias. Assim, tem-se Xj, onde j = 1, 2, 3, ..., c, representando as colunas e Yi, onde i = 1, 2, 3, ..., r,

representando as linhas da tabela. Oij são os valores observados. Os valores de R são referentes

aos totais das linhas, enquanto os valores de C mostram os totais das colunas. O valor n é o tamanho da amostra.

Tabela 10 – Tabela de contingência.

Variável X

Variável Y X1 X2 … Xc Total Y1 O11 O12 … O1c R1 Y2 O21 O22 … O2c R2

. . . .

. . . .

. . . .

Yr Or1 Or2 … Orc Rr

Total C1 C2 … Cc n

Fonte: Gingrich (2004).

A determinação do grau de liberdade é dada por (r-1) x (c-1), ou seja, o produto do número de linhas menos 1 pelo número de colunas menos 1. Esse valor indica o total de células na tabela de contingência que pode assumir valores arbitrários, sendo o restante das células restringidas pelo requerimento do valor total de amostra por linha e por coluna (GINGRICH, 2004).

Para cada valor observado da amostra (Oij), são calculados os casos esperados respectivos (Eij),

de modo que o valor da estatística qui-quadrado é calculado pela Equação (5) (GINGRICH, 2004):

𝜒2 = ∑(𝑂𝑖− 𝐸𝑖)²

𝐸𝑖

𝑖

(5)

O teste de independência entre duas variáveis, sejam elas X e Y, parte da hipótese nula de que não existe relação entre elas. Ou seja, a mudança de valor de uma variável não impulsiona mudanças na outra variável de modo previsível. Por outro lado, a hipótese alternativa considera que há dependência entre as variáveis. Assim, tem-se:

H0: X e Y são independentes

H1: X e Y são dependentes

De acordo com Gingrich (2004), as variáveis analisadas pelo teste qui-quadrado podem ser medidas em qualquer nível, seja nominal, ordinal, intervalar ou razão.

O cálculo dos valores esperados, Eij, é feito com base na hipótese nula. Desse modo, as duas

variáveis X e Y são definidas como independentes e a probabilidade de ocorrência de uma categoria da variável X não está amarrada à categoria de ocorrência da variável Y. A probabilidade de ocorrência de dois eventos independentes é o produto da probabilidade de ocorrência dos eventos individualmente. Portanto, a probabilidade de Xj e Yi é dada pela

Equação (6) (GINGRICH, 2004):

𝑃𝑖𝑗 = 𝑃(𝑌𝑖 𝑒 𝑋𝑗) = 𝑃(𝑌𝑖)𝑃(𝑋𝑗) =𝑅𝑖 𝑛 .

𝐶𝑗

𝑛 (6)

Se n casos são selecionados, o número de casos esperados na linha i e coluna j é igual a probabilidade Pij multiplicado pelo número total de casos, n, conforme a Equação (7)

(GINGRICH, 2004).

𝐸𝑖𝑗 = 𝑃𝑖𝑗 . 𝑛 =𝑅𝑖 . 𝐶𝑗

Gingrich (2004) chama atenção para o fato que nenhum valor esperado deve ser menor do que 1, e não mais de 20% das células deve ter casos esperados inferiores a 5.

A partir dos valores esperados, é possível calcular o valor da estatística χ². A interpretação é dada pela comparação do qui-quadrado calculado e o valor crítico da distribuição teórica. Caso o valor da estatística seja menor do que o tabelado, a hipótese nula é confirmada, ou seja, as variáveis são independentes. Se o qui-quadrado não ultrapassa o valor crítico, há relação entre as duas variáveis (GINGRICH, 2004). A Figura 13 mostra graficamente o valor crítico de rejeição da hipótese nula para um caso de df = 3 e significância de 5%.

Figura 13 – Distribuição χ², df = 3 e α = 5%.

Fonte: Donnelly (2007).

Apesar de apontar a existência ou não de dependência entre variáveis, o teste qui-quadrado de Pearson apresenta algumas limitações. A estatística não indica a natureza da relação entre variáveis, não sendo possível determinar a que nível uma variável influencia mudanças em outra. Além disso, não fornece o grau da associação e não há como comparar valores de χ² obtidos de tabelas de contingência de tamanhos diferentes (seja em número de amostra ou linhas e colunas). A importância do nível de relacionamento entre as variáveis é dada devido à necessidade de identificação daquelas influentes na explicação da variável de saída. Os fatores que apresentam baixa relação com a variável explicativa podem ser ignorados para melhor ajuste do modelo matemático. Para aferição do grau de associação, existem medidas de associação baseadas na estatística χ², como o V de Cramér, e outras medidas utilizadas para variáveis não categóricas, explicadas na Seção 4.3.2.

Medidas de Correlação: V de Cramér, Rho de Spearman e Eta

Para medir a força de associação linear entre duas variáveis são utilizados coeficientes de correlação. Nessa verificação, as duas variáveis analisadas são tratadas simetricamente, ou seja, não existe diferenciação entre a dependente e a explanatória (GUJARATI E PORTER, 2008). Portanto, não há relação de causação ou direção de influência de uma variável para outra mostrada pela correlação (GINGRICH, 2004).

Existem diversas medidas de associação entre variáveis, que devem ser selecionadas com base no nível de medida da variável (nominal, ordinal, intervalar ou escalar) e tamanho da amostra. Tendo-se em vista as variáveis avaliadas nesta dissertação, optou-se por três métodos de associação distintos: o V de Cramér; o Rho de Spearman (ρs); e o Eta.

O V de Cramér é “uma medida da força do relacionamento de uma associação entre duas