• Nenhum resultado encontrado

Nesta seção são apresentadas as ferramentas de análise utilizadas no desenvolvimento desta tese de doutorado em uma breve descrição.

3.4.1 Análise de Componentes Principais Categórica

Para determinar as variáveis latentes, ou construtos, a partir dos dados em Escala Likert, coletados com o questionário, foi utilizada, neste estudo, a Análise de

Componentes Principais Não-Linear (NLPCA – do inglês Non-linear Principal

Component Analysis).

Essa técnica é uma extensão da Análise de Componentes Principais (PCA – do inglês Principal Component Analysis), aplicada com a mesma finalidade de reduzir 𝑚 variáveis em 𝑝 componentes sendo, geralmente, 𝑝 < 𝑚. Contudo, diferencia-se por

Capítulo 3. Materiais e Método 63

ser indicada a variáveis não métricas, com diferentes níveis de medida e relações não lineares. No software IBM SPSS 25 é tratada como Análise de Componentes

Principais Categórica (CATPCA – do inglês Categorical Principal Component

Analysis). Neste trabalho, a ferramenta será referida como Análise de Componentes Principais Categórica, tal como no pacote estatístico utilizado.

As técnicas tradicionalmente utilizadas nas análises exploratórias e de validação de questionários, análise fatorial e PCA, são baseadas em medidas métricas como variância, covariância e correlação. Contudo, dados categóricos ordinais, como a escala Likert, utilizada neste trabalho, é uma medida não métrica, com a distância entre as categorias diferente de uma unidade.

A CATPCA é indicada para variáveis não métricas, pois transforma essas variáveis em medidas métricas por meio de um procedimento de escalonamento ótimo (Optimal Scaling) obtido por meio do método iterativo mínimos quadrados alternantes (Alternating Least Squares), realizado no IBM SPSS 25 por meio do algoritmo PRINCALS (KURODA et al., 2013; LINTING; VAN DER KOOIJ, 2012; LINTING et al., 2007). Para maiores informações acerca dos algoritmos, recomenda-se a leitura de Kuroda et al. (2013).

Assim, essa técnica foi utilizada, pois se mostra capaz de reduzir os dados considerando as restrições de medida, sendo mais adequada para representar os dados originais, uma vez que atende aos pressupostos de dados numéricos e categóricos com relações lineares e não lineares.

3.4.2 Árvore de decisão

Para classificação dos comportamentos de risco do condutor a partir das variáveis latentes e do envolvimento em AT no passado, auto relatado pelo respondente, utilizou-se, neste trabalho, um algoritmo de Árvore de Decisão. Essa técnica consiste em uma ferramenta de mineração de dados, utilizada para classificação ou estimação dos dados (QUINLAN, 1983). É representada por uma estrutura hierárquica dividida em camadas denominadas como nós raiz, nós filho e nós terminais (ROKACH; MAIMON, 2008). Existem diferentes algoritmos para realizar a divisão dos dados. As árvores de classificação são utilizadas para variável dependente categórica e dividem

64 Capítulo 3. Materiais e Método

dados em um número finito de classes por meio de regras hierárquicas (QUINLAN, 1983).

Neste estudo utilizou-se o algoritmo CART – do inglês Classification and Regression Tree, que atinge resultados satisfatórios para variáveis dependentes numéricas ou categóricas (BREIMAN et al., 1984). Esse algoritmo promove um crescimento com partição binária, com o objetivo de atingir homogeneidade dentro de cada nó (segundo a variável dependente). A homogeneidade pode ser avaliada de acordo com o critério de heterogeneidade, ou impureza, denominado Índice de Gini. Quanto mais próximo do valor zero o índice, maior a pureza ou homogeneidade do nó, de forma que, em

cada nova partição, sejam determinados nós mais homogêneos e,

consequentemente, menores valores para o índice (BREIMAN et al., 1984).

O índice de Gini é calculado baseado na função de impureza, conforme apresentado na Equação 3.1.

𝐺(𝑡) = 1 − ∑𝑛𝑖=1𝑝2(𝑖

𝑡) (3.1)

Para uma variável dependente categórica x com n categorias (1, 2, i..., n), sendo p(i/t): proporção da categoria i da variável dependente no nó t.

3.4.3 Modelo Logit Binomial

O Modelo Logit Binomial (Binário) foi utilizado para análise dos fatores que influenciam comportamentos de risco do condutor. Considerando que as classificações dos comportamentos de risco deste trabalho consistem em variáveis categóricas nominais, os métodos de regressão convencionais são inadequados. Para os casos em que a modelagem será acerca de dado categórico, são utilizados modelos de resposta qualitativa, em que a variável dependente é um indicador de uma categoria (GREENE, 2003; GUJARATI; PORTER, 2011).

No modelo Logit Binomial (Binário), a variável dependente é do tipo binária (dummy) onde estima-se a probabilidade de o indivíduo pertencer a determinada categoria (0 ou 1). O método de Máxima Verossimilhança é utilizado para calibrar modelos a partir de “funções utilidade que consistem em parâmetros de variáveis independentes observáveis e variáveis desconhecidas” (BEN-AKIVA; LEARMAN, 1985, p. 2, tradução nossa).

Capítulo 3. Materiais e Método 65

A partir da calibração dos parâmetros do modelo, é possível verificar a significância estatística dos parâmetros estimados com base no teste t-student, de forma que os parâmetros serão significativos ao nível de confiança superior a 95%. Assim, pode-se avaliar a relação entre as variáveis explicativas significativas e a variável explicada.

Para avaliar e comparar diferentes modelos de resposta qualitativa, pode-se considerar, entre as métricas disponíveis (BEN-AKIVA; LERMAN, 1985):

• Log de Verossimilhança Final: corresponde à função logarítmica de verossimilhança do modelo com todos os parâmetros estimados e deve ser menor que o inicial, em que se considera apenas a constante (modelo nulo); • Rho-quadrado-ajustado: é uma medida semelhante ao R² em termos de escala,

desenvolvida para modelos com método de estimação de máxima verossimilhança, em que valores mais próximos de 1 indicam maior qualidade do ajuste e penaliza o número muito elevado de parâmetros; e

• Critério de Informação de Akaike (AIC – Akaike Information Criterion): o AIC avalia a qualidade do ajuste do modelo indicando o quanto de informação foi perdida e o risco de sobreajuste (overfitting), de modo que quanto menor seus valores, melhor o ajuste.

As equações das métricas e parâmetros são apresentadas no Quadro 3.3.

Quadro 3.3 – Métricas dos modelos

Métrica Equação Parâmetros da equação

rho-quadrado

ajustado 𝜌2= 1 −

𝐿∗− 𝐾 𝐿0

𝐿∗ valor de máximo-verossimilhança obtida quando os parâmetros β correspondem aos valores estimados

𝐿0 valor da verossimilhança do modelo apenas com a constante, quando todos os parâmetros β do modelo são zero

𝐾 número de parâmetros estimados Critério de

Informação de

Akaike 𝐴 = 2𝐾 − 2𝑙𝑛𝐿

𝐿∗ valor de máximo-verossimilhança obtida quando os parâmetros β correspondem aos valores estimados

𝐾 número de parâmetros estimados

Fonte: Adaptado de Bierlaire (2018)