PROCEDIMENTOS DE ANÁLISE DOS DADOS

3 MÉTODO DE PESQUISA

3.2 PROCEDIMENTOS DE ANÁLISE DOS DADOS

O procedimento utilizado para a análise dos dados foi a estatística multivariada com utilização da técnica de Modelagem de Equações Estruturais (MEE). Visando a execução da metodologia que foi proposta foram utilizados os softwares Microsoft Office Excel 2016, SPSS Statistics 20 e AMOS 20.

De acordo com as ideias propostas por Hair Jr. et al. (2010) e Kline (2011) foram definidas duas instâncias de análise de dados brutos para que depois sejam utilizadas as técnicas de análise multivariada. Dessa forma, inicialmente foi realizada a identificação dos dados perdidos (missing values) e dos escores discrepantes (outliers) e, em seguida, análises referentes à distribuição dos dados e relações entre as variáveis como normalidade, homoscedasticidade, linearidade e multicolinearidade.

3.2.1 Missings e Outliers

De acordo com Hair Jr. et al. (2014) os missing values, também conhecidos por dados faltantes/perdidos, são verificados quando um respondente deixa de responder, intencionalmente ou não, no mínimo uma questão do instrumento de coleta de dados. O autor ressalta que quando a quantidade de dados faltantes em um questionário for superior a 15% o mesmo deve ser eliminado do banco de dados. Inclusive, um questionário pode ser removido mesmo se os dados perdidos não excederem os 15%, como em casos onde houver uma grande proporção de respostas em branco para um mesmo construto.

Assim, os pesquisadores devem dar toda atenção que puderem para manutenção da distribuição original dos dados, por meio da utilização de ações corretivas evitando que influenciem na generalização dos resultados. Neste sentido, é importante que os pesquisadores entendam os processos que levaram aos dados perdidos, visando a escolha da ação mais adequada para purificação dos mesmos tentando conservar a disposição original dos valores. Além disso, deve-se observar se a exclusão dos missing values gera uma diminuição intensa na amostra, para que se evite uma eliminação tendenciosa (HAIR Jr. et al, 2010; ENDERS, 2010).

Já, por sua vez, os outliers são escores discrepantes do restante do questionário, ou seja, representam uma resposta extrema para uma pergunta específica ou para todos os questionamentos realizados, podendo ser univariados ou multivariados (KLINE, 2011; HAIR Jr. et al., 2014). Outliers univariados ocorrem quando houver extremo em apenas uma variável, ou seja, de modo geral é quando ocorrem pontuações superiores a três desvios padrões da média. Dessa forma, eles são localizados através da análise de distribuições de frequência, quando se observar |z| >3,00. Já um outlier multivariado pode ser observado quando houver escores extremos em no mínimo duas variáveis, ou, se o padrão das respostas for considerado atípico. Como exemplo, isso é observado quando houver escores que estão dois ou três desvios-padrões além da média em todas as variáveis (KLINE, 2011).

Após a localização dos respondentes que apresentaram respostas extremas, o pesquisador precisa determinar o que fará, uma vez que casos extremos influenciam de modo relevante nos resultados da regressão. Se ocorrer a identificação de somente alguns outliers o mais comum é removê-los do banco de dados. Entretanto, conforme esse número aumentar o pesquisador deve analisar se este grupo de outliers não configura um subgrupo diferente e particular da amostra (TABACHNICK; FIDELL, 2012; HAIR Jr. et al., 2014).

3.2.2 Testes das Suposições da Análise

Esta etapa da análise dos dados é formada pelo teste das suposições referente à análise multivariada de dados. Estes testes são realizados em função da complexidade existente entre as relações, que é decorrente da ampla quantidade de variáveis utilizadas e da abrangência das análises e dos resultados que podem dar origem a suposições. Neste sentido, serão apresentadas as quatro suposições que influenciam as técnicas estatísticas multivariadas: normalidade, homoscedasticidade, linearidade e multicolinearidade (HAIR Jr. et al., 2010; KLINE, 2011; MALHOTRA; BIRKS; WILLS, 2012).

3.2.2.1 Normalidade

Para Hair et al. (2010) a normalidade trata-se do pressuposto mais relevante em uma análise multivariada. Diz respeito à um modo de distribuição de dados para uma variável métrica individual e sua relação com a distribuição normal, que é um parâmetro que serve como orientação para procedimentos estatísticos. Os autores seguem destacando que se houver uma alteração referente à distribuição normal suficientemente grande os testes estatísticos provenientes passam a ser inválidos.

Contudo, a normalidade dos dados pode ser averiguada de dois modos: por curtose e assimetria de dados. A curtose diz respeito à altura da distribuição, referindo-se a uma elevação ou a um achatamento da mesma em comparação com a normal. Já a assimetria é utilizada a fim de caracterizar o equilíbrio da distribuição. Se ela for desviada para o lado esquerdo é chamada de assimetria positiva e, se possuir um deslocamento para o lado direito, é conhecida por assimetria negativa. Com relação aos valores, a curtose admite os que possuem escore até | 10 |. Já na assimetria, variáveis que possuem valores absolutos superiores a | 3 | são vistas como extremamente assimétricas (HAIR Jr. et al., 2010; KLINE, 2011).

3.2.2.2 Homoscedasticidade

A homocedasticidade ou distribuições uniformes diz respeito a relações de dependência que existem entre variáveis, sendo observada quando a variância dos termos de erro se mantém constante no decorrer do conjunto das variáveis preditoras. É um aspecto desejado uma vez que a variância da variável dependente não deveria se acumular somente em um domínio restrito dos valores independentes (HAIR Jr. et al., 2010; KLINE, 2011).

Com relação a verificação da homoscedaticidade, a realização do teste de Levene possibilita estabelecer a igualdade de variância dentro de conjuntos que possuam apenas uma variável métrica, isto é, testa a hipótese nula levando em consideração que a variância do erro da variável dependente é a mesma em todos os grupos (HAIR Jr. et al., 2010; MALHOTRA; BIRKS; WILLS, 2012).

3.2.2.3 Linearidade

A linearidade é um conceito utilizado para demonstrar que o modelo possui características de aditividade e homogeneidade, sendo um aspecto da normalidade multivariada. Modelos lineares pressupõem valores que recaem em uma linha reta que possui uma alteração com unidade constante (denominado de coeficiente angular) da variável dependente, em relação a uma modificação com unidade constante da variável independente (HAIR Jr. et al., 2010; KLINE, 2011).

A fim de verificar as relações lineares existentes deve-se mensurar o Coeficiente de Correlação de Pearson, que possui resultados pertencentes ao intervalo entre -1 e +1. Quanto mais próximo dos valores das extremidades (-1 e +1) for o resultado, maior será o nível de relação entre as variáveis e, quanto mais perto do número zero, menor será a associação existente, demonstrando que não há correlação entre as mesmas (KLINE, 2011).

3.2.2.4 Multicolinearidade

A multicolinearidade analisa a dimensão em que uma variável pode ser explicada por outras variáveis da análise, ou seja, demonstra o nível em que as decorrências de uma variável podem ser previstas ou justificadas pelas demais variáveis que fazem parte da análise. Conforme a multicolinearidade crescer se torna mais difícil a interpretação da variável estatística, pois, em função das inter-relações existentes é mais complicado analisar o efeito de qualquer variável (HAIR Jr. et al., 2010).

Este teste é visto como aceitável quando seus valores estiverem dentro do intervalo de 0 a 1. Caso os valores sejam superiores a 10 a multicolinearidade é considerada problemática e, se forem iguais ou inferiores a 1 é denominada de ausente. Os testes utilizados para mensuração da multicolinearidade são o de Valor de Tolerância e o de Fator de Inflação de Variância (VIF), que são inversos (HAIR Jr. et al., 2010; MALHOTRA; BIRKS; WILLS, 2012).

No documento Antecedentes da lealdade à marca: um estudo no contexto de uma marca de fast food (páginas 64-68)