• Nenhum resultado encontrado

4.4 FASE QUANTITATIVA DA PESQUISA

4.4.7 Procedimentos da análise de dados

4.4.7.1 Preparação da base de dados

A qualidade dos resultados de uma análise estatística depende dos cuidados adotados na fase de preparação dos dados. Antes que os dados brutos oriundos dos questionários sejam analisados, devem ser colocados em um formato apropriado, evitando constatações tendenciosas ou interpretações incorretas dos resultados estatísticos (MALHOTRA; BIRKS; WILLS, 2012). Para tanto, algumas etapas foram observadas na execução da preparação da base de dados do presente estudo.

Inicialmente, realizou-se a verificação dos questionários, com o objetivo de analisar a completude e a qualidade dos dados (MALHOTRA; BIRKS; WILLS, 2012). Foram coletados 301 questionários, sendo 112 (37%) no formato eletrônico e 189 (67%) no formato impresso. Em relação aos questionários impressos, identificou-se que três formulários apresentavam parte das questões sem respostas. Nesse caso, optou-se pela eliminação dos casos, considerando que os dados omissos estavam concentrados em um conjunto de variáveis vinculadas aos construtos dependentes (HAIR JUNIOR et al., 2009; HAIR JUNIOR et al., 2016). Além disso, um questionário apresentou respostas que acusavam pequena variância, sendo que o entrevistado assinalou o valor 4, em uma escala de 7 pontos, na maioria das perguntas. Por conseguinte, o caso também foi eliminado (MALHOTRA; BIRKS; WILLS, 2012). Essas situações não foram identificadas nos formulários eletrônicos. Logo, seguiu-se a análise dos 297 questionários restantes.

Na sequência, realizou-se o processo de codificação e transcrição dos dados, no caso dos formulários impressos. Cada questionário foi identificado com um número específico e os dados foram inseridos em uma planilha (software Microsoft Excel). Após a transcrição, realizou-se uma conferência dos dados inseridos, comparando as informações dos questionários impressos e da planilha. Nesse momento, também se verificou a consistência dos dados, que se caracteriza como parte do processo de depuração que auxilia na identificação de dados que estão fora do intervalo previsto (escala Likert ou opções de resposta definidas) e que são inconsistentes ou que acusam valores extremos (MALHOTRA; BIRKS; WILLS, 2012). Não foram identificados dados nessa situação. Por fim, elaborou-se um arquivo único, reunindo os dados dos formulários eletrônicos e impressos.

Seguindo os procedimentos de preparação da base de dados, foram analisados os casos relacionados aos dados perdidos (missing values) e às observações atípicas (outliers) (MALHOTRA; BIRKS; WILLS, 2012; HUSSON; LÊ; PAGÈS, 2017), sendo que essas ações são recomendadas e devem anteceder à aplicação de técnicas de análise multivariada (BAGOZZI; YI, 2012; HO, 2014; KLINE, 2015; HAIR JUNIOR et al., 2016).

As respostas faltantes ou omitidas (missing values) representam valores de uma variável que são desconhecidos, decorrentes de respostas ambíguas ou não registradas corretamente (MALHOTRA; BIRKS; WILLS, 2012). Em virtude da coleta de dados eletrônica e do leiaute do instrumento impresso, ocorreram poucos casos de missing values. Apenas 8,7% dos questionários (26 casos) apresentaram algum dado faltante e 0,26% dos valores a serem informados estavam incompletos. Mesmo assim, optou-se por adotar alguns

procedimentos metodológicos para o ajuste dos dados, com o objetivo de manter um tamanho adequado da amostra e evitar a eliminação tendenciosa dos dados (HAIR JUNIOR. et al., 2009; ENDERS, 2010).

Nesse sentido, realizou-se o exame do padrão dos dados perdidos por meio do teste MCAR de Little (ENDERS, 2010; TABACHNICK; FIDELL, 2010; KLINE, 2015). O

missing completely at random (MCAR) representa um nível superior de aleatoriedade,

também denominado de dados perdidos completamente ao acaso (HAIR JUNIOR et al., 2009; HO, 2014; LITTLE; RUBIN, 2014). O referido teste apresentou um resultado de p = 0,537, logo, concluiu-se que os dados atendem à classificação MCAR (ENDERS, 2010; TABACHNICK; FIDELL, 2010). A partir dessa constatação, o tratamento dos missing values ocorreu por meio do método de substituição pela média, considerando que essa é uma forma de atribuição amplamente utilizada (HAIR JUNIOR et al., 2009). Sendo assim, os valores perdidos foram substituídos pelo valor médio das suas respectivas variáveis, com base em todas as respostas válidas (HAIR JUNIOR et al., 2009; ENDERS, 2010; MALHOTRA; BIRKS; WILLS, 2012; HO, 2014; KLINE, 2015).

Em prosseguimento, realizou-se a avaliação dos outliers, que representam as observações atípicas com uma combinação única de características identificáveis notavelmente diferentes das demais observações (HAIR JUNIOR et al., 2009; KLINE, 2015). Geralmente, os outliers ocorrem a partir de valores incomuns (baixos ou altos) em uma variável ou de uma combinação ímpar de valores ao longo de diversas variáveis, fato que ocasiona uma observação marginal em relação às outras (HAIR JUNIOR et al., 2009; HAIR JUNIOR et al., 2016).

Verifica-se na literatura a indicação de duas avaliações de outliers que antecedem à análise multivariada de dados e à aplicação da MEE: a detecção univariada e a detecção multivariada (HAIR JUNIOR et al., 2009; TABACHNICK; FIDELL, 2010; HO, 2014; KLINE, 2015). Em relação à detecção univariada, realizou-se, conforme indicado por alguns estudos (HAIR JUNIOR et al., 2009; TABACHNICK; FIDELL, 2010; HO, 2014; KLINE, 2015), a identificação das observações que estão fora dos intervalos de distribuição, por meio do cálculo dos Z scores. Para tanto, as variáveis foram transformadas em escores padronizados e buscou-se constatar os valores superiores a |3|. Com o objetivo de facilitar a referida análise, os dados foram avaliados com o auxílio da ferramenta de formatação condicional do software Microsoft Excel. Foram destacadas as células que apresentavam os

valores mencionados, facilitando assim, a detecção visual das observações atípicas univariadas por caso ou por variável.

A Tabela 1 apresenta os casos e as variáveis nas quais foram identificadas observações atípicas univariadas. Em relação à identificação das variáveis, o código V3, por exemplo, representa a questão número 3 do instrumento de coleta de dados. De acordo com os resultados, optou-se pela eliminação dos casos 62, 84, 101, 166, 215, 221 e 245, considerando que apresentaram escores padronizados acima do parâmetro definido (|3|) em mais de 10% das variáveis. Por outro lado, a mesma proporção não foi identificada na avaliação individual das variáveis, sendo que não se realizou nenhuma exclusão nesse sentido, restando 290 casos para análise.

No tocante à detecção multivariada, aplicou-se a medida D² de Mahalanobis, com a finalidade de avaliar objetivamente a posição multidimensional de cada observação em relação a algum ponto comum (HAIR JUNIOR et al., 2009; KLINE, 2015). Para fins de interpretação, a referida medida oportuniza a aplicação de um teste de significância (HAIR JUNIOR et al., 2009), no qual um nível conservador de p < 0,001 pode ser aplicado como referência para designação de um valor atípico (HAIR JUNIOR et al., 2009; KLINE, 2015).

A Tabela 2 descreve os resultados das avaliações dos outliers multivariados, nos quais o nível de significância foi de p < 0,001. Destaca-se que nenhum caso foi retirado da amostra, seguindo as orientações de Hair Junior et al. (2009). Para os autores, a medida D² dividida pelo número de variáveis envolvidas (D²/df) é, aproximadamente, distribuída como um valor t. Nessa situação, observações que têm um valor D²/df excedendo 3 ou 4, em grandes amostras, podem ser designadas como possíveis observações atípicas. Tendo em vista que nenhum valor excedeu ao parâmetro mencionado, seguiu-se para o teste das suposições da análise multivariada com 290 casos.

Tabela 1 – Detecção dos outliers univariados

Variáveis

V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V15 V17 V18 V19 V20 V25 V26 V29 V30 V31 Ocorrências por caso Percentual

Casos 2 x x 2 5% 16 x 1 2% 18 x x 2 5% 44 x 1 2% 57 x 1 2% 62 x x x x 4 10% 68 x 1 2% 70 x x x 3 7% 76 x 1 2% 78 x x x 3 7% 81 x 1 2% 84 x x x x x x 6 14% 91 x 1 2% 94 x 1 2% 99 x 1 2% 101 x x x x x x x x x x x 11 26% 103 x x 2 5% 125 x 1 2% 127 x 1 2% 129 x 1 2% 140 x x x 3 7% 146 x 1 2% 156 x x x 3 7% 166 x x x x x x x x x x 10 24% 168 x 1 2% 170 x 1 2% 178 x 1 2% 191 x x x 3 7% 205 x x 2 5% 206 x 1 2% 214 x 1 2% 215 x x x x x x x x x x x x x x x x x x 18 43% 221 x x x x x x x x x x x 11 26% 223 x 1 2% 236 x 1 2% 241 x 1 2% 245 x x x x x x x 7 17% 248 x 1 2% 263 x x x 3 7% 276 x 1 2% 279 x 1 2% 280 x 1 2% 291 x x x 3 7%

Ocorrências por variável 7 5 5 7 5 5 8 4 2 6 3 5 5 7 3 4 8 4 10 2 5 6 5 121 -

Percentual 2% 2% 2% 2% 2% 2% 3% 1% 1% 2% 1% 2% 2% 2% 1% 1% 3% 1% 3% 1% 2% 2% 2% - -

Tabela 2 – Detecção dos outliers multivariados

Casos D² de Mahalanobis Graus de liberdade (gl) D²/df Significância

191 113,253 42 2,697 p < 0,001 140 109,418 42 2,605 p < 0,001 236 103,881 42 2,473 p < 0,001 32 98,859 42 2,354 p < 0,001 206 98,205 42 2,338 p < 0,001 168 97,361 42 2,318 p < 0,001 205 96,377 42 2,295 p < 0,001 178 95,490 42 2,274 p < 0,001 99 94,478 42 2,249 p < 0,001 114 93,687 42 2,231 p < 0,001 78 88,427 42 2,105 p < 0,001 282 83,128 42 1,979 p < 0,001 125 82,538 42 1,965 p < 0,001 129 80,753 42 1,923 p < 0,001 95 80,358 42 1,913 p < 0,001 60 79,978 42 1,904 p < 0,001 18 79,972 42 1,904 p < 0,001 271 79,859 42 1,901 p < 0,001

Fonte: Elaborada pela autora, a partir dos dados da pesquisa.