• Nenhum resultado encontrado

Preparação dos dados: exame gráfico, análise de dados perdidos e outliers

4.2 Análise dos dados quantitativos

4.2.1 Preparação dos dados: exame gráfico, análise de dados perdidos e outliers

A primeira etapa na análise dos dados quantitativos, conforme assinalado no tópico 4.5.2., abrangeu a codificação e a tabulação dos dados. Tendo em vista os critérios de seleção da amostra, previamente apresentados, dos 823 questionários enviados aos funcionários que abrangem o universo da pesquisa, foram coletados 592 (71,94%), havendo, pois, 231 não- respondentes (28,06%), conforme TAB.1.

TABELA 1

Respondentes e não-respondentes CEMIG

Total Respondentes Não-Respondentes Diretoria

Quant. % Quant. % Quant. %

DDC 655 79,60 525 80,15 130 19,85 DGT 82 10,00 44 53,66 38 46,34 DFN 48 5,83 12 25,00 36 75,00 DPC 17 2,07 8 47,05 9 52,95 DGE 21 2,50 3 14,29 18 85,71 Total 823 100 592 71,94 231 28,06

Fonte: Dados dos questionários

A etapa seguinte abrangeu a edição e limpeza dos dados mediante a verificação da sua completude e do padrão de respostas, em busca de dados perdidos (ou ausentes) bem como de valores extremos – outliers, conforme recomendam Hair et al (2005) e Malhotra (2001). O processo de dados perdidos, de acordo com Hair et al (2005, p.57) engloba “qualquer evento sistemático externo ao respondente ou ação por parte do respondente (como recusa a responder)” e pode ser ou não conhecido pelo pesquisador. Outros tipos de processos de dados perdidos, segundo Hair et al (2005, p.59), abrangem “fatores de procedimentos, como erro na entrada de dados que criam códigos inválidos [...] falha em completar o questionário

inteiro, problemas de saúde do respondente [...] respostas inaplicáveis [...] e recusa a responder certas perguntas, como em questões delicadas ou quando o respondente não tem opinião ou conhecimento suficiente sobre o assunto”. Assim, dos 592 respondentes (71,94%), 33 casos (5,57%) apresentaram dados ausentes, devido a respostas faltantes, que variaram de um a 36.

Visando contornar o problema de respostas insatisfatórias ou de dados perdidos, Malhotra (2001) recomenda que se deve retornar ao campo a fim de obter um novo contato com os respondentes. Entretanto, se não for possível devolver os questionários ao campo de trabalho, o pesquisador poderá adotar tratamento ou ações corretivas para lidar com dados perdidos. Um dos tratamentos para lidar com dados ausentes, segundo Hair et al (2005), envolve a eliminação de casos ou variáveis problemáticos. Nesse caso, o pesquisador deverá determinar a extensão dos dados perdidos em cada caso e variável e, então eliminar aqueles com níveis excessivos.

Dessa forma, considerando o total (33), 23 casos com 50% (19) ou mais de dados ausentes foram eliminados. Ainda nessa etapa, realizou-se uma análise dos casos com “respostas 6”, o que significava que o respondente “não tinha informação sobre a questão”. Segundo esse critério, foram identificados 322 casos em que o respondente não tinha informação sobre a questão, dos quais 76 deles com 30% (12) ou mais de “respostas seis” também foram eliminados da análise, conforme TAB.2. Cabe ressaltar que dos 23 casos com respostas faltantes, sete deles também apresentavam “respostas seis” e dos 76 com “respostas seis”, um apresentava resposta faltante. Eliminaram-se ainda mais dois casos que apresentavam 30% ou mais, quando considerada a soma de dados ausentes referentes a questionários incompletos e “respostas 6”. Portanto, dos 592 respondentes iniciais, 101 foram eliminados, totalizando 491 questionários válidos.

TABELA 2

Dados perdidos (respostas faltantes e respondentes sem informação)

Questionários incompletos Resposta 6

# de casos Quant. % em relação ao # de variáveis (38) Quant. % em relação ao # de variáveis (38) De 1 a 11 9 3 a 29% 246 3 a 29% De 12 a 38 24 32 a 100% 76 32 a 100% Total 33 322

Fonte: Dados dos questionários

Cabe acrescentar que, dentre os 491 questionários considerados para fins de análise dos dados quantitativos, ainda restaram 242 casos com dados ausentes, que incluíam tanto respostas

faltantes quanto respondentes que não tinham informação sobre a questão e variando de um a 11 respostas em cada caso. Tais casos foram mantidos para análise, por apresentarem menos de 30% de dados ausentes, tomando-se, entretanto, o cuidado de examinar o padrão de dados perdidos, avaliar o grau de aleatoriedade bem como de realizar o tratamento dos mesmos por meio de um dos métodos de atribuição, conforme salientam Hair et al (2005).

O exame de padrão de dados perdidos tabulados e das estatísticas descritivas para as 491 observações restantes, conforme TAB.3, mostra que a extensão para tais dados variou de um pico de 21% dos casos a um mínimo de 0,6% para v4. O padrão predominante é o de dados perdidos para v33, encontrado em 103 casos, seguido por v24, v6, v8 e v7, com 76, 74, 59 e 51 casos, respectivamente.

TABELA 3

Dados perdidos: estatísticas descritivas univariadas (a) Estatísticas descritivas univariadas

Dados perdidos Nr. de casos com valores extremos # casos com dados válidos Média Desvio-padrão

Número Porcentagem Baixo Alto

v1 481 4,07 0,834 10 2,0 12 0 v2 487 4,02 0,926 4 0,8 0 0 v3 475 3,98 0,937 16 3,3 0 0 v4 488 3,74 0,992 3 0,6 22 0 v5 461 3,44 1,052 30 6,1 31 0 v6 417 3,73 0,973 74 15,1 12 0 v7 440 3,71 1,033 51 10,4 0 0 v8 432 3,93 0,965 59 12,0 0 0 v9 460 3,77 1,059 31 6,3 0 0 v10 461 3,65 1,103 30 6,1 28 0 v11 449 3,56 1,084 42 8,6 26 0 v12 473 3,83 0,961 18 3,7 0 0 v13 468 3,35 1,205 23 4,7 51 0 v14 463 2,97 1,129 28 5,7 0 0 v15 469 3,17 1,154 22 4,5 0 0 v16 470 3,01 1,073 21 4,3 0 0 v17 470 3,01 1,044 21 4,3 0 0 v18 472 3,17 1,103 19 3,9 46 0 v19 479 3,37 1,187 12 2,4 45 0 v20 486 3,49 1,136 5 1,0 35 0 v21 482 3,12 1,105 9 1,8 0 0 v22 467 3,17 1,180 24 4,9 0 0 v23 472 3,10 1,185 19 3,9 0 0 v24 415 2,37 1,292 76 15,5 0 0 v25 471 3,02 1,243 20 4,1 0 0 v26 466 3,61 1,075 25 5,1 27 0 v27 483 3,86 0,929 8 1,6 0 0 v28 446 3,34 1,116 45 9,2 34 0 v29 473 3,44 1,068 18 3,7 28 0 v30 474 3,87 0,976 17 3,5 0 0 v31 484 4,04 0,919 7 1,4 28 0 v32 458 3,88 0,933 33 6,7 0 0 v33 388 3,33 1,118 103 21,0 29 0 v34 476 3,91 0,950 15 3,1 0 0 v35 474 3,79 0,902 17 3,5 8 0 v36 464 3,70 0,972 27 5,5 12 0 v37 476 3,33 1,140 15 3,1 40 0 V38 479 3,66 1,014 12 2,4 21 0

(a) Nessa planilha foram excluídos 101 casos. Total de vasos válidos = 491. Fonte: Dados dos questionários

Para verificar se havia uma concentração de dados perdidos em um conjunto específico de casos, foi realizada uma análise gráfica dos mesmos por meio do programa estatístico SPSS, buscando verificar a forma da distribuição, a relação entre variáveis, bem como as diferenças entre grupos por meio de histogramas, matriz de diagrama de dispersão18 e de gráficos de caixa (boxplots), conforme pode ser visualizado no APÊNDICE F e G. Observou-se, pois, que além dos 101 casos previamente eliminados devido aos altos níveis de dados perdidos, 112 casos apresentavam um número desproporcional de valores perdidos (10% ou mais). Todavia, antes de optar por um determinado método para lidar com esses dados perdidos, verificou-se o grau de aleatoriedade dos mesmos, conforme sugerem Hair et al (2005).

O primeiro método utilizado nesta dissertação para avaliar o grau de aleatoriedade, conforme recomendam Hair et al (2005), abrangeu a análise do processo de dados perdidos em apenas uma variável, sendo formados dois grupos (observações com dados perdidos e as com valores válidos para cada variável). Na seqüência foram empregados testes estatísticos (teste t) a fim de verificar a existência de diferenças significativas entre os dois grupos de uma determinada variável em comparação com as demais variáveis. Dentre os padrões observados de valores t significantes, considerando um nível de significância de 0,01, destacam-se os que ocorreram nas variáveis v6 e v7, nas quais oito e sete das 38 comparações, respectivamente, mostraram diferenças significantes. Já as variáveis v8, v12, v15 e v34 revelaram quatro diferenças significantes dentre as observações analisadas, enquanto as variáveis v9 e v36 apontaram para três e v17, v18, v29 e v38 para duas diferenças significantes e v2,v4,v11,v16,v19,v20,v27 e v33 para uma diferença significante. Tal análise indica que, conquanto diferenças significantes tenham sido encontradas devido aos dados perdidos em duas variáveis, o pequeno número de casos envolvidos, principalmente quando se considera o tamanho da amostra, torna essa preocupação secundária.

O segundo método usado, de acordo com as recomendações de Hair et al (2005), foi o de correlações dicotomizadas. Esse método foi empregado para analisar a correlação de dados perdidos para qualquer par de variáveis, em que os valores válidos foram representados pelo valor um e os dados perdidos foram substituídos por zero. Essa análise não revelou diferenças significativas entre os dados perdidos, uma vez que as correlações foram baixas, indicando, pois, a aleatoriedade dos dados para cada par de variáveis.

18

O terceiro método empregado foi um teste geral de aleatoriedade em todas as variáveis, comparando o padrão de dados perdidos em todas as variáveis com o padrão esperado para um processo de dados perdidos aleatório. De acordo com Hair et al (2005), nesse diagnóstico, caso os dados sejam perdidos ao acaso (MAR – Missing At Random), ou seja, se na análise que envolva duas variáveis (X e Y), os valores perdidos de Y dependerem de X, mas não de Y, a amostra não é considerada como verdadeiramente aleatória. Por outro lado, se os dados forem perdidos completamente ao acaso (MCAR – Missing Completely At Random), os valores observados de Y são verdadeiramente uma amostra aleatória de todos os valores de Y, sem qualquer processo inerente que conduza a tendências para os dados observados. O nível de significância do MCAR é baseado na análise do teste qui-quadrado e, nessa pesquisa, ele foi de 1,0 indicando que o processo de dados perdidos poderia ser considerado MCAR.

Como o processo de dados perdidos detectado foi MCAR, diversos tratamentos ou ações corretivas, segundo Hair et al (2005), poderiam ser empregados, dentre eles: a abordagem de caso completo que inclui apenas observações com dados completos, desprezando-se na análise os casos, ou os entrevistados, com quaisquer respostas faltantes; ou um dentre os diversos métodos de atribuição que busca estimar valores perdidos com base em valores válidos de outras variáveis e/ou casos na amostra. Contudo, a abordagem de caso completo, segundo os mesmos autores, somente deverá ser utilizada quando a proporção de respondentes insatisfatórios for pequena (inferior a 10%), o tamanho da amostra for grande, no caso de não existir diferenças óbvias entre respondentes insatisfatórios e satisfatórios, a proporção de tais respostas for grande para cada um dos respondentes ou ainda caso as respostas das variáveis-chave sejam faltantes.

Assim, caso a abordagem de caso completo fosse empregada na presente pesquisa, além dos 101 casos excluídos da amostra inicial, conforme previamente justificado, mais 242 observações (considerando respostas faltantes e respondentes que não tinham informação sobre a questão) seriam excluídas da análise, ficando o tamanho da amostra reduzido a 249 observações. Além disso, todas as variáveis apresentaram dados perdidos, e a exclusão de qualquer uma delas tornar-se-ia prejudicial aos objetivos finais da pesquisa. Dessa forma, ainda que se mantivesse um tamanho adequado da amostra para fins de análise, julgou-se que a aplicação dessa abordagem não seria a mais apropriada.

Outro tratamento para lidar com os dados perdidos, segundo Hair et al (2005, p.61), refere-se ao emprego de um dos métodos de atribuição, definido como um “processo de estimação de

valores perdidos com base em valores válidos de outras variáveis e/ou casos na amostra”. (HAIR et al, 2005, p.61). Esses métodos são usados principalmente com variáveis métricas e podem ser classificados dentre dois tipos: uso de toda a informação disponível de um subconjunto de casos para generalizar para toda a amostra ou substituição dos valores perdidos por valores estimados com base em outras informações disponíveis na amostra, como: um caso escolhido fora da amostra; a resposta média da variável; uma resposta atribuída, utilizando um padrão de respostas dadas por um entrevistado a outras questões; um valor constante obtido de fontes externas ou de pesquisa anterior; regressão que é “usada para prever os valores perdidos de uma variável com base em sua relação com outras variáveis no conjunto de dados” (HAIR et al, 2005, p.63), ou ainda uma combinação de dois ou mais métodos de atribuição para derivar uma estimativa composta – normalmente a média das várias estimativas – para o valor perdido.

Conquanto tenham sido aplicados diversos métodos de atribuição para fins de comparação dos resultados quanto ao tratamento dos dados perdidos, optou-se neste estudo pelo método de atribuição baseado no uso toda a informação disponível (a opção Pairwise no SPSS). Esse método, segundo Hair et al (2005), busca atribuir as características de distribuição (como médias ou desvios-padrão) ou relações (como correlações) a partir de todos os valores válidos disponíveis. Assim, ao invés de descartar todos os casos, com quaisquer valores omitidos, o pesquisador usa somente as correlações obtidas dos casos, ou respondentes, com respostas completas para cada cálculo, como representativas da amostra inteira. Tal método tem a vantagem de não causar o viés atribuído pela substituição da média.

Quanto à análise dos outliers (valores extremos ou observações atípicas) uni e multivariados, seguiram-se os critérios de identificação sugeridos por Hair et al (2005). Segundo esses autores, na análise de outliers univariados e quando o tamanho da amostra é maior do que 80, as diretrizes sugerem que o valor básico de desvios-padrão varie de 3 a 4, não ultrapassando tais valores. Nesse sentido, não foram identificados nessa pesquisa outliers univariados, ou seja, casos cuja variável distanciasse de três a quatro desvios-padrão da média amostral. Já os outliers multivariados foram avaliados por meio de D2 de Mahalanobis, que é equivalente ao conceito de valores padronizados quando se trata de análise univariada, referindo-se a uma medida de distância em um espaço multidimensional, de cada observação, em relação ao centro médio das observações. Para identificar os oultliers multivariados, calcula-se o valor da função distribuição qui-quadrado e, se o valor dessa função for menor

que o nível de significância de 0,001, conforme sugerem Hair et al (2005), considera-se, então, que o caso apresenta valores extremos. Seguindo esse critério, foram identificados, nessa pesquisa, 17 casos com outliers multivariados, sendo todos eles excluídos, após análise do padrão. Portanto, para a análise final 474 casos foram considerados como válidos, conforme TAB.4.

TABELA 4

Respondentes CEMIG por diretoria após análise dos dados perdidos– 474 casos

Total Diretoria

Quant. % DDC – Diretoria de Distribuição e Comercialização 421 88,8

DGT – Diretoria de Geração e Transmissão 34 7,2 DFN – Diretoria de Finanças, Participações e Relações com Investidores 10 2,1 DPC – Diretoria de Planejamento, Projetos e Construções 7 1,5 DGE – Diretoria de Gestão Empresarial 2 0,4

TOTAL 474 100,0

Fonte: Dados dos questionários