• Nenhum resultado encontrado

3.4 ETAPA DESCRITIVA-CONCLUSIVA

3.4.2 Procedimentos de Preparação e Tratamento dos Dados

3.4.2.2 Identificação de Casos e Variáveis com Dados Ausentes (Missings Values)

Dos 34 itens e variáveis que foram utilizados no modelo, 15 apresentaram dados faltantes (44,1%). Esses dados faltantes referem-se à recusa de resposta ou ao desconhecimento do respondente quanto ao aspecto ou traço comportamental avaliado no item. Os itens que apresentaram as maiores quantidades de dados omissos foram “O Banco X se preocupa com a coleta seletiva de materiais sólidos de suas agências” e “O Banco X se preocupa com o desperdício de água e de energia elétrica de suas agências”, com 17 casos cada. As maiores frequências de missings estão localizadas nos itens do constructo Percepção de que um Banco é Ambientalmente Responsável, variando entre seis casos (0,66 % do total de respondentes) a 17 casos (1,86 % do total de respondentes), conforme a Tabela 3. Dos 11 itens do constructo Confiança, cinco registraram respondentes com dados omissos, oscilando entre um caso e quatro casos. Satisfação, Lealdade Comportamental e Rentabilidade não registraram casos perdidos.

Tabela 3 - Frequência Absoluta e Relativa de Missings nos Constructos e nas Variáveis Observáveis Constructo / Variável Quantidade Itens / Indicadores Quantidade Itens / Indicadores com missings Mínino % Mínimo Máximo % Máximo Gestão Ambiental 8 8 6 0,66 17 1,86 Confiança 11 5 1 0,11 4 0,44 Satisfação 3 0 0 0,00 0 0,00 Lealdade Atitudinal 10 2 1 0,11 2 0,22 Lealdade Comportamental 1 0 0 0,00 0 0,00 Rentabilidade 1 0 0 0,00 0 0,00

Fonte: Elaboração própria.

No geral, verificou-se uma baixa proporção de valores perdidos entre os itens dos constructos. Mesmo assim, considerando indicações Hair Jr et al. (2005), três testes foram

executados para verificar se os valores perdidos estavam distribuídos ou não ao acaso. Como as maiores incidências de missings concentraram-se na Percepção de que um Banco é Ambientalmente Responsável, os testes e discussões se limitarão a esse constructo.

O primeiro teste foi comparar as observações com e sem dados perdidos para cada variável (item e indicador) com relação às outras variáveis. Cada variável foi separada em dois grupos: (A) respondentes com missing e (B) respondentes sem missing. Compararam-se as médias de A e B nas demais variáveis, por meio do Teste T de Student. Diferenças significantes entre os grupos poderiam indicar não aleatoriedade entre os dados perdidos. Para exemplificar, considere-se que a variável “X” é segmentada em dois grupos A e B. Verificam- se, com o Teste T, as médias dos grupos na variável “Y”, isto é, diferenças significantes nos valores de “X” entre os casos para “Y” com dados válidos e com dados perdidos. A diferença estatisticamente significante entre as médias de A e B na variável “Y” deve-se à ocorrência de dados perdidos em “X”, o que sugere um padrão de não aleatoriedade entre os mesmos. Cada uma das oito variáveis do constructo Percepção de que um Banco é Ambientalmente Responsável foi dividida em dois grupos: casos com dados perdidos e casos com dados presentes. Seguidamente, compararam-se as médias dos grupos de cada uma das oito variáveis em relação às outras 33 variáveis; das 264 comparações possíveis, 28 (10,6%) foram significantes à 5 %. Ao observar as comparações significantes, percebe-se que a maioria delas (20) concentra-se em variáveis da Lealdade Atitudinal (LA2, LA4, LA5, LA6, LA8 e LA9). Apesar da existência de algumas diferenças significantes, uma vez que relativamente há poucos casos com missings, esse resultado, em princípio, não é preocupante (HAIR JR et al., 2005).

O segundo teste faz uso de correlações dicotomizadas para avaliar a correlação de dados perdidos em pares de variáveis. Em cada variável, os casos com dados ausentes são identificados como zero, enquanto que, os casos com dados válidos são reconhecidos como um. As correlações entre as variáveis dicotômicas indicam o quanto os dados ausentes estão relacionados em pares de variáveis. Em outras palavras, correlações não significantes ou baixas sinalizam ausência ou baixa associação entre o processo de dados perdidos para o par de variáveis.

Dessa forma, criou-se uma variável dicotomizada (dummy) para cada uma das 34 variáveis, em que zero indicava resposta perdida (ausência de informação do julgamento do respondente na variável) e um, significava resposta válida. As variáveis dummies foram correlacionadas entre si e analisadas por intermédio da técnica estatística Rho (ρ) de Spearman. O exame das correlações de cada uma das variáveis da Percepção de que um

Banco é Ambientalmente Responsável com as outras 33 variáveis demonstra que aproximadamente 20 % delas foram significantes à 5 %. Todas as correlações entre as variáveis dicotomizadas foram significantes e oscilaram entre 0,32 (dummy_GA3 x

dummy_GA6) e 0,76 (dummy_GA1 x dummy_GA2); média de 0,54 e desvio-padrão de 0,1.

Esses resultados podem indicar que o mesmo processo de dados perdidos que influencia uma variável do constructo corresponde ao processo de dados perdidos que afeta as demais variáveis do constructo. Por seu turno, as correlações significantes entre as variáveis dicotomizadas desse constructo e as demais variaram entre 0,16 (dummy_GA5 x

dummy_CON4) e 0,42 (dummy_GA2 x dummy_CON4), magnitudes consideradas baixa à

moderada por Hair Jr et al. (2005). Como aproximadamente 80 % das correlações entre cada item da Percepção de que um Banco é Ambientalmente Responsável e as demais variáveis não foram significantes e a maioria das correlações significantes estava abaixo de 0,50 (67,8 %), conclui-se que nenhum processo de dados perdidos desse constructo está afetando uma quantidade considerável das variáveis do modelo.

O terceiro teste para verificar a aleatoriedade dos dados perdidos visa averiguar se esses podem ser classificados como Perdidos Completamente ao Acaso (MCAR - Missing

Completely At Random), considerado o “melhor de todos os mundos” para Tabachnick e

Fidell (2007, p. 63) em pesquisas com dados omissos. O teste se baseia na análise do padrão de dados perdidos em todas as variáveis e o compara com o padrão esperado para um processo de dados completamente perdidos ao acaso. Espera-se não rejeitar a hipótese nula (H0) de igualdade entre o padrão de dados perdidos e o padrão esperado, quer dizer, que a

diferença entre eles não seja significante. O teste MCAR de Little indicou que, ao nível de significância de 5 %, rejeita-se a hipótese de igualdade do padrão dos dados perdidos e o padrão esperado para um processo de dados perdidos ao acaso (c² = 1116,16; gl= 949; sig. = 0,00). Assim, o processo de dados perdidos não pode ser considerado MCAR.

Segundo Tabachnick e Fidell (2007), além do MCAR, há outros dois padrões de dados perdidos: Perdido ao Acaso (MAR - Missing at Random) e o Perdido Não ao Acaso (MNAR - Missing not at Random). No MAR, os valores perdidos de uma variável “Y” (supõe-se possuir alguns missings) dependem de “X” (supõe-se não possuir missings), mas não de “Y” (HAIR JR et al., 2005). A identificação do padrão de aleatoriedade dos dados perdidos apontará as medidas corretivas cabíveis.

Tomando em conjunto os resultados dos dois primeiros testes, há evidências de que os dados ausentes da Percepção de que um Banco é Ambientalmente Responsável não são

MNAR, em decorrência do impacto marginal desses dados omissos no conjunto de variáveis do modelo; por consequência, conclui-se que os dados ausentes seguem o padrão MAR.

Identificado o padrão dos dados perdidos como MAR, pode-se implementar alguma ação com intuito de minimizar os seus efeitos na técnica multivariada a ser aplicada. Hair Jr et al. (2005) afirmam que a maioria dos tratamentos disponíveis são restritos ao padrão MCAR, notadamente os métodos de atribuição, os quais estimam os valores perdidos com base em valores válidos de outras variáveis e/ou casos na amostra. Contudo, há a possibilidade de exclusão dos casos com missings (listwise) e considerar, somente, as observações com dados completos. No entanto, Hair Jr et al. (2005) e Tabachnick e Fidell (2007) orientam quanto às condições para sua viabilidade: (a) pequena quantidade de dados perdidos. Nenhuma variável registrou mais do que 1,86% de missings, proporção considerada pequena, quando comparada com o ponto de corte de 5% indicado por Tabachnick e Fidell (2007); (b) amostra grande o bastante para tornar possível a eliminação dos casos com dados perdidos. Dos 914 respondentes, 36 (3,9 %) apresentaram ao menos um dado faltante nas variáveis relativas ao modelo. Desses 36 casos, 22 tiveram até três dados faltantes e apenas um caso registrou nove dados ausentes. A exclusão dos sujeitos com missings não prejudicaria a aplicação das técnicas estatísticas Análise Fatorial Exploratória e a Modelagem de Equações Estruturais; e (c) relações consistentes entre as variáveis de maneira a evitar a influência de algum processo de dados perdidos. As variáveis com as maiores frequências de casos omissos possuem correlações significantes e de magnitude moderada entre si, sinalizando razoável robustez contra a ação de processos de dados perdidos na relação entre elas. Dessa forma, optou-se pela eliminação dos respondentes com pelo menos um caso ausente, a qual será operacionalizada após a conclusão do exame exploratório dos dados.

3.4.2.3 Identificação de Casos e Variáveis com Observações Extremas (Outliers)

Os outliers são observações com uma combinação de características especialmente distintas das outras observações (HAIR JR et al., 2005). Um outlier, de acordo com Tabachnick e Fidell (2007), é um caso em que o extremo valor em uma variável (outlier univariado) ou a combinação incomum de valores de duas ou mais variáveis (outlier multivariado) distorce os resultados da técnica estatística.

Para identificar casos extremos univariados, transformaram-se os valores das variáveis em desvios-padrão (z) e depois os indivíduos com -3,29 < z > 3,2928 foram identificados e designados como casos extremos univariados. Dez variáveis continham

outliers univariados (o valor entre parênteses indica a quantidade de casos extremos):

Constructo Confiança - CON1(9), CON2(10), CON3(19) e CON4 (10); Constructo Satisfação – SAT1(13) e SAT3(15); Constructo Lealdade Atitudinal – LA2 (21) e LA4 (17); Variável Lealdade Comportamental (6); e Variável Rentabilidade (19).

Já os outliers multivariados foram localizados por meio da medida D² de Mahalanobis. Trata-se da medida da distância, em um espaço multidimensional, de cada observação em relação ao centróide das observações (ponto criado pela intersecção das médias de todas as variáveis). No espaço multidimensional, as observações formam uma aglomeração em torno do centróide no espaço multivariado. Cada caso é representado na aglomeração como um ponto na sua própria combinação X,Y de um gráfico bivariado de dispersão. Um outlier multivariado posiciona-se fora da aglomeração, a uma determinada distância dos outros casos. Cada caso é avaliado utilizando a distribuição c², cuja probabilidade do teste sugerida é de 0,001 (HAIR JR et al., 2005; TABACHNICK; FIDELL, 2007). Ao nível de significância de 0,1 %, o valor da estatística c² (3429) é 65,25. Foram identificados 81 sujeitos (8,9 % do total) cujos D² de Mahalanobis eram iguais ou superiores a esse valor, caracterizando-os como casos extremos multivariados.

Em decorrência da proporção de observações extremas multivariadas no banco de dados, foi avaliada a extensão em que esse grupo diferencia-se do restante da amostra. Esse exame tem por fim auxiliar na decisão quanto à retenção ou à eliminação dos outliers multivariados. Hair Jr et al. (2005) afirmam que as observações atípicas não podem ser simplesmente taxadas de benéficas ou problemáticas sem que os tipos de informações que fornecem sejam investigados. Entretanto, como uma regra geral, Hair Jr et al. (2005) pontuam que os outliers podem ser benéficos às análises quando representam um segmento da população com características específicas relevantes para compreensão dos objetivos da pesquisa. Mas, quando essas características não representam a população e são contrários aos objetivos do estudo, é possível que os casos extremos distorçam os resultados estatísticos.

28 p < 0,001, teste bicaudal (TABACHNICK ; FIDELL, 2007). Hair Jr et al. (2005) sugerem entre 3 e 4 escores

padrão para amostras maiores do que 80.

29 Graus de liberdade. Cada variável do modelo representa um grau de liberdade (TABACHNICK; FIDELL,

Separou-se o banco de dados em dois grupos (outliers multivariados e os não

outliers multivariados) e compararam-se as diferenças das médias das variáveis por meio do

Teste T de Student. Em 31 das 34 variáveis, as médias do grupo dos não outliers foram estatisticamente diferentes e superiores (p<0,05) às médias dos outliers; as 31 variáveis eram intervalares (cinco pontos na escala). As diferenças entre não outliers e outliers variaram entre 0,31 e 1,30, a média dessas diferenças foi 0,62 e o desvio-padrão, 0,25.

Em duas variáveis as médias foram estatisticamente iguais (LA2 e Lealdade Comportamental) e na variável Rentabilidade a média dos outliers foi superior. Infere-se que os outliers multivariados, quando comparados aos não outliers, atribuem menores avaliações nos itens de natureza perceptiva (com exceção de LA2) e nos itens de intenções comportamentais, mas possuem um desempenho igual na Lealdade Comportamental e superior na Rentabilidade proporcionada ao Banco X. Portanto, por representarem um segmento típico e importante na população de clientes de um banco e pelo fato de seus valores situarem-se dentro dos intervalos esperados para as variáveis, optou-se por mantê-los na análise do modelo.