Diagnóstico da Aleatoriedade dos Missings

5 TRATAMENTO DOS DADOS

5.1 Diagnóstico da Aleatoriedade dos Missings

Hair Jr et al (2005a, p. 56) afirmam que “dados perdidos são uma realidade em análise multivariada”, pois raramente o pesquisador consegue evitar que certos problemas interfiram no processo de coleta de dados em pesquisa de campo. Entre as razões dos missings desta pesquisa, destacam-se:

• O entrevistado deixou de prover informações, quando foram abordados aspectos considerados particulares, como, por exemplo, nas questões relativas a hábitos de mídia e composição da família ou posse de bens;

• O entrevistado não conseguiu avaliar a situação apresentada em algumas questões, seja por meio de imagem, por associação ou mesmo por ter ouvido falar, uma vez que o caso específico representa para ele novidade absoluta.

Os efeitos dos missings sobre os resultados de uma pesquisa, sobretudo quando se trata de análise multivariada, são importantes não só por suas tendências ocultas, mas por seus impactos práticos no tamanho da amostra disponível para análise. Para minimizar seus efeitos negativos com ações corretivas pertinentes, é necessário entender as razões que levaram os entrevistados a omitirem respostas e avaliar o impacto nas análises de possíveis diferenças entre respondentes e não respondentes. Também é necessário identificar se os missings ocorreram aleatoriamente e a freqüência dessas ocorrências (HAIR JR et al, 2005a, p. 57).

Para fazer o diagnóstico da aleatoriedade dos missings, foram seguidas as etapas: • Cálculo da freqüência;

• Teste estatístico e

• Tratamento dos missings.

5.1.1 Cálculo da Freqüência

A identificação da freqüência de ocorrências de missings foi feita por variável e os resultados estão expostos na Tabela 12, a seguir:

Tabela 12 – Distribuição da Freqüência de Missings por Variável

Quantidade de Missings Nº de Variáveis Freqüência Porcentual (%) Freqüência Porcentual Acumulada (%)

Códigos das Variáveis

0 37 53,62 53,62 1 10 14,49 68,12 v14 v18 v24 v26 v30 v35 v52 v62 v72 v75 2 9 13,04 81,16 v28 v32 v43 v47 v50 v53 v54 v56 v61 3 7 10,14 91,30 v15 v19 v23 v36 v48 v49 v51 5 1 1,45 92,75 v39 6 1 1,45 94,20 v65 7 1 1,45 95,65 v44 16 1 1,45 97,10 v29 22 1 1,45 98,55 v55 33 1 1,45 100,00 v20 Totais 69 100,00

Os dados da Tabela 12 indicam elevado número de missings em três variáveis (v20, v55 e v29), tendo v20 e v29 procurado avaliar, respectivamente, o nível de concordância do entrevistado em relação ao interesse sincero do supermercado em solucionar problemas que surjam com os produtos de higiene pessoal e beleza adquiridos e se os repositores de produtos da seção de higiene pessoal e beleza do supermercado têm conhecimento suficiente para responder a perguntas sobre os produtos vendidos. A variável v55 procura identificar diferenças entre os supermercados no tocante às facilidades oferecidas pelo cartão do supermercado. Esperava-se encontar missings nessas variáveis, uma vez que o pré-teste detectou pessoas com dificuldade em avaliar tais quesitos, não pela complexidade da pergunta, mas por desconhecerem totalmente as situações. Essa dificuldade repetiu-se na pesquisa, embora menos fortemente, conforme aponta o número de não-respostas.

Outra abordagem consistiu em apurar o número de missings por caso (entrevistado), o que fornece uma posição do número de casos cujas informações foram comprometidas pela recusa nas respostas. A Tabela 13 apresenta os resultados obtidos, pelo que se constata que apenas 5,6% dos casos registraram 3 ou mais dados perdidos, tendo dois deles apontado um total de 11 faltas individuais:

Tabela 13– Distribuição da Freqüência de Missings por Casos

Quantidade de Missings Nº de Casos Freqüência Porcentual (%) Freqüência Porcentual Acumulada (%)

Códigos dos Casos

0 185 74,00 74,00 3 7 8 19 20 26 27 28 29 31 32 33 51 58 62 65 90 92 98 102 134 141 150 159 167 176 178 1 36 14,40 88,40 180 183 206 211 219 220 236 244 250 2 6 9 16 30 34 61 64 66 2 15 6,00 94,40 71 73 149 165 243 247 3 6 2,40 96,80 5 46 69 147 177 221 5 5 2,00 98,80 86 116 145 241 242 6 1 0,40 99,20 144 11 2 0,80 100,00 67 143 Totais 250 100,00

5.1.2 Teste Estatístico de Aleatoriedade

Após identificar a quantidade de missings, elaborou-se uma regressão linear múltipla tomando por variável dependente a idade dos entrevistados (v3) e por variáveis independentes as 69 variáveis vinculadas direta ou indiretamente ao Gerenciamento por Categoria, que são métricas. A Distância D² de Mahalanobis – um dos resultados gerados no processamento da regressão múltipla – foi utilizada para identificar os casos que apresentavam dados ausentes em uma ou mais das variáveis. Foram encontradas 185 distâncias. Logo, em 65 casos não foram apuradas as distâncias devido aos missings. Dessa forma, sem a eliminação dos missings, haverá perda substancial do número de casos válidos na grande maioria das análises multivariadas, conforme a combinação de variáveis utilizadas, o que pode implicar a redução do tamanho da amostra a 185 entrevistados.

A partir dessas distâncias, criaram-se dois grupos: um composto pelos entrevistados que responderam a todas as perguntas deste rol e outro pelos entrevistados que apresentaram uma ou mais não-resposta.

Como todas as variáveis deste bloco são métricas, foram realizados 32 testes t de Student, (Teste de diferença entre duas médias, supondo independência das amostras) para verificar a igualdade das médias dos dois grupos construído. As hipóteses básicas dos testes são:

• H0: Não há diferença do nível médio de satisfação (concordância, diferença ou importância) entre os consumidores dos dois grupo;

• H1: Há diferença do nível médio de satisfação (concordância, diferença ou importância) entre os consumidores dos dois grupos.

A conclusão dos testes de hipóteses levou à não-rejeição da hipótese básica (H0) em praticamente todas as 32 variáveis que registraram missings no nível de significância de 5% (exceções foram a v20 – na suposição de variâncias iguais e diferentes – e a v44, somente na suposição de variâncias diferentes). Todavia, se o nível de significância for diminuído para 1%, tornando o teste mais exigente, apenas a variável v20, com a suposição de variâncias diferentes, apresenta a hipótese inicial rejeitada. A não-rejeição de Ho em praticamente todos os testes leva a concluir que os dois grupos têm médias iguais e que, portanto, os missings observados podem ser considerados aleatórios.

5.1.3 Tratamento dos Missings

Uma vez confirmada a aleatoriedade dos dados perdidos, fez-se necessário encontrar uma forma de tratá-los. Os tratamentos ou ações corretivas possíveis, sugeridos por Hair Jr et al (2005a, p. 61-64), são os seguintes:

• Abordagem dos casos completos – situação na qual são incluídos na análise apenas os casos com dados completos, que é a situação-padrão de muitos dos programas de análise de dados (entre eles, o SPSS). Mas essa alternativa deve ser usada somente quando os dados perdidos são completamente ao acaso para evitar viés nos resultados. Essa opção também leva à redução do tamanho da amostra, o que pode comprometer as análises. Neste estudo, tal opção implicaria perder até 67 casos, i.e., 26% da amostra total, e certamente comprometeria os resultados;

• Desconsideração dos casos e/ou variáveis – situação na qual o pesquisador pode avaliar a possibilidade de eliminar os casos e/ou variáveis com problemas. Todavia, não existem orientações seguras sobre o nível de missing necessário para considerar essa possibilidade. Tal opção implicaria eliminar as variáveis v20, v29 e v55, todas com um grande número de missings;

• Método de atribuição – situação na qual os valores perdidos são estimados com base nos valores de outras variáveis e/ou casos da amostra. Também aqui cabe ao pesquisador avaliar o impacto dos valores estimados nos resultados. Em situações de

variáveis métricas, a estimativa dos valores perdidos pode ser feita por um dos seguintes métodos, todos com vantagens e desvantagens:

o Substituição pela média – método muito utilizado, quando um dado perdido é substituído pela média da variável. O raciocínio é que a média é o melhor valor único para a substituição. Desvantagens: torna inválidas as estimativas de variâncias derivadas das fórmulas de variâncias usuais, por subestimar a verdadeira variância dos dados; a real distribuição dos dados fica distorcida e comprime a correlação observada, pois todos os valores perdidos têm um único valor;

o Atribuição por carta marcada – quando os valores perdidos são substituídos por um valor constante obtido de fontes externas ou pesquisas anteriores. Tal substituição se assemelha ao método de substituição pela média e, portanto, apresenta as mesmas desvantagens;

o Atribuição por regressão – quando a análise de regressão é utilizada para prever os valores perdidos de uma variável com base nos valores válidos de outras variáveis do conjunto de dados. Suas desvantagens são: os dados resultantes se tornam mais característicos da amostra e menos generalizáveis; a variância da distribuição pode ser subestimada, a menos que termos estocásticos sejam acrescentados aos estimados; pressupõe que os dados perdidos tenham correlações substanciais com outras variáveis; é possível estimar dados fora do intervalo de dados válidos (notas negativas ou acima de 10). O método, entretanto, pode ser promissor nos casos de níveis moderados de dados perdidos nos quais as relações entre as variáveis sejam suficientemente estabelecidas, de modo que o pesquisador se sinta seguro de que o uso deste método não influencia a generalidade dos resultados;

o Atribuição Múltipla – representa uma combinação de diversos métodos de atribuição.

Optou-se por utilizar o método de atribuição por regressão múltipla, ou seja, estimar os valores perdidos por intermédio do uso de modelos de regressão linear múltipla. Para tanto, foram analisadas as correlações de cada variável que apresentasse missing com todas as outras do conjunto de v10 a v79 (exceto a v67) que não havia dados perdidos (37 variáveis). As variáveis com as maiores correlações com as 32 variáveis que registraram a presença de missings foram utilizadas como variáveis independentes. Adotou-se como linha de corte correlações superiores a 0,30. A lista das variáveis dependentes e independentes selecionadas segundo o critério mencionado é apresentada no Apêndice 6.

Foram elaborados 32 modelos de regressão linear múltipla com variáveis dependentes e independentes com as descritas no Apêndice 6 utilizou-se o método de seleção de variáveis para inclusão no modelo de regressão stepwise, que começa selecionando o melhor preditor da variável dependente e escolhe variáveis independentes adicionais que contribuam para melhorar o poder preditivo do modelo (HAIR JR et al, 2005a, p. 132), com intercepto igual a zero (admitindo que as avaliações dos entrevistados sempre partiram do zero). Os coeficientes

estimados apresentaram-se estatisticamente significantes no nível 5%, ou seja, foi possível rejeitar a hipótese de não-existência de regressão das variáveis explicadas sobre as variáveis explicativas em todos os casos. O Apêndice 7 apresenta os coeficientes das variáveis selecionadas que foram utilizados na estimação dos valores perdidos, bem como os respectivos coeficientes de explicação múltiplos.

Os valores obtidos foram incluídos na amostra de tal forma que todos os dados ausentes observados no conjunto de variáveis relacionadas direta ou indiretamente ao Gerenciamento por Categoria foram eliminados. Foram mantidos os missings decorrentes da negativa de resposta no que tange às variáveis socioeconômicas, registrados em apenas um dos casos.

No documento GERENCIAMENTO POR CATEGORIAS E SATISFAÇÃO DOS CONSUMIDORES DE ARTIGOS DE HIGIENE PESSOAL E BELEZA NA REGIÃO DO ABC (páginas 139-144)