• Nenhum resultado encontrado

III. Avaliação da fiabilidade individual das variáveis observadas

4.3. Diagnóstico

Diagnosticar o mecanismo gerador de dados omissos ajuda o investigador a entender a natureza dos dados omissos e o seu potencial impacto nos resultados dos estudos e nas interpretações destes.

Na maioria das situações de dados omissos, não se consegue obter os dados perdidos. Uma primeira abordagem será a de examinar padrões nos dados para ter uma ideia de qual será o mecanismo mais provável. Traçar padrões de dados omissos pode revelar padrões inesperados que não foram detetados durante as etapas de recolha de dados. No entanto, padrões de dados omissos, sozinhos, não informam sobre quais são os mecanismos que estão subjacentes a essa omissão.

Em princípio, é possível verificar se um conjunto de dados é MCAR, uma vez que é o único mecanismo de dados omissos que produz proposições testáveis.

Testar se uma coleção inteira de variáveis é consistente com MCAR, por um lado, pode ser demasiado fastidioso pois poderá exigir um elevado número de testes e, por outro, provavelmente não é útil. De facto, é altamente improvável que todas as variáveis com dados omissos de um conjunto de dados sejam MCAR e algumas terão dados omissos de forma sistemática. Acresce o facto de que encontrar evidências da consistência, ou não, dos dados MCAR não altera a recomendação para usar a máxima verosimilhança ou a imputação múltipla nas análises, por exigirem apenas o pressuposto MAR que é menos rigoroso que MCAR. No entanto, identificar variáveis individuais que não são MCAR é potencialmente útil porque pode haver uma relação entre essas variáveis e a probabilidade de omissão (Enders, 2010). A incorporação de causas de omissão no tratamento de dados omissos é recomendada, pois pode mitigar o viés e melhorar a possibilidade de os dados satisfazerem a suposição de MAR (Schafer & Graham, 2002).

MCAR exige que os dados observados constituam uma amostra aleatória simples do conjunto de dados hipoteticamente completo, o que implica que os casos com dados omissos pertençam à mesma população e, portanto, compartilham o mesmo vetor de médias e a mesma matriz de covariância dos casos com dados completos - homogeneidade de médias e covariâncias. Separar os casos completos e os casos com dados omissos numa variável e aplicar testes para avaliar a igualdade de médias e/ou de variâncias entre grupos

90

definidos pelos valores observados de outra variável permite recolher evidências de que os dados são MCAR, ou não, relativamente a essa variável.

Foram propostos diversos métodos para testar se os dados omissos são MCAR (Little, 1988; Chen & Little, 1999; Kim & Bentler, 2002; Enders, 2010; Jamshidian & Jalal, 2014; Li, 2013).

A título de exemplo, considere-se testes 𝑡, independentes, aplicados a grupos de dados omissos (ou observados) com padrões comuns, para cada variável com dados omissos ou entre o grupo com dados completos e aquele com dados omissos. A aplicação destes testes permite avaliar se a omissão em cada variável está relacionada com os valores observados de outras variáveis. Se todos os 𝑡-testes forem não significativos, então pode-se assumir que os dados omissos nesse conjunto de dados são MCAR; se não, são MAR ou MNAR nas variáveis com testes significativos. No entanto, à medida que o tamanho da matriz de dados cresce, a avaliação de múltiplos testes 𝑡 torna-se fastidiosa e, no que respeita ao desempenho, podem resultar erros de Tipo I. Para além do grande número de estatísticas 𝑡, estes testes não têm em consideração as correlações entre as variáveis, sendo possível que um indicador de dados omissos produza diferenças de médias em várias variáveis, mesmo que exista apenas uma única causa para os dados omissos. Seguindo a mesma lógica pode ser testada a igualdade de variâncias e covariâncias entre o grupo de dados completos e o grupo com dados omissão, em relação a cada uma das variáveis (teste de Levene, teste de Bartlet ou teste F).

Também se pode recorrer ao teste de Little (1988), extensão multivariada da abordagem de teste 𝑡, baseado num quociente de verosimilhança. Este teste é destinado a avaliar simultaneamente diferenças de médias entre vários subgrupos de casos que compartilham o mesmo padrão de dados omissos (Enders, 2010). A rejeição da hipótese de igualdade de médias entre os grupos indica que os dados não são MCAR. Kim e Bentler (2002) apresentam dois testes propostos por Little para testar homogeneidade das matrizes de covariâncias.

O teste de Little para a igualdade de médias tem alguns problemas que importa considerar. O teste não identifica as variáveis específicas que violam o MCAR e pressupõe que os padrões de dados omissos compartilham uma matriz de covariância comum. Estudos de simulação sugerem que o teste de Little é pouco potente especialmente quando

91

o número de variáveis que violam MCAR é pequeno, a relação entre os dados omissos é fraca ou os dados são MNAR (Enders, 2010).

As comparações de médias não fornecem um teste conclusivo da coerência com MCAR porque os mecanismos MAR e MNAR podem produzir subgrupos de dados omissos com as mesmas médias.

Kim e Bentler (2002) propuseram um teste semelhante ao de Little mas baseado no raciocínio dos Mínimos Quadrados. Este teste tem menos pressupostos que o de Little, não exigindo que o número de observações seja, no mínimo, igual o número de variáveis, nem a normalidade dos dados.

Jamshidian e Jalal (2010) propuseram um teste à homocedasticidade para dados que respeitam o pressuposto da normalidade e um teste não paramétrico para dados que não respeitam este pressuposto, baseados em métodos adequados para dados completos e na imputação de dados.

O software R dispõe de pacotes que disponibilizam o teste de Little: BaylorEdPsych (Beaujean e Beaujean, 2018) e o pacote MissMech (Jamshidian, Jalal & Jansen, 2014). Este último pacote dispõe de uma função para testar a homocedasticidade, a normalidade multivariada e MCAR de dados omissos, seguindo a metodologia proposta por Jamshidian e Jalal (2010).

Se o mecanismo não for MCAR, é necessário saber se o mecanismo que criou os dados omissos é relacionado com as informações conhecidas, mas não existe nenhum método formal para esse efeito. Assim, se os dados não são MCAR não há testes estatísticos que permitam distinguir dados MAR ou MNAR, uma vez que o que distingue a distribuição de probabilidades dos dados MAR e MNAR são os dados omissos e não se tem como saber os valores que tomariam. Também não há técnicas visuais que auxiliem nesta distinção. Uma das fontes de distinção pode ser o conhecimento teórico que se tem do problema.

Porém, segundo Schafer (1997), existem algumas situações, nomeadamente quando as omissões são planeadas, em que o pressuposto de que o mecanismo é ignorável

(

a(s) causa(s) da omissão é (são) incorporada(s) na análise

)

é bastante plausível e as simplificações analíticas que resultam dessa hipótese são altamente benéficas.

92

Assim, se:

 Algumas informações são recolhidas de todos os objetos da base de dados, e outras informações adicionais são recolhidas apenas de um subgrupo da amostra original, sendo que esse subgrupo é selecionado devido a alguma informação recolhida na amostra toda;

 Os investigadores podem substituir os objetos incompletos por outros completos, com as mesmas características;

 Em testes controlados aleatoriamente, em que o número de objetos, nas diferentes intervenções, é não equilibrado devido a causas inesperadas e não devido a um processo sistemático;

 As informações são recolhidas de uma amostra e, posteriormente, informações adicionais são recolhidas de um subgrupo selecionado aleatoriamente, ou selecionado baseado nas informações recolhidas previamente;

 o estudo é longitudinal e mede-se uma subamostra em cada ponto de tempo.

o mecanismo pode ser considerado pelo menos MAR. Caso contrário, deve ser considerado MNAR.

Depois de avaliados os dados, para assumir qual o mecanismo que levou à existência de dados omissos, passa-se à seleção da metodologia de análise SEM com dados omissos.

4.4. Metodologias de análise de dados omissos no contexto da Modelação de