• Nenhum resultado encontrado

Full-Information Maximum Likelihood (FIML)

III. Avaliação da fiabilidade individual das variáveis observadas

4.4. Metodologias de análise de dados omissos no contexto da Modelação de Equações Estruturais

4.4.3. Full-Information Maximum Likelihood (FIML)

O objetivo básico da estimação por Máxima Verosimilhança (MV) é identificar os valores dos parâmetros populacionais mais prováveis de terem produzido uma determinada amostra de dados. Na FIML o ajustamento dos dados a um determinado conjunto de valores de parâmetros é avaliado por um valor de log-verosimilhança que quantifica a probabilidade relativa de uma amostra particular, no pressuposto que os dados provêm de uma população normal multivariada. Calcula-se uma função de verosimilhança para cada caso, usando apenas as variáveis que são observadas para o caso 𝑖.

A função de log-verosimilhança para o caso 𝑖 é dada por:

𝑙𝑖(θ|𝑌) = 𝑘𝑖−

1

2𝑙𝑛|Σi| − 1

96

em que 𝑘𝑖 é uma constante (é um fator de escala que depende do número de dados não omissos para o caso 𝑖 e pode ser ignorado durante a estimação), 𝑦𝑖 é o vetor de valores

observados para o caso 𝑖, 𝜇𝑖 é o respetivo vetor de médias e Σ𝑖 é a respetiva matriz de covariâncias. É importante notar que a derivação desta equação depende explicitamente da hipótese de normalidade multivariada. Embora as estimativas de parâmetros tendam a ser precisas quando os dados não são normais, os erros padrão serão muito baixos, resultando em taxas de erro de Tipo I elevadas (Enders, 2010).

O aspeto importante da equação (53) reside no facto de o vetor de dados observados não precisar ser completo - o tamanho e o conteúdo das matrizes de parâmetros (𝜇𝑖 e Σi) são ajustados, de modo que 𝑙𝑖(θ|𝑌) é calculada usando apenas as variáveis e os parâmetros para os quais o caso tem dados completos. As linhas e colunas correspondentes a dados omissos são removidos e o ajustamento dos dados brutos aos parâmetros é baseado apenas nos dados observados.

Adicionando as log-verosimilhança para todos os N elementos da amostra, obtém-se um valor de log-verosimilhança que quantifica a probabilidade relativa de os dados serem provenientes de uma população normalmente distribuída com um vetor de médias 𝜇 e matriz de covariância Σ, particulares.

𝑙(θ|𝑌) = ∑ 𝑙𝑖(θ|𝑌)

𝑁 𝑖=1

(54)

Em cada iteração do processo de estimação, os valores de 𝜇 e Σ são ajustados na tentativa de identificar o conjunto de valores com a maior log-verosimilhança (ou seja, maior probabilidade de produzir os dados da amostra) (Peugh & Enders, 2004).

Não é óbvio, mas a inclusão de casos com dados parciais contribui para a estimação de todos os parâmetros. De facto, embora os valores em falta não sejam imputados durante o processo de estimação, os dados parciais implicam valores prováveis para os dados omissos através das correlações entre as variáveis. O algoritmo FIML não imputa valores omissos, mas o “empréstimo” de informações da parte observada dos dados é conceitualmente análogo à substituição de pontos Y de dados ausentes pela expectativa condicional de Y, dado X (Enders & Bandalos, 2001).

97

A abordagem FIML, também referida como a Máxima Verosimilhança dos dados brutos, usa os dados brutos, caso a caso, e maximiza a função de Máxima Verosimilhança, caso a caso, usando toda a informação disponível para cada caso. A combinação das estimativas de todos os casos produz uma estimativa geral da função de MV. Os softwares que usam esta metodologia proporcionam excelentes estimativas de parâmetros (MV) para o modelo em estudo e também fornecem erros padrão razoáveis, num único passo (Grahm, 2012).

A estimação FIML é implementada recorrendo aos algoritmos convencionais de otimização para a estimação dos parâmetros. Uma das formas possíveis de implementação da FIML corresponde à utilização do algoritmo EM (Expectation- Maximization) para estimação dos parâmetros. O algoritmo EM usualmente é implementado em duas etapas para produzir estimativas MV da matriz de variâncias-covariâncias e do vetor de médias: a etapa E (Expectation) em que, em cada iteração, os dados omissos são substituídos por melhores valores preditos por modelos de regressão estimados com estatísticas suficientes (média, variâncias e covariâncias) estimadas ou assumidas na iteração anterior e a etapa M (Maximization), em que os parâmetros são re-estimados por Máxima Verosimilhança com os dados completos resultantes da imputação. O processo repete-se até que haja convergência. Para obter as estimativas de FIML usando o algoritmo EM, na etapa E, os valores omissos são substituídos por valores previstos, assumindo parâmetros conhecidos do modelo. Na etapa M, os parâmetros são re-estimados por ML assumindo dados completos.

O algoritmo EM também pode ser usado na FIML em duas etapas. Na primeira etapa obtém-se estimativas ML da média e das variâncias e covariâncias, com recurso ao algoritmo EM. Na segunda etapa, essas estimativas são usadas para obter estimativas dos pesos fatoriais, das variações de erro e assim por diante. Neste caso pode-se obter erros padrão demasiado pequenos (Hirose, 2013; Graham & Coffman, 2012).

Quando o algoritmo EM é usado com a FIML numa única etapa, as estimativas obtidas são os pesos fatoriais, variâncias de erro e assim por diante. Não envolve a obtenção de uma estimativa ML de médias, variâncias e covariâncias via EM e a entrada dessas estatísticas num programa de software SEM para estimar os parâmetros do modelo via ML, nem envolve a realização de Imputação Múltipla seguida pela adaptação do SEM a cada

98

um dos conjuntos de dados completos e pela combinação dos resultados (Graham & Coffman, 2012).

A metodologia FIML produz erros padrão e teste qui-quadrado (likelihood ratio) corretos quando os dados são MAR e com distribuição normal multivariada. As estimativas de erro padrão para FIML com o algoritmo EM situam-se entre as estimativas otimistas e pessimistas produzidas pelo método EM em duas etapas (Allison, 2003).

Dadas as vantagens, a metodologia FIML parece ser o melhor método para lidar com dados omissos, para a maioria das aplicações SEM. No entanto, não é de descurar a exigência dos pressupostos sobre os dados omissos – devem ser MAR e os dados devem ter distribuição normal multivariada. Para além de ser difícil que os dados empíricos sejam normalmente distribuídos e dificilmente se possa garantir que sejam MAR, acresce a grande dificuldade em testar este último pressuposto. Os erros padrão não são produzidos como subproduto da estimativa de parâmetros quando se utiliza a FIML com o algoritmo EM, o que resulta na única desvantagem da metodologia FIML implementada com este algoritmo de otimização. A forma mais comum para estimar erros padrão com estimativas EM é usar procedimentos de bootstrap. Uma vantagem muito importante da utilização do algoritmo EM com bootstrapping é que esta é uma boa abordagem quando os dados não são normalmente distribuídos (Graham, 2012).