• Nenhum resultado encontrado

Modelo matemático e pressupostos (especificação)

Tendo sido concebido o modelo teórico, é necessário proceder à sua especificação. A especificação do modelo consiste no desenho formal do mesmo que, a priori, reflete as hipóteses sobre o modelo de medida. Nesta fase, no contexto tradicional da SEM, deve ser tido em consideração que os fatores comuns latentes causam as variáveis observadas e que o comportamento destas resulta da manifestação dos fatores latentes; que a variância das variáveis observadas que não é explicada pelos fatores comuns latentes é explicada por fatores específicos latentes, nomeadamente os erros de medida ou resíduos; que os erros de medida são geralmente independentes embora possam estar correlacionados indicando uma fonte de variação comum dos itens, não explicada pelos fatores comuns presentes no modelo (Marôco, 2014). É nesta fase que se decide que variáveis observadas operacionalizam que constructos, quantas e quais variáveis observadas são incluídas/excluídas no modelo, que associações não causais devem ser omitas/incluídas e que erros devem ser correlacionados (Marôco, 2014).

O modelo de equações estruturais é o resultado da combinação de dois submodelos, o modelo de medida e o modelo estrutural, como referido anteriormente.

Quando a estrutura de covariância é analisada, o modelo geral de equações estruturais pode ser expresso por três equações básicas, escritas na forma matricial (Wang & Wang, 2012), na notação LISREL, por:

53 Modelo estrutural descrevendo as relações entre as variáveis latentes 𝜼 (endógenas) e 𝝃 (exógenas)

𝜂 = Β𝜂 + Γ𝜉 + 𝜁 (2)

Modelo de medida descrevendo as variáveis de medida 𝒀 para as variáveis latentes endógenas 𝜼:

𝑌 = Λ𝑦𝜂 + 𝜀 (3)

Modelo de medida descrevendo as variáveis de medida 𝑿 para as variáveis latentes exógenas 𝝃:

𝑋 = Λ𝑥𝜉 + 𝛿 (4)

onde

1) as matrizes de variáveis são:

𝜂 é a matriz de 𝑚 variáveis latentes endógenas de ordem 𝑚 × 1 𝜉 é a matriz de 𝑛 variáveis latentes exógenas de ordem 𝑛 × 1 𝜁 é a matriz de erros estruturais de ordem 𝑚 × 1

𝑌 é a matriz de 𝑝 variáveis observadas endógenas de ordem 𝑝 × 1 𝑋 é a matriz de 𝑝 variáveis observadas exógenas de ordem 𝑞 × 1 𝜀 é a matriz de erros de medida de 𝑌 de ordem 𝑝 × 1

𝛿 é a matriz de erros de medida de 𝑋 de ordem 𝑞 × 1 2) as matrizes de coeficientes são:

Λ𝑦 é a matriz de pesos fatoriais de 𝜂 em 𝑌 de ordem 𝑝 × 𝑚 Λ𝑥 é a matriz de pesos fatoriais de 𝜉 em 𝑋 de ordem 𝑞 × 𝑛

Β matriz de coeficientes relacionando 𝜂 com 𝜂, de ordem 𝑚 × 𝑚 Γ matriz de coeficientes relacionando 𝜉 com 𝜂 de ordem 𝑚 × 𝑛 Entretanto, é usual designar as matrizes de variâncias/covariâncias por:

Φ é a matriz de variâncias/covariâncias de 𝜉 de ordem 𝑛 × 𝑛 Ψ é a matriz de variâncias/covariâncias de 𝜁 de ordem 𝑚 × 𝑚 Θ𝜀 é a matriz de variâncias/covariâncias de 𝜀 de ordem 𝑝 × 𝑝 Θ𝛿 é a matriz de variâncias/covariâncias de 𝛿 de ordem 𝑞 × 𝑞

54

Assume-se que os termos residuais podem estar correlacionados entre si (𝐶𝑜𝑣(𝜀𝑖, 𝜀𝑗) e

𝐶𝑜𝑣(𝛿𝑖, 𝛿𝑗) podem ser não nulos para algum par (𝑖, 𝑗), 𝑖 ≠ 𝑗) mas não podem estar correlacionados entre submodelos (𝐶𝑜𝑣(𝜀𝑖, 𝛿) = 0, ∀𝑖 (Kline 2011, Marôco 2014) e são

normalmente distribuídos:

𝜀~𝑁𝑝(0, Θ𝜀), 𝛿~𝑁𝑞(0, Θ𝛿) e 𝜁~𝑁(0, Ψ) (5)

Além disso, uma variável dependente não é causa e efeito dela mesma, pelo que: ε e η são independentes (𝐶𝑜𝑣(𝜀, 𝜂) = 0)

δ e ξ são independentes (𝐶𝑜𝑣(𝛿, 𝜉) = 0); ζ e ξ são independentes (𝐶𝑜𝑣(𝜁, 𝜉) = 0); ε, δ e ζ são mutuamente independentes

(𝐶𝑜𝑣(𝜀,δ) = 0, 𝐶𝑜𝑣(𝜀,ζ) = 0), 𝐶𝑜𝑣(ζ, 𝛿) = 0).

Assume-se que as observações constituem amostras independentes. Sob estes pressupostos as variáveis observadas X e Y têm distribuição normal multivariada:

(X

Y)~ N(0, Σ),

(6)

sendo Σ a matriz de covariância populacional dos indicadores.

A imposição destes pressupostos leva à seguinte expressão para a estrutura de covariância reproduzida (Σ) entre 𝑌 e 𝑋:

Σ = (𝑌𝑋)(𝑌𝑋)𝑇 = [𝑌𝑌𝑇 𝑌𝑋𝑇 𝑋𝑌𝑇 𝑋𝑋𝑇] = [Λ𝑦(𝐼 − Β) −1(ΓΦΓ + Ψ)(𝐼 − Β)−1Λ 𝑦 𝑇 + Θ 𝜀 Λ𝑦(𝐼 − Β)−1ΓΦΛ𝑇𝑥 Λ𝑥ΦΓT(𝐼 − Β𝑇)−1Λ𝑇𝑦 Λ𝑥ΦΛ𝑇𝑋+ Θ𝛿 ] (7)

Pode-se observar que Σ é função de oito matrizes de parâmetros a estimar, a saber: Λy, Λx, Β, Γ, Φ, Ψ, Θε, e Θ𝛿.

A estimação dos parâmetros baseia-se na seleção dos valores dos parâmetros estruturais que reproduzem a matriz de covariância, uma vez que a questão empírica do SEM é a de

55

avaliar se o modelo proposto produz uma matriz de covariâncias que é consistente com a matriz covariâncias amostral.

Pode-se concluir ainda que os elementos da diagonal principal de Β são nulos, que um elemento nulo nesta matriz representa a ausência de efeito de uma variável latente endógena noutra variável latente endógena. Além disso, a matriz I − Β tem que ser não singular para que exista (I − Β)−1 e possa ser feita a estimação do modelo.

Além dos pressupostos sobre os erros e sobre Β há outros pressupostos a ter em consideração. Refira-se que a suposição que o modelo definido pelo investigador está basicamente correto, antes que qualquer interpretação sobre causalidade possa ser feita, é o pressuposto mais abrangente de todos os que estão subjacentes à análise SEM (Kline, 2011). Este pressuposto implica que a relação entre as variáveis observadas e os seus constructos e entre um constructo e outro é linear e que deve haver uma relação de causa e efeito entre variáveis endógenas e exógenas (covariância não nula), e uma causa deve ocorrer antes do evento. Este pressuposto é relevante no modelo de medida. Entretanto, são assumidos mais alguns pressupostos que evitam que os resultados obtidos sejam comprometidos, podendo levar a conclusões incorretas (Kline, 2011, Hair et al., 2010), a saber:

a) A distribuição conjunta das variáveis endógenas deve ser normal multivariada para que possam ser usados os métodos mais comuns de estimação da SEM. Para garantir este pressuposto é necessário garantir que as distribuições univariadas são normais, que a distribuição conjunta de qualquer par de variáveis tem normalidade bivariada e que todos os gráficos bivariados são lineares e a distribuição dos resíduos é homocedástica, da mesma forma que deve ser evitada uma forte assimetria nos dados (Hair et al., 2010; Kline, 2011).

Existem testes estatísticos destinados a detetar a violação da normalidade multivariada, incluindo o teste de Mardia (Mardia, 1985), baseado em testes de assimetria e curtose e o teste de Cox-Small (Cox e Small, 1978), entre outros. Como a SEM deve ser aplicada a grandes amostras, e desvios leves da normalidade podem ser estatisticamente significativos em grandes amostras, os resultados destes testes ficam comprometidos caso não se verifique este pressuposto. Uma vez que a não normalidade multivariada é, em muitas situações, detetada através da análise à normalidade univariada, este pressuposto pode ser avaliado através dos índices de assimetria e de curtose, sendo casos extremos de desvio da

56

normalidade índices de assimetria acima de 3 e de curtose acima de 10. Os métodos gráficos, como o QQ-Plot, boxplots ou histogramas, são alternativas, bem como a análise de resíduos.

Uma forma de lidar com a normalidade univariada – e, portanto, abordar a normalidade multivariada – consiste na implementação de transformações nos dados através de uma operação matemática, o que significa que os scores originais são convertidos em novos

scores que terão distribuições mais próximas da normal. Também se pode recorrer a

métodos de reamostragem, em particular por métodos bootstrap disponíveis.

b) A multicolinearidade extrema pode ocorrer se variáveis observadas, aparentemente separadas, realmente medirem a mesma coisa. Variáveis com um elevado grau de colinearidade não devem ser incluídas na mesma análise. Neste caso a matriz 𝐼 − Β pode não ser invertível por não ser definida positiva.

Para fazer o diagnóstico da multicolinearidade extrema, podem ser usados diversos métodos. Por exemplo, calcular o coeficiente de determinação (𝑅2) entre cada variável e

todas as restantes variáveis observadas. Se para uma variável tomada como dependente, este valor for maior que 0.9, então suspeita-se da existência de extrema multicolinearidade. Um critério equivalente é a determinação da Tolerance (1 − 𝑅2) que se for inferior a 0.1

sugere a existência de extrema multicolinearidade. Se a estatística VIF (1−𝑅1 2) for maior que 10, a variável é redundante.

c) A existência de outliers é um outro problema que pode comprometer os resultados pois estes podem afetar as covariâncias entre as variáveis e isto pode repercutir-se nas médias, desvios-padrão e covariâncias, comprometendo a qualidade de ajustamento do modelo (Schumacker e Lomax, 2004). A existência de um outlier multivariado pode ser detetada se os valores de duas ou mais variáveis numa observação multivariada tiverem um 𝑧 score superior a 3, ou se apresentar um padrão de scores atípico. Caso não haja scores individuais extremos, a sua deteção faz-se através do quadrado da Distância de Mahalanobis (D2), que mede a distância de uma observação 𝑥

𝑖 à média de todas as

observações de todas as variáveis (𝑥), que se designa por centróide. 𝐷2 = (𝑥

𝑖− 𝑥)𝑇S−1(𝑥𝑖 − 𝑥) (8)

57

Com amostras de grande dimensão, D2 tem distribuição χ2 e portanto é possível testar se um determinado dado provêm da mesma população dos restantes dados. No caso de se detetar um valor atípico pode, por exemplo, optar-se pela sua exclusão ou pela sua substituição por estatísticas robustas, nomeadamente pelo valor mais próximo que não é considerado outlier.

d) A existência de dados omissos também é um problema. A análise SEM deve ser feita com dados completos. Este tópico será abordado com maior profundidade no próximo capítulo.

Refiram-se outros pressupostos não tão relevantes mas que devem ser tidos em consideração. Cada variável latente deve ter 3 ou mais variáveis observadas e deve haver correlações medianas a fortes entre as variáveis observadas que operacionalizam o mesmo constructo (Hair et al., 2010; Marôco, 2014). Kline (2011) considera que se o modelo tiver duas ou mais variáveis latentes, este fica identificado se tiver pelo menos 2 indicadores por variável latente e cada variável latente estiver correlacionada com pelo menos uma outra variável latente. Na construção de alguns modelos teóricos há a omissão de variáveis preditoras fundamentais, conduzindo ao designado erro de especificação, erro este que compromete a avaliação da importância de outras variáveis. Porém o desejo de incluir todas as variáveis deve ser equilibrado com as limitações práticas da SEM. Mesmo não existindo um limite teórico para o número de variáveis a incluir no modelo, deve-se preservar a parcimónia e reconhecer os seus benefícios e os de modelos teoricamente concisos (Hair et al., 2010).

A SEM é mais sensível ao tamanho da amostra do que outras abordagens multivariadas (Hair et al., 2010). A maioria dos investigadores prefere um tamanho de amostra que corresponda a 10 a 20 casos por variável, devendo variar entre 100 e 500 dados, no mínimo, de acordo com os procedimentos de análise e características do modelo seguintes: (1) normalidade multivariada dos dados, (2) técnica de estimação, (3) complexidade do modelo, (4) quantidade de dados omissos e (5) erro médio variação entre os indicadores reflexivos (Hair et al.,2010).

58