• Nenhum resultado encontrado

2. Modelos multinível

2.5. A centragem das variáveis explicativas

Ainda que a questão da centragem dos dados não seja específica dos modelos multinível, quando aplicada a este caso ganha uma outra complexidade, uma vez que o seu efeito depende da relação entre os dados e do objectivo do estudo (Kreft e De Leeuw, 1998). Por centragem entende-se retirar o mesmo valor a cada variável explicativa. No caso da regressão “clássica”, esse valor será a média da variável; na presença de dois níveis, esse valor poderá ser ou a média global da variável ou a média da variável no grupo (no sector de actividade, no presente caso).

24

Na regressão “clássica”, a centragem não altera as relações nos dados, uma vez que simples transformações aditivas nos dados não afectam a sua variância nem covarâncias nem correlações com outras variáveis (Aiken e West, 1991). Se as variáveis explicativas forem centradas, o valor do termo independente corresponde ao valor esperado da variável dependente quando todas a variáveis explicativas assumem o seu valor médio; se não forem centradas, corresponde ao caso em que as variáveis explicativas assumem o valor zero. Dito de outra forma, o termo independente corresponde a um parâmetro “livre” que permite garantir a invariância do modelo a alterações na origem das variáveis explicativas. Refira-se que a centragem pode ser um auxiliar importante para o problema da multicolinearidade das variáveis explicativas.

No caso dos modelos multinível, o efeito de centrar as variáveis explicativas considerando a sua média global é mais fácil de perceber do que o efeito de centrar as variáveis considerando a sua média no grupo.

No primeiro caso, o modelo considerando as variáveis originais é estatisticamente equivalente ao modelo com as variáveis centradas, uma vez que se está a subtrair um valor constante a cada variável. Contudo, é de referir que a equivalência estatística entre modelos não significa que as estimativas dos parâmetros sejam idênticas, mas sim que o ajustamento e as previsões o são (e as estimativas dos parâmetros podem ser facilmente transformadas umas nas outras) (Kreft e De Leeuw, 1998).

No segundo caso, é muito provável que as médias sejam diferentes entre grupos e a equivalência entre modelos (centrado e não centrado) não se verifica, situação que, de acordo com Kreft e De Leeuw (1998), tem apenas duas excepções. Uma delas corresponde à situação em que a média nos grupos coincide com a média global, o que acontece em casos de análise de medidas repetidas, mas é uma situação rara quando se procura investigar diferenças entre grupos, como é o caso. A outra excepção corresponde à situação em que se considera apenas um termo independente aleatório e coeficientes fixos associados às variáveis explicativas e em que as médias dos grupos são introduzidas como variáveis explicativas de segundo nível. Neste caso, isso equivale a estimar um modelo com as variáveis explicativas não centradas apenas com um termo independente aleatório, mas sem a média do grupo como variável de segundo nível.

25

A centragem pode ser interessante em termos técnicos, porque remove correlações elevadas entre o termo independente e os coeficientes aleatórios, assim como correlações entre variáveis de primeiro e segundo níveis e entre interacções de níveis. Porém, centrar um modelo pode corresponder a ajustar um modelo diferente do original e a opção de centrar as variáveis não deve assentar somente nestes aspectos técnicos.

A não consideração de variáveis centradas é mais adequada quando existe interesse num modelo que explique o máximo da variação da variável dependente, sem nenhum interesse particular em variáveis de segundo nível, ou caso se esteja mais interessado nos resultados ao nível individual (Kreft e De Leeuw, 1998).

A centragem das variáveis explicativas considerando a média das variáveis no grupo implica uma modelação menos eficaz do que utilizando as variáveis originais, simplesmente porque toda a informação sobre diferenças entre grupos é removida dessa variável. Assim, parece razoável voltar a considerar essa informação introduzindo a média no grupo como uma variável explicativa de segundo nível, mas este procedimento introduz informação adicional sobre a estrutura dos grupos que não está presente quando se consideram as variáveis não centradas, pelo que se obtém assim um modelo mais ajustado do que o obtido não centrando as variáveis. Porém, o procedimento de centragem utilizando a média do grupo aparenta ser uma forma implícita e complicada de alterar o significado dos efeitos individuais e o nível do grupo, incluindo a interpretação das interacções entre níveis (Hox, 2002).

Perante a complexidade das questões em torno da centragem das variáveis explicativas, as opções a tomar serão as seguintes:

- na regressão logística, a centragem considerando a média no grupo será utilizada como auxiliar do tratamento da multicolinearidade, verificando-se se as diferenças em relação ao modelo sem consideração das variáveis centradas residem na estimativa do termo independente e dos coeficientes associados às categorias de sectores de actividade, considerada como variáveis dummy, que correspondem a “correcções” ao termo independente, e que terão consequências nas conclusões dos ensaios de hipóteses sobre a significância de alguns sectores de actividade;

- no modelo multinível, não se procederá a qualquer centragem de variáveis, e a justificação assenta no facto de o objectivo do presente estudo se prender com os resultados ao nível

26

individual, ou seja, com o incumprimento das empresas, sem que haja um interesse particular em variáveis de segundo nível. Apenas se pretende testar a existência de partilha de características não observadas entre empresas pertencentes ao mesmo sector de actividade.

27