Modelos de regressão linear múltipla e espacial

4.9 Análise dos dados

4.9.4 Modelos de regressão linear múltipla e espacial

Para testar a hipótese segundo a qual as variações intraurbanas do processo de difusão espaço-temporal da infecção pelo HIV/aids entre crianças e gestantes do Recife estão correlacionadas às características socioeconômicas e de saúde, possivelmente coincidentes com áreas de maior vulnerabilidade, foram adotados os coeficientes de correlação linear de Pearson e modelos de regressão linear múltipla.

Desta forma, para investigação das possíveis correlações lineares entre as taxas de HIV em gestantes/crianças com as variáveis independentes do estudo efetuou-se análise bivariada por meio do cálculo do coeficiente de correlação linear de Pearson. Empregaram-se como unidade de análise espacial os bairros por meio do software SPSS versão 20.

O coeficiente de correlação de Pearson, também chamado de coeficiente de correlação linear, expressa, numericamente, tanto a força quanto o sentido da correlação, fornecendo um número que resume o grau de relacionamento entre duas variáveis. Seus valores vão de -1,00 (correlação negativa perfeita) a + 1,00 (correlação positiva perfeita), sendo o valor 0,00 a ausência de correlação. Neste trabalho foi utilizada a classificação de força de associação do coeficiente de correlação de Pearson, sugerida por Dancey e Reidy (2005), a qual determina que: r = 0,10 até 0,30 (fraco); r = 0,40 até 0,60 (moderado); r = 0,70 até 1 (forte).

Em seguida foram estimados modelos de regressão linear múltipla para verificar associação entre as taxas de detecção de HIV em gestantes e em crianças menores de 13 anos

(variáveis dependentes) com cada uma das variáveis independentes expressas pelos indicadores, descrevendo o comportamento de variação da primeira em razão da variação da segunda. Neste caso, as variáveis independentes são também chamadas de variáveis preditoras ou explicativas, porquanto são empregadas para explicar as variações da variável de interesse (dependente).

A análise múltipla é uma técnica estatística utilizada para analisar a relação entre uma única variável dependente e diversas variáveis independentes. O objetivo da análise de regressão linear múltipla é usar variáveis independentes para predizer uma variável dependente selecionada pelo pesquisador. A análise de regressão confere valores para cada variável independente. Assim, a ponderação de cada variável independente reflete a contribuição relativa de cada uma para a predição global e facilita a interpretação da influência de cada variável na predição (HAIR; ANDERSON; TATHAM; BLACK, 1998).

Tais preceitos podem ser visualizados por meio dos coeficientes (β) do modelo de regressão, os quais medem a quantidade de mudança esperada na variável dependente (taxas de HIV/aids) para cada unidade de mudança da variável independente (indicadores). O sinal deste coeficiente indica o sentido de relacionamento (correlação positiva ou negativa).

Para evitar multicolinearidade nos modelos de regressão excluíram-se os indicadores que apresentaram correlações de Pearson superiores a 0,8. Todas as demais variáveis foram então inseridas. A permanência da variável no modelo suporta-se em razão de justificativas teóricas e da significância estatística apresentada. O critério para seleção de variáveis foi o

stepwise e o modelo final foi obtido com todas as variáveis com p-valor de até 0,05.

Posteriormente, procedeu-se à análise dos resíduos da regressão para verificação do ajuste. Possíveis explicações para distribuição espacial heterogênea da aids podem recair na existência de fatores de risco com distribuição espacial similar à incidência da aids. Essas variáveis podem não ser conhecidas ou não ser mensuráveis e podem funcionar como fatores de confundimento (CRESSIE, 1991), sendo necessário contemplar essa dependência espacial por um modelo de regressão linear espacial (CLAYTON; BERNARDINELLI; MONTOMOLI, 1993).

Essa técnica de regressão permite identificar se as variáveis explicativas testadas mantêm-se associadas à variável resposta considerando-se a influência de variáveis desconhecidas na sua distribuição espacial.

Os efeitos espaciais são incluídos em modelos de regressão de várias maneiras. Nos modelos com efeitos espaciais globais, supõe-se ser possível capturar a estrutura de correlação espacial num único parâmetro, adicionado ao modelo de regressão tradicional. Neste caso,

têm-se duas alternativas para tratar a autocorrelação global de um modelo de regressão (CÂMARA et al., 2004):

• Modelo espacial autorregressivo misto (Spatial AutoRegressive - SAR), onde a autocorrelação espacial ignorada é atribuída à variável dependente Y.

• Modelo do erro espacial (Conditional AutoRegressive - CAR), onde o modelo considera que os efeitos espaciais são um ruído, ou perturbação, ou seja, fator que precisa ser removido. Neste caso, os efeitos da autocorrelação espacial são associados ao termo de erro.

Portanto, para incorporar a dependência espacial nos modelos de regressão linear padrão, deve-se introduzir um regressor adicional na forma de uma variável dependente defasada espacialmente, e assim se caracteriza o modelo de defasagem espacial; ou, se incorpora a dependência espacial na estrutura de erro, e aí então definindo o chamado modelo de erro espacial.

Neste prisma, e no intuito de verificar quantitativamente a associação espacial nos resíduos em ambos os modelos de regressão linear múltipla aplicou-se o teste do Índice de Moran. Caso se confirmasse autocorrelação espacial nos resíduos, se utilizaria o teste de multiplicadores de Lagrange visando identificar o melhor modelo de regressão, dentre os modelos com efeitos espaciais globais, ou seja, CAR e SAR, para avaliar o efeito espacial (CÂMARA et al., 2004). Entretanto, como não foi verificada significância estatística na autocorrelação dos resíduos das duas variáveis independentes em discussão, este não necessitou ser aplicado e estimou-se a adoção única do modelo de regressão linear múltipla, conforme já descrito.

Para validação deste modelo efetuou-se análise dos resíduos. Assim, com a finalidade de examinar a presença de heterocedasticidade, aplicou-se o teste de Breusch-Pagan e White (BREUSCH; PAGAN, 1979). Averiguou-se a normalidade dos resíduos pelo teste de Jarque- Bera, o qual se baseia nos resíduos do método dos mínimos quadrados. Para sua realização o teste necessita dos cálculos de assimetria e curtose (JARQUE; BERA, 1987; WUERTZ; KATZGRABER, 2009). No Quadro 1 resume-se a interpretação dos testes ora elencados, em relação a um nível de significância de 5%.

Quadro 1 - Interpretação dos testes do modelo de regressão. Teste Objetivo Hipótese Nula (H0)

Aceitação de H0 Resultado esperado Breusch-Pagan e White Testar a presença de heterocedasticidade Há homocedasticidade, ou seja, se o erro é uma variável aleatória com variância igual e constante

p-valor > 5% Aceitação de H0

Jarque-Bera Testar a normalidade dos resíduos da regressão linear Os resíduos são normalmente distribuídos Há normalidade p-valor > 5% Aceitação de H0 Teste de multiplicadores de Lagrange Testar a autocorrelação nos resíduos e indicar o melhor modelo de regressão para avaliar o efeito espacial

Há autocorrelação nos resíduos

p-valor < 5% Aceitação de H0

Fonte: Elaboração própria com base em Breusch e Pagan (1979), Jarque e Bera (1987), Wuertz e Katzgraber (2009), Câmara et al. (2004).

Cabe ressaltar: todos os modelos espaciais foram estimados pelo software estatístico R v2.15.3.

No documento Análise espacial da infecção pelo HIV em crianças e gestantes do município de Recife, Pernambuco (páginas 62-65)