Regressão Logística - MATERIAL E MÉTODOS - A carne é fraca

5 MATERIAL E MÉTODOS

5.3 Procedimentos

5.3.2 Regressão Logística

Com a regressão logística binária univariada foi possível procurar diferenciais em iniciação sexual a partir de variáveis sociodemográficas e de domicílio, educacionais, de estilo de vida e experiências individuais, de sexualidade e de participação religiosa. O teste também permitiu selecionar apenas variáveis significativas a 10%, que fizessem sentido por meio da análise da literatura, para serem utilizadas novamente na ocasião

dos modelos de regressão logística multivariada (Hosmer & Lemeshow, 2000) para

cada sexo, a fim de investigar como a variável “participação religiosa” se comportaria quando controlada por outras.

Descrição do método de Regressão Logística

Neste trabalho, a busca por um teste estatístico que trabalhasse com variáveis dependentes dicotômicas ou binárias (que possuam apenas duas categorias de resposta, sim e não) possibilitou a utilização do modelo de regressão logística, mais apropriado para verificar associações entre a variável dependente desta pesquisa (ter tido ou não relação sexual) e outras variáveis independentes pré-selecionadas.

A regressão logística é amplamente utilizada nos estudos demográficos e sociológicos, e embora não seja o único que suporte variáveis dicotômicas, pois temos, por exemplo, o probito, é certamente o de mais fácil interpretação (Hosmer e Lemeshow, 2000), como veremos a seguir, haja vista que seu resultado modela a chance de um evento acontecer em função de outros fatores. No caso desta pesquisa, será possível observar se a participação religiosa tem algum efeito na chance de o adolescente ter se iniciado sexualmente. Assim, a regressão logística é uma modelagem estatística que objetiva, a partir de um conjunto de observações, descrever a relação entre uma variável dependente e uma ou uma série de variáveis independentes, predizendo a chance de um evento – variável dependente – acontecer (Hosmer & Lemeshow, 2000).

Segundo Hosmer e Lemeshow (2000), em qualquer modelagem estatística, o objetivo é estimar um valor médio de uma variável dependente, dado certo valor de uma variável independente. Os autores chamam esse valor médio de conditional mean, expresso por:

dado que:

é o valor da variável dependente e

é o valor da independente, ou seja, é o valor esperado de dado .

No entanto, em uma regressão linear, em que é definido a partir de e de parâmetros e , pode assumir qualquer valor entre − e + , já que é definido por:

Já para uma variável dicotômica, a probabilidade de que o evento aconteça varia

sempre entre 0 e 1 ( ≥0 i p e =1 i i p ).

“A mudança em por unidade em fica progressivamente menor à medida que

a média condicional fica perto de zero ou de 1” (Hosmer e Lemeshow, 2000, p. 5, tradução minha), ou seja, tem o formato de S, pois se satura em 0 e em 1.

Para diferenciar a regressão logística da regressão linear, a relação entre e será dada por:

em que:

é a probabilidade de ocorrência do evento;

e são os parâmetros desconhecidos a serem estimados pelo método da máxima verossimilhança; e

é a variável explicativa.

Reescreve-se a transformação logística por meio do logaritmo na base natural para

transformar em uma relação linear. Tem-se que:

Assim, sendo o valor de igual a zero ou a 1, podemos dizer qual é a probabilidade

que seja 1, dado o valor de , já que

Logo,

é a probabilidade de que , dado .

Assim como na regressão linear (Mínimos Quadrados Ordinários), um termo de erro ( deve ser adicionado ao final da equação. Na regressão linear, o erro representa, em termos numéricos, o quanto uma observação desvia do seu valor esperado. No caso da regressão linear, esse número ou conjunto de números (visto que cada observação terá um erro intrínseco) segue distribuição normal com média zero e variância constante.

No entanto, para uma variável dicotômica, o erro só poderá assumir dois valores, ) ( ] / [Y x Y X E Y π ε = − = − : Se , , com probabilidade = Se , , com probabilidade =

Uma vez calculados os parâmetros e e conhecidos os valores das variáveis

independentes para um indivíduo, podemos aplicar a fórmula anterior para calcular a chance (ou as odds ratio) de que um indivíduo, com determinada participação religiosa, tenha se iniciado sexualmente.

Assim como a regressão linear, a regressão logística também suporta que mais variáveis independentes sejam incluídas no modelo, a fim de que a variável de interesse seja controlada por outras variáveis independentes. Dessa forma, a modelagem se torna mais sofisticada e melhora a capacidade de predição de com base em e outras variáveis independentes. Essa modelagem é chamada de regressão logística multivariada.

Neste trabalho, antes de partir para o modelo multivariado, foi feita uma regressão logística univariada para cada variável independente, a fim de verificar a associação entre elas e a variável dependente. Uma vez que, no modelo univariado, o resultado da associação entre as variáveis fosse considerado significante (o valor de significância no modelo univariado foi 0,10), a variável era incluída no modelo multivariado para ser testada juntamente com outras, desde que a literatura sugerisse associação. Outras variáveis que não foram significantes, porém eram importantes de acordo com a literatura, também foram incluídas no modelo multivariado.

Todas as variáveis independentes incluídas na modelagem estatística multivariada são controladas entre si na ocasião do modelo.

No entanto, algumas variáveis independentes não são contínuas, mas discretas e categóricas, como raça. Nesse caso, os algarismos numéricos que representam suas categorias internas não são uma escala numérica, mas o que Hosmer e Lemeshow (2000) chamam de variáveis dummy, ou variáveis de design. As variáveis categóricas terão sempre k-1 categorias dummy, já que alguma categoria será a categoria de referência na regressão.

A razão de chances, ou odds ratio, é a medida na qual a associação entre as variáveis dependentes e independentes é calculada. Ela é, grosso modo, a exponenciação do Beta relacionado àquela variável ou categoria. As odds ratio ajustadas são obtidas através da comparação de indivíduos que diferem apenas na característica de interesse e que tenham os valores das outras variáveis constantes.

As odds ratio dos modelos multivariados foram analisadas para verificar se a inclusão de variáveis de controle no modelo trouxe mudanças significativas para a variável de interesse, participação religiosa, com relação à iniciação sexual. Nas análises desta dissertação foram considerados significativos, no modelo multivariado, os resultados dos coeficientes cujos valores de p foram inferiores ou iguais a 0,1.

Os valores p se localizam ao lado dos valores dos coeficientes, tanto no modelo univariado quanto no modelo multivariado, com base nos códigos: p<0.000 (****); p<0.01 (***); p<0.05 (**); e p<0.1 (*).

As transformações das variáveis, a limpeza da base dados e a análise dos dados foram feitas utilizando-se o software Statistical Package for the Social Science (SPSS), versão 15.0.

No documento A carne é fraca :: religião, religiosidade e iniciação sexual entre estudantes do Ensino Médio na Região Metropolitana de Belo Horizonte, 2008 (páginas 105-110)