Probabilidade de Óbito por Leptospirose
Humana em Belém - PA
Diana Costa Oliveira¹ Cássio Pinho dos Reis² Adrilayne dos Reis Araújo³ Silvia dos Santos de Almeida³ Edson Marcos Leal Soares Ramos³ 1. Introdução
A leptospirose é uma doença infecciosa febril, aguda, potencialmente grave, causada por uma bactéria, a Leptospira interrogans, sendo transmitido através da urina de animais infectados, principalmente os roedores. Segundo Ko et al. (2009), a Leptospirose trata-se de uma zoonose (doença que acomete os homens e os de animais) considerada de grande importância social e econômica, por apresentar elevada incidência em determinadas áreas, como também por sua letalidade. Sua ocorrência está relacionada às precárias condições de infraestrutura sanitária e alta infestação de roedores infectados. As inundações propiciam a disseminação e a persistência do agente causal no ambiente, facilitando a ocorrência de surtos.
2. Material e métodos
A regressão logística é considerada um dos principais métodos de modelagem de dados. Kutner et al. (2005) mostra que o objetivo da regressão logística é modelar uma variável resposta categorizavel em relação de uma ou mais variáveis preditoras a qual influenciam a sua ocorrência. Quando a variável resposta é disposta em categorias, ou mesmo em valores que podem ser categorizados, uma forma de modelar estas variáveis em termos de uma resposta é a utilização deste tipo de regressão, que por sua vez é classificada em binária (dois níveis de resposta), ordinal (segue uma ordem natural) e nominal (pode ter mais de três níveis sem uma ordenação natural).
O modelo logístico estima a probabilidade de determinada situação ocorrer ou não, com base em determinadas características. Para Santos (2007), a grande diferença entre um modelo de regressão linear simples e o modelo logístico é o fato de a variável resposta ser binária ou dicotômica. Desta forma, considerando o modelo de regressão linear simples (NETER et al., 2005) dado por
ε
β
β
+ +em que a variável resposta Yi ,i=1,K,n é binária, ou seja, assume os valores “0” ou “1” na
ausência ou presença da característica em estudo, respectivamente. Para o Modelo (1), a
resposta esperada é dada por E
( )
Yi =β
0 +β
1Xi. Dessa forma, considere Y uma variável ialeatória Bernoulli com distribuição de probabilidade dada por
i i i i i i Y Y Y
Y =1 ,seΡ( =1)=
π
e =0 ,se( =0)=1−π
. Como pela definição de esperança que( )
Yi iE =
π
. Logo, tem-se que E( )
Yi =β
0 +β
1Xi =π
i.Assim, a resposta média E
( )
Yi , quando a variável resposta Y é uma variável binária, iassumindo valores “0” e “1”, sempre representa a probabilidade de Yi =1, para o nível da
variável preditora X . Assim, considerando apenas uma variável independente i X , tem-se um i
modelo de regressão logística simples na sua forma usual é dado por
(
)
(
(
)
)
i i i i i X X X Y E 1 0 1 0 exp 1 exp /β
β
β
β
π
+ + + = = , (2)em que
β
0 eβ
1 são os coeficientes de regressão a serem estimados e X é a variável iindependente, onde i=1 K, ,n. No caso da regressão logística múltipla, o modelo é composto
não só por variáveis independentes, mas também por coeficientes de regressão β0,β1,K,βp.
Portanto, tem-se β'X =
β
0 +β
1Xi,1+K+β
pXi,p, i =1 K, ,n. Logo, o modelo (2) se estendepara o modelo logístico múltiplo a seguir
(
) ( )
( )
( )
X β X β X X Y ' ' exp 1 exp / + = i i i Eπ
. (3)Portanto, a variável dependente Y é dado por i Yi =E
(
Yi /Xi)
+εi, onde o termoε
i éo erro aleatório do modelo. E os valores dos parâmetros β0,β1,K,βp são estimados pelo
método da máxima verossimilhança.
De acordo com Agresti (2003), uma das principais estatísticas utilizadas na análise de dados binários é a razão de chances, que é definida como a razão entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo. Sendo chance a probabilidade de ocorrência de um evento dividida pela probabilidade da não ocorrência do
mesmo evento. A chance é definida como
(
)
(
)
( )
( )
i i i i i i P P X X X Y X Yπ
π
− = = = 1 / 0 / 1 , logo a razão de(
)
(
)
(
(
)
)
= − = = − = = 0 1 0 1 1 1 i i i i RC X X X Xπ
π
π
π
. (4) Para identificar as variáveis que não têm um bom ajuste na estimação dos parâmetros do modelo, existem alguns testes para selecionar essas variáveis, como o teste Stepwise. Este teste permite selecionar variáveis a partir de um conjunto inicial de variáveis explicativas. A escolha das variáveis se baseia num procedimento heurístico, mas não garante do ponto de vista prático, que o modelo é o melhor. No stepwise é necessário estabelecer qual a probabilidade de entrada e saída das variáveis no modelo, comumente se utiliza 0,20 como probabilidade de entrada e 0,05 como probabilidade de saídaPara decidir qual modelo de regressão logística será utilizado, é necessário aplicar alguns testes de validação para este modelo. É preciso verificar se há pontos influentes (outliers), se a função resposta é monotônica e em forma de S (sigmoidal), e se o modelo logístico ajustado é adequado. Neste trabalho, para validar o modelo, são utilizados os testes de Hosmer-Lemeshow, de Pearson e o de Deviance. Ribeiro et al. (2008) define que o teste de
Pearson mede o quanto a observação é prevista pelo modelo, o resíduo da deviance é uma
medida de como a observação é bem predita pelo modelo e o teste de Hosmer-Lemeshow avalia o modelo ajustado, comparando as freqüências observada com as esperadas.
Para avaliar o quão bem o modelo selecionado ajustou-se aos dados, quanto maior o nível descritivo (p) associado a ele, melhor o ajuste do modelo aos dados. Dessa maneira, como regra de decisão dos testes, tem-se o nível descritivo p , que é a probabilidade de ocorrer valores da estatística de teste mais extremos do que o observado, sob a hipótese nula
( )
H0 ser verdadeira (BUSSAB e MORETTIN, 2010). Quando p for maior ou igual ao nívelde significância α =0,05, a hipótese nula é rejeitada.
3. Resultados e discussões
A aplicação da regressão logística múltipla é feita para a obtenção do modelo estatístico, que melhor se ajuste a variável resposta probabilidade de óbito por leptospirose na cidade de Belém. As variáveis preditoras são os sintomas: Insuficiência Renal e Alterações Respiratórias aos quais estão associados a forma grave da doença e foram codificadas em fatores com dois níveis de classificação: Apresenta (1) ou Não Apresenta (0), ou seja, puderam assumir duas categorias de codificação.
O modelo estatístico obtido a partir da regressão logística binária para a probabilidade de óbito por leptospirose na cidade de Belém (Ŷ), é dada por
(5)
em que X1 é o sintoma Insuficiência Renal e X2 é o sintoma Alterações Respiratórias. Assim,
um valor numérico (estimativa) Ŷ, revela a probabilidade de ocorrência de leptospirose na cidade de Belém.
A Tabela 1 apresenta as estimativas dos parâmetros para o modelo da probabilidade de ocorrência de leptospirose humana na cidade de Belém (Ŷ) bem como, os erros padrões, os valores do nível descritivo (p) e as razões de chance.
Tabela 1 - Estimativas dos Coeficientes, Erros Padrões, Nível Descritivo (p) e Razão de
Chance, do Modelo para a Probabilidade de Ocorrência de Óbito por Leptospirose Humana, na Cidade de Belém, no Período de Janeiro de 2007 a Maio de 2011.
Preditores Coeficiente Erro
Padrão p Razão de Chance IC (95%) LI IC (95%) LS Constante -3,163 0,364 0,000 - - - Insuficiência Renal 1,551 0,406 0,000 4,72 2,13 10,46 Alterações Respiratórias 0,991 0,399 0,013 2,69 1,23 5,89
A Tabela 2 apresenta os testes qui-quadrado de bondade de ajuste para os métodos de
Pearson, Deviance e Hosmer Lemeshow que verificam a hipótese H0: o modelo estimado
apresenta bom ajuste aos casos de leptospirose versus H1: o modelo estimado não apresenta
bom ajuste aos casos de leptospirose. Nela, verifica-se que não existem evidências suficientes
para rejeitar a hipótese nula (H0), ao nível de 5% de significância, logo o modelo estimado em
(2) é apropriado para modelar os casos de leptospirose.
Tabela 2 - Testes de Bondade de Ajuste do Modelo Ajustado em (5) para os Casos de
Leptospirose Humana, na Cidade de Belém, no Período de Janeiro de 2007 a Maio de 2011.
Método Qui-quadrado g. l. p
Pearson 0,0671373 1 0,796
Diviance 0,0673638 1 0,795
Hosmer-Lemeshow 0,0671373 2 0,967
A Tabela 3 apresenta as probabilidades estimadas para o modelo de regressão logística múltipla ajustado, para a probabilidade de óbito por Leptospirose, na cidade de Belém, no período de janeiro de 2007 a maio de 2011. Observa-se por meio dela que, fixando as
) 991 , 0 551 , 1 163 , 3 exp( 1 ) 991 , 0 551 , 1 163 , 3 exp( ˆ 2 1 2 1 X X X X Yi + + − + + + − =
sintomas têm maior probabilidade de vir a óbito em relação aos pacientes que não apresentaram nenhum dos dois sintomas citados.
Tabela 3 - Probabilidades Estimadas a partir do Modelo (5), para os Casos de Leptospirose,
na Cidade de Belém, no Período de Janeiro de 2007 a Maio de 2011.
Insuficiência Renal Alteração Respiratória Probabilidade (%)
Apresenta Apresenta 34,96
Apresenta Não apresenta 16,63
Não apresenta Apresenta 10,23
Não apresenta Não apresenta 4,06
4. Conclusões
Este trabalho teve como objetivo desenvolver um modelo logístico capaz de mostrar a probabilidade de ocorrência de óbito por Leptospirose, na cidade de Belém, no período de Janeiro de 2007 a Maio de 2011. Os testes de bondade de ajuste mostram que o modelo obtido se ajusta bem aos dados. A partir da regressão logística pode-se observar que pacientes que apresentaram o sintoma insuficiência renal tem aproximadamente 5 vezes mais chances de vir a óbito por leptospirose, em relação aos pacientes que não apresentaram o sintoma insuficiência renal, mantendo as mesmas características, pode se observar também que os pacientes aos quais apresentaram os dois sintomas, insuficiência renal e alterações respiratórias, possuem 34,96% de chance de vir a óbito por Leptospirose.
5. Bibliografia
[1] AGRESTI, A. Categorical data Analysis. 2th Edition, New York: Jonh Wileyand Sons,
2003.
[2] BUSSAB, W. O.; MORETTIN, P. A. Estatística Básica. 6.ed, São Paulo: Saraiva, 2010. [3] DAVID, G. A. Logistic Regression. Illinois: Burr Ridger, 1996.
[4] KO, A. I.; ELKHOURY, A. N. S. M.; SPICHLER, A. S.; SEGURO, A. C.; FILHO, D. B. M.; MARTINS, E. C.; SOUZA, G.; BRANT, J. L.; OLIVEIRA, J. C. C.; AVELAR, K. E. S.; BUZZAR, M.; SILVA, M. V.; ARSKY, M. L. N. S.; COSTA, M. R. A.; PEREIRA, M. M.; GALLIEZ, R. M.; COUTO, R. D. Guia de Vigilância Epidemiológica, 7. Ed., 2009.
[5] NETER, J.; NACHTSHEIM, C. J.; KUTNER, M. H. Applied Linear Statistical Models. 4th Edition. Illinois: Burr Ridger, 1995.