Probabilidade de Óbito por Leptospirose Humana em Belém - PA

(1)

Probabilidade de Óbito por Leptospirose

Humana em Belém - PA

Diana Costa Oliveira¹ Cássio Pinho dos Reis² Adrilayne dos Reis Araújo³ Silvia dos Santos de Almeida³ Edson Marcos Leal Soares Ramos³ 1. Introdução

A leptospirose é uma doença infecciosa febril, aguda, potencialmente grave, causada por uma bactéria, a Leptospira interrogans, sendo transmitido através da urina de animais infectados, principalmente os roedores. Segundo Ko et al. (2009), a Leptospirose trata-se de uma zoonose (doença que acomete os homens e os de animais) considerada de grande importância social e econômica, por apresentar elevada incidência em determinadas áreas, como também por sua letalidade. Sua ocorrência está relacionada às precárias condições de infraestrutura sanitária e alta infestação de roedores infectados. As inundações propiciam a disseminação e a persistência do agente causal no ambiente, facilitando a ocorrência de surtos.

2. Material e métodos

A regressão logística é considerada um dos principais métodos de modelagem de dados. Kutner et al. (2005) mostra que o objetivo da regressão logística é modelar uma variável resposta categorizavel em relação de uma ou mais variáveis preditoras a qual influenciam a sua ocorrência. Quando a variável resposta é disposta em categorias, ou mesmo em valores que podem ser categorizados, uma forma de modelar estas variáveis em termos de uma resposta é a utilização deste tipo de regressão, que por sua vez é classificada em binária (dois níveis de resposta), ordinal (segue uma ordem natural) e nominal (pode ter mais de três níveis sem uma ordenação natural).

O modelo logístico estima a probabilidade de determinada situação ocorrer ou não, com base em determinadas características. Para Santos (2007), a grande diferença entre um modelo de regressão linear simples e o modelo logístico é o fato de a variável resposta ser binária ou dicotômica. Desta forma, considerando o modelo de regressão linear simples (NETER et al., 2005) dado por

ε

β

+ +

(2)

em que a variável resposta Y_i ,i=1,K,n_{é binária, ou seja, assume os valores “0” ou “1” na}

ausência ou presença da característica em estudo, respectivamente. Para o Modelo (1), a

resposta esperada é dada por E

( )

Y_i =

β

₀ +

β

₁X_i. Dessa forma, considere Y uma variável _i

aleatória Bernoulli com distribuição de probabilidade dada por

i i i i i i Y Y Y

Y =1 ,seΡ( =1)=

π

e =0 ,se( =0)=1−

π

. Como pela definição de esperança que

( )

Yi i

E =

π

. Logo, tem-se que E

( )

Y_i =

β

₀ +

β

₁X_i =

π

_i.

Assim, a resposta média E

( )

Yi , quando a variável resposta Y é uma variável binária, i

assumindo valores “0” e “1”, sempre representa a probabilidade de Yi =1, para o nível da

variável preditora X . Assim, considerando apenas uma variável independente _i X , tem-se um _i

modelo de regressão logística simples na sua forma usual é dado por

(

)

(

₍

)

₎

i i i i i X X X Y E 1 0 1 0 exp 1 exp /

β

π

+ + + = = , (2)

em que

β

₀ e

β

₁ são os coeficientes de regressão a serem estimados e X é a variável _i

independente, onde i=1 K, ,n. No caso da regressão logística múltipla, o modelo é composto

não só por variáveis independentes, mas também por coeficientes de regressão β₀,β₁,K,β_p_.

Portanto, tem-se β'X =

β

₀ +

β

₁X_i_,₁+K+

β

_pX_i_,_p_,_i =_{1 K}_, _,_n_{. Logo, o modelo (2) se estende}

para o modelo logístico múltiplo a seguir

(

) ( )

( )

_{( )}

X β X β X X Y _' ' exp 1 exp / + = _i i i E

π

. (3)

Portanto, a variável dependente Y é dado por _i Y_i =E

(

Y_i /X_i

)

+ε_i, onde o termo

ε

_i é

o erro aleatório do modelo. E os valores dos parâmetros β₀,β₁,K,β_p_{são estimados pelo}

método da máxima verossimilhança.

De acordo com Agresti (2003), uma das principais estatísticas utilizadas na análise de dados binários é a razão de chances, que é definida como a razão entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo. Sendo chance a probabilidade de ocorrência de um evento dividida pela probabilidade da não ocorrência do

mesmo evento. A chance é definida como

(

)

(

)

( )

i i i i i i P P X X X Y X Y

π

− = = = 1 / 0 / 1 , logo a razão de

(3)

(

)

(

)

(

)

      = − = = − = = 0 1 0 1 1 1 i i i i RC X X X X

π

. (4) Para identificar as variáveis que não têm um bom ajuste na estimação dos parâmetros do modelo, existem alguns testes para selecionar essas variáveis, como o teste Stepwise. Este teste permite selecionar variáveis a partir de um conjunto inicial de variáveis explicativas. A escolha das variáveis se baseia num procedimento heurístico, mas não garante do ponto de vista prático, que o modelo é o melhor. No stepwise é necessário estabelecer qual a probabilidade de entrada e saída das variáveis no modelo, comumente se utiliza 0,20 como probabilidade de entrada e 0,05 como probabilidade de saída

Para decidir qual modelo de regressão logística será utilizado, é necessário aplicar alguns testes de validação para este modelo. É preciso verificar se há pontos influentes (outliers), se a função resposta é monotônica e em forma de S (sigmoidal), e se o modelo logístico ajustado é adequado. Neste trabalho, para validar o modelo, são utilizados os testes de Hosmer-Lemeshow, de Pearson e o de Deviance. Ribeiro et al. (2008) define que o teste de

Pearson mede o quanto a observação é prevista pelo modelo, o resíduo da deviance é uma

medida de como a observação é bem predita pelo modelo e o teste de Hosmer-Lemeshow avalia o modelo ajustado, comparando as freqüências observada com as esperadas.

Para avaliar o quão bem o modelo selecionado ajustou-se aos dados, quanto maior o nível descritivo (p) associado a ele, melhor o ajuste do modelo aos dados. Dessa maneira, como regra de decisão dos testes, tem-se o nível descritivo p , que é a probabilidade de ocorrer valores da estatística de teste mais extremos do que o observado, sob a hipótese nula

( )

H0 ser verdadeira (BUSSAB e MORETTIN, 2010). Quando p for maior ou igual ao nível

de significância α =0,05, a hipótese nula é rejeitada.

3. Resultados e discussões

A aplicação da regressão logística múltipla é feita para a obtenção do modelo estatístico, que melhor se ajuste a variável resposta probabilidade de óbito por leptospirose na cidade de Belém. As variáveis preditoras são os sintomas: Insuficiência Renal e Alterações Respiratórias aos quais estão associados a forma grave da doença e foram codificadas em fatores com dois níveis de classificação: Apresenta (1) ou Não Apresenta (0), ou seja, puderam assumir duas categorias de codificação.

(4)

O modelo estatístico obtido a partir da regressão logística binária para a probabilidade de óbito por leptospirose na cidade de Belém (Ŷ), é dada por

(5)

em que X1 é o sintoma Insuficiência Renal e X2 é o sintoma Alterações Respiratórias. Assim,

um valor numérico (estimativa) Ŷ, revela a probabilidade de ocorrência de leptospirose na cidade de Belém.

A Tabela 1 apresenta as estimativas dos parâmetros para o modelo da probabilidade de ocorrência de leptospirose humana na cidade de Belém (Ŷ) bem como, os erros padrões, os valores do nível descritivo (p) e as razões de chance.

Tabela 1 - Estimativas dos Coeficientes, Erros Padrões, Nível Descritivo (p) e Razão de

Chance, do Modelo para a Probabilidade de Ocorrência de Óbito por Leptospirose Humana, na Cidade de Belém, no Período de Janeiro de 2007 a Maio de 2011.

Preditores Coeficiente Erro

Padrão p Razão de Chance IC (95%) LI IC (95%) LS Constante -3,163 0,364 0,000 - - - Insuficiência Renal 1,551 0,406 0,000 4,72 2,13 10,46 Alterações Respiratórias 0,991 0,399 0,013 2,69 1,23 5,89

A Tabela 2 apresenta os testes qui-quadrado de bondade de ajuste para os métodos de

Pearson, Deviance e Hosmer Lemeshow que verificam a hipótese H0: o modelo estimado

apresenta bom ajuste aos casos de leptospirose versus H1: o modelo estimado não apresenta

bom ajuste aos casos de leptospirose. Nela, verifica-se que não existem evidências suficientes

para rejeitar a hipótese nula (H0), ao nível de 5% de significância, logo o modelo estimado em

(2) é apropriado para modelar os casos de leptospirose.

Tabela 2 - Testes de Bondade de Ajuste do Modelo Ajustado em (5) para os Casos de

Leptospirose Humana, na Cidade de Belém, no Período de Janeiro de 2007 a Maio de 2011.

Método Qui-quadrado g. l. p

Pearson 0,0671373 1 0,796

Diviance 0,0673638 1 0,795

Hosmer-Lemeshow 0,0671373 2 0,967

A Tabela 3 apresenta as probabilidades estimadas para o modelo de regressão logística múltipla ajustado, para a probabilidade de óbito por Leptospirose, na cidade de Belém, no período de janeiro de 2007 a maio de 2011. Observa-se por meio dela que, fixando as

) 991 , 0 551 , 1 163 , 3 exp( 1 ) 991 , 0 551 , 1 163 , 3 exp( ˆ 2 1 2 1 X X X X Y_i + + − + + + − =

(5)

sintomas têm maior probabilidade de vir a óbito em relação aos pacientes que não apresentaram nenhum dos dois sintomas citados.

Tabela 3 - Probabilidades Estimadas a partir do Modelo (5), para os Casos de Leptospirose,

na Cidade de Belém, no Período de Janeiro de 2007 a Maio de 2011.

Insuficiência Renal Alteração Respiratória Probabilidade (%)

Apresenta Apresenta 34,96

Apresenta Não apresenta 16,63

Não apresenta Apresenta 10,23

Não apresenta Não apresenta 4,06

4. Conclusões

Este trabalho teve como objetivo desenvolver um modelo logístico capaz de mostrar a probabilidade de ocorrência de óbito por Leptospirose, na cidade de Belém, no período de Janeiro de 2007 a Maio de 2011. Os testes de bondade de ajuste mostram que o modelo obtido se ajusta bem aos dados. A partir da regressão logística pode-se observar que pacientes que apresentaram o sintoma insuficiência renal tem aproximadamente 5 vezes mais chances de vir a óbito por leptospirose, em relação aos pacientes que não apresentaram o sintoma insuficiência renal, mantendo as mesmas características, pode se observar também que os pacientes aos quais apresentaram os dois sintomas, insuficiência renal e alterações respiratórias, possuem 34,96% de chance de vir a óbito por Leptospirose.

5. Bibliografia

[1] AGRESTI, A. Categorical data Analysis. 2th Edition, New York: Jonh Wileyand Sons,

2003.

[2] BUSSAB, W. O.; MORETTIN, P. A. Estatística Básica. 6.ed, São Paulo: Saraiva, 2010. [3] DAVID, G. A. Logistic Regression. Illinois: Burr Ridger, 1996.

[4] KO, A. I.; ELKHOURY, A. N. S. M.; SPICHLER, A. S.; SEGURO, A. C.; FILHO, D. B. M.; MARTINS, E. C.; SOUZA, G.; BRANT, J. L.; OLIVEIRA, J. C. C.; AVELAR, K. E. S.; BUZZAR, M.; SILVA, M. V.; ARSKY, M. L. N. S.; COSTA, M. R. A.; PEREIRA, M. M.; GALLIEZ, R. M.; COUTO, R. D. Guia de Vigilância Epidemiológica, 7. Ed., 2009.

[5] NETER, J.; NACHTSHEIM, C. J.; KUTNER, M. H. Applied Linear Statistical Models. 4th Edition. Illinois: Burr Ridger, 1995.