Aplicação do modelo de Quase-Verossimilhança

(1)

Aplicação do modelo de Quase-Verossimilhança

F´abio Hideto Oki1

1 Introduc¸˜ao

O câncer é uma doença de proporção mundial, atingindo só no Brasil cerca de 350 mil pes-soas por ano e é caracterizado pela mutação de algumas células. Todo nosso corpo é constitu´ıdo por células, desde nossa pele até nosso sistema nervoso e eventualmente, algumas dessas células podem adoecer e começar a se multiplicar de forma rápida e desordenada atingindo estruturas em torno delas. Esse crescimento desordenado pode causar tumores dos tipos benigno e ma-ligno, sendo o maligno o que alcança as consequências mais drásticas, caracterizado pela perda de identidade e função celular, podendo espalhar-se para outras partes do corpo, as chamadas metástases.

Em particular, segundo o Instituto Nacional do Câncer, cerca de 20 mil pessoas morrem por câncer de traqueia, brônquios e pulmões (TBP) todo ano no Brasil, obtendo maior incidência em pessoas com idade superior aos 50 anos. Alguns fatores de risco devem ser levados em consideração quando falamos de câncer de TBP. Pessoas com determinadas caracter´ısticas são mais prop´ıcias a desenvolver este tipo de câncer, entre elas pode-se citar: histórico familiar de câncer, tabagismo e alcoolismo. Uma simples forma de prevenção é manter hábitos saudáveis, como uma dieta rica em fibras, frutas e vegetais, pobre em gordura, e a prática de exerc´ıcios f´ısicos regularmente.

O câncer de traqueia, brônquios e pulmões (TBP) têm uma das mais altas taxas de óbitos no Brasil, sendo este o motivo para a modelagem do número de óbitos de câncer TBP para este trabalho. Aliando-se a isso temos a vasta aplicação dos modelos lineares generalizados e extensões na análise estat´ıstica. Mais especificamente será utilizado o modelo de quase-verossimilhança.

2 Material e m´etodos

Dada a importância destes modelos em aplicações práticas, o objetivo deste trabalho é es-tudar a teoria para os modelos de quase-verossimilhança, no contexto de dados de contagem. Uma aplicação à dados reais dessa metodologia é mostrada neste trabalho.

Considerando que o câncer de TBP é um dos tipos que apresenta altas taxas de mortalidade, o objetivo nesta aplicação foi estudar o risco de óbito TBP, em função das variáveis sexo e

(2)

categoria de idade, buscando evidenciar caracter´ısticas importantes para auxiliar autoridades de saúde na definição de medidas de prevenção. Os dados foram obtidos no Banco de Dados DATASUS, do Sistema Único de Saúde, por microrregião do Estado de São Paulo, subdivididos por sexo e em nove faixas etárias, como pode ser visto na Tabela 1. O per´ıodo considerado foi de 1998 a 2007.

Tabela 1: Número de mortes por câncer TBP no Estado de São Paulo, categorizados por grupo de idade e sexo, para o per´ıodo de 1998 a 2007.

Modelo Feminino Masculino

Mortes População Mortes População

at´e 9 5 32567314 7 33714684 10 a 19 11 36109584 16 36478347 20 a 29 66 35299099 73 34784256 30 a 39 303 31654283 345 30175720 40 a 49 1400 25111383 2042 23561680 50 a 59 2750 16156117 5498 14836947 60 a 69 3774 10634417 9563 9012845 70 a 79 3893 6144439 9544 4609526 80 ou mais 2279 2504053 3626 1489474

Para a análise desses dados utilizou-se o modelo de quase-verossimilhança, relacionando o número de óbitos por faixa etária e as variáveis sexo e categoria de idade, a partir das análises descritivas preliminares. Mais especificamente, o modelo proposto foi

Yi ∼ QV(µi, σ2)

Var(Yi) = σ2µi, σ2> 0

log(µi) = log(ni) + β0+ β1x1i+ β2x2i3 + β3x1i x2i+ β4x1i x22i (1)

em que Yirepresenta o número de óbitos, µia média, σ2o parâmetro de dispersão, nio número

de habitantes para a i-´esima classe de idade, β = (β0; β1; β2; β3; β4) o vetor de parˆametros, x1a

vari´avel sexo (fem. 0, masc. 1) e x2 as classes de idade (0 − 9, 10 − 2, ..., > 80), categorizadas

por 1, 2, . . . , N = 9. Claro que foram pensados outros modelos para esta aplicação porém, o modelo (1) foi que melhor se ajustou aos dados.

(3)

Tabela 2: Estimativas de máxima verossimilhança para os parâmetros do modelo (1) Efeitos Estimativas E. Padrão valor z

Intercepto -17,995 0,4637 -38.806 x₁ -2,045 0,5395 -3.790 x2 1,796 0,1005 17.868 x3₂ -0,007 0,0007 -10.569 x₁x₂ 0,593 0,1154 5.137 x₁x3₂ -0,003 0,0008 -4.035 σ2 17.223

A Tabela 2 mostra as estimativas que s˜ao todas significativas. Temos tamb´em o desvio D∗(y, ˆµ) = 173, 5(12 graus de liberdade) e o Quasi-likelihood Information Criterion, ou so-mente QIC = 661886, 7. ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −2 −1 0 1 2 −2 −1 0 1 2 Normal Q−Q Plot Percentil da N(0,1) Componente do Desvio Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot

Figura 1: Gr´afico normal de probabilidades referente ao modelo log-linear quase-verossimi-lhanc¸a ajustado.

(4)

2 4 6 8 0 50 100 150 200 250 Faixa Etária

Óbitos por 100 mil

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● Observado masculino Observado feminino Estimado masculino Estimado feminino ● ● Observado masculino Observado feminino Estimado masculino Estimado feminino

Figura 2: Dados observados e valores esperados para modelo (1) ajustado.

A Figura 2 mostra a como ficaram os ajustes em cada classe et´aria. Nota-se que as estima-tivas foram bem pr´oximas dos dados observados.

4 Conclus˜oes

No decorrer da aplicação foi pensado na possibilidade de modelagem com outros tipos de preditores lineares, mas pela dificuldade na interpretação dos parâmetros não foi apresentada. A exploração de outros modelos se justifica no caso de preditor linear polinomial cúbico. Apesar do modelo (1), ainda necessitar ser melhor estudado, pode-se afirmar pelas análises feitas que o modelo se adequa bem aos dados.

As razões de chances, calculadas considerando sexo masculino em relação ao feminino, para as categorias de idade 5, 6, 7, 8 e 9 são dadas, respectivamente, por 1,57; 2,21; 2,94; 3,27 e 2,68, indicando, por exemplo, que o risco de óbito no grupo dos homens aumenta aproximadamente 3 vezes na categoria 7 e em torno de 3.3 na categoria 8. Além disso, como mostra a Figura 2 o

(5)

Referˆencias

[1] PAULA, G. A. Modelos de regressão: com apoio computacional. Instituto de Ma-temática e Estat´ıstica da Universidade de São Paulo, São Paulo, 2013.

[2] R Core Team. R: A language and environment for statistical computing. R Founda-tion for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0. Dispon´ıvel em: http://www.R-project.org/. 2013