Aplicac¸˜ao do modelo de Quase-Verossimilhanc¸a
F´abio Hideto Oki1
1
Introduc¸˜ao
O cˆancer ´e uma doenc¸a de proporc¸˜ao mundial, atingindo s´o no Brasil cerca de 350 mil pes-soas por ano e ´e caracterizado pela mutac¸˜ao de algumas c´elulas. Todo nosso corpo ´e constitu´ıdo por c´elulas, desde nossa pele at´e nosso sistema nervoso e eventualmente, algumas dessas c´elulas podem adoecer e comec¸ar a se multiplicar de forma r´apida e desordenada atingindo estruturas em torno delas. Esse crescimento desordenado pode causar tumores dos tipos benigno e ma-ligno, sendo o maligno o que alcanc¸a as consequˆencias mais dr´asticas, caracterizado pela perda de identidade e func¸˜ao celular, podendo espalhar-se para outras partes do corpo, as chamadas met´astases.
Em particular, segundo o Instituto Nacional do Cˆancer, cerca de 20 mil pessoas morrem por cˆancer de traqueia, brˆonquios e pulm˜oes (TBP) todo ano no Brasil, obtendo maior incidˆencia em pessoas com idade superior aos 50 anos. Alguns fatores de risco devem ser levados em considerac¸˜ao quando falamos de cˆancer de TBP. Pessoas com determinadas caracter´ısticas s˜ao mais prop´ıcias a desenvolver este tipo de cˆancer, entre elas pode-se citar: hist´orico familiar de cˆancer, tabagismo e alcoolismo. Uma simples forma de prevenc¸˜ao ´e manter h´abitos saud´aveis, como uma dieta rica em fibras, frutas e vegetais, pobre em gordura, e a pr´atica de exerc´ıcios f´ısicos regularmente.
O cˆancer de traqueia, brˆonquios e pulm˜oes (TBP) tˆem uma das mais altas taxas de ´obitos no Brasil, sendo este o motivo para a modelagem do n´umero de ´obitos de cˆancer TBP para este trabalho. Aliando-se a isso temos a vasta aplicac¸˜ao dos modelos lineares generalizados e extens˜oes na an´alise estat´ıstica. Mais especificamente ser´a utilizado o modelo de quase-verossimilhanc¸a.
2
Material e m´etodos
Dada a importˆancia destes modelos em aplicac¸˜oes pr´aticas, o objetivo deste trabalho ´e es-tudar a teoria para os modelos de quase-verossimilhanc¸a, no contexto de dados de contagem. Uma aplicac¸˜ao `a dados reais dessa metodologia ´e mostrada neste trabalho.
Considerando que o cˆancer de TBP ´e um dos tipos que apresenta altas taxas de mortalidade, o objetivo nesta aplicac¸˜ao foi estudar o risco de ´obito TBP, em func¸˜ao das vari´aveis sexo e
categoria de idade, buscando evidenciar caracter´ısticas importantes para auxiliar autoridades de sa´ude na definic¸˜ao de medidas de prevenc¸˜ao. Os dados foram obtidos no Banco de Dados DATASUS, do Sistema ´Unico de Sa´ude, por microrregi˜ao do Estado de S˜ao Paulo, subdivididos por sexo e em nove faixas et´arias, como pode ser visto na Tabela 1. O per´ıodo considerado foi de 1998 a 2007.
Tabela 1: N´umero de mortes por cˆancer TBP no Estado de S˜ao Paulo, categorizados por grupo de idade e sexo, para o per´ıodo de 1998 a 2007.
Modelo Feminino Masculino
Mortes Populac¸˜ao Mortes Populac¸˜ao
at´e 9 5 32567314 7 33714684 10 a 19 11 36109584 16 36478347 20 a 29 66 35299099 73 34784256 30 a 39 303 31654283 345 30175720 40 a 49 1400 25111383 2042 23561680 50 a 59 2750 16156117 5498 14836947 60 a 69 3774 10634417 9563 9012845 70 a 79 3893 6144439 9544 4609526 80 ou mais 2279 2504053 3626 1489474
Para a an´alise desses dados utilizou-se o modelo de quase-verossimilhanc¸a, relacionando o n´umero de ´obitos por faixa et´aria e as vari´aveis sexo e categoria de idade, a partir das an´alises descritivas preliminares. Mais especificamente, o modelo proposto foi
Yi ∼ QV(µi, σ2)
Var(Yi) = σ2µi, σ2> 0
log(µi) = log(ni) + β0+ β1x1i+ β2x2i3 + β3x1i x2i+ β4x1i x22i (1)
em que Yirepresenta o n´umero de ´obitos, µia m´edia, σ2o parˆametro de dispers˜ao, nio n´umero
de habitantes para a i-´esima classe de idade, β = (β0; β1; β2; β3; β4) o vetor de parˆametros, x1a
vari´avel sexo (fem. 0, masc. 1) e x2 as classes de idade (0 − 9, 10 − 2, ..., > 80), categorizadas
por 1, 2, . . . , N = 9. Claro que foram pensados outros modelos para esta aplicac¸˜ao por´em, o modelo (1) foi que melhor se ajustou aos dados.
Tabela 2: Estimativas de m´axima verossimilhanc¸a para os parˆametros do modelo (1) Efeitos Estimativas E. Padr˜ao valor z
Intercepto -17,995 0,4637 -38.806 x1 -2,045 0,5395 -3.790 x2 1,796 0,1005 17.868 x32 -0,007 0,0007 -10.569 x1x2 0,593 0,1154 5.137 x1x32 -0,003 0,0008 -4.035 σ2 17.223
A Tabela 2 mostra as estimativas que s˜ao todas significativas. Temos tamb´em o desvio D∗(y, ˆµ) = 173, 5(12 graus de liberdade) e o Quasi-likelihood Information Criterion, ou so-mente QIC = 661886, 7. ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −2 −1 0 1 2 −2 −1 0 1 2 Normal Q−Q Plot Percentil da N(0,1) Componente do Desvio Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot
Figura 1: Gr´afico normal de probabilidades referente ao modelo log-linear quase-verossimi-lhanc¸a ajustado.
2 4 6 8 0 50 100 150 200 250 Faixa Etária
Óbitos por 100 mil
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● Observado masculino Observado feminino Estimado masculino Estimado feminino ● ● Observado masculino Observado feminino Estimado masculino Estimado feminino
Figura 2: Dados observados e valores esperados para modelo (1) ajustado.
A Figura 2 mostra a como ficaram os ajustes em cada classe et´aria. Nota-se que as estima-tivas foram bem pr´oximas dos dados observados.
4
Conclus˜oes
No decorrer da aplicac¸˜ao foi pensado na possibilidade de modelagem com outros tipos de preditores lineares, mas pela dificuldade na interpretac¸˜ao dos parˆametros n˜ao foi apresentada. A explorac¸˜ao de outros modelos se justifica no caso de preditor linear polinomial c´ubico. Apesar do modelo (1), ainda necessitar ser melhor estudado, pode-se afirmar pelas an´alises feitas que o modelo se adequa bem aos dados.
As raz˜oes de chances, calculadas considerando sexo masculino em relac¸˜ao ao feminino, para as categorias de idade 5, 6, 7, 8 e 9 s˜ao dadas, respectivamente, por 1,57; 2,21; 2,94; 3,27 e 2,68, indicando, por exemplo, que o risco de ´obito no grupo dos homens aumenta aproximadamente 3 vezes na categoria 7 e em torno de 3.3 na categoria 8. Al´em disso, como mostra a Figura 2 o
Referˆencias
[1] PAULA, G. A. Modelos de regress˜ao: com apoio computacional. Instituto de Ma-tem´atica e Estat´ıstica da Universidade de S˜ao Paulo, S˜ao Paulo, 2013.
[2] R Core Team. R: A language and environment for statistical computing. R Founda-tion for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0. Dispon´ıvel em: http://www.R-project.org/. 2013