• Nenhum resultado encontrado

2nd Workshop on Data Science and Statistical Learning, Vitória-ES, junho de 2021

N/A
N/A
Protected

Academic year: 2021

Share "2nd Workshop on Data Science and Statistical Learning, Vitória-ES, junho de 2021"

Copied!
5
0
0

Texto

(1)

Modelos de regressão para desfecho escalar e preditores funcionais - soluções para problema da medicina obstétrica

José Carlos Soares Junior1, Agatha Sacramento Rodrigues1 1Departamento de Estatística da Universidade Federal do Espírito Santo

Resumo:

Este trabalho consiste no estudo de um desfecho escalar (variável resposta), cuja a informação é a idade gestacional do parto de gestações de gemelares, relacionando-o à covariável medida do colo uterino, cujas medidas foram obtidas ao longo do pré-natal. Na prática, quando se trata de covariá-veis com essa característica temporal, profissionais da área utilizam uma única medida da covariável para a realização de análises estatísticas, como a média ou a última avaliação antes do desfecho, o que pode gerar perda de informação por este método não considerar a variação do comportamento ao longo do tempo. Dado isto, covariáveis com essa característica (covariáveis funcionais) foram pensadas de forma que suas observações sejam funções, e essa variação de comportamento mencionada seja considerada. Para identificar partos prematuros a partir da covariável em questão, foi utilizado como critério de risco medida cervical abaixo de 25mm. Também foi utilizado o método de regressão funcio-nal pefuncio-nalizada (PFR), para o ajuste do modelo vencedor. Os resultados mostraram, que o número de gestantes que tiveram parto prematuro foi similar às que tiveram a medida cervical abaixo de 25mm em algum momento. O modelo vencedor ajustado, mostrou que a curva dos coeficientes decresce para elevadas idades gestacionais do pré-natal.

Palavras-chave: Covariáveis funcionais; Desfecho escalar; Modelos paramétricos; Gestação gemelar;

Obstetrícia.

1. INTRODUÇÃO

É comum na área da Obstetrícia que o interesse consista em estudar um desfecho escalar (avaliado em um único momento), em geral alguma informação do parto, relacionando-o à variáveis medidas ao longo do pré-natal, estas chamadas de covariáveis funcionais. Nos dados que motivam este trabalho (dados do Departamento de Obstetrícia da USP), o desfecho (variável resposta) é a idade gestacional do parto de gestações gemelares, e a covariável funcional avaliada em diferentes momentos do pré-natal é a medida do colo do útero.

O estudo da idade gestacional do parto em gestações gemelares é importante devido ao elevado risco de prematuridade em gestações múltiplas. Entre as mulheres com gestação gemelar, o parto prematuro que ocorre antes das 37 semanas é observado em mais de 50% dos casos e quase 12% antes de 32 semanas completas de gestação [7]. Devido a este fato, observa-se uma taxa de mortalidade neonatal nas gestações gemelares de 6,4 vezes maior do que nas gestações de um único feto [3].

Ao lidar com covariável funcional, pesquisadores na prática costumam fazer uso de uma única medida dessa covariável, geralmente a média ou a última avaliação antes do desfecho. Essa abordagem pode gerar perda de informação, pois a relação da variação dessa covariável com o desfecho e seu compor-tamento ao longo das avaliações não poderão ser analisados. Sendo assim, é de nosso interesse uma abordagem que considere essa característica temporal.

Quando o assunto é covariáveis funcionais, a análise estatística que tem se desenvolvido nas últimas décadas é comumente chamada de análise de dados funcionais, ou ADF. No âmbito deste estudo, as medidas da covariável funcional registradas ao longo do pré-natal são discretas, e a ideia da ADF é de considerar que existe uma curva gerando esses valores, então, para n gestantes teríamos uma amostra de n curvas. Logo, a análise estatística é feita em uma amostra de curvas, onde podemos considerar a variação da covariável ao longo do pré-natal. Essa abordagem tem sido objeto de estudo nos últimos anos e [6] foi uma das maiores contribuições até hoje.

O objetivo desse projeto é estudar modelos que corretamente posicionam e consideram covariável funcional com desfecho escalar. Para isso, este trabalho está organizado da seguinte maneira: na Seção 2 são apresentados os métodos considerados, enquanto que os resultados dos ajustes nos dados que motivam esse trabalho são apresentados na Seção 3. Por fim, as considerações finais são realizadas na Seção 4.

(2)

2. METODOLOGIA

Neste projeto as observações da covariável funcional são tratadas como sendo dados funcionais. Con-sidere um número finito de medidas no qual a i-ésima observação é uma função real Xi(t), com i = 1, . . . , n, e t ∈ T , em que T é um intervalo finito nos reais. Assim, dizemos que cada obser-vação X(t) que pertence ao espaço de funções reaisF é um dado funcional [6].

Para a análise de regressão da variável resposta Yi, o modelo linear postulado é Yi= α +

Z

T

β(t)Xi(t)dt + i,

em que o parâmetro β(t) a ser estimado é uma função. Para estimar β(t) e realizar o ajuste, usamos o método PFR (Penalized Functional Regression) conforme desenvolvido por [1]. O método consiste resumidamente de dois passos:

1. Decompor as funções (observações) da covariável funcional na forma

Xi(t) = Kz

X

j=1

cijψj(t),

sendo ψj(t)o termo de Kzautofunções obtidas da matriz de covariâncias estimada. 2. Utilizar Kbbases splines para expandir o termo β(t).

[1] propuseram uma adaptação que após esses passos resulta no modelo em questão em um modelo de efeitos mistos e, sendo assim, estimam os parâmetros do modelo pelo método de máxima verossi-milhança restrita.

É necessário escolher o número de autofunções em que Xi(t)será decomposto, e o número de bases para a funcão coeficiente β(t), ou seja, dependerá de Kze Kb. Na prática, o mais comum é considerar

k = Kz= Kb,

sendo a dimensão da base usada para a expansão de β(t) o maior interesse, como é mostrado em [4]. Esse método foi estudado e aplicado ao considerar [5] para a análise de dados com o pacote refund [2].

3. RESULTADOS

O número de gestantes de gemelares das quais possuímos as medidas da covariável funcional é de 263 gestantes. Inicialmente, era esperado que cada gestante tivesse 5 medidas registradas do comprimento do colo uterino de acordo com o planejamento amostal, porém, ao verificar os dados, observamos que a maioria das gestantes não possuíam todas as 5 medidas, o que dificultava a continuidade do estudo, nos obrigando a estudar algum método de imputação de dados. Todo o processo foi devidamente descrito e pode ser encontrado no seguinte endereço rpubs.com/Soju-JC/742101.

A Tabela 1 nos mostra informações descritivas da idade gestacional do parto das gestantes, onde podemos ver que, em média, os partos ocorreram por volta da semana 36,10 (desvio padrão de 1,73) de gestação, valor similar à mediana. Como os partos são considerados prematuros se ocorrem antes de 37 semanas de gestação, essas informações nos mostram que pelo menos 50% das gestantes da amostra tiveram parto prematuro. De fato, a porcentagem de gestantes que tiveram parto prematuro foi de 58,9%.

Idade gestacional do parto

Média 36,10 Desvio padrão 1,73 Mínimo 29,60 Q1 35,10 Mediana 36,30 Q3 37,40 Máximo 38,40

(3)

Pensando em como foi o comportamento da medida do colo uterino das gestantes, foi feito o gráfico da Figura 1, onde observamos um comportamento decrescente do comprimento do colo uterino de acordo com que a gravidez se aproximava do momento do parto. É de conhecimento dos profissionais da área que esse comportamento de fato ocorra, pois o declínio do comprimento cervical no decorrer da evolução da gestação é uma forma do corpo da gestante se preparar para que o parto ocorra. Além disso, considerando que a medida cervical do colo do útero menor que 25mm é um critério de risco para prematuridade (critério já consagrado na literatura obstétrica), é possível observar pela Figura 1 que muitas gestantes chegaram a ter o comprimento cervical abaixo do valor de risco, precisamente 64,6% delas.

Na Figura 2 podemos observar o gráfico da média das curvas de todas as 263 gestantes, o qual reforça o comportamento decrescente apresentado anteriormente. Também observamos que, em média, o comprimento cervical das gestantes se manteve acima de 25mm, até um pouco antes da semana 33 de gestação. Após esse momento, em média, o comprimento cervical delas entrou em zona de risco.

Figura 1 Gráfico de perfis das gestantes de acordo com a medida do colo uterino (em milímetros), onde o eixo x é o momento em que as avaliações do pré-natal pra o estudo ocorreram (ex: em sem27_28, a avaliação ocorreu em um momento durante as

semanas 27 e 28 de gestação).

Figura 2 Gráfico da média das curvas para medida do colo (curva preta) e desvio padrão de ± 0,5 (curva vermelha), onde o eixo x é o momento em que as avaliações do pré-natal para o estudo ocorreram (ex: em sem27_28, a avaliação ocorreu em um

momento durante as semanas 27 e 28 de gestação).

A Tabela 2 apresenta 9 modelos com diferentes combinações de expansões de base para o processo de estimação da função coeficiente β(t). Podemos observar que o melhor modelo funcional apresenta

(4)

o critério de Akaike (AIC) de 717,100. Este modelo faz uso da base cubic spline de dimensão 3 na expansão da função coeficiente β(t). Esse é o modelo escolhido para as análises seguintes.

Dimensão da base ps tp cr

k = 3 NA 717,144 717,100

k = 4 719,238 719,131 719,135 k = 5 720,971 720,971 720,971

1ps = P-spline. 2tp = thin-plate spline. 3cr = cubic spline. 4NA = não funciona para o k especificado.

Tabela 2 AIC dos modelos funcionais que utilizam diferentes tipos de bases splines para expansão da função β(t). Na Figura 3 está a curva estimada pelo modelo escolhido. Os cinco momentos gestacionais estão pa-dronizados no intervalo [0,1]. Os valores dos coeficientes nos cinco pontos podem ser encontrados na Tabela 3. Como esperado e também corroborando o resultado visto na análise descritiva da covariável funcional, os coeficientes diminuem para idades gestacionais do pré-natal mais avançadas.

Na Tabela 4 estão os resultados do teste de hipóteses, cuja hipótese nula é de igualdade de todos os coeficientes iguais a zero. Podemos observar que a estatística F é grande suficiente para rejeitarmos a hipótese de nulidade dos coeficientes.

Figura 3 Função β(t) estimada do modelo que usa bases cubic splines de dimensão 3.

Grade de valores argumentos Coeficientes Erro padrão

0,00 0,084 0,213

0,25 0,256 0,064

0,50 0,271 0,134

0,75 0,027 0,067

1,00 -0,372 0,260

Tabela 3Coeficientes do ajuste do modelo que usa bases cubic splines de dimensão 3.

Termo suave edf Ref.df F Valor P s(medida_colo) 3 3 9,716 <0,001

(5)

4. CONCLUSÕES

Com as análises feitas, e os resultados obtidos neste trabalho, podemos concluir que pelo menos 50% das gestantes de gemelares acabam tendo parto prematuro, sendo de fato 58,8% delas, resultado que foi de encontro com estudos passados feito por outros pesquisadores dos quais discutimos na introdu-ção deste trabalho. Além disso, essa informaintrodu-ção se mostrou condizente com o número de gestantes que tiveram o comprimento cervical na zona de risco durante a gestação, sendo 64,6% delas, o que mostra que foram porcentagens próximas.

Pensando em modelos que considerem a medida cervical, dos 9 modelos propostos, o melhor foi o que usa bases do tipo cubic splines de dimensão 3 para a expansão da função coeficiente. Ao ajustar o modelo escolhido de acordo com o critério de Akaike, podemos observar que a curva dos coeficientes decresce para elevadas idades gestacionais do pré-natal, como esperado, e rejeitamos a hipótese de nulidade dos coeficientes.

Com esse trabalho, esperamos contribuir para que métodos que corretamente consideram covariáveis funcionais sejam mais utilizados na prática.

5. AGRADECIMENTOS

Agradecemos a FAPES (Fundação de Amparo à Pesquisa e Inovação do Espírito Santo) pelo financia-mento desta pesquisa.

REFERÊNCIAS

[1] J. Goldsmith, J. Bobb, C. M. Crainiceanu, B. Caffo, and D. Reich. Penalized functional regression. Journal of Computational and Graphical Statistics, 20(4):830–851, 2011.

[2] J. Goldsmith, F. Scheipl, L. Huang, J. Wrobel, C. Di, J. Gellar, J. Harezlak, M. W. McLean, B. Swihart, L. Xiao, C. Crainiceanu, and P. T. Reiss. refund: Regression with Functional Data, 2020.

[3] C. E. Into Maternal. Perinatal Mortality 2007: United Kingdom. CEMACH, 2009.

[4] P. Kokoszka and M. Reimherr. Introduction to Functional Data Analysis. CRC Press, 2017.

[5] R Core Team. R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria, 2020.

[6] J. Ramsay and B. Silverman. Functional Data Analysis (2nd ed). Springer, 2005.

Referências

Documentos relacionados

Para preparar a pimenta branca, as espigas são colhidas quando os frutos apresentam a coloração amarelada ou vermelha. As espigas são colocadas em sacos de plástico trançado sem

Este experimento trata de Progressão Aritmética utilizando quadrados mágicos: quadrado mágico fundamental, passando por termos centrais e constantes mágicas.. Também faremos

O relatório encontra-se dividido em 4 secções: a introdução, onde são explicitados os objetivos gerais; o corpo de trabalho, que consiste numa descrição sumária das

As inscrições serão feitas na Comissão Permanente de Vestibular da UFMG (COPEVE), situada no Prédio da Reitoria da UFMG, à Av. Presidente Antônio Carlos, 6627 – Campus da

Effects of the bite splint 15-day treatment termination in patients with temporomandibular disorder with a clinical history of sleep bruxism: a longitudinal single-cohort

Mean percentage of individuals from different species of Pinus with damage caused by Brown- capuchin monkeys (Sapajus nigritus) in 169 sample plots located in

Graduado em Ciências Econômicas e com mestrado em Finanças e Análise de Investimentos da Pontifícia Universidade Católica de Rio de Janeiro – PUC-RJ, exercendo

O presente trabalho teve como objetivo avaliar a metodologia do reator de leito fixo (RLF) aplicada em campo para investigações das condições ambientais (potencial redox,