1
Aplicação da Álgebra Linear
na epidemiologia da Covid-19
Trabalho desenvolvido para a apresentação oral de Álgebra Linear Universidade de Lisboa - Instituto Superior TécnicoMestrado em Engenharia Biomédica Fabio Studart
Semestre 1, 2020/2021 Professor Paulo Pinto
Introdução
No contexto da pandemia da Covid-19, diversas organizações de saúde têm implementado restrições sociais, com o objetivo de conter a propagação do vírus. Todavia, sendo esta doença recente, e não havendo compreensão total dos seus mecanismos de transmissão, é necessário avaliar a efetividade das medidas impostas, para adequar as ações tomadas no futuro. Para esta avaliação, recorre-se a modelos matemáticos da transmissão do vírus, cujos parâmetros, como o número básico de reprodução, R 0, e o número efetivo de reprodução, Rt. são estimados recorrendo a dados empíricos. Esta estimativa pode ser feita com uma ferramenta da Álgebra Linear, o método de mínimos quadrados, o estudo da curva que melhor se ajusta a um conjunto de pontos.
Epidemiologia
O número básico de reprodução é o número médio de infecções secundárias produzidas por um caso típico numa população onde todos são susceptíveis, como no início da pandemia, sendo utilizado para medir o potencial de transmissão da doença[1]. Porém, ao longo do tempo, parte da população vai adquirindo imunidade, o que torna este indicador menos relevante. Para isto, utiliza-se o R t, o número efetivo de reprodução, que se define como o produto do R0 pela porcentagem da população suscetível ao vírus, denominada s, e que vai variando ao longo do tempo. Assim, se R t>1, a pandemia está-se a propagar, sendo necessário adotar medidas de restrição. Por outro lado, quando R=1, o número de casos diários está estável, e onde R<1, haverá um declínio no número de novos casos, sendo possível relaxar as medidas impostas.
2
Quanto maior for o número de pessoas imunes numa população, menor será a probabilidade de um indivíduo susceptível ser infectado. Sendo Rt = R0· s, quando s = 1/R0, ou seja, quando a fração da população imune à doença for igual a 1 − 1/R0, seja por já ter sido infetada, ou através de vacinação, será alcançada a imunidade de grupo, onde cada caso não irá originar mais do que um único caso novo e a infecção tornar-se-á estável dentro da população.
Modelo Matemático
O crescimento do número de infectados pode ser analisado recorrendo a modelos epidemiológicos, sendo que os mais utilizados são o de crescimento exponencial e crescimento logístico, ou sigmóide. Enquanto que, no crescimento exponencial, o número de novos casos só depende do número de infetados e da taxa de crescimento, na curva sigmóide, o crescimento também é influenciado por um constrangimento máximo, a capacidade de carga, K, que é, neste caso, o número de indivíduos da população. Assim, a curva apresenta um crescimento exponencial no início do intervalo de tempo, que depois passa a ser linear, e, por fim, tende para zero.
Figura 1 - Crescimento Exponencial e Logístic
Como no início da pandemia se assume que todos os indivíduos estão suscetíveis ao Sars-Cov-2, e não há restrições de crescimento da doença, podemos ter como hipótese um crescimento exponencial com taxa constante, em que o número de indivíduos infectados é dado por:
(1)
(t)
N
= a e
r · tOnde r é a taxa de crescimento exponencial e a é o valor inicial. Utilizaremos dois métodos propostos por Wallinga et al [2] para estimar o R t. Estes métodos supõem, respetivamente, uma distribuição exponencial [3] e normal [4] do T c, o intervalo médio entre
3
gerações, que é o tempo que uma pessoa infectada leva até infetar um de seus casos secundários. Assim, o Rt do coronavírus poderá ser calculado, respectivamente, pelas fórmulas:
(2) e
(3)
R
t= e
rT −(1/2)r σc 2 2R
t
= 1 + r · T
csendo o desvio padrão e a taxa de crescimento exponencial, a mesma da equação (1).σ r
De acordo com dados relativos à cidade chinesa de Tianjin, China, o T cfoi estimado por Ganyani et al [4] sendo de 3.95 dias, com desvio padrão de 1.75 dias. Calcular o R tcom estes parâmetros, apesar de ser uma aproximação, torna-se útil para comparar o valor desta grandeza em diferentes momentos, pois, supondo-se uma taxa de casos não reportados constante, o erro não se deve alterar.
Assim, o nosso método de estimativa do R tdependerá do cálculo da taxa de crescimento exponencial da Covid-19. Apesar de (1) não ser uma relação linear entre (t) N e ,r se aplicarmos o logaritmo neperiano a ambos os membros da equação, alcançamos a fórmula . Sendo esta relação linear, as ferramentas da Álgebra Linear
og(N(t)) og(a) r t
l = l + *
permitem determinar o .r
Ferramentas da Álgebra Linear
Recordemos que, dado um conjunto de pontosx , ), (x , ), .., (x , )
( 1 y1 2 y2 . n yn
Se os pontos forem colineares (ou pertencerem a uma forma quadrática) existirá uma reta de equação y = a + b x (ou uma parábola de equação y = αx2+ β + γ x ) que tornará possível o sistema de equações x y1 = a 1+ b ou y1 = αx2 x 1+ β 1 + γ x y2 = a 2+ b y2 = αx2 x 2+ β 2 + γ x yn = a n+ b yn = αx2 x n+ β n + γ
que podem ser descritos pelas equações matriciais
e
4
Seja AT a matriz transposta da matriz A A, −1a matriz inversa da matriz A,C(A) o espaço das colunas da matriz A, C(A)⊥o complemento ortogonal de C(A) e PC(A)(x) a projeção ortogonal de sobre x C(A) .
Caso o sistema xA = b seja impossível, ∈ (A), ∀x b / C ∈M1×2 (ou M1×3) . O nosso objetivo será encontrar vetores x︿, denominados soluções de mínimos quadrados associadas ao sistema linear A = b x , que tenham a menor distância possível de b, ou seja,
. Esta distância será chamada erro de mínimos quadrados, que será a
Ax
|| ︿− b|| = minx{ Ax|| − b|| }
norma do vetor A︿x − b , o vector erro de mínimos quadrados.
Teorema 1: x︿ solução de mínimos quadrados de Ax = b se e só se x︿ é solução do sistema linear A = x PC(A)(b) .
Como x ∈ C(A) A para todo o x, |Ax − b|| | é minimizado quando x A = PC(A)(b) . Temos x A = proj C(A) (b) , um sistema que é sempre possível, cujas soluções são as soluções de mínimos quadrados do sistema inicial A = x b .
Teorema 2: x︿ é uma solução do sistema linear x A = PC(A)(b) sse x︿ é uma solução do sistema linear (ATA) x︿= ATb
Pelo teorema 1, e sabendo que b = PC(A)(b) + P (b) ,
C(A)⊥
, que evidentemente pertence a . Utilizando o produto
x (b) (b)
b − A︿ = b − PC(A) = PC(A)⊥ C(A)⊥
interno usual, C(A)⊥ = N(A )T , logob − A︿x ∈N(A )T . Então, por definição, AT(b− A︿x)= 0 , que é equivalente a termos (ATA) x︿= ATb, a chamada equação normal associada a A = x b .
Teorema 3: car(A)= nsse ATAinvertível.
Se ar(A)c = n , as colunas de A são linearmente independentes, logo A é invertível, então det (A) = det (A ) =T / 0 ⇒ det (A A) =T / 0 . Assim, ATAé invertível.
Por outro lado, se ATA é invertível, (ATA) x = 0 ⇒ x = 0 , logo AT(Ax)= 0 ⇒ A = 0 x . Assim, im(N(A))d = dim(N(A ))T = 0 , ou seja, as colunas de A são linearmente independentes e
.
ar(A)
c = n
Teorema 4: Se ar(A) c = n , a solução de mínimos quadrados do sistema x A = b é única e pode ser calculada por ︿x= (A A)T −1 TA b
É consequência direta dos teoremas 3 e 4, pois a equação normal associada a xA = b
5
Aplicação e Resultados
Iremos calcular a solução de mínimos quadrados do modelo linear, quadrático e exponencial para o número total de infectados em Portugal, N , ao longo dos dias 14 a 20 de março de 2020, e comparar o erro dos modelos. Depois, iremos comparar a taxa de crescimento exponencial do modelo exponencial antes e depois do confinamento iniciado no dia 18 março de 2020, baseado nos dados reportados pela DGS[5].
Com a informação de que o período de incubação do coronavírus é de até 14 dias [6], iremos estipular que o resultado de medidas de confinamento só é visível duas semanas a seguir à sua implementação. Portanto, entre os dias 14 e 20 de março, temos a seguinte tabela:
Assumindo um crescimento linear do tipo N(t)= b + at , obtemos a seguinte equação matricial, do tipo A = b x :
Este sistema é impossível, e a sua equação normal associada será:
Dia 14/3 15/3 16/3 17/3 18/3 19/3 20/3
t ( tempo
em dias)
1 2 3 4 5 6 7
6
Como ar(A) c = 2 , esta equação terá apenas uma solução de mínimos quadrados, que poderá ser obtida por ︿x= (A A)T −1 TA b, neste caso:
Assim, o vetor erro de mínimos quadrados será:
x
A︿− b - ⇒ Ax|| ︿− b|| 137.060.
A solução de mínimos quadrados origina a equação (t) N = − 42.571+ 139.464· t , com o seguinte aspeto gráfico:
7
Assumindo um crescimento quadrático do tipo (t)N = αx2+ β + γ x , obtemos o seguinte equação matricial, do tipo A = b x :
Esta equação também é impossível, e ar(A)c = 3 , logo iremos obter a solução de mínimos quadrados da equação normal:
⇔
Assim, obtemos o vetor erro de mínimos quadrados:
=
x
8
O modelo quadrático terá equação N(t) = 131.286+ 23.560 · t + 14.488 · t2, com o seguinte gráfico:
Por fim, utilizando o modelo exponencial, com a relação linear , obtemos a equação matricial:
og(N(t)) og(a) r t
l = l + *
9
Como car(A) = 2, determinamos a solução de mínimos quadrados única:
E o erro de mínimos quadrados, aplicando y = exnas entradas das matrizes A︿xe :b
=
x
A︿− b - = ⇒ Ax || ︿ − || b 79.577
10
Entre os dias 1 e 7 de abril, temos a seguinte tabela:
Com o modelo exponencial, e a relação linear og(N(t))l = log(a) + * r t , obtemos a equação matricial:
Este sistema é impossível, e ar(A)c = 2 , logo iremos encontrar a equação normal associada a este sistema, que terá a seguinte solução:
⇔
Dia 1/4 2/4 3/4 4/4 5/4 6/4 7/4
t 1 2 3 4 5 6 7
11
O vetor erro será, transformando cada entrada na sua exponencial:
=
x
A︿− b - = ⇒ Ax || ︿ − || b 494.434
A exponencial fica definida pela equação N(t)= 7707.982 e0.065t, e será representada pela seguinte curva:
12
Em suma, obtemos a seguinte tabela de resultados:
(*) Erro de mínimos quadrados (1) Estimativa feita pela equação (2) (2) Estimativa feita pela equação (3)
Conclusão
Primeiramente, na comparação de modelos, o modelo exponencial apresentou um erro de mínimos quadrados inferior ao do modelo linear, o que era expectável, e superior ao do modelo quadrático, contrariando a hipótese inicial de que a propagação de um vírus seria melhor modelada pelo crescimento exponencial. Isto pode ter sido resultado do maior número de parâmetros da quadrática comparativamente à exponencial, o que lhe confere mais flexibilidade, especialmente em relação a conjuntos de dados reduzidos, como é o caso dos utilizados neste trabalho. No cálculo do R t, ambos os métodos mostraram uma considerável diminuição do valor do Rtapós o confinamento, o que corrobora a utilização desta medida no combate à pandemia. O valor deste indicador antes do confinamento apresentou grande discrepância entre os modelos, o que pode ser explicado pela diferente distribuição do T cque estes pressupõem, ou então devido aos seus demais pressupostos de utilização. Assim, estas estimativas devem ser tomadas apenas para comparação. Outra limitação deste trabalho foi utilizar o T cde Tianjin, China, que pode ser diferente em Portugal, como também este foi diferente do Tc de Singapura[4]. Possuindo o intervalo entre gerações do vírus em Portugal, poderíamos estimar o R tcom uma precisão muito superior. De acordo com a estimativa mais extrema de R t = 2.841, utilizada por [4], se considerarmos o R t antes das medidas de confinamento como o R 0em Portugal, podemos inferir que a imunidade de grupo seria atingida quando 65% da população estivesse imune, sendo este número uma possível meta para o programa de vacinação que está a ser implementado. Assim, o estudo epidemiológico da pandemia da Covid-19 é uma aplicação das ferramentas da Álgebra Linear.
Dados Pré-confinamento Pós-confinamento
Modelo Linear Quadrático Exponencial Exponencial
Erro(*) 137.060 33.961 79.577 494.434 Equação N(t) = − 42.571+ 139.464· t 131.286+ 23.560 · t + 14.488 · t2 31.631e 1 0.299t 7707.982 e0.065t Rt (1) - - 2.841 1.284 Rt(2) - - 2.181 1.257
13
Bibliografia
[1] Giesecke, Johan. (2017). Modern Infectious Disease Epidemiology. (Third Edition). CRC Press.
[2] Wallinga, J., & Lipsitch, M. (2007). How generation intervals shape the relationship between growth rates and reproductive numbers. Proceedings. Biological sciences, 274(1609), 599–604.
https://www.researchgate.net/publication/6352980_How_generation_intervals_shape_the_relati onship_between_growth_rates_and_reproductive_numbers
[3] Das A. (2020). An approximation-based approach for periodic estimation of effective reproduction number: a tool for decision-making in the context of coronavirus disease 2019 (COVID-19) outbreak. Public health, 185, 199–201. https://doi.org/10.1016/j.puhe.2020.06.047
[4] Ganyani T , Kremer C , Chen D , et al.(2020). Estimating the generation interval for coronavirus disease (COVID-19) based on symptom onset data, March 2020. Euro surveill 2020; 25. doi:10.2807/1560-7917.ES.2020.25.17.2000257
[5] https://covid19.min-saude.pt/ponto-de-situacao-atual-em-portugal/ Acessado a 3/2/2021 [6] https://www.who.int/news-room/q-a-detail/coronavirus-disease-covid-19 Acessado a 3/2/2021
Griffin J, Casey M, Collins Á, et al. (2020) Rapid review of available evidence on the serial interval and generation time of COVID-19. BMJ Open. 2020;10:e040263. doi: 10.1136/bmjopen-2020-04026
Larson, R., Edwards, B., Larson, D. (2003). Elementary Linear Algebra. (Sixth Edition). Houghton Mifflin.
Anton, H. Rorres, C. (2013). Elementary Linear Algebra: Applications Version. (Eleventh Edition). Wiley Global Education.
https://www.ndsu.edu/pubweb/~novozhil/Teaching/484%20Data/01.pdf Acessado a 31/1/2021 https://web.stanford.edu/~jhj1/teachingdocs/Jones-dynamics2006.pdf Acessado a 31/1/2021 https://www.nature.com/scitable/knowledge/library/how-populations-grow-the-exponential-and-lo gistic-13240157/ Acessado a 31/1/2021 https://www.healthknowledge.org.uk/public-health-textbook/research-methods/1a-epidemiology/ epidemic-theory Acessado a 31/1/2021 https://www.healthknowledge.org.uk/public-health-textbook/disease-causation-diagnostic/2g-co mmunicable-disease/definitions-disease-control Acessado a 31/1/2021 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7328541/#bib6 Acessado a 2/1/2021 Figura 1: Fonte https://pt.khanacademy.org/science/biology/ecology/population-growth-and-regulation/a/exponential-logist ic-growth Acessado a 2/1/2021
Ferramentas de operações matriciais:
https://matrix.reshish.com/ Acessado a 3/2/2020