Entropia ApEn e SampEn - Índices Não Lineares

3.2 Índices Não Lineares

3.2.2 Entropia ApEn e SampEn

A análise da dinâmica não linear é uma abordagem poderosa para a compreensão de sistemas biológicos. Os cálculos, no entanto, geralmente requerem conjuntos grandes de dados, o que pode ser difícil, ou impossível, de se obter. Em Pincus (1991) encontra-se o desenvolvimento da teoria e método para medir a regularidade associada à entropia de Kolmogorov(Grassberger e Procaccia, 1983) (taxa de geração de informação nova) que pode ser aplicada a séries temporais de dados clínicos, tipicamente curtas e ruidosas.

O método analisa a correspondência de janelas de uma dada série temporal, tal que janelas mais frequentes e similares implicam em menores valores de entropia . Assim, um valor baixo de ApEn reflete um elevado grau de regularidade.

Nesse trabalho, são estudados e implementados os algoritmos para o cálculo da entropia aproximada (do inglês, approximate entropy ou ApEn) e entropia amostral (do inglês, sample entropyou SampEn).

ApEn

ApEn é uma medida estatística de regularidade/similaridade que quantifica a imprevi- sibilidade das flutuações em uma série temporal, como as séries de intervalos RR. Intuiti- vamente, pode-se pensar que a presença de padrões de flutuação repetitivos em uma série temporal a torna mais previsível do que uma série temporal em que tais padrões estão ausen- tes. Uma série temporal contendo muitos padrões repetitivos tem um valor de ApEn relati- vamente pequeno, ao passo que um processo menos previsível (ou seja, mais complexo) tem um maior valor de ApEn.

Descrição do Algoritmo

O parâmetros N, m e r devem ser fixados para cada cálculo. N é o comprimento da série temporal x, m é o comprimento das sequências (subséries da série original) que serão comparadas, e r é a tolerância para aceitação de correspondência das sequências. É conveniente definir a tolerância em função do desvio padrão da série de dados (r = f (std (x)), tal que f (·) representa uma função de seu argumento), de tal forma que sequências no conjunto de dados com diferentes amplitudes possam ser comparadas.

Para uma série temporal de N pontos, RR( j) : 1 ≤ j ≤ N forma os N − m + 1 vetores xm(i) para {i|1 ≤ i ≤ N − m + 1}, onde xm(i) = {RR(i + k) : 0 ≤ k ≤ m − 1} é o vetor de tamanho m de RR(i) a RR(i + m − 1). A distância entre dois destes vetores é definida como a máxima diferença das componentes escalares correspondentes, de acordo com

d[x(i), x( j)] = max{|RR(i + k) − RR( j + k)| : 0 ≤ k ≤ m − 1}. (3.15)

Seja Bio número de vetores xm( j) com distância menor ou igual a r de xm(i) e seja Aio número de vetores xm+1( j) com distância menor ou igual a r de xm+1(i). Considere a função

C_im(r) = Bi

N− m + 1. (3.16)

No cálculo de C_im(r), o vetor xm(i) é denominado de modelo. Quando o vetor xm( j) está distante a menos de r do vetor xm(i) dizemos que há correspondência de modelo e os vetores atendem ao critério de similaridade. Assim, C_im(r) é a probabilidade que qualquer vetor xm( j) esteja a uma distância menor ou igual a r de xm(i).

De forma análoga, podemos definir C_im+1(r) como a probabilidade que qualquer vetor xm+1( j) esteja a uma distância menor ou igual a r de xm+1(i), tal que

C_im+1(r) = Ai

N− m. (3.17)

A estimativa da entropia aproximada pode ser definida como (Pincus, 1991)

ApEn(m, r, N) = Φm(r) − Φm+1(r), (3.18) Φm(r) = (N − m + 1)−1 N−m+1

∑

i=1 ln[C_im(r)], (3.19)

onde, Φm(r) é a média dos logaritmos naturais das funções C_im(r), de acordo com a Equação 3.19. Manipulações algébricas levam a

ApEn(m, r, N) = (N − m + 1)−1 N−m+1

∑

i=1 ln[C_im(r)] − (N − m)−1 N−m

∑

i=1 ln[C_im+1(r)]. (3.20)

Quando N é grande, ApEn(m, r, N) é aproximadamente igual a (N − m)−1 N−m ∑ i=1 − lnAi Bi, a

média sobre i do negativo do logaritmo natural da probabilidade condicional de que duas sequências que são semelhantes para o comprimento m permaneçam semelhantes (a uma tolerância de r) em m + 1, ou seja, de que d[xm+1(i), xm+1( j)] ≤ r tal que d[xm(i), xm( j)] ≤ r.

Retomando a descrição anterior da entropia aproximada, vemos que o algoritmo ApEn é tendencioso (o valor esperado não é igual ao parâmetro estimado) e sugere maior similaridade do que a realidade, pois considera d[xm(i), xm(i)] = 0 nos cálculos. É importante notar que o ApEn utiliza a abordagem de comparação de modelo para calcular uma probabilidade logarítmica média, primeiramente calculando a probabilidade para cada modelo. Então, o algoritmo ApEn requer que cada modelo contribua com uma probabilidade definida, diferente de zero. Ou seja, que Cm_i (r) 6= 0 tal que não se tenha ln(0) na Equação 3.19. Esta limita- ção é contornada permitindo que cada modelo seja similar a si. Formalmente, em função de d[xm(i), xm(i)] = 0 ≤ r, o algoritmo conta cada modelo como correspondente a si, fenômeno conhecido como self-matching. Isto garante que as funções C_im(r) sejam maiores que zero para todo i, consequentemente evitando a ocorrência de ln(0) nos cálculos. A eliminação das auto correspondências não é trivial, visto que a remoção faria ApEn altamente sensível a outliers, e se houvesse um único modelo tal que não houvesse outro modelo corresponde, ApEn não poderia ser calculada devido à ocorrência de ln(0).

SampEn

Simplificadamente, os cálculos de SampEn podem ser vistos como um processo de amos- tragem de informações sobre a regularidade da série temporal e utilizam estatísticas amos- trais para nos informar sobre a confiabilidade do resultado obtido. Existem duas grandes diferenças entre SampEn e ApEn. Primeiro, SampEn não conta os self-matches. Esta carac- terística é justificada visto que a entropia é concebida como uma medida da taxa de produção de informação (Eckmann e Ruelle, 1985), e, neste contexto, comparar dados com eles pró- prios não tem significado. Segundo, SampEn não utiliza a abordagem de comparação de modelo ao estimar probabilidades condicionais. Para ser definido, SampEn requer apenas que um modelo encontre uma correspondência de sequências de comprimento m + 1. Em Grasberger e Procaccia (1983) tem-se a definição de Cm(r) como a média de C_im(r), que por sua vez é a probabilidade que qualquer vetor xm( j) esteja a uma distância inferior a r de xm(i), ou seja, Cm(r) = (N − m + 1)−1 N−m+1

∑

i=1 C_im(r). (3.21)

Isto difere da Equação 3.19 somente pelo fato de que Φm(r) é a média de logaritmos naturais de C_im(r). Grasberger e Procaccia (1983) sugerem aproximar a entropia de Kolmogorov de

um processo, representado por uma série temporal, por lim r→0m→∞lim N→∞lim ln Cm+1_(r) Cm_(r) , (3.22) Cm+1(r) Cm(r) = (N − m)−1 N−m ∑ i=1 A_i (N − m + 1)−1N−m+1∑ i=1 Bi ∴C m+1_(r) Cm(r) = (N − m + 1) N−m ∑ i=1 A_i (N − m)N−m+1∑ i=1 Bi . (3.23)

Nesta forma, no entanto, os limites tornam o algoritmo inadequado para a análise de séries temporais finitas com o ruído e os self-matches são contados. Por isso, duas alterações são feitas ao algoritmo para adaptá-lo. Em primeiro lugar, não se considerou self-matches ao calcular Cm(r). Em segundo lugar, considerou-se somente os primeiros N − m vetores de comprimento m, garantindo que, para 1 ≤ i ≤ N − m, xm(i) e xm+1(i) sejam definidos.

Define-se Bm_i (r) como (N − m − 1)−1vezes o número de vetores xm(i) distantes a menos de r de xm( j), tal que 1 ≤ i ≤ N − m, e i 6= j para eliminar self-matches. Assim,

Bm(r) = (N − m)−1 N−m

∑

i=1,i6= j

Bm_i (r). (3.24)

De forma semelhante, define-se Am_i (r) como (N − m − 1)−1 vezes o número de vetores xm+1(i) distantes a menos de r de xm+1( j), com 1 ≤ i ≤ N − m e i 6= j. Assim,

Am(r) = (N − m)−1 N−m

∑

i=1,i6= j

Am_i (r). (3.25)

Então, Bm(r) é a probabilidade que duas sequências de tamanho m sejam correspondentes, ao passo que Am(r) é a probabilidade que duas sequências de tamanho m + 1 sejam correspondentes. Finalmente, o parâmetro

SampEn(m, r) = lim N→∞ − ln A m_(r) Bm_(r) , (3.26)

o qual é estimado pela estatística

SampEn(m, r, N) = − ln A m_(r) Bm_(r)

. (3.27)

Para evitar confusão quanto aos parâmetros r e o comprimento m do vetor modelo, considera-se

B= {[(N − m − 1)(N − m)]/2}Bm(r)

onde, B é o número total de correspondências de modelo de comprimento m e A o nú- mero total de correspondências de modelo de comprimento m + 1. Observa-se que A/B = [Am(r)/Bm(r)]. Logo, da Equação 3.27, tem-se

SampEn(m, r, N) = − ln A B

No documento Identificação de pacientes com diabetes baseada na variabilidade da frequência cardíaca (páginas 62-66)