Análise dos fatores associados à utilização de cuidados médicos por doentes hipertensos

(1)

UNIVERSIDADE DE LISBOA

FACULDADE DE CIˆ

ENCIAS

DEPARTAMENTO DE ESTATÍSTICA E INVESTIGAÇ ÃO OPERACIONAL

An´

alise dos fatores associados `

a

utiliza¸

c˜

ao de cuidados m´

edicos por

doentes hipertensos

Bernardete Andrade Pinheiro

Projeto

MESTRADO EM BIOESTAT´ISTICA

2013

(2)

UNIVERSIDADE DE LISBOA

FACULDADE DE CIˆ

ENCIAS

DEPARTAMENTO DE ESTATÍSTICA E INVESTIGAÇ ÃO OPERACIONAL

An´

alise dos fatores associados `

a

utiliza¸

c˜

ao de cuidados m´

edicos por

doentes hipertensos

Bernardete Andrade Pinheiro

MESTRADO EM BIOESTAT´ISTICA

Projeto orientado pela Prof.

a

Mar´ılia Cristina de Sousa

Antunes

(3)

Agradecimentos

Os meus sinceros agradecimentos `a professora Mar´ılia, que me orientou,

motivou e desafiou. Obrigada pelo apoio constante, pela disponibilidade,

pela paciˆencia e por n˜ao deixar de acreditar. Foi um prazer imenso, todos

os momentos foram enriquecedores. Aproveito para agradecer `as restantes

professoras do DEIO pelos ensinamentos e por me fazerem sentir em casa. Ao professor Gouveia Pinto pela oportunidade e pelo incentivo na minha

forma¸c˜ao.

`

A Teresa e ao Lu´ıs pela ajuda e compreens˜ao de todos os dias.

Aos meus colegas de mestrado pelo companheirismo que tornou este

ca-minho mais f´acil de percorrer. Um agradecimento especial a quem me

acom-panhou mais de perto. Obrigada Patr´ıcia, Beatriz e Nuno!

Aos meus amigos de sempre pela confian¸ca e apoio. Foram fundamentais!

N˜ao posso deixar de agradecer ao IMP pela oportunidade e a toda a

equipa pela colabora¸c˜ao neste trabalho. Um obrigada muito especial `a

Mi-lene pelos seus contributos preciosos, sempre foste uma inspira¸c˜ao.

`

A minha fam´ılia, principalmente aos meus pais e `a minha irm˜a, que

esti-veram sempre comigo, com uma palavra de confian¸ca e amor.

Por fim, um agradecimento `a Carlota que me fez acreditar que se o

Ho-mem quiser, a obra nasce!

(4)

(5)

Resumo

A equidade no acesso aos cuidados de saúde é um dos pressupostos básicos

do sistema de sa´ude portuguˆes, no entanto barreiras ao acesso persistem,

sendo necessária a implementa¸cão de estratégias que reduzam estas

desigual-dades. Existem alguns estudos direcionados para analisar os determinantes

da utiliza¸cão de cuidados médicos em Portugal, no entanto análises que

estu-dem estes fatores na popula¸c˜ao hipertensa s˜ao escassas. Este estudo pretende

analisar os fatores que determinam a utiliza¸c˜ao de cuidados m´edicos,

motiva-dos pela hipertens˜ao, em duas coortes de doentes hipertensos, seguidos nos

Cuidados de Sa´ude Prim´arios.

Foram analisados os dados provenientes do estudo DIMATCH-HTA, um

estudo observacional longitudinal em duas coortes, imigrantes e n˜ao

imigran-tes. A vari´avel indicadora do consumo de recursos foi o n´umero de consultas

m´edicas, autoreportadas, por motivos relacionados com a hipertens˜ao nos

trˆes meses anteriores a cada entrevista. A vari´avel foi recolhida em quatro

momentos distintos, 3,6,9 e 12 meses ap´os entrada no estudo. As vari´aveis

explicativas consideradas foram idade, sexo, etnia, estado civil, rendimento,

n´ıvel de ensino, seguro privado, subsistema de sa´ude, ocupa¸c˜ao profissional,

n´umero de pessoas do agregado, diabetes, colesterol, controlo de hipertens˜ao,

tempo desde diagnóstico de hipertensão e autoperce¸cão da doen¸ca.

A metodologia usada implicou a compara¸c˜ao de diferentes m´etodos de

regress˜ao de contagem, que permitissem simultaneamente acomodar a

cor-rela¸c˜ao dos dados e a dispers˜ao. Entre os modelos estimados, os testes

es-tat´ısticos deram preferˆencia ao modelo de efeitos aleat´orios e ao modelo de

classes latentes. Os modelos de efeitos aleatórios são pouco usados no âmbito

(6)

iv

da economia da sa´ude, mas este trabalho contribui para demonstrar que

es-tes podem ser uma alternativa interessante para acomodar a heterogeneidade individual.

Os resultados do modelo de efeitos aleat´orios permitiram concluir que

existem diferen¸cas significativas na utiliza¸c˜ao de cuidados m´edicos consoante

a escolaridade. A perce¸cão do estado de saúde também foi um fator

deter-minante no número médio de consultas. Ser beneficiário de um subsistema

de saúde teve impacto negativo no número médio de consultas. O modelo

de classes latentes sugere a existˆencia de duas subpopula¸c˜oes com diferentes

n´ıveis de utiliza¸c˜ao. Na classe dos utilizadores “mais controlados”verificou-se

que os principais determinantes estavam relacionados com o estado de sa´ude.

Por sua vez, na classe dos “menos controlados”, a escolaridade e perce¸c˜ao

influenciaram significativamente a utiliza¸c˜ao de cuidados. Nesta classe de

utilizadores, a vari´avel diabetes teve impacto contr´ario ao esperado, estando

associado a uma menor utiliza¸c˜ao. O estado de sa´ude e etnia foram os

indi-cadores que mais contribu´ıram para explicar a afeta¸c˜ao `as classes.

Palavras-chave: Hipertensão, Utiliza¸cão de cuidados de saúde, Modelos

(7)

Abstract

One of the goals of the Portuguese Health System is to ensure equity in access to health care services, however barriers to access persist, requiring the implementation of strategies in order to reduce these inequalities. There are some studies aimed to study the determinants of health care utilization in Portugal, however specific studies on hypertensive population are scarce. The aim of this study is to identify the determinants of health care utiliza-tion in two cohorts of hypertensive patients, followed in Primary Health Care. The data used for this analysis is from the DIMATCH-HTA study, a longi-tudinal study of two cohorts, immigrants and non-immigrants. The measure of utilization used was the self-reported number of medical visits related to hypertension, within 3 months prior to each interview. The variable was collected in four different times, 3, 6, 9 and 12 months after study entry. The explanatory variables considered were age, gender, ethnicity, marital status, income, education level, private insurance, health subsystem, occupation, number of people in household, diabetes, cholesterol, hypertension control, time since diagnosis of hypertension and self-perception of disease.

The methodology involved the comparison of different regression models for count data, which allowed correlation and dispersion of data. Among the estimated models, statistical tests gave preference to the random effects mo-del and the latent class momo-del. The random effects momo-dels are slightly used in health economics, however this study contributes to demonstrate that these models can be an interesting alternative to accommodate individual hetero-geneity.

(8)

vi

The results showed significant differences in health care utilization depen-ding on educational level. Also the perception of health status was determi-nant in health care utilization. In the random effects model, to be beneficiary of an health subsystem had a negative impact on health care utilization due to hypertension. The latent class model suggests the existence of two subpo-pulations with different levels of usage. In the class of “more controlled”users it was found that the main determinants were health related. In turn, in the class of the “less controlled”, education and perception influenced the use of care. Also in this class of users, the variable diabetes had an impact oppo-sed to what was expected, being associated with a lower utilization. Health status and ethnicity appeared to be the most important indicators of class membership.

Keywords: Hypertension, Health care utilisation, Longitudinal models, Count models.

(9)

Conte´

udo

Agradecimentos i Resumo iii Abstract v 1 Introdu¸c˜ao 1 1.1 Hipertens˜ao arterial . . . 1

1.2 Consumo de recursos de sa´ude . . . 3

1.3 Estudo DIMATCH-HTA . . . 7

2 Objetivo 9 3 Dados do estudo DIMATCH-HTA 11 3.1 Constru¸c˜ao da base de dados . . . 11

3.2 Vari´avel Resposta . . . 12

3.3 Outras vari´aveis . . . 12

3.4 Imputa¸c˜ao de valores de press˜ao arterial . . . 17

4 Metodologia 21 4.1 An´alise de dados longitudinais . . . 21

4.1.1 Modelo Marginal: Equa¸cões de estima¸cão generalizadas 23 4.1.2 Modelo de Efeitos aleatórios: Modelos lineares genera-lizados mistos . . . 28

4.2 An´alise de dados com sobredispers˜ao . . . 30

4.2.1 Modelos Barreira . . . 31 vii

(10)

viii CONTE ´UDO

4.2.2 Modelos Inflacionados no Zero . . . 31

4.2.3 Modelos de classes latentes . . . 34

4.3 Diagn´ostico do modelo . . . 36

4.3.1 Multicolinearidade . . . 36

4.3.2 An´alise de Res´ıduos . . . 36

4.4 Software . . . 38

5 Resultados 39 5.1 An´alise Explorat´oria . . . 39

5.1.1 Descri¸c˜ao inicial da amostra . . . 39

5.1.2 Vari´avel resposta: N´umero de consultas por 3 meses . . 41

5.1.3 Vari´aveis dependentes do tempo: controlo medido e autopercecionado . . . 44

5.2 Ajustamento dos modelos de regress˜ao . . . 47

5.2.1 Modelo marginal . . . 47

5.2.2 Modelo linear generalizado misto (GLMM) . . . 61

5.2.3 Modelos inflacionados no zero . . . 65

5.2.4 Modelo de classes latentes (MCL) . . . 71

5.2.5 Compara¸c˜ao dos modelos de regress˜ao . . . 78

6 Discussão e Conclusão 81 6.1 Discussão . . . 81

6.2 Conclus˜oes . . . 90

Anexo A - Question´arios aplicados no DIMATCH-HTA 99

Anexo B - Fun¸c˜oes do R e do Stata 117

(11)

Lista de Figuras

1.1 Modelo conceptual inicial de Andersen (Andersen, 1968) . . . 4

3.1 Boxplot da press˜ao arterial sist´olica imputada . . . 18

3.2 Boxplot da press˜ao arterial diast´olica imputada . . . 19

5.1 Gráfico mosaico do número do número de consultas por mo-mento de avalia¸cão. . . 43

5.2 Gr´aficos dos perfis individuais do n´umero de consultas. . . 44

5.3 Gráficos do perfil médio do número de consultas por etnia e por sexo. . . 45

5.4 Gráficos do perfil médio do número de consultas por diagnóstico diabetes e por autoperce¸cão de controlo de PA. . . 45

5.5 Gráficos do perfil médio do número de consultas por grupo etário e unidade funcional. . . 46

5.6 Boxplot dos valores de press˜ao arterial por momento de ava-lia¸c˜ao. . . 46

5.7 Gr´aficos da an´alise de res´ıduos para o Modelo marginal II (Poisson). . . 59

5.8 Gr´aficos da an´alise de res´ıduos para o Modelo marginal III (Binomial Negativo). . . 60

5.9 Gr´aficos de diagn´ostico do Modelo GLMM II. . . 64

5.10 Gr´aficos da an´alise de res´ıduos do modelo ZIP. . . 68

5.11 Gr´aficos da an´alise de res´ıduos do modelo ZINB. . . 69

5.12 Gr´aficos da an´alise de res´ıduos do modelo de classes latentes . 77

(12)

(13)

Lista de Tabelas

1.1 Classifica¸c˜ao dos n´ıveis de press˜ao arterial em adultos (idade

igual ou superior a 18 anos) . . . 2

3.1 Dimens˜ao da base de dados . . . 12

3.2 Descri¸c˜ao das vari´aveis presentes no estudo (I) . . . 14

3.3 Descri¸c˜ao das vari´aveis presentes no estudo (II) . . . 15

3.4 Descri¸c˜ao das vari´aveis presentes no estudo (III) . . . 16

3.5 Imputa¸c˜ao de valores de press˜ao arterial . . . 18

4.1 Estruturas correla¸c˜ao de Liang & Zeger (1986) . . . 26

5.1 Caracter´ısticas baseline I. . . 40

5.2 Caracter´ısticas baseline II. . . 41

5.3 Estat´ıstica descritiva da variável resposta número de consultas nos últimos 3 meses. . . 42

5.4 Tabela de frequˆencias do n´umero de consultas por 3 meses. . . 42

5.5 Propor¸c˜ao de indiv´ıduos que utilizaram cada tipo de servi¸co. . 43

5.6 Valores de press˜ao arterial por momento de avalia¸c˜ao. . . 45

5.7 Propor¸c˜ao de controlo medido e controlo autopercecionado. . . 47

5.8 Tabela de frequências do número de observa¸cões por indiv´ıduo. 49 5.9 Estat´ıstica descritiva da variável resposta (1132 observa¸cões). . 49

5.10 Número médio (desvio padrão) de consultas por grupo (1132 observa¸cões). . . 50

5.11 Estimativas dos parâmetros, erros padrão (EP) e valores-p do Modelo marginal I com diferentes estruturas de correla¸cão. . . 51

5.12 Matriz de correla¸c˜ao n˜ao estruturada. . . 52 xi

(14)

xii LISTA DE TABELAS

5.13 Matriz de correla¸c˜ao uniforme. . . 52

5.14 Compara¸c˜ao de modelos. . . 53

5.15 Estimativas do Modelo marginal II e do Modelo marginal III. . 56

5.16 Matriz de correla¸c˜ao n˜ao estruturada do Modelo marginal II. . 57

5.17 Matriz de correla¸c˜ao n˜ao estruturada do Modelo marginal III. 57

5.18 VIF das covari´aveis candidatas ao modelo estimado, por

mo-mento de avalia¸c˜ao. . . 58

5.19 Valores observados e valores ajustados pelos modelos

margi-nais por momento. . . 61

5.20 Compara¸c˜ao de modelos com diferentes efeitos aleat´orios. . . . 62

5.21 Estimativas do Modelo GLMM II com dois efeitos aleat´orios. . 63

5.22 Valores observados e valores ajustados pelo Modelo GLMM II

por momento. . . 65

5.23 Estimativas dos parˆametros, erros padr˜ao (EP), valores-z e

valores-p dos Modelos Inflacionados no zero. . . 66

5.24 Valores observados e valores ajustados pelos ZIM por momento. 70

5.25 Probabilidade estimada de n˜ao ir ao m´edico. . . 70

5.26 Valores AIC, BIC e logaritmo da verosimilhan¸ca. . . 71

5.27 Logaritmo da verosimilhan¸ca, valores BIC e AIC para cada

um dos modelos. . . 71

5.28 Estimativas dos parˆametros, erros padr˜ao (EP), valores-z e

valores-p do modelo de classes latentes. . . 73

5.29 Estimativas do modelo logit GEE para explicar os

determi-nantes da afeta¸c˜ao `a classe 2. . . 75

5.30 Valores observados e valores ajustados pelo Modelo Classes

Latentes por momento. . . 78

5.31 Valores AIC e MSR para cada um dos modelos. . . 79

(15)

(16)

CAP´ITULO

1

Introdu¸c˜

ao

1.1 Hipertens˜

ao arterial

As doen¸cas cardiovasculares s˜ao das principais causas de morbilidade e

mortalidade em todo o mundo e em Portugal. A hipertens˜ao arterial (HTA)

´

e considerada um dos mais importantes fatores de risco para as doen¸cas

coron´aria e cerebrovascular. A n´ıvel mundial, estima-se que as doen¸cas

car-diovasculares tenham sido respons´aveis por 17,3 milh˜oes de mortes (30%) em

2008. Estimativas de 2004 apontam para a hipertens˜ao como o principal

fa-tor de risco entre as doen¸cas cardiovasculares, causando cerca de 7,5 milh˜oes

de mortes (12,8%) em todo o mundo (Mendis et al., 2011; Mathers et al., 2009).

Nas últimas décadas tem-se verificado uma redu¸cão na taxa de

morta-lidade por doen¸cas cardiovasculares na popula¸c˜ao portuguesa. Em 2010, a

mortalidade padronizada por doen¸cas do aparelho circulat´orio foi de 169,29

mortes por 100000 habitantes. Para o mesmo ano, a mortalidade padronizada

por doen¸ca isqu´emica e por doen¸ca cerebrovascular, foram, respetivamente,

39,87 mortes e 71,07 mortes por 100000 habitantes (Dire¸c˜ao-Geral da Sa´ude,

2013b). Analisando apenas a popula¸c˜ao com 65 ou mais anos, estes valores

s˜ao bastante superiores, estimando-se que taxa de mortalidade padronizada

por doen¸cas do aparelho circulat´orio seja de 1348,0 mortes por 100000

habi-tantes. Relativamente `a mortalidade por doen¸ca cerebrovascular e por doen¸ca

isqu´emica para o mesmo grupo et´ario, os valores estimados foram de 581,3

(17)

2 CAP´ITULO 1. Introdu¸c˜ao

e 290,4 mortes por 100000 habitantes, respetivamente (Instituto Nacional de Estat´ıstica, 2013).

De acordo com a Norma no20/2011 de 28/09/2011 (Dire¸c˜ao-Geral da

Saúde, 2011) “O diagnóstico de hipertensão arterial (HTA) define-se, em

avalia¸cão de consultório, como a eleva¸cão persistente, em várias medi¸cões e

em diferentes ocasiões, da pressão arterial sistólica (PAS) igual ou superior

a 140 mmHg e/ou da press˜ao arterial diast´olica (PAD) igual ou superior a

90 mmHg”, em doentes adultos com idade superior ou igual a 18 anos e que

não tomem medica¸cão anti-hipertensora e não apresentem nenhuma

pato-logia aguda concomitante. A hipertens˜ao arterial pode categorizar-se em 3

graus, de acordo com a tabela 1.1.

Categoria PAS (mmHg) PAD (mmHg)

´

Optima < 120 e < 80

Normal 120-129 e/ou 80-84

Normal-Alta 130-139 e/ou 85-89

Hipertens˜ao arterial

Grau 1 (ligeira) 140-159 e/ou 90-99

Grau 2 (moderada) 160-179 e/ou 100-109

Grau 3 (grave) ≥ 180 e/ou ≥ 110

Hipertens˜ao sist´olica isolada (HSi) ≥ 140 e < 90

Tabela 1.1: Classifica¸c˜ao dos n´ıveis de press˜ao arterial em adultos (idade

igual ou superior a 18 anos)

O estudo “Prevalence, awareness, treatment and control of hypertension in Portugal: the PAP study”(De Macedo et al., 2007) estimou que 42,1% da

popula¸c˜ao portuguesa entre os 18 e os 90 anos sofria de hipertens˜ao,

represen-tando mais de 3 milh˜oes de hipertensos adultos em Portugal. A prevalˆencia

de HTA estimada foi mais elevada no sexo masculino do que no sexo

femi-nino (49,5% vs 38,4%). O estudo revelou tamb´em que apenas 46,1% dos

inquiridos tinham conhecimento de que sofriam de HTA e 39,0% estavam a ser tratados. Ainda o mesmo estudo indicou que apenas 11,2% dos hiper-tensos portugueses tinha doen¸ca controlada. Relativamente aos doentes que

indicaram estar a tomar medica¸c˜ao regularmente, apenas 28,6% tinham

hi-pertens˜ao controlada.

(18)

in-1.2 Consumo de recursos de sa´ude 3

div´ıduos africanos. ´E tamb´em entre estes que se regista uma maior taxa

de mortalidade por acidente vascular cerebral (AVC) (Howard et al., 2006).

Apesar dos africanos terem uma maior consciˆencia da doen¸ca e de mais

pro-vavelmente estarem sob medica¸c˜ao, caso tenham conhecimento da doen¸ca,

a possibilidade de estarem controlados ´e inferior (Howard et al., 2006).

Al-gumas das raz˜oes que tˆem sido dadas para explicar o controlo insuficiente

incluem fatores gen´eticos, estilos de vida, acesso e utiliza¸c˜ao dos cuidados de

sa´ude entre outras (Howard et al., 2006).

A popula¸c˜ao estrangeira residente em Portugal, em 2012, totalizava 417042

cidad˜aos. Entre as nacionalidades mais representativas est˜ao alguns pa´ıses

africanos de l´ıngua oficial portuguesa (PALOP), como Cabo Verde (10,3%),

Angola (4,9%), Guiné-Bissau (4,3%) e São Tomé e Pr´ıncipe (2,5%) (SEF/Gabinete de

Estudos, 2013). Uma vez que a comunidade imigrante africana residente

em Portugal tem uma dimens˜ao consider´avel e sabendo que se estima uma

maior prevalˆencia de hipertens˜ao entre os indiv´ıduos africanos, torna-se

im-portante estudar de que forma a migra¸c˜ao e as carater´ısticas culturais e

s´ocio-econ´omicas determinam o controlo da doen¸ca.

Os cuidados de sa´ude prim´arios desempenham um papel crucial no

con-trolo de coen¸cas crónicas, como a hipertensão. O Plano Nacional de Saúde

2011-2016 reconhece a necessidade de reduzir as desigualdades em sa´ude e a

necessidade de açcões diferenciadas dirigidas a grupos vulneráveis, nos quais

se inserem os imigrantes (Dire¸c˜ao-Geral da Sa´ude, 2013a). Assim, percebe-se

a importˆancia de analisar a existˆencia de eventuais desigualdades,

provoca-das por fatores que, ao n˜ao estarem relacionados com a necessidade, p˜oem

em causa o princ´ıpio da equidade no acesso aos cuidados de sa´ude.

1.2 Consumo de recursos de sa´

ude

Em 1968 Andersen (Andersen, 1968) propˆos um modelo

comportamen-tal conceptual para explicar a utiliza¸c˜ao de cuidados de sa´ude, em que as

determinantes da utiliza¸cão são classificadas em 3 grupos (i) variáveis de

predisposi¸cão, (ii) variáveis de capacita¸cão e (iii) variáveis de necessidade. O

modelo inicial encontra-se representado na figura 1.1.

As caracter´ısticas de predisposi¸c˜ao mencionadas no modelo incluem

fato-res demogr´aficos como idade e sexo, vari´aveis relacionadas com a estrutura

(19)

com-4 CAP´ITULO 1. Introdu¸c˜ao

Figura 1.1: Modelo conceptual inicial de Andersen (Andersen, 1968)

preende fatores que determinam o estatuto de um indiv´ıduo na comunidade e a forma como ele se relaciona com os problemas, sendo tradicionalmente

avaliada através de variáveis como educa¸cão, ocupa¸cão e etnia. As cren¸cas

relativamente `a sa´ude refletem atitudes, valores e conhecimentos que as

pes-soas têm em rela¸cão à saúde e aos servi¸cos de saúde, que podem influenciar

a perce¸cão de necessidade e a consequente utiliza¸cão de cuidados de saúde

(Andersen, 1995; Babitsch et al., 2012).

As variáveis de capacita¸cão compreendem duas vertentes - a capacita¸cão

da comunidade, que se relaciona com a capacidade da comunidade fornecer as

condi¸cões e recursos de saúde necessários para servir a popula¸cão, e a

capa-cita¸c˜ao pessoal, que se refere aos meios e conhecimentos de que o indiv´ıduo

dispõe para aceder e usar os servi¸cos de saúde. Neste contexto, variáveis

como rendimento, ter ou n˜ao ter seguro de sa´ude ou tempos de espera

po-dem ser relevantes.

As vari´aveis de necessidade consideradas no modelo comportamental

di-zem respeito `a forma como os indiv´ıduos percecionam o seu pr´oprio estado de

sa´ude e como experienciam alguns sintomas, e se consideram ou n˜ao que os

seus problemas tˆem importˆancia suficiente que justifique a procura de ajuda

profissional. A necessidade avaliada refere-se `a avalia¸c˜ao do profissional sobre

o estado de sa´ude do doente e `a necessidade do doente procurar cuidados de

sa´ude.

Em 1995 o mesmo autor (Andersen, 1995) propˆos um modelo mais

com-plexo, no qual considera a natureza dinˆamica e recursiva do consumo de

(20)

in-1.2 Consumo de recursos de sa´ude 5

fluenciam a utiliza¸c˜ao de servi¸cos de sa´ude e, consequentemente, o estado

de saúde, considerando também a influência dos resultados de saúde nos

fa-tores de predisposi¸c˜ao, na necessidade e no comportamento relativamente `a

sa´ude. O modelo considera ainda as condi¸c˜oes externas, como as

componen-tes pol´ıticas e económicas, como variáveis importantes na compreensão da

utiliza¸cão dos recursos de saúde. Além disso, reconhece práticas pessoais de

saúde, como a alimenta¸cão e o exerc´ıcio, como fatores que estão interligados

com a utiliza¸c˜ao de cuidados de sa´ude e que influenciam os resultados de

sa´ude. Apesar deste ser um modelo que explica melhor os v´arios

interve-nientes no processo, a sua complexidade implica m´etodos estat´ısticos mais

sofisticados.

Continua a ser uma preocupa¸c˜ao estudar os fatores que influenciam o

acesso e a utiliza¸cão dos cuidados de saúde. A promo¸cão de equidade no

acesso aos cuidados de sa´ude constitui um dos pressupostos b´asicos do

sis-tema público de saúde, que se encontra refor¸cado nas Lei das Bases da Saúde

“´E objetivo fundamental obter igualdade dos cidad˜aos no acesso aos

cui-dados de saúde, seja qual for a sua condi¸cão económica e onde quer que

vivam”(Ministério da Saúde, 1990). É neste contexo que se insere a no¸cão de

equidade horizontal, segundo a qual, para os mesmos n´ıveis de necessidade,

o acesso e utiliza¸c˜ao de cuidados de sa´ude deve ser igual, independentemente

das caracter´ısticas individuais (Wagstaff & Van Doorslaer, 2000).

Alguns estudos tˆem sido elaborados com objetivo de avaliar se o acesso

aos cuidados de sa´ude ´e diferente para indiv´ıduos com igual n´ıvel de

ne-cessidade. Estes estudos pretendem estudar se existem ou n˜ao fatores, n˜ao

relacionados com o estado de sa´ude, facilitadores ou inibidores do acesso. Os

modelos de contagem mais usados para descrever a utiliza¸c˜ao de cuidados de

sa´ude s˜ao os modelos barreira (Pohlmeier & Ulrich, 1995) e os modelos de

classes latentes (Deb & Trivedi, 1997, 2002).

Deb & Trivedi (1997, 2002) foram os pioneiros na aplica¸c˜ao de

mode-los de classes latentes na economia da sa´ude, defendendo esta abordagem

como a mais apropriada para descrever a utiliza¸c˜ao de cuidados de sa´ude.

Numa aplica¸c˜ao emp´ırica, os autores recorrem aos dados do National

Medi-cal Expenditure Survey, realizado em 1987, nos Estados Unidos da Am´erica

(EUA). Para este estudo foi considerada uma subamostra, correspondente `

a popula¸c˜ao idosa, e os modelos foram estimados para seis medidas de

uti-liza¸cão. Os resultados enfatizam a importância do estado de saúde e do

seguro de sa´ude como determinantes na procura de cuidados de sa´ude, e

(21)

6 CAP´ITULO 1. Introdu¸c˜ao

Atella et al. (2004) usaram modelo de classes latentes probit para

des-crever a decisão conjunta de visitar três tipos de médicos, cl´ınico geral,

médico especialista no servi¸co público e médico privado. Os dados usados

para esta an´alise foram obtidos a partir do “Indagine Multiscopo sulle

Fa-miglie”(Multipurpose Household Survey), realizado em It´alia, em 1991. Os

autores demonstraram que o rendimento n˜ao parece afetar o acesso aos

cui-dados de sa´ude (qualquer tipo), no entanto, `a medida que o rendimento

aumenta existe uma tendˆencia para recorrer ao m´edico especialista privado.

Bago d’Uva (2006) desenvolve um trabalho no qual compara diferentes

metodologias econom´etricas para dados de contagem, com especial interesse

no modelo de classes latentes. A autora prop˜oe um novo modelo de

clas-ses latentes, em que cada classe latentes ´e descrita por um modelo barreira

binomial negativo. Além da combina¸cão destes modelos, neste trabalho é

feita a extens˜ao dos modelos de classes latentes transversais para a estrutura

em painel. Os dados usados para testar os modelos eram provenientes do Rand Health Insurance Experiment, um estudo experimental conduzido nos

EUA, entre 1974 e 1982. A variável de utiliza¸cão usada foi o número de

consultas em ambulat´orio num per´ıodo de um ano. Comparativamente aos

modelos existentes, o modelo proposto demonstrou um melhor ajustamento

aos dados, enfatizando as vantagens da estrutura em painel na acomoda¸c˜ao

da heterogeneidade individual e na estima¸c˜ao do modelo. Os resultados

in-dicam que o efeito do pre¸co, medido como taxa de copagamento, ´e maior na

classe dos utilizadores pouco frequentes, sendo as diferen¸cas registadas

prin-cipalmente na probabilidade de ir ao m´edico. Adicionalmente, os resultados

revelam que o efeito do estado de saúde é mais importante no número de

consultas, do que para a probabilidade de ter pelo menos uma consulta. O trabalho realizado por Louren¸co et al. (2007) compara dois modelos de contagem, o modelo binomial negativo e o modelo de classes latentes. Os

dados usados foram provenientes do Inqu´erito Nacional de Sa´ude 1998/1999,

para a popula¸cão global, e a variável resposta usada foi o número de

con-sultas nos trˆes meses anteriores `a entrevista. Os autores concluem sobre o

modelo de classes latentes baseado na distribui¸c˜ao binomial negativa, que

aponta para a ausˆencia de equidade na classes dos utilizadores ocasionais,

enquanto na classe dos utilizadores recorrentes essa hipótese não é rejeitada.

Num estudo mais recente de Quintal et al. (2012), foram estimados dois

modelos de classes latentes com distribui¸c˜ao binomial negativa

(22)

1.3 Estudo DIMATCH-HTA 7

e 2005/2006 referentes `a popula¸c˜ao idosa portuguesa. Os autores concluem

que, no caso dos utilizadores pouco frequentes, persistem barreiras `a

uti-liza¸cão de cuidados de saúde como a residência, educa¸cão, estatuto

profissi-onal e o facto de viver sozinho.

1.3 Estudo DIMATCH-HTA

Todos os resultados que v˜ao ser apresentados s˜ao baseados nos dados

recolhidos no estudo DIMATCH-HTA. Este ´e um estudo observacional e

lon-gitudinal, de base populacional estratificado em duas coortes de imigrantes

dos PALOP e n˜ao imigrantes, de hipertensos medicados, seguidos nos

Cui-dados de Saúde Primários da Região de Saúde de Lisboa. Os participantes

foram considerados imigrantes se tivessem naturalidade de um PALOP e se tivessem sido identificados como de etnia negra.

O estudo foi conduzido com o objetivo de conhecer e descrever os

determi-nantes associados à adesão terapêutica e à mudan¸ca terapêutica no controlo

da hipertens˜ao arterial, e comparar as duas coortes de doentes.

Os crit´erios de sele¸c˜ao inclu´ıam (i) ter registo cl´ınico nos cuidados de

saúde primários, (ii) ter diagnóstico de hipertensão, (iii) estar a tomar

me-dica¸c˜ao antihipertensora, (iv) ter tido consulta no m´edico de fam´ılia nos

´

ultimos doze meses, (v) ter idade entre os 40 e 80 anos, (vi) ser respons´avel

pela medica¸c˜ao, (vii) estar contact´avel por telefone e (viii) ter dado

consen-timento informado para participar no estudo.

O per´ıodo de follow-up do estudo foi de 12 meses, durante o qual foram conduzidas entrevistas presenciais no momento basal, aos 6 e 12 meses e

en-trevistas telef´onicas aos 3 e 9 meses. Durante as entrevistas foi recolhida

informa¸cão sobre variáveis demográficas e sócioeconómicas, sobre o estado

de saúde, aspectos relacionados com a medica¸cão, valores de pressão arterial,

entre outras vari´aveis. Os question´arios aplicados em cada um dos momentos

s˜ao apresentados no Anexo A. Os dados foram recolhidos entre Setembro de

2010 e Mar¸co de 2012.

O estudo foi desenvolvido pelo Unidade de Epidemiologia do Instituto de Medicina preventiva da Faculdade de Medicina de Lisboa (IMP-FML) e

co-financiado pela Funda¸cão para Ciência e Tecnologia (FCT), através do

(23)

(24)

CAP´ITULO

2

Objetivo

Inserido no projeto DIMATCH-HTA, o presente trabalho pretende

ana-lisar os determinantes da utiliza¸c˜ao de cuidados de sa´ude entre os doentes

hipertensos seguidos nos Cuidados de Saúde Primários, através do

ajusta-mento de modelos apropriados para analisar dados correlacionados de

natu-reza discreta. Como vari´avel proxy do consumo de recursos de sa´ude, vai ser

usado o número de consultas médicas devido à hipertensão.

Assim, definem-se como principais objetivos deste estudo:

• Avaliar o impacto de variáveis sociodemográficas, socioeconómicas e do

estado de sa´ude no consumo de consultas m´edicas medido ao longo do

tempo, em doentes hipertensos;

• Comparar diferentes metodologias usadas para estudar dados longitu-dinais de contagens com excesso de zeros.

(25)

(26)

CAP´ITULO

3

Dados do estudo DIMATCH-HTA

3.1 Constru¸

c˜

ao da base de dados

A base de dados (BD) da componente longitudinal do estudo

DIMATCH-HTA encontrava-se em Microsoft Access e, devido `a forma como a base tinha

sido constru´ıda, apresentava um grande n´umero de vari´aveis. Os dados em

Access foram exportados para Excel, resultando em 4 ficheiros

correspon-dendo cada um deles a um momento de observa¸c˜ao (3 meses, 6 meses, 9

meses e 12 meses). As bases de dados resultantes das entrevistas presenci-ais (6 e 12 meses), por corresponderem aos momentos com recolha de um

maior n´umero de vari´aveis, apresentavam uma enorme complexidade. Antes

de iniciar a an´alise dos dados, a base de dados sofreu um tratamento que

consistiu na uniformiza¸cão dos nomes das variáveis e uniformiza¸cão da

codi-fica¸cão atribu´ıda às variáveis categóricas. Seguiu-se uma valida¸cão exaustiva

de inconsistˆencias encontradas, em particular nas vari´aveis candidatas a ser

analisadas, que por vezes implicou a consulta dos question´arios em formato

de papel. O trabalho de organiza¸c˜ao e valida¸c˜ao da BD foi desenvolvido em

comunica¸cão com o IMP, responsável pela condu¸cão do estudo, como

ele-mento essencial na compreensão das variáveis e da respectiva codifica¸cão.

A base de dados correspondente ao momento basal j´a tinha sido analisada

e portanto este trabalho implicou um menor dispˆendio de tempo. Os dados

basais já foram objeto de análise que resultou em algumas apresenta¸cões em

congressos e semin´arios (Gomez et al., 2012; Lopes et al., 2012; Souto et al.,

(27)

12 CAP´ITULO 3. Dados do estudo DIMATCH-HTA

2012).

Na tabela 3.1 apresenta-se o n´umero de observa¸c˜oes por cada momento,

assim como o n´umero de vari´aveis que constituiam os ficheiros inciais.

Momento 0M 3M 6M 9M 12M

N´umero de observa¸c˜oes 786 655 434 494 379

N´umero de vari´aveis 308 42 88 42 131

Tabela 3.1: Dimens˜ao da base de dados

A base de dados final passou a ser composta pelos cinco momentos,

con-densados num ficheiro ´unico, estando atribu´ıdo a cada indiv´ıduo uma linha

por momento de observa¸c˜ao.

Neste cap´ıtulo pretende-se descrever algumas das vari´aveis da base de

dados e dar informa¸c˜ao sobre o momento de recolha.

3.2 Vari´

avel Resposta

A vari´avel dependente (ou resposta) que foi usada como indicadora do

consumo de cuidados de sa´ude dos doentes hipertensos foi o n´umero de

consultas m´edicas por motivos relacionados com hipertens˜ao, efetuadas nos

´

ultimos 3 meses anteriores `as entrevistas. A vari´avel foi recolhida nos 4

mo-mentos de observa¸cão (3, 6, 9 e 12 meses) e foi usada como variável numérica

discreta, resultado de um processo de contagem. Apesar de ter sido

reco-lhida informa¸cão relativa à tipologia dos cuidados de saúde usados, para esta

an´alise optou-se por usar uma vari´avel que inclu´ıa todos os tipos de consultas

independentemente da natureza do prestador ou especialidade.

3.3 Outras vari´

aveis

Como j´a foi referido, a base de dados obtida continha um enorme n´umero

de variáveis, tendo sido feita uma sele¸cão das variáveis com interesse para a

(28)

3.3 Outras vari´aveis 13

identificadas como candidatas a serem inclu´ıdas no modelo.

As vari´aveis recolhidas nos momentos 3 e 9 meses foram as mesmas,

as-sim como as vari´aveis medidas nos momentos 6 e 12 meses. Note-se que o

question´ario aplicado aos 12 meses, apresentava um bloco adicional de

per-guntas com objetivo de identificar altera¸c˜oes em determinadas vari´aveis

so-cioeconómicas como composi¸cão do agregado familiar, ocupa¸cão, rendimento

e despesas de sa´ude comparativamente ao momento basal.

Em cada uma das entrevistas presenciais (basal, 6 e 12 meses) foram

efetu-adas 3 medi¸cões dos valores de pressão arterial sistólica (PAS) e 3 medi¸cões

da press˜ao arterial diast´olica (PAD), por entrevistadores devidamente

for-mados para efetuar a medi¸c˜ao e registo dos valores de press˜ao arterial. Nos

momentos 3 e 9 meses, o delineamento do estudo previa que os question´arios

fossem aplicados telefonicamente e, por este motivo, n˜ao foram recolhidos

valores de press˜ao arterial. Para estes momentos optou-se por recorrer a

métodos de imputa¸cão. Nos quatro momentos de avalia¸cão os doentes foram

questionados sobre o valor e local da última medi¸cão de pressão arterial. A

possibilidade de imputar estes valores nos momentos 3 e 9 foi estudada. As

técnicas de imputa¸cão testadas são descritas na seçcão seguinte.

A partir dos valores de PA (medidos aos 0, 6 e 12 meses e imputados aos 3

e 9 meses), foi definida uma vari´avel controlo, segundo a qual um indiv´ıduo ´e

considerado controlado se cumprir duas condi¸c˜oes: PAS m´edia< 140 mmHg

e PAD média< 90 mmHg. Esta defini¸cão de controlo já foi usada em outros

estudos (De Macedo et al., 2007).

A vari´avel rendimento individual foi constru´ıda a partir das classes de

rendimento recolhidas no estudo. Admitiu-se o ponto m´edio de cada classe,

`

a exce¸c˜ao da ´ultima classe, para a qual se considerou o limite inferior. O

n´umero de adultos equivalentes (AE) do agregado foi calculado, atribuindo

uma pondera¸c˜ao de 1 para o primeiro indiv´ıduo e 0.5 a cada pessoa adicional.

Esta metodologia não é igual à escala modificada proposta pela OCDE que

atribui uma pondera¸c˜ao de 0.3 a cada crian¸ca com idade inferior a 14 anos.

Esta op¸c˜ao deve-se ao fato de n˜ao se conhecer a idade dos restantes

elemen-tos do agregado familiar. O rendimento equivalente (RE) do indiv´ıduo i foi

calculado atrav´es da f´ormula REi = R/AE, com R a representar o ponto

(29)

14 CAPÍTULO 3. Dados do estudo DIMATCH-HTA V ari áv el Tip o de v ari áv el N ´ıv eis Descri¸ c ão Momen to de a v alia¸ c ão So c io demogr´ aficas idade n um é ri ca Idade do do en te, em anos, no in ´ıcio do estudo 0 P eso n um érica P eso do do en te, em k g, no in ´ıcio do estudo 0 Altura n um érica Altura do do en te, em metros, no in ´ıcio do estudo 0 IMC n um érica Indice de massa corp oral, no in ´ıcio do estudo 0 nAnosEscola n um érica N úmero de anos de escolaridade 0 niv elEnsi n o categ´ orica nenh um, 1 ociclo, 2 o e 3 o ciclo, N ´ıv el de ensino completo mais elev ado 0 p´ os-secund´ ario, se cund´ ario, sup erior 0 P e sso asAgregado n um érica N úmero de p essoas que comp o em o agregado 0,12 familiar no in ´ıcio do estudo Sexo categ´ orica feminino, masculino Sexo do do en te 0 bin´ aria Etnia categ´ orica negra, caucasiana Etnia do do en te 0 bin´ aria EstadoCivil categ´ o ric a casado, div orciado, so lteiro, vi úv o Estado civil do do en te 0 o cupa c a o categ´ orica desempregado, empregado, reformado, outro Ocupa¸ c˜ ao principal 0,12 SitProfissional categ´ orica nenh um, con ta outrem, con ta pr´ opria, Situa¸ c˜ ao profissional 0,12 con ta pr´ opria como empregador, p essoa fam ´ılia sem receb er, ou tra Rendimen to categ´ orica at é 1 50, 151 -250, 25 1-350, 351-500, 501-700, Rendimen to total 0,12 701-900, 901-1200, 1201-1500 , 1501-200, + 2000 do agregado Rendimen toAjust n um érica Rendimen to equiv alen te 0,12 do indiv ´ıduo T ab ela 3.2: Descri¸ cão das v ari´ av eis presen te s no estudo (I)

(30)

3.3 Outras variáveis 15 V ari´ av el Tip o de v ari´ av el N ´ıv eis Desc ri ¸c˜ ao Momen to de a v alia¸ c˜ ao Estilos de vida F umador categ´ orica sim, n˜ ao H´ abitos tab´ agicos do do en te no inicio do estudo 0 bin´ aria Ex-fumador c a teg´ orica sim, n˜ ao Historial de h´ abitos tab´ agicos 0 bin´ aria AltAlim bin´ ar ia sim, n˜ ao Nos últimos 3 meses, alterou a alimen ta¸ c˜ ao 3,6,9,12 para melhorar con trolo T omaMed categ´ orica sim, n˜ ao Nos últimos 3 meses, tomou medica¸ c˜ ao 3,6,9,12 bin´ aria para melhorar con trolo F azerEx categ´ orica sim, n˜ ao Nos últimos 3 meses, praticou exerc ´ıcio f´ısic o 3 ,6 ,9 ,1 2 bin´ aria para melhorar con trolo Cuidados de sa úde UnidadeF uncional categ´ orica U S F, UCSP Tip o de unidade funcional onde é seguido 0 bin´ aria SeguroPriv ado categ´ orica sim, n˜ ao Benefeci ário de se g uro de sa úde priv a do 0 bin´ aria SistemaRecorre categ´ orica SNS, ADM, ADSE, PT /CTT, Sistema de sa úde que recorre mais v ezes 0 SAD/GNR, SAMS, Outro duplaCob ertura categ´ orica sim, n˜ ao Dupla cob ertura do sistema de sa úde bin´ aria V ezesMed n um érica N úmero de v ez es que foi m édico 3,6,9,12 nos últimos 3 meses V ez esMedF am n um érica N úmero de v ezes que foi m édico de fam ´ılia 3,6,9,12 nos últimos 3 meses V ez esMedPriv n um érica N úmero de v ezes que foi m édico priv ado 3,6,9,12 nos últimos 3 meses V ezesMedEsp n um érica N úmero de v eze s que foi m édico esp e cialista 3,6,9,12 nos últimos 3 meses V e zesServUrg n um érica N úmero de v ezes que foi ao servi¸ co de urg ência 3,6,9,12 nos últimos 3 meses T ab ela 3.3: Descri¸ cão das v ari´ av eis presen te s no estudo (I I)

(31)

16 CAPÍTULO 3. Dados do estudo DIMATCH-HTA V ari´ av el Tip o de v ari´ av el N ´ıv eis Descri¸ c˜ ao Momen to de a v a lia¸ c˜ ao Estado de sa úde SUMComorbilidades n um érica N úmero total de comorbilidades 0 Diab etes categ´ orica sim, n˜ ao Diagn´ ostico de diab etes 0 bin´ aria Colesterol categ´ orica sim, n˜ ao Diagn´ ostico de hip ercolesterol émia 0 bin´ aria temp o H T A n um érica T emp o desde diagn´ ostico de hip ertens˜ ao 0 Autop ercep¸ cao categ´ orica sim, n˜ ao Auto-a v alia¸ c˜ a o do con trolo 3,6,9,12 bin´ aria SistMed n um érica M édia dos v a lo res de press˜ a o arterial sist´ oli ca 0,6,12 DiastMed n um érica M édia dos v alores de pr e ss˜ ao arterial diast´ olica 0,6,12 F reqCard n um érica M édia dos v alores de frequ ência card ´ıaca 0,6,12 UltTSist n um érica V alores de press˜ ao arterial sist´ olica 3 ,9 autorrep ortados da última me d i¸c˜ ao UltTDiast n um érica V alores de press˜ ao arterial diast´ olica 3,9 autorrep ortados da última me d i¸c˜ ao Con trT A categ´ orica sim, n˜ ao Con trolo de hip ertens˜ ao 0,3,6,9,12 bin´ aria T ab ela 3.4: Descri¸ cão das v ari´ av eis presen tes no estudo (I II)

(32)

3.4 Imputa¸c˜ao de valores de press˜ao arterial 17

3.4 Imputa¸

c˜

ao de valores de press˜

ao arterial

Como j´a foi anteriormente referido, nos momentos 3 e 9 meses, devido

ao desenho do estudo, os valores de pressão arterial sistólica e diastólica

es-tavam ausentes. Para estes momentos de avalia¸c˜ao, recorreu-se a m´etodos

de imputa¸c˜ao para obter uma base de dados mais completa. Foram

compa-rados 2 métodos: (i) imputa¸cão dos valores autoreportados, (ii) imputa¸cão

Last and Next. O método de imputa¸cão por regressão foi exclu´ıdo, uma vez

que as vari´aveis explicativas recolhidas nos 4 momentos apresentavam um

baixo poder preditivo, n˜ao sendo suficientes para explicar a variabilidade da

vari´avel resposta.

Uma das estrat´egias usadas para resolver o problema de valores

omis-sos nos momentos 3 e 9 meses, consistiu em imputar nos valores de PAS

e PAD, os valores autoreportados da ´ultima medi¸c˜ao. Nas entrevistas

pre-senciais e telef´onicas, os participantes foram inquiridos sobre os valores da

´

ultima medi¸cão de pressão arterial através da questão “Lembra-se do valor

da ´ultima medi¸c˜ao? Se sim, qual foi.”.

O segundo método testado foi o método de imputa¸cão Last and Next,

adequado para imputa¸c˜ao em dados longitudinais. Este m´etodo consiste em

imputar no valor omisso a m´edia dos valores de press˜ao arterial dos

momen-tos adjacentes, sendo os valores imputados baseados nos valores do pr´oprio

indiv´ıduo. Este m´etodo implica que os dois valores, nos momentos

ante-rior e posteante-rior ao valor omisso, sejam conhecidos, caso contrário não será

poss´ıvel imputar qualquer valor. Assim, para cada valor omisso aos 3 meses

considerou-se a m´edia entre o valor basal e o valor registado aos 6 meses do

pr´oprio indiv´ıduo, sempre que os dois valores fossem conhecidos. De forma

an´aloga, para os 9 meses, foram imputados as m´edias dos valores registados

aos 6 e 12 meses.

Os valores de pressão arterial sistólica e diastólica estimados pelos 2

métodos e a propor¸cão de valores que foi poss´ıvel imputar através de cada

m´etodo, encontram-se apresentados na tabela 3.5. A an´alise da tabela e dos

gr´aficos 3.1 e 3.2 permite verificar que, de uma forma geral, o m´etodo Last

and Next produziu valores mais altos de pressão arterial (à exce¸cão da PAS

(33)

18 CAP´ITULO 3. Dados do estudo DIMATCH-HTA

3 Meses 9 Meses

Last & Next Autorreporte Last & Next Autorreporte

PAS 135,23 134,01 131,65 132,56 (dp) (18,04) (17,22) (18,03) (17,49) % imp, 65,19 71,91 59,92 78,74 PAD 82,70 78,97 80,46 79,02 (dp) (10,98) (12,20) (11,04) (13,01) % imp, 64,89 71,91 59,72 71,05

Tabela 3.5: Imputa¸c˜ao de valores de press˜ao arterial

Figura 3.1: Boxplot da press˜ao arterial sist´olica imputada

A imputa¸cão dos valores autorreportados da última medi¸cão como proxy

dos valores m´edios recolhidos nas entrevistas presenciais levanta alguns

pro-blemas, nomeadamente devido ao vi´es de mem´oria, uma vez que as pessoas

tendem a recordar mais facilmente epis´odios recentes e tamb´em os mais

gra-ves. Analisando a distribui¸c˜ao das respostas relativamente ao local ´ulima

medi¸c˜ao, aproximadamente metade dos doentes indicaram ter efectuado a

´

ultima medi¸c˜ao de press˜ao arterial em casa (50,0% e 46,9% aos 3 e 9

me-ses, respetivamente), seguindo-se a f´arm´acia (26,8% e 22,5%) e o centro de

sa´ude (17,0% e 20,7%). O facto das medi¸c˜oes terem sido efetudas em

dife-rentes locais e nem sempre por profissionais de sa´ude, torna-as menos fi´aveis.

(34)

obser-3.4 Imputa¸c˜ao de valores de press˜ao arterial 19

Figura 3.2: Boxplot da press˜ao arterial diast´olica imputada

vador, quando n˜ao devidamente treinado, reportar preferencialmente valores

inteiros, al´em da tendˆencia para reportar valores mais baixos do que os

efeti-vamente registados. Um estudo desenvolvido para avaliar a fiabilidade do

re-porte dos valores de press˜ao arterial auto-monitorizados pelo doente estimou

uma precis˜ao de 76% nos valores reportados relativamente aos observados

(Mengden et al., 1998).

Um estudo desenvolvido para comparar vários métodos de imputa¸cão

em dados longitudinais omissos, revelou que a imputa¸c˜ao recorrendo a

in-forma¸c˜ao conhecida espec´ıfica de cada indiv´ıduo apresentava um melhor

de-sempenho, indicando o Last and Next como o m´etodo superior (Engels &

Diehr, 2003). Avaliadas as vantagens e limita¸c˜oes de cada m´etodo, optou-se

por recorrer ao m´etodo de imputa¸c˜ao Last and Next, por este permitir

incor-porar informa¸c˜ao longitudinal associada a cada indiv´ıduo, ao mesmo tempo

(35)

(36)

CAP´ITULO

4

Metodologia

Neste cap´ıtulo pretende-se descrever as metodologias usadas para

anali-sar os dados e responder `a quest˜ao colocada. Uma vez que os dados resultam

de medi¸c˜oes repetidas sobre o mesmo indiv´ıduo ao longo do tempo, vai ser

feita uma breve introdu¸cão aos métodos para análise de dados longitudinais.

Os dados que se pretende estudar resultam de um processo de contagem,

que neste caso espec´ıfico s˜ao caracterizados por apresentarem um excesso de

zeros e por serem sobredispersos. Por este motivo interessa igualmente referir algumas das metodologias usadas para modelar dados desta natureza.

4.1 An´

alise de dados longitudinais

Os dados longitudinais caracterizam-se por serem dados que est˜ao

cor-relacionados por grupo, sendo os grupos constitu´ıdos pelas medi¸c˜oes

repe-tidas sobre o mesmo indiv´ıduo em diferentes ocasi˜oes. Devido ao facto das

medi¸c˜oes repetidas de cada vetor resposta n˜ao serem independentes, a

es-trutura de autocorrela¸c˜ao assume um papel importante na estima¸c˜ao dos

parˆametros do modelo (Diggle et al., 2002).

As unidades de observa¸cão sobre as quais vão ser efetuadas as medi¸cões

re-petidas, v˜ao ser designadas por indiv´ıduos. Os dados longitudinais implicam

a observa¸cão yit de uma variável resposta Yit e de um vetor de p covariáveis,

(37)

22 CAP´ITULO 4. Metodologia

no momento t (t = 1, ..., Ti) para o indiv´ıduo i (i = 1,...,n). O vetor das

variáveis resposta para o i-ésimo indiv´ıduo é dado por Yi = (Yi1,..., YiTi)

T _e

xT

it = (xit1,..., xitp) representa o vetor das p covari´aveis associadas ao ponto

(i,t). O vetor xit pode incluir covari´aveis cujos valores se alteram ao longo

do tempo e covari´aveis que se mantˆem constantes durante o per´ıodo de

ob-serva¸c˜ao. Assim, para cada Yit tem-se E(Yit) = µit e var(Yit) = υit, e o

modelo linear pode ser escrito na forma

Yit = β0 + β1xit1+ β2xit2+ . . . + βpxitp+ it

em que β = (β0,β1,β2, . . . , βp)T é o vetor dos p parâmetros de regressão

des-conhecidos e it é uma variável aleatória com valor esperado zero.

De uma forma matricial, e usando a nota¸c˜ao anterior, o modelo

longitu-dinal para cada indiv´ıduo i pode ser escrito da seguinte forma

Yi =      Yi1 Yi2 .. . YiTi      Xi =     

1 xi11 xi12 · · · xi1p

1 xi21 xi22 · · · xi2p

.. . ... ... ... ... 1 xiTi1 xiTi2 · · · xiTip      β =      β0 β1 .. . βp      .

Nos modelos longitudinais importa distinguir (i) os modelos marginais,

tamb´em designados population-average models que, como o nome indica,

permitem inferir para a popula¸c˜ao (ii) dos modelos com efeitos aleat´orios,

também conhecidos como subject-specific models, cujo objectivo é a inferência

para o indiv´ıduo. No caso de dados longitudinais gaussianos, o modelo com

efeitos aleat´orios implica um modelo marginal, sem que a interpreta¸c˜ao dos

coeficientes de regress˜ao esteja sujeita a qualquer tipo de altera¸c˜ao. No

en-tanto, quando os dados não são gaussianos, não existe qualquer rela¸cão entre

os parˆametros do modelo marginal e do modelo com efeitos aleat´orios, e

por-tanto estes modelos implicam uma diferente interpreta¸c˜ao dos coeficientes.

Assim, o objectivo da inferˆencia deve ser considerado no momento da escolha

entre o modelo marginal e o modelo com efeitos aleat´orios.

Os m´etodos para analisar dados longitudinais com vari´avel resposta

dis-creta incluem o método das equa¸cões de estima¸cão generalizadas

(GEE-generalized estimated equations) e os modelos lineares generalizados mistos

(GLMM’s -Generalized Linear Mixed Models). Estes dois m´etodos s˜ao de

(38)

4.1 An´alise de dados longitudinais 23

4.1.1 Modelo Marginal: Equa¸

c˜

oes de estima¸

c˜

ao

gene-ralizadas

Num modelo marginal o valor esperado marginal ´e modelado como fun¸c˜ao

das covari´aveis, sem se condicionar o modelo a outras vari´aveis resposta ou

efeitos aleatórios não observáveis. Contudo, devido à dependência existente

entre as observa¸cões, a análise marginal deve incluir pressupostos em rela¸cão

`

a correla¸c˜ao. Assim, para dados longitudinais em que se admite que Yitsegue

uma distribui¸c˜ao pertencente `a fam´ılia exponencial com densidade

f (yit) = exp[ω_φit(yitθit− c(θit)) + d(yit,φ)] ,

o modelo marginal assenta nas seguintes hip´oteses:

1. A esperan¸ca marginal para cada vari´avel resposta ´e definida por

E(Yit) = µit= c0(θit),

dependente das covariáveis xit através da fun¸cão de liga¸cão g(µit) = ηit, que

no caso das respostas binárias é o logit e nas contagens é o log;

2. A variˆancia marginal depende do valor m´edio marginal sendo definida

por var(Yit) = υit= V (µit)_ωφ it = c 00_(θ it)_ωφ it,

onde V (.) é uma fun¸cão de variância conhecida, φ é um parâmetro de

dis-pers˜ao, ou de escala, que pode ser conhecido ou estimado e ωit ´e uma

cons-tante conhecida;

3. A correla¸cão entre Yit e Yit0 é uma fun¸cão do valor médio marginal

e de um vetor de parâmetros adicionais, α, e é traduzido pela expressão

corr(Yit,Yit0) = ρ(µ_it,µ_it0), em que ρ(.) ´e uma fun¸c˜ao conhecida.

Estas trˆes hip´oteses explicam o motivo pelo qual se diz que os modelos

marginais s˜ao uma extens˜ao dos modelos lineares generalizados (GLM’s -

Ge-neralized Linear Models). Enquanto as duas primeiras hip´oteses s˜ao comuns

ao modelo linear generalizado univariado, a terceira hip´otese ´e espec´ıfica do

modelo marginal e permite acomodar a correla¸c˜ao existente entre observa¸c˜oes

(39)

No caso de Yit ser uma vari´avel resposta sob a forma de contagens, o

modelo mais imediato ´e o modelo de regress˜ao de Poisson ou modelo

log-linear, com a fun¸cão de liga¸cão log. A fun¸cão de probabilidade da variável

Yit com distribui¸c˜ao de Poisson ´e dada por

P (Yit = yit) =

e−λitλyit_it

yit! yit= 0,1, . . . ,

com λit= exp(xTitβ).

Como os dados de contagem s˜ao frequentemente caracterizados por uma

sobredispersão, esta pode ser considerada no modelo GEE através da inclusão

de um parˆametro de dispers˜ao ou escala.

Outra alternativa que permite modelar dados de contagens com

sobre-dispersão é o modelo binomial negativo, cuja fun¸cão de liga¸cão é o log.

Ad-mitindo que a a vari´avel resposta Yit segue um modelo binomial negativo, a

fun¸c˜ao de probabilidade ´e dada por

P (Yit= yit) = Γ(y_y it+τit) it!Γ(τit)(1 + λit τit) −τit_{(1 +} τit λit) −yit _y it = 0,1, . . . ,

com λit = exp(xTitβ) e τit = (1/α)λkit, em que α > 0 ´e o parˆametro de

dispersão e k é uma constante arbitrária que determina a rela¸cão entre a

média e a variância. Nesta especifica¸cão, a média e a variância são definidas

respetivamente por

E(Yit) = λit

e

var(Yit) = λit+ αλ2−kit .

Se α = 0, a especifica¸c˜ao corresponde ao modelo de Poisson. O modelo

binomial negativo-1 obtem-se definindo k = 1, enquanto no modelo binomial

negativo-2 k = 0.1

Quando os dados longitudinais s˜ao n˜ao gaussianos, uma das dificuldades

consiste na determina¸cão da distribui¸cão conjunta de Yi. A omissão do

pres-suposto sujacente à distribui¸cão das observa¸cões inviabiliza a utiliza¸cão de

m´etodos baseados na m´axima verosimilhan¸ca, pois estes requerem a

especi-fica¸cão da distribui¸cão. O método GEE surge como resposta a este problema,

1_{Esta ´}_{e a forma para a binomial negativa utilizada no Stata, software que vai ser usado}

(40)

sendo um método baseado na estima¸cão por quasi-verosimilhan¸ca, cujo único

requisito é a especifica¸cão de um modelo de regressão para o valor médio da

vari´avel resposta.

O m´etodo GEE foi proposto em 1986 (Liang & Zeger, 1986), e constitui

uma extens˜ao dos modelos lineares generalizados do caso univariado para o

caso multivariado quando estamos na presen¸ca de dados longitudinais. Este

método introduz uma classe de equa¸cões de estima¸cão que fornecem

estimati-vas consistentes dos parâmetros de regressão e da sua variância, baseando-se

na estima¸c˜ao por quasi-verosimilhan¸ca, sem ser preciso especificar a

distri-bui¸c˜ao conjunta do vetor de observa¸c˜oes.

Para o modelo linear generalizado multivariado Yi = (Yi1, . . . ,YiTi)

T

, o

estimador bβ é a solu¸cão da seguinte equa¸cão:

Uβ(β,α) = Pn i=1D T i [Vi(α)]−1(Yi− µi) = 0, onde Di = ∂µi

∂β ´e uma matriz Ti × p, Vi(α) ´e uma matriz diagonal Ti × Ti,

µ_i ´e o vetor do valor esperado de Yi.

A matriz Vi(α) é designada por matriz de variância-covariância

“cor-rente”e ´e dada por

Vi(α) = φ(A

1/2

i Ri(α)A

1/2

i )

em que Ai ´e uma matriz Ti × Ti, cujo elemento na posi¸c˜ao t da

diago-nal é V (µit) e Ri(α) = corr(Yi) corresponde à matriz de correla¸cão

“cor-rente”(working correlation matrix ), uma matriz diagonal Ti× Ti.

O processo iterativo para estima¸c˜ao de β proposto por (Liang & Zeger,

1986) resume-se da seguinte forma:

1. Determina¸c˜ao das estimativas iniciais de β, β(0) atrav´es do

ajusta-mento de um modelo linear generalizado, em que a dependˆencia das

ob-serva¸cões não é considerada.

2. C´alculo dos res´ıduos de Pearson eit, α, Ri(α), φ, Vi.

3. Atualiza¸c˜ao da estimativa de β.

(41)

As estimativas do parâmetro α e do parâmetro de dispersão φ são obtidas

a partir dos res´ıduos de Pearson eit,

eit = (yit −µ_bit) √ var(bµit) , em que eit depende de β.

O parâmetro de dispersão de φ é estimado através da expressão

b φ = _n1 Pn i=1 PTi t=1e2it Ti

e a estima¸c˜ao de α vai depender da estrutura de correla¸c˜ao selecionada.

Na tabela 4.1 apresentam-se as estruturas de correla¸c˜ao propostas por

Liang e Zeger (Liang & Zeger, 1986). Para evitar que o modelo marginal

te-nha muito parâmetros, o método GEE pressupõe que a matriz de correla¸cão

´

e comum a todos os indiv´ıduos.

Estrutura corr(Yit,Yik) Estimativa Exemplo

Independente 0 -  1 0 0 0 1 0 0 0 1   Uniforme α α =_b 1_nPn i=1 P t6=keiteik Ti(Ti−1)   1 α α α 1 α α α 1   AR(1) α|t−k| α =_b _n1Pn i=1 P t<(Ti−1)eitei,t+1 (Ti−1)   1 α α2 α 1 α α2 _α ₁   N˜ao estruturada αtk α =b 1 n Pn i=1eiteik   1 α12 α13 α12 1 α23 α13 α23 1  

(42)

Os estimadores obtidos através do método GEE são estimadores

consis-tentes, o que significa que a obten¸c˜ao de estimativas robustas depende apenas

da correta especifica¸cão do modelo para o valor médio da variável resposta.

No entanto, apesar desta propriedade de robustez que caracteriza os

estima-dores GEE, a modela¸cão da covariância é importante porque quanto mais

próxima a matriz de variância-covariância considerada estiver da verdadeira

matriz, maior é a eficiência dos estimadores β, além de que a propriedade de

robustez apenas é válida para amostras de grandes dimensões.

Relativamente aos dados omissos, a obten¸c˜ao de estimativas v´alidas com

o método GEE pressupõe que o mecanismo de omissão dos dados seja

Mis-sing Completly At Random (MCAR), o que significa que a probabilidade de

uma observa¸c˜ao estar omissa n˜ao deve estar relacionada com o valor dessa

observa¸c˜ao, nem com o valor de outras vari´aveis, e portanto os dados

obser-vados podem ser considerados uma amostra aleat´oria dos dados completos.

A estima¸cão do método GEE é baseado na quasi-verosimilhan¸ca e por

isso o teste de razão de verosimilhan¸cas não pode ser usado para compara¸cão

de modelos, sugerindo-se como alternativa o teste de Wald. Para testar a

hip´otese

H0 : βj = 0 vs H1 : βj 6= 0,

com j = 1, . . . ,p, a estat´ıstica do teste de Wald, que sob H0 segue uma

dis-tribui¸cão assintótica gaussiana, é dada por

W = _√ βbj

var( bβj)

.

No caso multiparam´etrico, para testar a hip´otese

H0 : Lβ = 0 vs H1 : Lβ 6= 0,

em que L ´e uma matriz r × p de caracter´ıstica completa r, a estat´ıstica de

teste, sob H0 com uma distribui¸c˜ao assint´otica de um qui-quadrado com r

graus de liberdade, ´e dada por

W = (Lbβ)T h_Lvar(b_β)LTi−1_(Lb_β).

O R tem implementadas bibliotecas que permitem estimar modelos

(43)

software Stata também apresenta fun¸cões para estima¸cão de modelos

margi-nais GEE e ao R acresce a possibilidade de permitir estimar o modelo binomial

negativo atrav´es do m´etodo GEE. No entanto o software Stata apresenta a

desvantagem de n˜ao ser de acesso livre.

4.1.2 Modelo de Efeitos aleat´

orios: Modelos lineares

generalizados mistos

Nesta seçcão vai-se fazer uma breve referência aos modelos lineares

ge-neralizados mistos (GLMM). Os modelos GLMM foram propostos em 1993

(Breslow & Clayton, 1993) e correspondem a uma extens˜ao dos GLM, que

incluem efeitos aleat´orios no preditor linear al´em dos efeitos fixos, permitindo

incluir componentes de variabilidade devida a efeitos n˜ao observados.

`

A semelhan¸ca dos modelos marginais, nos modelos GLMM tamb´em se

admite que que as vari´aveis resposta Yit seguem um modelo linear

generali-zado. Contudo, a densidade de Yit ´e condicional aos efeitos aleat´orios bi, de

acordo com a express˜ao

f (yit|bi) = exp[ω_φit(yitθit− c(θit)) + d(yit,φ)] .

O valor médio e variância condicionaais são traduzidos respetivamente

por

E(Yit|bi) = µbit = c0(θit) e var(Yit|bi) = υitb = c00(θit)_ωφ_it,

que se admite que satisfa¸cam as condi¸c˜oes

g(µb it) = X T itβ + Z T itbi e υb it = V (µbit) φ ωit

sendo g(.) uma fun¸cão de liga¸cão, V (.) uma fun¸cão de variância, φ o parâmetro

de escala ou dispers˜ao e ωit uma constante.

Os efeitos aleat´orios bi, com i = 1, . . . ,n, s˜ao independentes entre si, com

uma distribui¸c˜ao gaussiana multivariada com valor esperado zero e matriz

de variˆancia-covariˆancia D.

De modo a obter inferˆencias corretas, a estrutura de correla¸c˜ao deve ser

(44)

e do vetor de efeitos aleat´orios deve ser devidamente especificada. Deste

modo é poss´ıvel fazer a estima¸cão e inferência com base no método da máxima

verosimilhan¸ca. No entanto, a maximiza¸cão da fun¸cão de verosimilhan¸ca não

tem solu¸cão anal´ıtica sendo necessário recorrer ao cálculo numérico, que

mui-tas vezes se revela complexo. Alguns métodos de aproxima¸cão numérica têm

sido propostos para resolver o problema: (i) m´etodo de aproxima¸c˜ao dos

dados, (ii) método de aproxima¸cão da fun¸cão a integrar e (iii) método de

aproxima¸c˜ao do integral. (Molenberghs & Verbeke, 2005)

No que respeita aos dados omissos, no GLMM as inferˆencias com base no

método da máxima verosimilhan¸ca são válidas se o mecanismo de omissão

dos dados for MCAR ou Missing At Random (MAR). O mecanismo MAR

pressupõe que os dados omissos não estão relacionados com os valores em

falta, mas que dependem do conjunto de dados observados. Relembre-se que

no modelo marginal estimado atrav´es do m´etodo GEE apenas produz

esti-madores v´alidos se o mecanismo de omiss˜ao for MCAR.

Para compara¸c˜ao de modelos, utiliza-se o teste de raz˜ao de

verosimi-lhan¸cas quando se pretende comparar a estrutura fixa de dois modelos

en-caixados, com os mesmos efeitos aleat´orios. Assim para testar a nulidade de

um subvetor de r componentes de β

H0 : βr = 0 vs H0 : βr 6= 0,

utiliza-se a estat´ıstica de teste

2(logL1− logL0) ∼ χ2k1−k0,

em que L1 corresponde `a verosimilhan¸ca do modelo mais geral, com k1

parˆametros e L0 corresponde `a verosimilhan¸ca do modelo encaixado, com

k0 parâmetros. Sob a hipótese nula de que o modelo restrito é mais

ade-quado (ou seja de que os r = k1− k0 parˆametros adicionais s˜ao iguais a zero)

a estat´ıstica de teste tem distribui¸c˜ao assint´otica de um qui-quadrado com

k1− k0 graus de liberdade.

Considera-se que dois modelos n˜ao encaixados quando nenhum dos

mo-delos pode ser representado com um caso especial do outro. Quando tal se

verifica, a compara¸cão dos modelos não estão encaixados é feita através do

crit´erio de informa¸c˜ao de Akaike (AIC) (Akaike, 1974),

(45)

onde k representa o número de parâmetros ou do critério de informa¸cão

Bayesiano (BIC) (Schwarz, 1978),

BIC = −2logL + 2klog(N ),

em que k representa o número de parâmetros e N o número de observa¸cões.

Estes critérios penalizam o número de parâmetros do modelo, sendo o

BIC mais sens´ıvel ao n´umero de parˆametros inclu´ıdos. Valores baixos de

AIC e BIC significam que o modelo permite atingir um compromisso

en-tre um bom ajustamento, parcimónia e boa interpreta¸cão. Os critérios de

informa¸cão apresentam a desvantagem de não permitirem testar hipóteses,

n˜ao fornecendo informa¸c˜ao sobre a qualidade do modelo.

Em ambos os casos, modelos encaixados e n˜ao encaixados, a fun¸c˜ao

ve-rosimilhan¸ca deve basear-se nos dados e n˜ao na aproxima¸c˜ao dos dados.

Os modelos GLMM podem ser estimados no R atrav´es das bibliotecas

lme4, glmmML ou MASS.

4.2 An´

alise de dados com sobredispers˜

ao

O modelo de Poisson ´e um modelo usado como referˆencia quando se

pre-tende modelar vari´aveis resultantes de processos de contagem. No entanto

apresenta algumas limita¸c˜oes, nomeadamente por possuir uma estrutura

de-masiado r´ıgida, pressupondo a igualdade entre a m´edia e a variˆancia.

Con-tudo, ´e frequente que os dados de contagem n˜ao sigam exatamente uma

distribui¸c˜ao de Poisson, contendo uma grande quantidade de zeros e uma

variância superior à média, muito superior ao que seria expectável numa

dis-tribui¸c˜ao de probabilidade de Poisson. Modelos de regress˜ao da fam´ılia dos

modelos de contagem comummente usados para dados com sobredispers˜ao

incluem entre outros (i) modelos barreira (hurdle models) tamb´em conhecidos

como two part models, (ii) modelos inflacionados no zero (ZIM - zero-inflated

models) e (iii) modelos de classes latentes tamb´em designados de modelos de

mistura finita. A sec¸c˜ao que se segue descreve de uma forma mais

(46)

4.2 An´alise de dados com sobredispers˜ao 31

4.2.1 Modelos Barreira

Os modelos barreira foram incialmente propostos por Mullahy (Mullahy,

1986), sendo tamb´em conhecidos como modelos duas-partes. Estes modelos

s˜ao compostos por duas componentes: uma parte truncada em y = 0,

defi-nida por uma Poisson, geom´etrica ou binomial negativa truncadas, para as

contagens positivas e uma componente barreira zero vs n˜ao-zero definida por

uma distribui¸c˜ao de Bernoulli, permitindo dessa forma diferenciar os

proces-sos estat´ısticos acima e abaixo da barreira.

Na economia da sa´ude a motiva¸c˜ao para utilizar esta metodologia

relaciona-se com a teoria do principal-agente, que defende que o m´edico determina a

utiliza¸c˜ao de recursos m´edicos a partir do momento que o doente estabelece

o primeiro contacto. Assim, a decisão de ir ao médico é descrita por um

modelo bin´ario, enquanto a quantidade de recursos consumidos uma vez que

o doente toma a decisão de ir ao médico é descrita por um modelo de

conta-gens truncado em zero.

De acordo com os pressupostos de Mullahay, a distribui¸c˜ao de

probabili-dade de um modelo barreira em zero ´e dado pela express˜ao

f (y) = (

f1(0), y = 0

(1 − f1(0))_(1−ff2(y)

2(0)), y > 0.

Este modelo de contagens modificado admite a presen¸ca de dois processos

(i) um processo bin´ario que descreve se a contagem ´e zero e (ii) um outro

processo distinto que descreve as contagens positivas. Caso a realiza¸c˜ao da

vari´avel contagem seja positiva, ou seja, caso a barreira seja ultrapassada, o

processo ´e definido por uma fun¸c˜ao de probabilidade truncada no ponto zero.

Encontra-se implementada a fun¸c˜ao hurdle() da biblioteca pscl do R

que permite a estima¸cão destes modelos. Contudo esta fun¸cão não permite

modelar dados correlacionados, n˜ao tendo sido encontrada nenhuma

biblio-teca no R com estas caracter´ısticas.

4.2.2 Modelos Inflacionados no Zero

Os modelos inflacionados em zero (ZIM) (Mullahy, 1986) admitem a

existˆencia de dois tipos de zeros: (i) zeros estruturais e (ii) zeros aleat´orios,