UNIVERSIDADE DE LISBOA
FACULDADE DE CIˆ
ENCIAS
DEPARTAMENTO DE ESTAT´ISTICA E INVESTIGAC¸ ˜AO OPERACIONAL
An´
alise dos fatores associados `
a
utiliza¸
c˜
ao de cuidados m´
edicos por
doentes hipertensos
Bernardete Andrade Pinheiro
Projeto
MESTRADO EM BIOESTAT´ISTICA
2013
UNIVERSIDADE DE LISBOA
FACULDADE DE CIˆ
ENCIAS
DEPARTAMENTO DE ESTAT´ISTICA E INVESTIGAC¸ ˜AO OPERACIONAL
An´
alise dos fatores associados `
a
utiliza¸
c˜
ao de cuidados m´
edicos por
doentes hipertensos
Bernardete Andrade Pinheiro
MESTRADO EM BIOESTAT´ISTICA
Projeto orientado pela Prof.
aMar´ılia Cristina de Sousa
Antunes
Agradecimentos
Os meus sinceros agradecimentos `a professora Mar´ılia, que me orientou,
motivou e desafiou. Obrigada pelo apoio constante, pela disponibilidade,
pela paciˆencia e por n˜ao deixar de acreditar. Foi um prazer imenso, todos
os momentos foram enriquecedores. Aproveito para agradecer `as restantes
professoras do DEIO pelos ensinamentos e por me fazerem sentir em casa. Ao professor Gouveia Pinto pela oportunidade e pelo incentivo na minha
forma¸c˜ao.
`
A Teresa e ao Lu´ıs pela ajuda e compreens˜ao de todos os dias.
Aos meus colegas de mestrado pelo companheirismo que tornou este
ca-minho mais f´acil de percorrer. Um agradecimento especial a quem me
acom-panhou mais de perto. Obrigada Patr´ıcia, Beatriz e Nuno!
Aos meus amigos de sempre pela confian¸ca e apoio. Foram fundamentais!
N˜ao posso deixar de agradecer ao IMP pela oportunidade e a toda a
equipa pela colabora¸c˜ao neste trabalho. Um obrigada muito especial `a
Mi-lene pelos seus contributos preciosos, sempre foste uma inspira¸c˜ao.
`
A minha fam´ılia, principalmente aos meus pais e `a minha irm˜a, que
esti-veram sempre comigo, com uma palavra de confian¸ca e amor.
Por fim, um agradecimento `a Carlota que me fez acreditar que se o
Ho-mem quiser, a obra nasce!
Resumo
A equidade no acesso aos cuidados de sa´ude ´e um dos pressupostos b´asicos
do sistema de sa´ude portuguˆes, no entanto barreiras ao acesso persistem,
sendo necess´aria a implementa¸c˜ao de estrat´egias que reduzam estas
desigual-dades. Existem alguns estudos direcionados para analisar os determinantes
da utiliza¸c˜ao de cuidados m´edicos em Portugal, no entanto an´alises que
estu-dem estes fatores na popula¸c˜ao hipertensa s˜ao escassas. Este estudo pretende
analisar os fatores que determinam a utiliza¸c˜ao de cuidados m´edicos,
motiva-dos pela hipertens˜ao, em duas coortes de doentes hipertensos, seguidos nos
Cuidados de Sa´ude Prim´arios.
Foram analisados os dados provenientes do estudo DIMATCH-HTA, um
estudo observacional longitudinal em duas coortes, imigrantes e n˜ao
imigran-tes. A vari´avel indicadora do consumo de recursos foi o n´umero de consultas
m´edicas, autoreportadas, por motivos relacionados com a hipertens˜ao nos
trˆes meses anteriores a cada entrevista. A vari´avel foi recolhida em quatro
momentos distintos, 3,6,9 e 12 meses ap´os entrada no estudo. As vari´aveis
explicativas consideradas foram idade, sexo, etnia, estado civil, rendimento,
n´ıvel de ensino, seguro privado, subsistema de sa´ude, ocupa¸c˜ao profissional,
n´umero de pessoas do agregado, diabetes, colesterol, controlo de hipertens˜ao,
tempo desde diagn´ostico de hipertens˜ao e autoperce¸c˜ao da doen¸ca.
A metodologia usada implicou a compara¸c˜ao de diferentes m´etodos de
regress˜ao de contagem, que permitissem simultaneamente acomodar a
cor-rela¸c˜ao dos dados e a dispers˜ao. Entre os modelos estimados, os testes
es-tat´ısticos deram preferˆencia ao modelo de efeitos aleat´orios e ao modelo de
classes latentes. Os modelos de efeitos aleat´orios s˜ao pouco usados no ˆambito
iv
da economia da sa´ude, mas este trabalho contribui para demonstrar que
es-tes podem ser uma alternativa interessante para acomodar a heterogeneidade individual.
Os resultados do modelo de efeitos aleat´orios permitiram concluir que
existem diferen¸cas significativas na utiliza¸c˜ao de cuidados m´edicos consoante
a escolaridade. A perce¸c˜ao do estado de sa´ude tamb´em foi um fator
deter-minante no n´umero m´edio de consultas. Ser benefici´ario de um subsistema
de sa´ude teve impacto negativo no n´umero m´edio de consultas. O modelo
de classes latentes sugere a existˆencia de duas subpopula¸c˜oes com diferentes
n´ıveis de utiliza¸c˜ao. Na classe dos utilizadores “mais controlados”verificou-se
que os principais determinantes estavam relacionados com o estado de sa´ude.
Por sua vez, na classe dos “menos controlados”, a escolaridade e perce¸c˜ao
influenciaram significativamente a utiliza¸c˜ao de cuidados. Nesta classe de
utilizadores, a vari´avel diabetes teve impacto contr´ario ao esperado, estando
associado a uma menor utiliza¸c˜ao. O estado de sa´ude e etnia foram os
indi-cadores que mais contribu´ıram para explicar a afeta¸c˜ao `as classes.
Palavras-chave: Hipertens˜ao, Utiliza¸c˜ao de cuidados de sa´ude, Modelos
Abstract
One of the goals of the Portuguese Health System is to ensure equity in access to health care services, however barriers to access persist, requiring the implementation of strategies in order to reduce these inequalities. There are some studies aimed to study the determinants of health care utilization in Portugal, however specific studies on hypertensive population are scarce. The aim of this study is to identify the determinants of health care utiliza-tion in two cohorts of hypertensive patients, followed in Primary Health Care. The data used for this analysis is from the DIMATCH-HTA study, a longi-tudinal study of two cohorts, immigrants and non-immigrants. The measure of utilization used was the self-reported number of medical visits related to hypertension, within 3 months prior to each interview. The variable was collected in four different times, 3, 6, 9 and 12 months after study entry. The explanatory variables considered were age, gender, ethnicity, marital status, income, education level, private insurance, health subsystem, occupation, number of people in household, diabetes, cholesterol, hypertension control, time since diagnosis of hypertension and self-perception of disease.
The methodology involved the comparison of different regression models for count data, which allowed correlation and dispersion of data. Among the estimated models, statistical tests gave preference to the random effects mo-del and the latent class momo-del. The random effects momo-dels are slightly used in health economics, however this study contributes to demonstrate that these models can be an interesting alternative to accommodate individual hetero-geneity.
vi
The results showed significant differences in health care utilization depen-ding on educational level. Also the perception of health status was determi-nant in health care utilization. In the random effects model, to be beneficiary of an health subsystem had a negative impact on health care utilization due to hypertension. The latent class model suggests the existence of two subpo-pulations with different levels of usage. In the class of “more controlled”users it was found that the main determinants were health related. In turn, in the class of the “less controlled”, education and perception influenced the use of care. Also in this class of users, the variable diabetes had an impact oppo-sed to what was expected, being associated with a lower utilization. Health status and ethnicity appeared to be the most important indicators of class membership.
Keywords: Hypertension, Health care utilisation, Longitudinal models, Count models.
Conte´
udo
Agradecimentos i Resumo iii Abstract v 1 Introdu¸c˜ao 1 1.1 Hipertens˜ao arterial . . . 11.2 Consumo de recursos de sa´ude . . . 3
1.3 Estudo DIMATCH-HTA . . . 7
2 Objetivo 9 3 Dados do estudo DIMATCH-HTA 11 3.1 Constru¸c˜ao da base de dados . . . 11
3.2 Vari´avel Resposta . . . 12
3.3 Outras vari´aveis . . . 12
3.4 Imputa¸c˜ao de valores de press˜ao arterial . . . 17
4 Metodologia 21 4.1 An´alise de dados longitudinais . . . 21
4.1.1 Modelo Marginal: Equa¸c˜oes de estima¸c˜ao generalizadas 23 4.1.2 Modelo de Efeitos aleat´orios: Modelos lineares genera-lizados mistos . . . 28
4.2 An´alise de dados com sobredispers˜ao . . . 30
4.2.1 Modelos Barreira . . . 31 vii
viii CONTE ´UDO
4.2.2 Modelos Inflacionados no Zero . . . 31
4.2.3 Modelos de classes latentes . . . 34
4.3 Diagn´ostico do modelo . . . 36
4.3.1 Multicolinearidade . . . 36
4.3.2 An´alise de Res´ıduos . . . 36
4.4 Software . . . 38
5 Resultados 39 5.1 An´alise Explorat´oria . . . 39
5.1.1 Descri¸c˜ao inicial da amostra . . . 39
5.1.2 Vari´avel resposta: N´umero de consultas por 3 meses . . 41
5.1.3 Vari´aveis dependentes do tempo: controlo medido e autopercecionado . . . 44
5.2 Ajustamento dos modelos de regress˜ao . . . 47
5.2.1 Modelo marginal . . . 47
5.2.2 Modelo linear generalizado misto (GLMM) . . . 61
5.2.3 Modelos inflacionados no zero . . . 65
5.2.4 Modelo de classes latentes (MCL) . . . 71
5.2.5 Compara¸c˜ao dos modelos de regress˜ao . . . 78
6 Discuss˜ao e Conclus˜ao 81 6.1 Discuss˜ao . . . 81
6.2 Conclus˜oes . . . 90
Anexo A - Question´arios aplicados no DIMATCH-HTA 99
Anexo B - Fun¸c˜oes do R e do Stata 117
Lista de Figuras
1.1 Modelo conceptual inicial de Andersen (Andersen, 1968) . . . 4
3.1 Boxplot da press˜ao arterial sist´olica imputada . . . 18
3.2 Boxplot da press˜ao arterial diast´olica imputada . . . 19
5.1 Gr´afico mosaico do n´umero do n´umero de consultas por mo-mento de avalia¸c˜ao. . . 43
5.2 Gr´aficos dos perfis individuais do n´umero de consultas. . . 44
5.3 Gr´aficos do perfil m´edio do n´umero de consultas por etnia e por sexo. . . 45
5.4 Gr´aficos do perfil m´edio do n´umero de consultas por diagn´ostico diabetes e por autoperce¸c˜ao de controlo de PA. . . 45
5.5 Gr´aficos do perfil m´edio do n´umero de consultas por grupo et´ario e unidade funcional. . . 46
5.6 Boxplot dos valores de press˜ao arterial por momento de ava-lia¸c˜ao. . . 46
5.7 Gr´aficos da an´alise de res´ıduos para o Modelo marginal II (Poisson). . . 59
5.8 Gr´aficos da an´alise de res´ıduos para o Modelo marginal III (Binomial Negativo). . . 60
5.9 Gr´aficos de diagn´ostico do Modelo GLMM II. . . 64
5.10 Gr´aficos da an´alise de res´ıduos do modelo ZIP. . . 68
5.11 Gr´aficos da an´alise de res´ıduos do modelo ZINB. . . 69
5.12 Gr´aficos da an´alise de res´ıduos do modelo de classes latentes . 77
Lista de Tabelas
1.1 Classifica¸c˜ao dos n´ıveis de press˜ao arterial em adultos (idade
igual ou superior a 18 anos) . . . 2
3.1 Dimens˜ao da base de dados . . . 12
3.2 Descri¸c˜ao das vari´aveis presentes no estudo (I) . . . 14
3.3 Descri¸c˜ao das vari´aveis presentes no estudo (II) . . . 15
3.4 Descri¸c˜ao das vari´aveis presentes no estudo (III) . . . 16
3.5 Imputa¸c˜ao de valores de press˜ao arterial . . . 18
4.1 Estruturas correla¸c˜ao de Liang & Zeger (1986) . . . 26
5.1 Caracter´ısticas baseline I. . . 40
5.2 Caracter´ısticas baseline II. . . 41
5.3 Estat´ıstica descritiva da vari´avel resposta n´umero de consultas nos ´ultimos 3 meses. . . 42
5.4 Tabela de frequˆencias do n´umero de consultas por 3 meses. . . 42
5.5 Propor¸c˜ao de indiv´ıduos que utilizaram cada tipo de servi¸co. . 43
5.6 Valores de press˜ao arterial por momento de avalia¸c˜ao. . . 45
5.7 Propor¸c˜ao de controlo medido e controlo autopercecionado. . . 47
5.8 Tabela de frequˆencias do n´umero de observa¸c˜oes por indiv´ıduo. 49 5.9 Estat´ıstica descritiva da vari´avel resposta (1132 observa¸c˜oes). . 49
5.10 N´umero m´edio (desvio padr˜ao) de consultas por grupo (1132 observa¸c˜oes). . . 50
5.11 Estimativas dos parˆametros, erros padr˜ao (EP) e valores-p do Modelo marginal I com diferentes estruturas de correla¸c˜ao. . . 51
5.12 Matriz de correla¸c˜ao n˜ao estruturada. . . 52 xi
xii LISTA DE TABELAS
5.13 Matriz de correla¸c˜ao uniforme. . . 52
5.14 Compara¸c˜ao de modelos. . . 53
5.15 Estimativas do Modelo marginal II e do Modelo marginal III. . 56
5.16 Matriz de correla¸c˜ao n˜ao estruturada do Modelo marginal II. . 57
5.17 Matriz de correla¸c˜ao n˜ao estruturada do Modelo marginal III. 57
5.18 VIF das covari´aveis candidatas ao modelo estimado, por
mo-mento de avalia¸c˜ao. . . 58
5.19 Valores observados e valores ajustados pelos modelos
margi-nais por momento. . . 61
5.20 Compara¸c˜ao de modelos com diferentes efeitos aleat´orios. . . . 62
5.21 Estimativas do Modelo GLMM II com dois efeitos aleat´orios. . 63
5.22 Valores observados e valores ajustados pelo Modelo GLMM II
por momento. . . 65
5.23 Estimativas dos parˆametros, erros padr˜ao (EP), valores-z e
valores-p dos Modelos Inflacionados no zero. . . 66
5.24 Valores observados e valores ajustados pelos ZIM por momento. 70
5.25 Probabilidade estimada de n˜ao ir ao m´edico. . . 70
5.26 Valores AIC, BIC e logaritmo da verosimilhan¸ca. . . 71
5.27 Logaritmo da verosimilhan¸ca, valores BIC e AIC para cada
um dos modelos. . . 71
5.28 Estimativas dos parˆametros, erros padr˜ao (EP), valores-z e
valores-p do modelo de classes latentes. . . 73
5.29 Estimativas do modelo logit GEE para explicar os
determi-nantes da afeta¸c˜ao `a classe 2. . . 75
5.30 Valores observados e valores ajustados pelo Modelo Classes
Latentes por momento. . . 78
5.31 Valores AIC e MSR para cada um dos modelos. . . 79
CAP´ITULO
1
Introdu¸c˜
ao
1.1
Hipertens˜
ao arterial
As doen¸cas cardiovasculares s˜ao das principais causas de morbilidade e
mortalidade em todo o mundo e em Portugal. A hipertens˜ao arterial (HTA)
´
e considerada um dos mais importantes fatores de risco para as doen¸cas
coron´aria e cerebrovascular. A n´ıvel mundial, estima-se que as doen¸cas
car-diovasculares tenham sido respons´aveis por 17,3 milh˜oes de mortes (30%) em
2008. Estimativas de 2004 apontam para a hipertens˜ao como o principal
fa-tor de risco entre as doen¸cas cardiovasculares, causando cerca de 7,5 milh˜oes
de mortes (12,8%) em todo o mundo (Mendis et al., 2011; Mathers et al., 2009).
Nas ´ultimas d´ecadas tem-se verificado uma redu¸c˜ao na taxa de
morta-lidade por doen¸cas cardiovasculares na popula¸c˜ao portuguesa. Em 2010, a
mortalidade padronizada por doen¸cas do aparelho circulat´orio foi de 169,29
mortes por 100000 habitantes. Para o mesmo ano, a mortalidade padronizada
por doen¸ca isqu´emica e por doen¸ca cerebrovascular, foram, respetivamente,
39,87 mortes e 71,07 mortes por 100000 habitantes (Dire¸c˜ao-Geral da Sa´ude,
2013b). Analisando apenas a popula¸c˜ao com 65 ou mais anos, estes valores
s˜ao bastante superiores, estimando-se que taxa de mortalidade padronizada
por doen¸cas do aparelho circulat´orio seja de 1348,0 mortes por 100000
habi-tantes. Relativamente `a mortalidade por doen¸ca cerebrovascular e por doen¸ca
isqu´emica para o mesmo grupo et´ario, os valores estimados foram de 581,3
2 CAP´ITULO 1. Introdu¸c˜ao
e 290,4 mortes por 100000 habitantes, respetivamente (Instituto Nacional de Estat´ıstica, 2013).
De acordo com a Norma no20/2011 de 28/09/2011 (Dire¸c˜ao-Geral da
Sa´ude, 2011) “O diagn´ostico de hipertens˜ao arterial (HTA) define-se, em
avalia¸c˜ao de consult´orio, como a eleva¸c˜ao persistente, em v´arias medi¸c˜oes e
em diferentes ocasi˜oes, da press˜ao arterial sist´olica (PAS) igual ou superior
a 140 mmHg e/ou da press˜ao arterial diast´olica (PAD) igual ou superior a
90 mmHg”, em doentes adultos com idade superior ou igual a 18 anos e que
n˜ao tomem medica¸c˜ao anti-hipertensora e n˜ao apresentem nenhuma
pato-logia aguda concomitante. A hipertens˜ao arterial pode categorizar-se em 3
graus, de acordo com a tabela 1.1.
Categoria PAS (mmHg) PAD (mmHg)
´
Optima < 120 e < 80
Normal 120-129 e/ou 80-84
Normal-Alta 130-139 e/ou 85-89
Hipertens˜ao arterial
Grau 1 (ligeira) 140-159 e/ou 90-99
Grau 2 (moderada) 160-179 e/ou 100-109
Grau 3 (grave) ≥ 180 e/ou ≥ 110
Hipertens˜ao sist´olica isolada (HSi) ≥ 140 e < 90
Tabela 1.1: Classifica¸c˜ao dos n´ıveis de press˜ao arterial em adultos (idade
igual ou superior a 18 anos)
O estudo “Prevalence, awareness, treatment and control of hypertension in Portugal: the PAP study”(De Macedo et al., 2007) estimou que 42,1% da
popula¸c˜ao portuguesa entre os 18 e os 90 anos sofria de hipertens˜ao,
represen-tando mais de 3 milh˜oes de hipertensos adultos em Portugal. A prevalˆencia
de HTA estimada foi mais elevada no sexo masculino do que no sexo
femi-nino (49,5% vs 38,4%). O estudo revelou tamb´em que apenas 46,1% dos
inquiridos tinham conhecimento de que sofriam de HTA e 39,0% estavam a ser tratados. Ainda o mesmo estudo indicou que apenas 11,2% dos hiper-tensos portugueses tinha doen¸ca controlada. Relativamente aos doentes que
indicaram estar a tomar medica¸c˜ao regularmente, apenas 28,6% tinham
hi-pertens˜ao controlada.
in-1.2 Consumo de recursos de sa´ude 3
div´ıduos africanos. ´E tamb´em entre estes que se regista uma maior taxa
de mortalidade por acidente vascular cerebral (AVC) (Howard et al., 2006).
Apesar dos africanos terem uma maior consciˆencia da doen¸ca e de mais
pro-vavelmente estarem sob medica¸c˜ao, caso tenham conhecimento da doen¸ca,
a possibilidade de estarem controlados ´e inferior (Howard et al., 2006).
Al-gumas das raz˜oes que tˆem sido dadas para explicar o controlo insuficiente
incluem fatores gen´eticos, estilos de vida, acesso e utiliza¸c˜ao dos cuidados de
sa´ude entre outras (Howard et al., 2006).
A popula¸c˜ao estrangeira residente em Portugal, em 2012, totalizava 417042
cidad˜aos. Entre as nacionalidades mais representativas est˜ao alguns pa´ıses
africanos de l´ıngua oficial portuguesa (PALOP), como Cabo Verde (10,3%),
Angola (4,9%), Guin´e-Bissau (4,3%) e S˜ao Tom´e e Pr´ıncipe (2,5%) (SEF/Gabinete de
Estudos, 2013). Uma vez que a comunidade imigrante africana residente
em Portugal tem uma dimens˜ao consider´avel e sabendo que se estima uma
maior prevalˆencia de hipertens˜ao entre os indiv´ıduos africanos, torna-se
im-portante estudar de que forma a migra¸c˜ao e as carater´ısticas culturais e
s´ocio-econ´omicas determinam o controlo da doen¸ca.
Os cuidados de sa´ude prim´arios desempenham um papel crucial no
con-trolo de coen¸cas cr´onicas, como a hipertens˜ao. O Plano Nacional de Sa´ude
2011-2016 reconhece a necessidade de reduzir as desigualdades em sa´ude e a
necessidade de ac¸c˜oes diferenciadas dirigidas a grupos vulner´aveis, nos quais
se inserem os imigrantes (Dire¸c˜ao-Geral da Sa´ude, 2013a). Assim, percebe-se
a importˆancia de analisar a existˆencia de eventuais desigualdades,
provoca-das por fatores que, ao n˜ao estarem relacionados com a necessidade, p˜oem
em causa o princ´ıpio da equidade no acesso aos cuidados de sa´ude.
1.2
Consumo de recursos de sa´
ude
Em 1968 Andersen (Andersen, 1968) propˆos um modelo
comportamen-tal conceptual para explicar a utiliza¸c˜ao de cuidados de sa´ude, em que as
determinantes da utiliza¸c˜ao s˜ao classificadas em 3 grupos (i) vari´aveis de
predisposi¸c˜ao, (ii) vari´aveis de capacita¸c˜ao e (iii) vari´aveis de necessidade. O
modelo inicial encontra-se representado na figura 1.1.
As caracter´ısticas de predisposi¸c˜ao mencionadas no modelo incluem
fato-res demogr´aficos como idade e sexo, vari´aveis relacionadas com a estrutura
com-4 CAP´ITULO 1. Introdu¸c˜ao
Figura 1.1: Modelo conceptual inicial de Andersen (Andersen, 1968)
preende fatores que determinam o estatuto de um indiv´ıduo na comunidade e a forma como ele se relaciona com os problemas, sendo tradicionalmente
avaliada atrav´es de vari´aveis como educa¸c˜ao, ocupa¸c˜ao e etnia. As cren¸cas
relativamente `a sa´ude refletem atitudes, valores e conhecimentos que as
pes-soas tˆem em rela¸c˜ao `a sa´ude e aos servi¸cos de sa´ude, que podem influenciar
a perce¸c˜ao de necessidade e a consequente utiliza¸c˜ao de cuidados de sa´ude
(Andersen, 1995; Babitsch et al., 2012).
As vari´aveis de capacita¸c˜ao compreendem duas vertentes - a capacita¸c˜ao
da comunidade, que se relaciona com a capacidade da comunidade fornecer as
condi¸c˜oes e recursos de sa´ude necess´arios para servir a popula¸c˜ao, e a
capa-cita¸c˜ao pessoal, que se refere aos meios e conhecimentos de que o indiv´ıduo
disp˜oe para aceder e usar os servi¸cos de sa´ude. Neste contexto, vari´aveis
como rendimento, ter ou n˜ao ter seguro de sa´ude ou tempos de espera
po-dem ser relevantes.
As vari´aveis de necessidade consideradas no modelo comportamental
di-zem respeito `a forma como os indiv´ıduos percecionam o seu pr´oprio estado de
sa´ude e como experienciam alguns sintomas, e se consideram ou n˜ao que os
seus problemas tˆem importˆancia suficiente que justifique a procura de ajuda
profissional. A necessidade avaliada refere-se `a avalia¸c˜ao do profissional sobre
o estado de sa´ude do doente e `a necessidade do doente procurar cuidados de
sa´ude.
Em 1995 o mesmo autor (Andersen, 1995) propˆos um modelo mais
com-plexo, no qual considera a natureza dinˆamica e recursiva do consumo de
in-1.2 Consumo de recursos de sa´ude 5
fluenciam a utiliza¸c˜ao de servi¸cos de sa´ude e, consequentemente, o estado
de sa´ude, considerando tamb´em a influˆencia dos resultados de sa´ude nos
fa-tores de predisposi¸c˜ao, na necessidade e no comportamento relativamente `a
sa´ude. O modelo considera ainda as condi¸c˜oes externas, como as
componen-tes pol´ıticas e econ´omicas, como vari´aveis importantes na compreens˜ao da
utiliza¸c˜ao dos recursos de sa´ude. Al´em disso, reconhece pr´aticas pessoais de
sa´ude, como a alimenta¸c˜ao e o exerc´ıcio, como fatores que est˜ao interligados
com a utiliza¸c˜ao de cuidados de sa´ude e que influenciam os resultados de
sa´ude. Apesar deste ser um modelo que explica melhor os v´arios
interve-nientes no processo, a sua complexidade implica m´etodos estat´ısticos mais
sofisticados.
Continua a ser uma preocupa¸c˜ao estudar os fatores que influenciam o
acesso e a utiliza¸c˜ao dos cuidados de sa´ude. A promo¸c˜ao de equidade no
acesso aos cuidados de sa´ude constitui um dos pressupostos b´asicos do
sis-tema p´ublico de sa´ude, que se encontra refor¸cado nas Lei das Bases da Sa´ude
“´E objetivo fundamental obter igualdade dos cidad˜aos no acesso aos
cui-dados de sa´ude, seja qual for a sua condi¸c˜ao econ´omica e onde quer que
vivam”(Minist´erio da Sa´ude, 1990). ´E neste contexo que se insere a no¸c˜ao de
equidade horizontal, segundo a qual, para os mesmos n´ıveis de necessidade,
o acesso e utiliza¸c˜ao de cuidados de sa´ude deve ser igual, independentemente
das caracter´ısticas individuais (Wagstaff & Van Doorslaer, 2000).
Alguns estudos tˆem sido elaborados com objetivo de avaliar se o acesso
aos cuidados de sa´ude ´e diferente para indiv´ıduos com igual n´ıvel de
ne-cessidade. Estes estudos pretendem estudar se existem ou n˜ao fatores, n˜ao
relacionados com o estado de sa´ude, facilitadores ou inibidores do acesso. Os
modelos de contagem mais usados para descrever a utiliza¸c˜ao de cuidados de
sa´ude s˜ao os modelos barreira (Pohlmeier & Ulrich, 1995) e os modelos de
classes latentes (Deb & Trivedi, 1997, 2002).
Deb & Trivedi (1997, 2002) foram os pioneiros na aplica¸c˜ao de
mode-los de classes latentes na economia da sa´ude, defendendo esta abordagem
como a mais apropriada para descrever a utiliza¸c˜ao de cuidados de sa´ude.
Numa aplica¸c˜ao emp´ırica, os autores recorrem aos dados do National
Medi-cal Expenditure Survey, realizado em 1987, nos Estados Unidos da Am´erica
(EUA). Para este estudo foi considerada uma subamostra, correspondente `
a popula¸c˜ao idosa, e os modelos foram estimados para seis medidas de
uti-liza¸c˜ao. Os resultados enfatizam a importˆancia do estado de sa´ude e do
seguro de sa´ude como determinantes na procura de cuidados de sa´ude, e
6 CAP´ITULO 1. Introdu¸c˜ao
Atella et al. (2004) usaram modelo de classes latentes probit para
des-crever a decis˜ao conjunta de visitar trˆes tipos de m´edicos, cl´ınico geral,
m´edico especialista no servi¸co p´ublico e m´edico privado. Os dados usados
para esta an´alise foram obtidos a partir do “Indagine Multiscopo sulle
Fa-miglie”(Multipurpose Household Survey), realizado em It´alia, em 1991. Os
autores demonstraram que o rendimento n˜ao parece afetar o acesso aos
cui-dados de sa´ude (qualquer tipo), no entanto, `a medida que o rendimento
aumenta existe uma tendˆencia para recorrer ao m´edico especialista privado.
Bago d’Uva (2006) desenvolve um trabalho no qual compara diferentes
metodologias econom´etricas para dados de contagem, com especial interesse
no modelo de classes latentes. A autora prop˜oe um novo modelo de
clas-ses latentes, em que cada classe latentes ´e descrita por um modelo barreira
binomial negativo. Al´em da combina¸c˜ao destes modelos, neste trabalho ´e
feita a extens˜ao dos modelos de classes latentes transversais para a estrutura
em painel. Os dados usados para testar os modelos eram provenientes do Rand Health Insurance Experiment, um estudo experimental conduzido nos
EUA, entre 1974 e 1982. A vari´avel de utiliza¸c˜ao usada foi o n´umero de
consultas em ambulat´orio num per´ıodo de um ano. Comparativamente aos
modelos existentes, o modelo proposto demonstrou um melhor ajustamento
aos dados, enfatizando as vantagens da estrutura em painel na acomoda¸c˜ao
da heterogeneidade individual e na estima¸c˜ao do modelo. Os resultados
in-dicam que o efeito do pre¸co, medido como taxa de copagamento, ´e maior na
classe dos utilizadores pouco frequentes, sendo as diferen¸cas registadas
prin-cipalmente na probabilidade de ir ao m´edico. Adicionalmente, os resultados
revelam que o efeito do estado de sa´ude ´e mais importante no n´umero de
consultas, do que para a probabilidade de ter pelo menos uma consulta. O trabalho realizado por Louren¸co et al. (2007) compara dois modelos de contagem, o modelo binomial negativo e o modelo de classes latentes. Os
dados usados foram provenientes do Inqu´erito Nacional de Sa´ude 1998/1999,
para a popula¸c˜ao global, e a vari´avel resposta usada foi o n´umero de
con-sultas nos trˆes meses anteriores `a entrevista. Os autores concluem sobre o
modelo de classes latentes baseado na distribui¸c˜ao binomial negativa, que
aponta para a ausˆencia de equidade na classes dos utilizadores ocasionais,
enquanto na classe dos utilizadores recorrentes essa hip´otese n˜ao ´e rejeitada.
Num estudo mais recente de Quintal et al. (2012), foram estimados dois
modelos de classes latentes com distribui¸c˜ao binomial negativa
1.3 Estudo DIMATCH-HTA 7
e 2005/2006 referentes `a popula¸c˜ao idosa portuguesa. Os autores concluem
que, no caso dos utilizadores pouco frequentes, persistem barreiras `a
uti-liza¸c˜ao de cuidados de sa´ude como a residˆencia, educa¸c˜ao, estatuto
profissi-onal e o facto de viver sozinho.
1.3
Estudo DIMATCH-HTA
Todos os resultados que v˜ao ser apresentados s˜ao baseados nos dados
recolhidos no estudo DIMATCH-HTA. Este ´e um estudo observacional e
lon-gitudinal, de base populacional estratificado em duas coortes de imigrantes
dos PALOP e n˜ao imigrantes, de hipertensos medicados, seguidos nos
Cui-dados de Sa´ude Prim´arios da Regi˜ao de Sa´ude de Lisboa. Os participantes
foram considerados imigrantes se tivessem naturalidade de um PALOP e se tivessem sido identificados como de etnia negra.
O estudo foi conduzido com o objetivo de conhecer e descrever os
determi-nantes associados `a ades˜ao terapˆeutica e `a mudan¸ca terapˆeutica no controlo
da hipertens˜ao arterial, e comparar as duas coortes de doentes.
Os crit´erios de sele¸c˜ao inclu´ıam (i) ter registo cl´ınico nos cuidados de
sa´ude prim´arios, (ii) ter diagn´ostico de hipertens˜ao, (iii) estar a tomar
me-dica¸c˜ao antihipertensora, (iv) ter tido consulta no m´edico de fam´ılia nos
´
ultimos doze meses, (v) ter idade entre os 40 e 80 anos, (vi) ser respons´avel
pela medica¸c˜ao, (vii) estar contact´avel por telefone e (viii) ter dado
consen-timento informado para participar no estudo.
O per´ıodo de follow-up do estudo foi de 12 meses, durante o qual foram conduzidas entrevistas presenciais no momento basal, aos 6 e 12 meses e
en-trevistas telef´onicas aos 3 e 9 meses. Durante as entrevistas foi recolhida
informa¸c˜ao sobre vari´aveis demogr´aficas e s´ocioecon´omicas, sobre o estado
de sa´ude, aspectos relacionados com a medica¸c˜ao, valores de press˜ao arterial,
entre outras vari´aveis. Os question´arios aplicados em cada um dos momentos
s˜ao apresentados no Anexo A. Os dados foram recolhidos entre Setembro de
2010 e Mar¸co de 2012.
O estudo foi desenvolvido pelo Unidade de Epidemiologia do Instituto de Medicina preventiva da Faculdade de Medicina de Lisboa (IMP-FML) e
co-financiado pela Funda¸c˜ao para Ciˆencia e Tecnologia (FCT), atrav´es do
CAP´ITULO
2
Objetivo
Inserido no projeto DIMATCH-HTA, o presente trabalho pretende
ana-lisar os determinantes da utiliza¸c˜ao de cuidados de sa´ude entre os doentes
hipertensos seguidos nos Cuidados de Sa´ude Prim´arios, atrav´es do
ajusta-mento de modelos apropriados para analisar dados correlacionados de
natu-reza discreta. Como vari´avel proxy do consumo de recursos de sa´ude, vai ser
usado o n´umero de consultas m´edicas devido `a hipertens˜ao.
Assim, definem-se como principais objetivos deste estudo:
• Avaliar o impacto de vari´aveis sociodemogr´aficas, socioecon´omicas e do
estado de sa´ude no consumo de consultas m´edicas medido ao longo do
tempo, em doentes hipertensos;
• Comparar diferentes metodologias usadas para estudar dados longitu-dinais de contagens com excesso de zeros.
CAP´ITULO
3
Dados do estudo DIMATCH-HTA
3.1
Constru¸
c˜
ao da base de dados
A base de dados (BD) da componente longitudinal do estudo
DIMATCH-HTA encontrava-se em Microsoft Access e, devido `a forma como a base tinha
sido constru´ıda, apresentava um grande n´umero de vari´aveis. Os dados em
Access foram exportados para Excel, resultando em 4 ficheiros
correspon-dendo cada um deles a um momento de observa¸c˜ao (3 meses, 6 meses, 9
meses e 12 meses). As bases de dados resultantes das entrevistas presenci-ais (6 e 12 meses), por corresponderem aos momentos com recolha de um
maior n´umero de vari´aveis, apresentavam uma enorme complexidade. Antes
de iniciar a an´alise dos dados, a base de dados sofreu um tratamento que
consistiu na uniformiza¸c˜ao dos nomes das vari´aveis e uniformiza¸c˜ao da
codi-fica¸c˜ao atribu´ıda `as vari´aveis categ´oricas. Seguiu-se uma valida¸c˜ao exaustiva
de inconsistˆencias encontradas, em particular nas vari´aveis candidatas a ser
analisadas, que por vezes implicou a consulta dos question´arios em formato
de papel. O trabalho de organiza¸c˜ao e valida¸c˜ao da BD foi desenvolvido em
comunica¸c˜ao com o IMP, respons´avel pela condu¸c˜ao do estudo, como
ele-mento essencial na compreens˜ao das vari´aveis e da respectiva codifica¸c˜ao.
A base de dados correspondente ao momento basal j´a tinha sido analisada
e portanto este trabalho implicou um menor dispˆendio de tempo. Os dados
basais j´a foram objeto de an´alise que resultou em algumas apresenta¸c˜oes em
congressos e semin´arios (Gomez et al., 2012; Lopes et al., 2012; Souto et al.,
12 CAP´ITULO 3. Dados do estudo DIMATCH-HTA
2012).
Na tabela 3.1 apresenta-se o n´umero de observa¸c˜oes por cada momento,
assim como o n´umero de vari´aveis que constituiam os ficheiros inciais.
Momento 0M 3M 6M 9M 12M
N´umero de observa¸c˜oes 786 655 434 494 379
N´umero de vari´aveis 308 42 88 42 131
Tabela 3.1: Dimens˜ao da base de dados
A base de dados final passou a ser composta pelos cinco momentos,
con-densados num ficheiro ´unico, estando atribu´ıdo a cada indiv´ıduo uma linha
por momento de observa¸c˜ao.
Neste cap´ıtulo pretende-se descrever algumas das vari´aveis da base de
dados e dar informa¸c˜ao sobre o momento de recolha.
3.2
Vari´
avel Resposta
A vari´avel dependente (ou resposta) que foi usada como indicadora do
consumo de cuidados de sa´ude dos doentes hipertensos foi o n´umero de
consultas m´edicas por motivos relacionados com hipertens˜ao, efetuadas nos
´
ultimos 3 meses anteriores `as entrevistas. A vari´avel foi recolhida nos 4
mo-mentos de observa¸c˜ao (3, 6, 9 e 12 meses) e foi usada como vari´avel num´erica
discreta, resultado de um processo de contagem. Apesar de ter sido
reco-lhida informa¸c˜ao relativa `a tipologia dos cuidados de sa´ude usados, para esta
an´alise optou-se por usar uma vari´avel que inclu´ıa todos os tipos de consultas
independentemente da natureza do prestador ou especialidade.
3.3
Outras vari´
aveis
Como j´a foi referido, a base de dados obtida continha um enorme n´umero
de vari´aveis, tendo sido feita uma sele¸c˜ao das vari´aveis com interesse para a
3.3 Outras vari´aveis 13
identificadas como candidatas a serem inclu´ıdas no modelo.
As vari´aveis recolhidas nos momentos 3 e 9 meses foram as mesmas,
as-sim como as vari´aveis medidas nos momentos 6 e 12 meses. Note-se que o
question´ario aplicado aos 12 meses, apresentava um bloco adicional de
per-guntas com objetivo de identificar altera¸c˜oes em determinadas vari´aveis
so-cioecon´omicas como composi¸c˜ao do agregado familiar, ocupa¸c˜ao, rendimento
e despesas de sa´ude comparativamente ao momento basal.
Em cada uma das entrevistas presenciais (basal, 6 e 12 meses) foram
efetu-adas 3 medi¸c˜oes dos valores de press˜ao arterial sist´olica (PAS) e 3 medi¸c˜oes
da press˜ao arterial diast´olica (PAD), por entrevistadores devidamente
for-mados para efetuar a medi¸c˜ao e registo dos valores de press˜ao arterial. Nos
momentos 3 e 9 meses, o delineamento do estudo previa que os question´arios
fossem aplicados telefonicamente e, por este motivo, n˜ao foram recolhidos
valores de press˜ao arterial. Para estes momentos optou-se por recorrer a
m´etodos de imputa¸c˜ao. Nos quatro momentos de avalia¸c˜ao os doentes foram
questionados sobre o valor e local da ´ultima medi¸c˜ao de press˜ao arterial. A
possibilidade de imputar estes valores nos momentos 3 e 9 foi estudada. As
t´ecnicas de imputa¸c˜ao testadas s˜ao descritas na sec¸c˜ao seguinte.
A partir dos valores de PA (medidos aos 0, 6 e 12 meses e imputados aos 3
e 9 meses), foi definida uma vari´avel controlo, segundo a qual um indiv´ıduo ´e
considerado controlado se cumprir duas condi¸c˜oes: PAS m´edia< 140 mmHg
e PAD m´edia< 90 mmHg. Esta defini¸c˜ao de controlo j´a foi usada em outros
estudos (De Macedo et al., 2007).
A vari´avel rendimento individual foi constru´ıda a partir das classes de
rendimento recolhidas no estudo. Admitiu-se o ponto m´edio de cada classe,
`
a exce¸c˜ao da ´ultima classe, para a qual se considerou o limite inferior. O
n´umero de adultos equivalentes (AE) do agregado foi calculado, atribuindo
uma pondera¸c˜ao de 1 para o primeiro indiv´ıduo e 0.5 a cada pessoa adicional.
Esta metodologia n˜ao ´e igual `a escala modificada proposta pela OCDE que
atribui uma pondera¸c˜ao de 0.3 a cada crian¸ca com idade inferior a 14 anos.
Esta op¸c˜ao deve-se ao fato de n˜ao se conhecer a idade dos restantes
elemen-tos do agregado familiar. O rendimento equivalente (RE) do indiv´ıduo i foi
calculado atrav´es da f´ormula REi = R/AE, com R a representar o ponto
14 CAP´ITULO 3. Dados do estudo DIMATCH-HTA V ari ´av el Tip o de v ari ´av el N ´ıv eis Descri¸ c ˜ao Momen to de a v alia¸ c ˜ao So c io demogr´ aficas idade n um ´e ri ca Idade do do en te, em anos, no in ´ıcio do estudo 0 P eso n um ´erica P eso do do en te, em k g, no in ´ıcio do estudo 0 Altura n um ´erica Altura do do en te, em metros, no in ´ıcio do estudo 0 IMC n um ´erica Indice de massa corp oral, no in ´ıcio do estudo 0 nAnosEscola n um ´erica N ´umero de anos de escolaridade 0 niv elEnsi n o categ´ orica nenh um, 1 ociclo, 2 o e 3 o ciclo, N ´ıv el de ensino completo mais elev ado 0 p´ os-secund´ ario, se cund´ ario, sup erior 0 P e sso asAgregado n um ´erica N ´umero de p essoas que comp o em o agregado 0,12 familiar no in ´ıcio do estudo Sexo categ´ orica feminino, masculino Sexo do do en te 0 bin´ aria Etnia categ´ orica negra, caucasiana Etnia do do en te 0 bin´ aria EstadoCivil categ´ o ric a casado, div orciado, so lteiro, vi ´uv o Estado civil do do en te 0 o cupa c a o categ´ orica desempregado, empregado, reformado, outro Ocupa¸ c˜ ao principal 0,12 SitProfissional categ´ orica nenh um, con ta outrem, con ta pr´ opria, Situa¸ c˜ ao profissional 0,12 con ta pr´ opria como empregador, p essoa fam ´ılia sem receb er, ou tra Rendimen to categ´ orica at ´e 1 50, 151 -250, 25 1-350, 351-500, 501-700, Rendimen to total 0,12 701-900, 901-1200, 1201-1500 , 1501-200, + 2000 do agregado Rendimen toAjust n um ´erica Rendimen to equiv alen te 0,12 do indiv ´ıduo T ab ela 3.2: Descri¸ c˜ao das v ari´ av eis presen te s no estudo (I)
3.3 Outras vari´aveis 15 V ari´ av el Tip o de v ari´ av el N ´ıv eis Desc ri ¸c˜ ao Momen to de a v alia¸ c˜ ao Estilos de vida F umador categ´ orica sim, n˜ ao H´ abitos tab´ agicos do do en te no inicio do estudo 0 bin´ aria Ex-fumador c a teg´ orica sim, n˜ ao Historial de h´ abitos tab´ agicos 0 bin´ aria AltAlim bin´ ar ia sim, n˜ ao Nos ´ultimos 3 meses, alterou a alimen ta¸ c˜ ao 3,6,9,12 para melhorar con trolo T omaMed categ´ orica sim, n˜ ao Nos ´ultimos 3 meses, tomou medica¸ c˜ ao 3,6,9,12 bin´ aria para melhorar con trolo F azerEx categ´ orica sim, n˜ ao Nos ´ultimos 3 meses, praticou exerc ´ıcio f´ısic o 3 ,6 ,9 ,1 2 bin´ aria para melhorar con trolo Cuidados de sa ´ude UnidadeF uncional categ´ orica U S F, UCSP Tip o de unidade funcional onde ´e seguido 0 bin´ aria SeguroPriv ado categ´ orica sim, n˜ ao Benefeci ´ario de se g uro de sa ´ude priv a do 0 bin´ aria SistemaRecorre categ´ orica SNS, ADM, ADSE, PT /CTT, Sistema de sa ´ude que recorre mais v ezes 0 SAD/GNR, SAMS, Outro duplaCob ertura categ´ orica sim, n˜ ao Dupla cob ertura do sistema de sa ´ude bin´ aria V ezesMed n um ´erica N ´umero de v ez es que foi m ´edico 3,6,9,12 nos ´ultimos 3 meses V ez esMedF am n um ´erica N ´umero de v ezes que foi m ´edico de fam ´ılia 3,6,9,12 nos ´ultimos 3 meses V ez esMedPriv n um ´erica N ´umero de v ezes que foi m ´edico priv ado 3,6,9,12 nos ´ultimos 3 meses V ezesMedEsp n um ´erica N ´umero de v eze s que foi m ´edico esp e cialista 3,6,9,12 nos ´ultimos 3 meses V e zesServUrg n um ´erica N ´umero de v ezes que foi ao servi¸ co de urg ˆencia 3,6,9,12 nos ´ultimos 3 meses T ab ela 3.3: Descri¸ c˜ao das v ari´ av eis presen te s no estudo (I I)
16 CAP´ITULO 3. Dados do estudo DIMATCH-HTA V ari´ av el Tip o de v ari´ av el N ´ıv eis Descri¸ c˜ ao Momen to de a v a lia¸ c˜ ao Estado de sa ´ude SUMComorbilidades n um ´erica N ´umero total de comorbilidades 0 Diab etes categ´ orica sim, n˜ ao Diagn´ ostico de diab etes 0 bin´ aria Colesterol categ´ orica sim, n˜ ao Diagn´ ostico de hip ercolesterol ´emia 0 bin´ aria temp o H T A n um ´erica T emp o desde diagn´ ostico de hip ertens˜ ao 0 Autop ercep¸ cao categ´ orica sim, n˜ ao Auto-a v alia¸ c˜ a o do con trolo 3,6,9,12 bin´ aria SistMed n um ´erica M ´edia dos v a lo res de press˜ a o arterial sist´ oli ca 0,6,12 DiastMed n um ´erica M ´edia dos v alores de pr e ss˜ ao arterial diast´ olica 0,6,12 F reqCard n um ´erica M ´edia dos v alores de frequ ˆencia card ´ıaca 0,6,12 UltTSist n um ´erica V alores de press˜ ao arterial sist´ olica 3 ,9 autorrep ortados da ´ultima me d i¸c˜ ao UltTDiast n um ´erica V alores de press˜ ao arterial diast´ olica 3,9 autorrep ortados da ´ultima me d i¸c˜ ao Con trT A categ´ orica sim, n˜ ao Con trolo de hip ertens˜ ao 0,3,6,9,12 bin´ aria T ab ela 3.4: Descri¸ c˜ao das v ari´ av eis presen tes no estudo (I II)
3.4 Imputa¸c˜ao de valores de press˜ao arterial 17
3.4
Imputa¸
c˜
ao de valores de press˜
ao arterial
Como j´a foi anteriormente referido, nos momentos 3 e 9 meses, devido
ao desenho do estudo, os valores de press˜ao arterial sist´olica e diast´olica
es-tavam ausentes. Para estes momentos de avalia¸c˜ao, recorreu-se a m´etodos
de imputa¸c˜ao para obter uma base de dados mais completa. Foram
compa-rados 2 m´etodos: (i) imputa¸c˜ao dos valores autoreportados, (ii) imputa¸c˜ao
Last and Next. O m´etodo de imputa¸c˜ao por regress˜ao foi exclu´ıdo, uma vez
que as vari´aveis explicativas recolhidas nos 4 momentos apresentavam um
baixo poder preditivo, n˜ao sendo suficientes para explicar a variabilidade da
vari´avel resposta.
Uma das estrat´egias usadas para resolver o problema de valores
omis-sos nos momentos 3 e 9 meses, consistiu em imputar nos valores de PAS
e PAD, os valores autoreportados da ´ultima medi¸c˜ao. Nas entrevistas
pre-senciais e telef´onicas, os participantes foram inquiridos sobre os valores da
´
ultima medi¸c˜ao de press˜ao arterial atrav´es da quest˜ao “Lembra-se do valor
da ´ultima medi¸c˜ao? Se sim, qual foi.”.
O segundo m´etodo testado foi o m´etodo de imputa¸c˜ao Last and Next,
adequado para imputa¸c˜ao em dados longitudinais. Este m´etodo consiste em
imputar no valor omisso a m´edia dos valores de press˜ao arterial dos
momen-tos adjacentes, sendo os valores imputados baseados nos valores do pr´oprio
indiv´ıduo. Este m´etodo implica que os dois valores, nos momentos
ante-rior e posteante-rior ao valor omisso, sejam conhecidos, caso contr´ario n˜ao ser´a
poss´ıvel imputar qualquer valor. Assim, para cada valor omisso aos 3 meses
considerou-se a m´edia entre o valor basal e o valor registado aos 6 meses do
pr´oprio indiv´ıduo, sempre que os dois valores fossem conhecidos. De forma
an´aloga, para os 9 meses, foram imputados as m´edias dos valores registados
aos 6 e 12 meses.
Os valores de press˜ao arterial sist´olica e diast´olica estimados pelos 2
m´etodos e a propor¸c˜ao de valores que foi poss´ıvel imputar atrav´es de cada
m´etodo, encontram-se apresentados na tabela 3.5. A an´alise da tabela e dos
gr´aficos 3.1 e 3.2 permite verificar que, de uma forma geral, o m´etodo Last
and Next produziu valores mais altos de press˜ao arterial (`a exce¸c˜ao da PAS
18 CAP´ITULO 3. Dados do estudo DIMATCH-HTA
3 Meses 9 Meses
Last & Next Autorreporte Last & Next Autorreporte
PAS 135,23 134,01 131,65 132,56 (dp) (18,04) (17,22) (18,03) (17,49) % imp, 65,19 71,91 59,92 78,74 PAD 82,70 78,97 80,46 79,02 (dp) (10,98) (12,20) (11,04) (13,01) % imp, 64,89 71,91 59,72 71,05
Tabela 3.5: Imputa¸c˜ao de valores de press˜ao arterial
Figura 3.1: Boxplot da press˜ao arterial sist´olica imputada
A imputa¸c˜ao dos valores autorreportados da ´ultima medi¸c˜ao como proxy
dos valores m´edios recolhidos nas entrevistas presenciais levanta alguns
pro-blemas, nomeadamente devido ao vi´es de mem´oria, uma vez que as pessoas
tendem a recordar mais facilmente epis´odios recentes e tamb´em os mais
gra-ves. Analisando a distribui¸c˜ao das respostas relativamente ao local ´ulima
medi¸c˜ao, aproximadamente metade dos doentes indicaram ter efectuado a
´
ultima medi¸c˜ao de press˜ao arterial em casa (50,0% e 46,9% aos 3 e 9
me-ses, respetivamente), seguindo-se a f´arm´acia (26,8% e 22,5%) e o centro de
sa´ude (17,0% e 20,7%). O facto das medi¸c˜oes terem sido efetudas em
dife-rentes locais e nem sempre por profissionais de sa´ude, torna-as menos fi´aveis.
obser-3.4 Imputa¸c˜ao de valores de press˜ao arterial 19
Figura 3.2: Boxplot da press˜ao arterial diast´olica imputada
vador, quando n˜ao devidamente treinado, reportar preferencialmente valores
inteiros, al´em da tendˆencia para reportar valores mais baixos do que os
efeti-vamente registados. Um estudo desenvolvido para avaliar a fiabilidade do
re-porte dos valores de press˜ao arterial auto-monitorizados pelo doente estimou
uma precis˜ao de 76% nos valores reportados relativamente aos observados
(Mengden et al., 1998).
Um estudo desenvolvido para comparar v´arios m´etodos de imputa¸c˜ao
em dados longitudinais omissos, revelou que a imputa¸c˜ao recorrendo a
in-forma¸c˜ao conhecida espec´ıfica de cada indiv´ıduo apresentava um melhor
de-sempenho, indicando o Last and Next como o m´etodo superior (Engels &
Diehr, 2003). Avaliadas as vantagens e limita¸c˜oes de cada m´etodo, optou-se
por recorrer ao m´etodo de imputa¸c˜ao Last and Next, por este permitir
incor-porar informa¸c˜ao longitudinal associada a cada indiv´ıduo, ao mesmo tempo
CAP´ITULO
4
Metodologia
Neste cap´ıtulo pretende-se descrever as metodologias usadas para
anali-sar os dados e responder `a quest˜ao colocada. Uma vez que os dados resultam
de medi¸c˜oes repetidas sobre o mesmo indiv´ıduo ao longo do tempo, vai ser
feita uma breve introdu¸c˜ao aos m´etodos para an´alise de dados longitudinais.
Os dados que se pretende estudar resultam de um processo de contagem,
que neste caso espec´ıfico s˜ao caracterizados por apresentarem um excesso de
zeros e por serem sobredispersos. Por este motivo interessa igualmente referir algumas das metodologias usadas para modelar dados desta natureza.
4.1
An´
alise de dados longitudinais
Os dados longitudinais caracterizam-se por serem dados que est˜ao
cor-relacionados por grupo, sendo os grupos constitu´ıdos pelas medi¸c˜oes
repe-tidas sobre o mesmo indiv´ıduo em diferentes ocasi˜oes. Devido ao facto das
medi¸c˜oes repetidas de cada vetor resposta n˜ao serem independentes, a
es-trutura de autocorrela¸c˜ao assume um papel importante na estima¸c˜ao dos
parˆametros do modelo (Diggle et al., 2002).
As unidades de observa¸c˜ao sobre as quais v˜ao ser efetuadas as medi¸c˜oes
re-petidas, v˜ao ser designadas por indiv´ıduos. Os dados longitudinais implicam
a observa¸c˜ao yit de uma vari´avel resposta Yit e de um vetor de p covari´aveis,
22 CAP´ITULO 4. Metodologia
no momento t (t = 1, ..., Ti) para o indiv´ıduo i (i = 1,...,n). O vetor das
vari´aveis resposta para o i-´esimo indiv´ıduo ´e dado por Yi = (Yi1,..., YiTi)
T e
xT
it = (xit1,..., xitp) representa o vetor das p covari´aveis associadas ao ponto
(i,t). O vetor xit pode incluir covari´aveis cujos valores se alteram ao longo
do tempo e covari´aveis que se mantˆem constantes durante o per´ıodo de
ob-serva¸c˜ao. Assim, para cada Yit tem-se E(Yit) = µit e var(Yit) = υit, e o
modelo linear pode ser escrito na forma
Yit = β0 + β1xit1+ β2xit2+ . . . + βpxitp+ it
em que β = (β0,β1,β2, . . . , βp)T ´e o vetor dos p parˆametros de regress˜ao
des-conhecidos e it ´e uma vari´avel aleat´oria com valor esperado zero.
De uma forma matricial, e usando a nota¸c˜ao anterior, o modelo
longitu-dinal para cada indiv´ıduo i pode ser escrito da seguinte forma
Yi = Yi1 Yi2 .. . YiTi Xi =
1 xi11 xi12 · · · xi1p
1 xi21 xi22 · · · xi2p
.. . ... ... ... ... 1 xiTi1 xiTi2 · · · xiTip β = β0 β1 .. . βp .
Nos modelos longitudinais importa distinguir (i) os modelos marginais,
tamb´em designados population-average models que, como o nome indica,
permitem inferir para a popula¸c˜ao (ii) dos modelos com efeitos aleat´orios,
tamb´em conhecidos como subject-specific models, cujo objectivo ´e a inferˆencia
para o indiv´ıduo. No caso de dados longitudinais gaussianos, o modelo com
efeitos aleat´orios implica um modelo marginal, sem que a interpreta¸c˜ao dos
coeficientes de regress˜ao esteja sujeita a qualquer tipo de altera¸c˜ao. No
en-tanto, quando os dados n˜ao s˜ao gaussianos, n˜ao existe qualquer rela¸c˜ao entre
os parˆametros do modelo marginal e do modelo com efeitos aleat´orios, e
por-tanto estes modelos implicam uma diferente interpreta¸c˜ao dos coeficientes.
Assim, o objectivo da inferˆencia deve ser considerado no momento da escolha
entre o modelo marginal e o modelo com efeitos aleat´orios.
Os m´etodos para analisar dados longitudinais com vari´avel resposta
dis-creta incluem o m´etodo das equa¸c˜oes de estima¸c˜ao generalizadas
(GEE-generalized estimated equations) e os modelos lineares generalizados mistos
(GLMM’s -Generalized Linear Mixed Models). Estes dois m´etodos s˜ao de
4.1 An´alise de dados longitudinais 23
4.1.1
Modelo Marginal: Equa¸
c˜
oes de estima¸
c˜
ao
gene-ralizadas
Num modelo marginal o valor esperado marginal ´e modelado como fun¸c˜ao
das covari´aveis, sem se condicionar o modelo a outras vari´aveis resposta ou
efeitos aleat´orios n˜ao observ´aveis. Contudo, devido `a dependˆencia existente
entre as observa¸c˜oes, a an´alise marginal deve incluir pressupostos em rela¸c˜ao
`
a correla¸c˜ao. Assim, para dados longitudinais em que se admite que Yitsegue
uma distribui¸c˜ao pertencente `a fam´ılia exponencial com densidade
f (yit) = exp[ωφit(yitθit− c(θit)) + d(yit,φ)] ,
o modelo marginal assenta nas seguintes hip´oteses:
1. A esperan¸ca marginal para cada vari´avel resposta ´e definida por
E(Yit) = µit= c0(θit),
dependente das covari´aveis xit atrav´es da fun¸c˜ao de liga¸c˜ao g(µit) = ηit, que
no caso das respostas bin´arias ´e o logit e nas contagens ´e o log;
2. A variˆancia marginal depende do valor m´edio marginal sendo definida
por var(Yit) = υit= V (µit)ωφ it = c 00(θ it)ωφ it,
onde V (.) ´e uma fun¸c˜ao de variˆancia conhecida, φ ´e um parˆametro de
dis-pers˜ao, ou de escala, que pode ser conhecido ou estimado e ωit ´e uma
cons-tante conhecida;
3. A correla¸c˜ao entre Yit e Yit0 ´e uma fun¸c˜ao do valor m´edio marginal
e de um vetor de parˆametros adicionais, α, e ´e traduzido pela express˜ao
corr(Yit,Yit0) = ρ(µit,µit0), em que ρ(.) ´e uma fun¸c˜ao conhecida.
Estas trˆes hip´oteses explicam o motivo pelo qual se diz que os modelos
marginais s˜ao uma extens˜ao dos modelos lineares generalizados (GLM’s -
Ge-neralized Linear Models). Enquanto as duas primeiras hip´oteses s˜ao comuns
ao modelo linear generalizado univariado, a terceira hip´otese ´e espec´ıfica do
modelo marginal e permite acomodar a correla¸c˜ao existente entre observa¸c˜oes
24 CAP´ITULO 4. Metodologia
No caso de Yit ser uma vari´avel resposta sob a forma de contagens, o
modelo mais imediato ´e o modelo de regress˜ao de Poisson ou modelo
log-linear, com a fun¸c˜ao de liga¸c˜ao log. A fun¸c˜ao de probabilidade da vari´avel
Yit com distribui¸c˜ao de Poisson ´e dada por
P (Yit = yit) =
e−λitλyitit
yit! yit= 0,1, . . . ,
com λit= exp(xTitβ).
Como os dados de contagem s˜ao frequentemente caracterizados por uma
sobredispers˜ao, esta pode ser considerada no modelo GEE atrav´es da inclus˜ao
de um parˆametro de dispers˜ao ou escala.
Outra alternativa que permite modelar dados de contagens com
sobre-dispers˜ao ´e o modelo binomial negativo, cuja fun¸c˜ao de liga¸c˜ao ´e o log.
Ad-mitindo que a a vari´avel resposta Yit segue um modelo binomial negativo, a
fun¸c˜ao de probabilidade ´e dada por
P (Yit= yit) = Γ(yy it+τit) it!Γ(τit)(1 + λit τit) −τit(1 + τit λit) −yit y it = 0,1, . . . ,
com λit = exp(xTitβ) e τit = (1/α)λkit, em que α > 0 ´e o parˆametro de
dispers˜ao e k ´e uma constante arbitr´aria que determina a rela¸c˜ao entre a
m´edia e a variˆancia. Nesta especifica¸c˜ao, a m´edia e a variˆancia s˜ao definidas
respetivamente por
E(Yit) = λit
e
var(Yit) = λit+ αλ2−kit .
Se α = 0, a especifica¸c˜ao corresponde ao modelo de Poisson. O modelo
binomial negativo-1 obtem-se definindo k = 1, enquanto no modelo binomial
negativo-2 k = 0.1
Quando os dados longitudinais s˜ao n˜ao gaussianos, uma das dificuldades
consiste na determina¸c˜ao da distribui¸c˜ao conjunta de Yi. A omiss˜ao do
pres-suposto sujacente `a distribui¸c˜ao das observa¸c˜oes inviabiliza a utiliza¸c˜ao de
m´etodos baseados na m´axima verosimilhan¸ca, pois estes requerem a
especi-fica¸c˜ao da distribui¸c˜ao. O m´etodo GEE surge como resposta a este problema,
1Esta ´e a forma para a binomial negativa utilizada no Stata, software que vai ser usado
4.1 An´alise de dados longitudinais 25
sendo um m´etodo baseado na estima¸c˜ao por quasi-verosimilhan¸ca, cujo ´unico
requisito ´e a especifica¸c˜ao de um modelo de regress˜ao para o valor m´edio da
vari´avel resposta.
O m´etodo GEE foi proposto em 1986 (Liang & Zeger, 1986), e constitui
uma extens˜ao dos modelos lineares generalizados do caso univariado para o
caso multivariado quando estamos na presen¸ca de dados longitudinais. Este
m´etodo introduz uma classe de equa¸c˜oes de estima¸c˜ao que fornecem
estimati-vas consistentes dos parˆametros de regress˜ao e da sua variˆancia, baseando-se
na estima¸c˜ao por quasi-verosimilhan¸ca, sem ser preciso especificar a
distri-bui¸c˜ao conjunta do vetor de observa¸c˜oes.
Para o modelo linear generalizado multivariado Yi = (Yi1, . . . ,YiTi)
T
, o
estimador bβ ´e a solu¸c˜ao da seguinte equa¸c˜ao:
Uβ(β,α) = Pn i=1D T i [Vi(α)]−1(Yi− µi) = 0, onde Di = ∂µi
∂β ´e uma matriz Ti × p, Vi(α) ´e uma matriz diagonal Ti × Ti,
µi ´e o vetor do valor esperado de Yi.
A matriz Vi(α) ´e designada por matriz de variˆancia-covariˆancia
“cor-rente”e ´e dada por
Vi(α) = φ(A
1/2
i Ri(α)A
1/2
i )
em que Ai ´e uma matriz Ti × Ti, cujo elemento na posi¸c˜ao t da
diago-nal ´e V (µit) e Ri(α) = corr(Yi) corresponde `a matriz de correla¸c˜ao
“cor-rente”(working correlation matrix ), uma matriz diagonal Ti× Ti.
O processo iterativo para estima¸c˜ao de β proposto por (Liang & Zeger,
1986) resume-se da seguinte forma:
1. Determina¸c˜ao das estimativas iniciais de β, β(0) atrav´es do
ajusta-mento de um modelo linear generalizado, em que a dependˆencia das
ob-serva¸c˜oes n˜ao ´e considerada.
2. C´alculo dos res´ıduos de Pearson eit, α, Ri(α), φ, Vi.
3. Atualiza¸c˜ao da estimativa de β.
26 CAP´ITULO 4. Metodologia
As estimativas do parˆametro α e do parˆametro de dispers˜ao φ s˜ao obtidas
a partir dos res´ıduos de Pearson eit,
eit = (yit −µbit) √ var(bµit) , em que eit depende de β.
O parˆametro de dispers˜ao de φ ´e estimado atrav´es da express˜ao
b φ = n1 Pn i=1 PTi t=1e2it Ti
e a estima¸c˜ao de α vai depender da estrutura de correla¸c˜ao selecionada.
Na tabela 4.1 apresentam-se as estruturas de correla¸c˜ao propostas por
Liang e Zeger (Liang & Zeger, 1986). Para evitar que o modelo marginal
te-nha muito parˆametros, o m´etodo GEE pressup˜oe que a matriz de correla¸c˜ao
´
e comum a todos os indiv´ıduos.
Estrutura corr(Yit,Yik) Estimativa Exemplo
Independente 0 - 1 0 0 0 1 0 0 0 1 Uniforme α α =b 1nPn i=1 P t6=keiteik Ti(Ti−1) 1 α α α 1 α α α 1 AR(1) α|t−k| α =b n1Pn i=1 P t<(Ti−1)eitei,t+1 (Ti−1) 1 α α2 α 1 α α2 α 1 N˜ao estruturada αtk α =b 1 n Pn i=1eiteik 1 α12 α13 α12 1 α23 α13 α23 1
4.1 An´alise de dados longitudinais 27
Os estimadores obtidos atrav´es do m´etodo GEE s˜ao estimadores
consis-tentes, o que significa que a obten¸c˜ao de estimativas robustas depende apenas
da correta especifica¸c˜ao do modelo para o valor m´edio da vari´avel resposta.
No entanto, apesar desta propriedade de robustez que caracteriza os
estima-dores GEE, a modela¸c˜ao da covariˆancia ´e importante porque quanto mais
pr´oxima a matriz de variˆancia-covariˆancia considerada estiver da verdadeira
matriz, maior ´e a eficiˆencia dos estimadores β, al´em de que a propriedade de
robustez apenas ´e v´alida para amostras de grandes dimens˜oes.
Relativamente aos dados omissos, a obten¸c˜ao de estimativas v´alidas com
o m´etodo GEE pressup˜oe que o mecanismo de omiss˜ao dos dados seja
Mis-sing Completly At Random (MCAR), o que significa que a probabilidade de
uma observa¸c˜ao estar omissa n˜ao deve estar relacionada com o valor dessa
observa¸c˜ao, nem com o valor de outras vari´aveis, e portanto os dados
obser-vados podem ser considerados uma amostra aleat´oria dos dados completos.
A estima¸c˜ao do m´etodo GEE ´e baseado na quasi-verosimilhan¸ca e por
isso o teste de raz˜ao de verosimilhan¸cas n˜ao pode ser usado para compara¸c˜ao
de modelos, sugerindo-se como alternativa o teste de Wald. Para testar a
hip´otese
H0 : βj = 0 vs H1 : βj 6= 0,
com j = 1, . . . ,p, a estat´ıstica do teste de Wald, que sob H0 segue uma
dis-tribui¸c˜ao assint´otica gaussiana, ´e dada por
W = √ βbj
var( bβj)
.
No caso multiparam´etrico, para testar a hip´otese
H0 : Lβ = 0 vs H1 : Lβ 6= 0,
em que L ´e uma matriz r × p de caracter´ıstica completa r, a estat´ıstica de
teste, sob H0 com uma distribui¸c˜ao assint´otica de um qui-quadrado com r
graus de liberdade, ´e dada por
W = (Lbβ)T hLvar(bβ)LTi−1(Lbβ).
O R tem implementadas bibliotecas que permitem estimar modelos
28 CAP´ITULO 4. Metodologia
software Stata tamb´em apresenta fun¸c˜oes para estima¸c˜ao de modelos
margi-nais GEE e ao R acresce a possibilidade de permitir estimar o modelo binomial
negativo atrav´es do m´etodo GEE. No entanto o software Stata apresenta a
desvantagem de n˜ao ser de acesso livre.
4.1.2
Modelo de Efeitos aleat´
orios: Modelos lineares
generalizados mistos
Nesta sec¸c˜ao vai-se fazer uma breve referˆencia aos modelos lineares
ge-neralizados mistos (GLMM). Os modelos GLMM foram propostos em 1993
(Breslow & Clayton, 1993) e correspondem a uma extens˜ao dos GLM, que
incluem efeitos aleat´orios no preditor linear al´em dos efeitos fixos, permitindo
incluir componentes de variabilidade devida a efeitos n˜ao observados.
`
A semelhan¸ca dos modelos marginais, nos modelos GLMM tamb´em se
admite que que as vari´aveis resposta Yit seguem um modelo linear
generali-zado. Contudo, a densidade de Yit ´e condicional aos efeitos aleat´orios bi, de
acordo com a express˜ao
f (yit|bi) = exp[ωφit(yitθit− c(θit)) + d(yit,φ)] .
O valor m´edio e variˆancia condicionaais s˜ao traduzidos respetivamente
por
E(Yit|bi) = µbit = c0(θit) e var(Yit|bi) = υitb = c00(θit)ωφit,
que se admite que satisfa¸cam as condi¸c˜oes
g(µb it) = X T itβ + Z T itbi e υb it = V (µbit) φ ωit
sendo g(.) uma fun¸c˜ao de liga¸c˜ao, V (.) uma fun¸c˜ao de variˆancia, φ o parˆametro
de escala ou dispers˜ao e ωit uma constante.
Os efeitos aleat´orios bi, com i = 1, . . . ,n, s˜ao independentes entre si, com
uma distribui¸c˜ao gaussiana multivariada com valor esperado zero e matriz
de variˆancia-covariˆancia D.
De modo a obter inferˆencias corretas, a estrutura de correla¸c˜ao deve ser
4.1 An´alise de dados longitudinais 29
e do vetor de efeitos aleat´orios deve ser devidamente especificada. Deste
modo ´e poss´ıvel fazer a estima¸c˜ao e inferˆencia com base no m´etodo da m´axima
verosimilhan¸ca. No entanto, a maximiza¸c˜ao da fun¸c˜ao de verosimilhan¸ca n˜ao
tem solu¸c˜ao anal´ıtica sendo necess´ario recorrer ao c´alculo num´erico, que
mui-tas vezes se revela complexo. Alguns m´etodos de aproxima¸c˜ao num´erica tˆem
sido propostos para resolver o problema: (i) m´etodo de aproxima¸c˜ao dos
dados, (ii) m´etodo de aproxima¸c˜ao da fun¸c˜ao a integrar e (iii) m´etodo de
aproxima¸c˜ao do integral. (Molenberghs & Verbeke, 2005)
No que respeita aos dados omissos, no GLMM as inferˆencias com base no
m´etodo da m´axima verosimilhan¸ca s˜ao v´alidas se o mecanismo de omiss˜ao
dos dados for MCAR ou Missing At Random (MAR). O mecanismo MAR
pressup˜oe que os dados omissos n˜ao est˜ao relacionados com os valores em
falta, mas que dependem do conjunto de dados observados. Relembre-se que
no modelo marginal estimado atrav´es do m´etodo GEE apenas produz
esti-madores v´alidos se o mecanismo de omiss˜ao for MCAR.
Para compara¸c˜ao de modelos, utiliza-se o teste de raz˜ao de
verosimi-lhan¸cas quando se pretende comparar a estrutura fixa de dois modelos
en-caixados, com os mesmos efeitos aleat´orios. Assim para testar a nulidade de
um subvetor de r componentes de β
H0 : βr = 0 vs H0 : βr 6= 0,
utiliza-se a estat´ıstica de teste
2(logL1− logL0) ∼ χ2k1−k0,
em que L1 corresponde `a verosimilhan¸ca do modelo mais geral, com k1
parˆametros e L0 corresponde `a verosimilhan¸ca do modelo encaixado, com
k0 parˆametros. Sob a hip´otese nula de que o modelo restrito ´e mais
ade-quado (ou seja de que os r = k1− k0 parˆametros adicionais s˜ao iguais a zero)
a estat´ıstica de teste tem distribui¸c˜ao assint´otica de um qui-quadrado com
k1− k0 graus de liberdade.
Considera-se que dois modelos n˜ao encaixados quando nenhum dos
mo-delos pode ser representado com um caso especial do outro. Quando tal se
verifica, a compara¸c˜ao dos modelos n˜ao est˜ao encaixados ´e feita atrav´es do
crit´erio de informa¸c˜ao de Akaike (AIC) (Akaike, 1974),
30 CAP´ITULO 4. Metodologia
onde k representa o n´umero de parˆametros ou do crit´erio de informa¸c˜ao
Bayesiano (BIC) (Schwarz, 1978),
BIC = −2logL + 2klog(N ),
em que k representa o n´umero de parˆametros e N o n´umero de observa¸c˜oes.
Estes crit´erios penalizam o n´umero de parˆametros do modelo, sendo o
BIC mais sens´ıvel ao n´umero de parˆametros inclu´ıdos. Valores baixos de
AIC e BIC significam que o modelo permite atingir um compromisso
en-tre um bom ajustamento, parcim´onia e boa interpreta¸c˜ao. Os crit´erios de
informa¸c˜ao apresentam a desvantagem de n˜ao permitirem testar hip´oteses,
n˜ao fornecendo informa¸c˜ao sobre a qualidade do modelo.
Em ambos os casos, modelos encaixados e n˜ao encaixados, a fun¸c˜ao
ve-rosimilhan¸ca deve basear-se nos dados e n˜ao na aproxima¸c˜ao dos dados.
Os modelos GLMM podem ser estimados no R atrav´es das bibliotecas
lme4, glmmML ou MASS.
4.2
An´
alise de dados com sobredispers˜
ao
O modelo de Poisson ´e um modelo usado como referˆencia quando se
pre-tende modelar vari´aveis resultantes de processos de contagem. No entanto
apresenta algumas limita¸c˜oes, nomeadamente por possuir uma estrutura
de-masiado r´ıgida, pressupondo a igualdade entre a m´edia e a variˆancia.
Con-tudo, ´e frequente que os dados de contagem n˜ao sigam exatamente uma
distribui¸c˜ao de Poisson, contendo uma grande quantidade de zeros e uma
variˆancia superior `a m´edia, muito superior ao que seria expect´avel numa
dis-tribui¸c˜ao de probabilidade de Poisson. Modelos de regress˜ao da fam´ılia dos
modelos de contagem comummente usados para dados com sobredispers˜ao
incluem entre outros (i) modelos barreira (hurdle models) tamb´em conhecidos
como two part models, (ii) modelos inflacionados no zero (ZIM - zero-inflated
models) e (iii) modelos de classes latentes tamb´em designados de modelos de
mistura finita. A sec¸c˜ao que se segue descreve de uma forma mais
4.2 An´alise de dados com sobredispers˜ao 31
4.2.1
Modelos Barreira
Os modelos barreira foram incialmente propostos por Mullahy (Mullahy,
1986), sendo tamb´em conhecidos como modelos duas-partes. Estes modelos
s˜ao compostos por duas componentes: uma parte truncada em y = 0,
defi-nida por uma Poisson, geom´etrica ou binomial negativa truncadas, para as
contagens positivas e uma componente barreira zero vs n˜ao-zero definida por
uma distribui¸c˜ao de Bernoulli, permitindo dessa forma diferenciar os
proces-sos estat´ısticos acima e abaixo da barreira.
Na economia da sa´ude a motiva¸c˜ao para utilizar esta metodologia
relaciona-se com a teoria do principal-agente, que defende que o m´edico determina a
utiliza¸c˜ao de recursos m´edicos a partir do momento que o doente estabelece
o primeiro contacto. Assim, a decis˜ao de ir ao m´edico ´e descrita por um
modelo bin´ario, enquanto a quantidade de recursos consumidos uma vez que
o doente toma a decis˜ao de ir ao m´edico ´e descrita por um modelo de
conta-gens truncado em zero.
De acordo com os pressupostos de Mullahay, a distribui¸c˜ao de
probabili-dade de um modelo barreira em zero ´e dado pela express˜ao
f (y) = (
f1(0), y = 0
(1 − f1(0))(1−ff2(y)
2(0)), y > 0.
Este modelo de contagens modificado admite a presen¸ca de dois processos
(i) um processo bin´ario que descreve se a contagem ´e zero e (ii) um outro
processo distinto que descreve as contagens positivas. Caso a realiza¸c˜ao da
vari´avel contagem seja positiva, ou seja, caso a barreira seja ultrapassada, o
processo ´e definido por uma fun¸c˜ao de probabilidade truncada no ponto zero.
Encontra-se implementada a fun¸c˜ao hurdle() da biblioteca pscl do R
que permite a estima¸c˜ao destes modelos. Contudo esta fun¸c˜ao n˜ao permite
modelar dados correlacionados, n˜ao tendo sido encontrada nenhuma
biblio-teca no R com estas caracter´ısticas.
4.2.2
Modelos Inflacionados no Zero
Os modelos inflacionados em zero (ZIM) (Mullahy, 1986) admitem a
existˆencia de dois tipos de zeros: (i) zeros estruturais e (ii) zeros aleat´orios,