• Nenhum resultado encontrado

Para a caracterização da amostra foi utilizada a estatística descritiva , no que diz respeito às variáveis relacionadas com o doente, situação clínica e a relação com os serviços de saúde.

A análise estatística foi realizada no software R, versão 3.0.1 (www.r-project.org). Com base nas variáveis descritas como potenciais fatores da não-adesão (gura 3.1) e assumindo a não-adesão como uma variável dicotómica, comparou-se o grupo dos aderen- tes com o dos não aderentes, com recurso ao teste do Qui-quadrado (χ2) (ou teste exato de Fisher, quando não se encontravam reunidas as condições de aplicação do teste do χ2)

3.2 Análise Estatística 31

para as variáveis categóricas. Para as variáveis contínuas, a comparação entre os dois grupos foi efetuada através do teste de Mann-Whitney.

Para analisar a inuência conjunta das variáveis de interesse na discriminação do perl dos aderentes e não aderentes utilizou-se a análise de regressão logística. Inicialmente, foi efetuada a análise preliminar univariada de forma a determinar as variáveis associadas mais signicativamente à variável resposta (valor-p≤0,15). Em seguida, estas variáveis foram submetidas à análise multivariada através do modelo de regressão logística com a nalidade de identicar os preditores de não-adesão. Foi utilizado o critério AIC (Akaike's an information criterion) para a seleção do melhor modelo, que tem como base o teste de razão de verosimilhanças, o qual consiste na comparação estatística, por χ2, dos resíduos dos desvios, do modelo com melhor ajuste em relação ao restantes. A variável foi excluída se o valor-p para o teste de razão de verosimilhanças for inferior a 0.05. Foi utilizado um método stepwise (stepwise forward) para a seleção das variáveis a incluir no modelo (p ≤ 0, 05). Foram ainda calculadas as estimativas do odds ratio (OR) e dos intervalos de conança (IC) a 95%, para as variáveis não excluídas.

Com o objetivo de avaliar a qualidade do modelo, foi realizado o teste de Hosmer- Lemeshow e determinada a área sob a curva ROC (Receiver Operating Characteristic) e respetivas sensibilidade e especicidade.

No que respeita à metodologia de Análise de Correspondências Múltiplas, numa pri- meira abordagem, foram consideradas as variáveis subemtidas ao modelo de regressão logística múltipla, de forma a vericar as relações mais fortes e identicar, assim, os di- ferentes pers de doentes. Por m, consideraram-se apenas as variáveis que entraram no modelo nal de regressão logística múltipla e sobre estas foi aplicada novamente a metodologia via ACM.

Capítulo 4

Modelo Linear Generalizado

4.1 Introdução

Durante um longo período de tempo, os modelos normais lineares foram utilizados na tentativa de descrever a maioria dos fenómenos aleatórios. Mesmo quando o fenómeno sob estudo não apresentava uma resposta para a qual fosse plausível assumir a normalidade, era sugerido algum tipo de transformação com a nalidade de alcançar a tão ambicionada normalidade. A mais conhecida, porventura, foi proposta por Box e Cox (1964), a qual transforma o valor observado y (positivo) em

z =      yλ − 1 λ , λ 6= 0 log(y), λ = 0 onde λ é uma constante desconhecida.

Com o desenvolvimento computacional ocorrido na década de 70, tornou-se frequente a utilização de processos iterativos para a estimação dos parâmetros. Porém, a proposta mais aliciante e inovadora foi apresentada por Nelder e Wedderburn (1972), que propu- seram os Modelos Lineares Generalizados ou GLM (Generalized Linear Models), classe muito vasta da qual fazem parte os modelos lineares.

Estes modelos surgiram na tentativa de descrever situações nas quais a variável res- posta não segue uma distribuição Gaussiana, não se podendo utilizar:

i) O modelo linear (ML), no caso em que as observações são independentes; ii) O modelo linear misto (MLM), quando as observações não são independentes.

Assim, os Modelos Lineares Generalizados, doravante designados por MLG, correspon- dem a uma síntese dos modelos lineares (ML) e de outros modelos, tendo sido unicada, tanto do ponto de vista teórico como concetual, a teoria da modelação estatística até então desenvolvida.

O crescente interesse pela área conduziu à realização de vários encontros informais no início dos anos 80, a maioria deles em Inglaterra, até que, em 1986, foi realizado na cidade de Innsbruck (Áustria), o "1st International Workshop on Statistical Modelling"(1st IWSM). Este encontro tem sido realizado anualmente, sendo que o último (28th IWSM) realizou-se entre 8 e 12 de julho de 2013, em Palermo (Itália).

Os MLG são atualmente uma vasta classe de modelos de regressão que incluem, em particular, e para citar os mais comuns na área biomédica, os modelos de regressão linear clássicos, de análise de variância (ANOVA) com distribuição normal e variável resposta contínua, de regressão logística com variável resposta binária ou dicotómica e de regressão de Poisson ou log-linear para contagens.

A extensão do modelo linear é feita em duas direções:

1. A variável resposta pode ter uma distribuição que não seja normal;

2. A relação entre a variável resposta e as variáveis explicativas não necessita de ser linear.

Para que seja possível aplicar o MLG, é necessário que a variável resposta possua distribuição pertencente à família exponencial, pelo que, antes de mais, se irá apresentar a denição de Família Exponencial.

Denição 4.1 (Família Exponencial).

Diz-se que uma variável aleatória Y tem distribuição pertencente à família exponencial de dispersão (ou simplesmente, família exponencial) se a sua função densidade de probabili- dade (f.d.p.) ou função massa de probabilidade (f.m.p.) se puder escrever na forma

f (y|θ, φ) = exp yθ − b(θ)

a(φ) + c(y, φ) 

, (4.1)

onde θ e φ são parâmetros escalares (localização e dispersão, respetivamente), a(·), b(·) e c(·,·) são funções reais conhecidas.

Na denição (4.1), θ é a forma canónica do parâmetro de localização e φ é o parâmetro de dispersão ou escala suposto, em geral, conhecido. Por vezes, este parâmetro é denotado por σ2. Neste caso, a distribuição enunciada em (4.1) faz parte

4.1 Introdução 35

da família exponencial univariada. Quando o parâmetro φ é desconhecido, a distribuição pode ou não fazer parte da família exponencial biparamétrica, tal como é geralmente denida. Este parâmetro é constante ao longo das observações. Admite-se ainda que b(·) é diferenciável e que o suporte da distribuição não depende dos parâmetros.

Nestas circunstâncias, a família exponencial obedece às condições de regularidade. Em muitas situações de interesse, observa-se que a função a(φ) toma a forma a(φ) = φ

ω, onde ω é uma constante conhecida, obtendo-se a variância de Y como o produto do parâmetro de dispersão por uma função apenas do valor médio. Neste caso, a função denida em (4.1) escreve-se na forma

f (y|θ, φ, ω) = exp ω

φ(yθ − b(θ)) + c(y, φ, ω) 

, (4.2)

onde ω é uma constante conhecida e que varia de observação para observação e à qual se dá o nome de peso.

4.1.1 Valor Médio e Variância

Seja l(θ; φ, y) = ln(f(y|θ, φ)), isto é, l é o logaritmo neperiano da f.d.p. ou f.m.p. de Y.

A função score1 é dada por

S(θ) = ∂l(θ; φ, Y )

∂θ (4.3)

Para famílias regulares, tem-se:

E (S(θ)) = 0 (4.4) E S2(θ) = E "  ∂l(θ; φ, Y ) ∂θ 2# = −E ∂ 2l(θ; φ, Y ) ∂θ2  (4.5)

Assim sendo, no caso em que f(y|θ, φ) é dado por (4.1),

l(θ; φ, y) = yθ − b(θ) a(φ) + c(y, φ), (4.6) obtém-se S(θ) = Y − b 0 (θ) a(φ) ⇒ ∂S(θ) ∂θ = − b00(θ) a(φ), (4.7)

onde b0

(θ) = ∂b(θ) ∂θ e b

00

(θ) = ∂ b(θ)

a(φ) . Deste modo, de 4.4, 4.5 e 4.7, sai que

E(Y ) = µ = a(φ)E (S(θ)) + b0(θ) = b0(θ) (4.8) var(Y ) = a2(φ)var (S(θ)) = a2(φ)b 00 (θ) a(φ) = a(φ)b 00 (θ) (4.9)

Verica-se, assim, que a variância de Y depende da função b00(θ), isto é, depende do valor médio. A esta função é dado o nome de função de variação ou de variância, a qual é denotada por V (µi), donde V (µi) = b

00 (θ).

De referir que a família exponencial inclui várias distribuições, tais como, distribuição Normal (ou Gaussiana), Bernoulli, Binomial, Poisson e Binomial Negativa (a prova não será apresentada uma vez que foge do âmbito do presente estudo).

4.1.2 Extensão do ML ao MLG

Considerem-se n observações independentes da variável resposta Y e seja Yi, i = 1, · · · , n, a variável resposta para o i-ésimo indivíduo. Seja y = (y1, · · · , yn)

T o vetor de observações, em que yi é a observação da variável resposta para o i-ésimo indivíduo. Associado a cada resposta, Yi, encontra-se o vetor de covariáveis de dimensão (k × 1), (xi1, · · · , xik), com i = 1, · · · , n e onde xij corresponde à j-ésima covariável para o i-ésimo indivíduo. Seja ainda β = (β1, · · · , βk)T um vetor de dimensão (k × 1) de parâmetros desconhecidos. Na maioria dos casos, xi1= 1, para qualquer i.

A parte sistemática do ML assume a forma

µi = k X

j=1

xijβj = xTiβ , i = 1, · · · , n , (4.10) onde xij é o valor da j-ésima covariável para a observação i e βj o j-ésimo parâmetro desconhecido. Em notação matricial escreve-se na forma

µ = Xβ , (4.11)

onde µ é um vetor de dimensão (n × 1).

Ao denir-se o preditor linear como ηi = xTi β, a relação entre o valor médio, µi,e o preditor linear, ηi, é a identidade. Existe, neste caso, uma relação linear direta entre µi e as variáveis independentes.

De forma a simplicar a transição dos ML para os MLG, pode-se especicar o ML em três componentes que são dadas por:

Documentos relacionados