A ASSOCIAÇÃO
Na tabela abaixo há registros de 10 pacientes referentes a idade (X) e PAS – pressão arterial sistólica (Y). Supõe-se que a PAS dependa da idade de forma que pessoas mais velhas tenham níveis pressóricos mais altos. Como se investiga esta suposição? Qual a conclusão? Você confiaria nos resultados desta análise? Quais seriam os valores críticos de um r padronizado em T para um teste bicaudal com nível de significância de 5%?
Tabela 1 – Idade em anos completos e PAS em mmHg para os 10 pacientes examinados
Paciente x- idade y- PAS ZRes x ZRes y ZResX * ZResY
1 39 110 -1,22 -1,52 1,85 2 47 160 -0,47 0,89 -0,42 3 45 125 -0,66 -0,80 0,53 4 47 127 -0,47 -0,70 0,33 5 65 162 1,20 0,99 1,19 6 46 130 -0,57 -0,55 0,31 7 67 170 1,39 1,37 1,91 8 42 123 -0,94 -0,89 0,84 9 67 158 1,39 0,80 1,10 10 56 150 0,36 0,41 0,15 Médias 52,10 141,50 Soma 7,79
Desvio padrão 10,74 20,73 r = soma / n-1 0,865
R2 0,749
r padronizado: t _8_GL 4,88
As fórmulas já estão dadas pra você: o r, o Coeficiente de Correlação, é a média (lembre-se: o denominador é n-1!) do produto dos desvios padronizados de cada observação. Lembre-se: o desvio padronizado representa quanto uma dada medida é uma variação em relação ao esperado (é a diferença do valor com a média, expressa em desvios padrão); o produto de dois desvios indica quanto há de variação simultânea de duas medidas. É uma área e o r é uma área média que indica (já que é média!) uma expectativa de comportamento geral.
Tome o paciente 1 como exemplo. Na dimensão idade, seu atributo é 39 anos, valor que padronizado para torná-lo adimensional (deixar de ser anos) resulta em -1,22. Você poderia imaginar a medida idade numa reta (como uma fita métrica de idade), onde você marcaria a idade do paciente 1, quer como anos, quer como resíduo padronizado:
média
Idade (anos) 0 39 52,1 100
Idade (resíduo padronizado) -1,22 0
Com a medida PAS, você também poderia fazer o mesmo: média
PAS (mmHg) 0 110 141,5 200
PAS (resíduo padronizado) -1,52 0
Imagine agora o produto dos resíduos (-1,22 X -1,52) como um produto cartesiano: o resultado é um par ordenado: (-1,22, -1,52) – as coordenadas de um ponto num espaço plano. Da origem a este ponto, você reconhece um retângulo, cuja área é a covariação (padronizada) de idade e PAS:
PAS (como resíduo padronizado) -1,22
Anos (como resíduo padronizado)
-1,52
Este retângulo representa o testemunho que o paciente dá sobre a covariação entre idade e PAS. Esta covariação será melhor avaliada se tomarmos em consideração o testemunho de todos os pacientes calculando o coeficiente de correlação.
Nossa fórmula para cálculo de r:
1
x yZres Zres
r
n
=
−
∑
É isto: uma média de produto de resíduos, ou uma média de áreas. O resultado está anotado acima (r = 0,865). Tendo o valor do r, coeficiente de correlação, você pode padronizá-lo também para uma distribuição T, usando a fórmula:
2 2
2
1
nr
n
t
r
−−
=
−
e encontrando o valor 4,88. Note que esta é apenas uma alternativa de dimensionalidade para medir o coeficiente de correlação: você tanto pode dizer que o coeficiente de correlação é 0,865, ou dizer que o coeficiente de correlação padronizado
Covariação entre idade e PAS no paciente 1
para uma distribuição T8 GL é 4,88. A vantagem de expressá-lo em termos de T é que
assim podemos conhecer a probabilidade de valores de correlação como este ou maiores ocorrerem por puro acaso. Para saber esta probabilidade, consultamos a Tabela T na linha 8 graus de liberdade, já que temos 10 observações (GL = n-2).
'
Encontramos que para um teste bicaudal (o que a tabela informa), um Tres8 GL = ± 4,88
corresponde a uma probabilidade entre 0,001 e 0,002 (≈0,0015) para um teste bicaudal (valores menores que r = -0,865 ou maiores que r = 0,865). Como não imaginamos razoável pensar que quando a idade cresça a PAS possa diminuir, ficamos com um teste monocaudal (Tres8 GL = 4,88, que corresponde a um r = 0,865, de correlação positiva: quando um
aumenta, o outro aumenta também aumenta), cuja probabilidade é p ≈ 0,00075 (a metade que há de cada
lado de um teste bicaudal). Com uma probabilidade tão baixa de encontrar um ‘r’ com este valor quando o ‘r’ verdadeiro for zero, rejeitamos esta hipótese (hipótese nula) para aceitar que o r = 0,865 seja estatisticamente significante.
Se quiséssemos fazer um teste de hipótese, ao invés de um testar a significância (da diferença entre o r encontrado e o r = 0), delimitaríamos a zona de aceitação para um nível de significância de 5% procurando qual o valor t corresponde a uma probabilidade de 5% na tabela para um teste monocaudal:
Como estamos querendo um teste monocaudal, o que procuramos na tabela é p = 10%, o que deixa 5% para cada lado. O valor que encontramos é 1,860, logo a zona de aceitação de H0 (r ≤ 0) é qualquer valor menor que 1,860 e a zona de aceitação é
qualquer valor maior que 1,860. Nosso r = 0,865, padronizado para um teste monocaudal vale Tres8 GL = 4,88, caindo portanto na zona de rejeição de H0, o que
sugere que podemos confiar que a correlação seja mesmo desta ordem de r = 0,865. O Coeficiente de Determinação (R2 = 0,749) sugere que 74,9% das variações de PAS
possam ser atribuídas a variações de idade.
Um (a) médico(a), acompanhando diabéticos, precisa controlar os níveis séricos de glicose, triglicérides e colesterol de seus pacientes. Pensando em poupá-los das despesas de 3 exames bioquímicos, ele(a) se pergunta se um único exame não poderia ser-lhe informação suficiente: será que quando um está alterado o outro também está e quando um está normal ou outro também está?
Para isto ele(a) deve responder se glicose, triglicérides e colesterol estão correlacionados. As informações que ele(a) dispõe são de 14 pacientes, como descrito abaixo:
Tabela 2 – Resultados de exames bioquímicos de paciente (em mg/dl)
1. Qual a correlação entre as três medidas?
2. As correlações encontradas não poderiam ser apenas fruto do acaso?
Triglicérides Zres-Triglic Colesterol Zres-Colest Glicose Zres-glicose Triglicérides X colesterol Triglicérides X glicose glicose X colesterol 120 -1,05 135 -1,30 120 -0,25 1,37 0,26 0,32 205 -0,20 220 0,29 264 2,90 -0,06 -0,57 0,85 468 2,46 326 2,28 172 0,89 5,61 2,18 2,03 211 -0,13 158 -0,87 76 -1,21 0,12 0,16 1,05 198 -0,27 196 -0,16 124 -0,16 0,04 0,04 0,02 143 -0,82 150 -1,02 157 0,56 0,83 -0,46 -0,57 320 0,96 280 1,42 99 -0,71 1,37 -0,68 -1,00 245 0,21 195 -0,17 97 -0,75 -0,04 -0,16 0,13 131 -0,94 180 -0,46 115 -0,36 0,43 0,34 0,16 171 -0,54 200 -0,08 147 0,34 0,04 -0,18 -0,03 355 1,32 258 1,01 111 -0,44 1,33 -0,59 -0,45 140 -0,85 180 -0,46 102 -0,64 0,39 0,55 0,29 264 0,40 220 0,29 124 -0,16 0,12 -0,06 -0,05 170 -0,55 162 -0,79 131 -0,01 0,43 0,00 0,01
Soma dos produtos dos desvios padronizados (Zres) 11,98 0,83 2,76 Coeficiente de Correlação: Soma dos produtos de desvios / n-1 0,9215 0,0638 0,2123 Coeficiente de Determinação: quadrado do Coef. de correlação 0,8492 0,0041 0,0451 Apenas a correlação entre triglicérides e colesterol parece relevante, as outras têm valores de r muito pequenos. O coeficiente de determinação (R2)
deixa isto evidente: quase 85% das variações de colesterol podem ser atribuídas a variações de triglicérides (e vice-versa) enquanto que apenas cerca de 4 a 4,5% das variações triglicérides X glicose e glicose X colesterol
podem ser explicadas pela variação de uma ou outra medida de cada par de comparação.
Paciente Glicose Triglicérides Colesterol
1 120 120 135 2 264 205 220 3 172 468 326 4 76 211 158 5 124 198 196 6 157 143 150 7 99 275 280 8 97 245 195 9 115 131 180 10 147 171 200 11 111 355 258 12 102 140 180 13 124 264 220 14 131 170 162
Para conhecer a significância estatística destes coeficientes de correlação, usamos a fórmula: 2 2
2
1
nr
n
t
r
−−
=
−
A tabela abaixo mostra os resultados do cálculo de padronização de r e suas respectivas probabilidades mono e bicaudal.
Triglicérides Triglicérides glicose X colesterol X glicose X colesterol r 0,9215 0,0638 0,2123 t 8,22150 0,22162 0,75261 p bi* 0,000003 0,828335 0,466191 p uni* 0,000001 0,414167 0,233095
*calculado pelo Excel com o comando =DISTT(tres;graus de liberdade;[2 pra bicaudal] ou [1 unicaudal])
Para um teste de significância estatística, se considerarmos os valores
p = 0,000003 (bicaudal) e p = 0,000001 (monocaudal) pequenos o suficiente para sugerir que
se não houvesse correlação entre triglicérides e colesterol (r nulo)
valores de r como o encontrado ( r = 0,9215) ou ainda mais extremos (“r > 0,9215” no monocauldal e” r <- 0,9215 ou r > 0,9215” no bicaudal) seriam raros, somos levados a concluir que há uma correlação forte entre triglicérides e colesterol (forte porque o valor de r está próximo do máximo r=1) e que esta correlação é estatisticamente significante (não parece ser obra do acaso, por acaso isto raramente ocorreria – um valor de p muito pequeno).Para um teste de hipótese, se nosso nível de significância fosse α = 0,05, então teríamos que consultar a tabela T para identificar um T crítico:
Que seria Tres122 GL = 1,782 (monocaudal) ou 2,179 (bicaudal), valores que
nosso Tres = 8,22150 excede muito, caindo portanto na zona de rejeição da hipótese nula de r = 0, quer em teste mono ou bicaudal. Logo, concluiríamos que há uma correlação forte (valor de r próximo do máximo) e esta correlação é
estatisticamente significante ao nível de 5%.
Note que as correlações triglicérides X glicose e glicose X colesterol não apenas são pequenas, como também não são estatisticamente significantes. A matriz de correlação fica assim:
Matriz de correlação
Triglicérides Colesterol Glicose
Triglicérides 1 0,92 0,06
Colesterol 0,92 1 0,21
Glicose 0,06 0,21 1
OS EFEITOS:
1. Na tabela abaixo há registros de 10 pacientes referentes a idade (X) e PAS – pressão arterial sistólica (Y). Supõe-se que a PAS dependa da idade de forma que pessoas mais velhas tenham níveis pressóricos mais altos.
Na aula passada encontrou-se associação (r = 0,86, p = 0,0012). Qual o efeito da idade na elevação da PAS? Este efeito é estatisticamente significante?
Tabela 3 – Idade em anos completos e PAS em mmHg para os 10 pacientes examinados Paciente X:
idade Y: PAS Res x Res y ResX * ResY (Resx) 2 1 39 110 -13,1 -31,5 412,65 171,61 2 47 160 -5,1 18,5 -94,35 26,01 3 45 125 -7,1 -16,5 117,15 50,41 4 47 127 -5,1 -14,5 73,95 26,01 5 65 162 12,9 20,5 264,45 166,41 6 46 130 -6,1 -11,5 70,15 37,21 7 67 170 14,9 28,5 424,65 222,01
Paciente X:
idade Y: PAS Res x Res y ResX * ResY (Resx) 2
8 42 123 -10,1 -18,5 186,85 102,01
9 67 158 14,9 16,5 245,85 222,01
10 56 150 3,9 8,5 33,15 15,21
Médias 52,1 141,5 Soma 1734,5 1038,9
b = soma dos produtos de resíduos / soma dos
quadrados dos resíduos da variável independente 1,669554336 a = média de y – média de x multiplicada pelo b 54,51621908
1 2 1
(
)(
)
ˆ
(
)
n i i i n i ix
x
y
y
b
x
x
= =−
−
=
−
∑
∑
ˆ
ˆa
=
y
−
bx
O efeito da associação entre PAS e idade é que a cada ano de idade que passa a PAS é acrescida em 1,67 mmHg (arredondando). Abaixo: gráfico de dispersão e equação da reta dos dados relativos à tabela 1. O efeito é estatisticamente significante porque a correlação é estatisticamente significante (é uma regressão linear simples: se a correlação é significante, a inclinação também é).
O intercepto a = 54,52 mmHg sugere que ao nascer esperar-se-ia uma PAS como esta. No entanto, esta previsão subestima a PAS de um recém-nascido que se espera seja algo em torno de PAS = 90mmHg. Este erro é atribuível ao fato de a projeção ser feita a partir de idades entre 39 e 67 anos, muito distantes dos primeiros meses...
Relação entre PAS e idade
y = 54,516 + 1,6696x 100 110 120 130 140 150 160 170 180 30 40 50 idade 60 70 80 P AS
2. Um(a) nutricionista(a), acompanhando diabéticos, precisa controlar os níveis séricos de glicose, triglicérides e colesterol de seus pacientes. Pensando em poupá-los das despesas de 3 exames bioquímicos, ele(a) se pergunta se um único exame não poderia ser-lhe informação suficiente: será que quando um está alterado o outro também está e quando um está normal ou outro também está?
Para isto ele(a) deve responder se glicose, triglicérides e colesterol estão correlacionados.
Na aula passada a única correlação encontrada foi entre colesterol e triglicérides (r = 0,92, p = 0,000). Qual o efeito de um sobre o outro? Este efeito é estatisticamente significante? Triglicérides res-Triglic Y Colesterol res-Colest X Triglicérides X colesterol Res Colesterol 2 120 -104,357 135 -69,2857143 7230,45918 4800,5102 205 -19,3571 220 15,71428571 -304,18367 246,938776 468 243,6429 326 121,7142857 29654,8163 14814,3673 211 -13,3571 158 -46,2857143 618,244898 2142,36735 198 -26,3571 196 -8,28571429 218,387755 68,6530612 143 -81,3571 150 -54,2857143 4416,53061 2946,93878 320 95,64286 280 75,71428571 7241,53061 5732,65306 245 20,64286 195 -9,28571429 -191,68367 86,2244898 131 -93,3571 180 -24,2857143 2267,2449 589,795918 171 -53,3571 200 -4,28571429 228,673469 18,3673469 355 130,6429 258 53,71428571 7017,38776 2885,22449 140 -84,3571 180 -24,2857143 2048,67347 589,795918 264 39,64286 220 15,71428571 622,959184 246,938776 170 -54,3571 162 -42,2857143 2298,53061 1788,08163 Média 224,3571429 204,2857143 Somas 63367,57143 36956,85714
b = soma dos produtos de resíduos / soma dos quadrados dos
resíduos da variável independente 1,714636371 a = média de y – média de x multiplicada pelo b - 125,9186 NOTE QUE PARA O CÁLCULO DE EFEITOS, NÃO USAMOS RESÍDUOS
PADRONIZADOS, MAS RESÍDUOS BRUTOS. O efeito é que para cada mg/dl de colesterol que aumenta, o triglicéride aumenta em 1,7 mg/dl. O efeito é estatisticamente significante porque a correlação é estatisticamente significante e trata-se de uma regressão linear simples. Note que da mesma forma que é insensato imaginar uma pessoa com valor nulo de colesterol sérico (intercepto, quando y = a), é insensato imaginar uma pessoa com dosagem negativa de triglicérides: qualquer projeção da reta para além dos limites estudados solicita inferência indutiva sobre sua aplicabilidade!
O gráfico abaixo mostra a equação da reta:
Relação entre colesterol e triglicérides
y = - 125,92 + 1,7146x 100 150 200 250 300 350 400 450 500
100 150 200Cole ste rol250 300 350
T ri g li c é ri d e s
3. O LDL (lipoproteína de baixa densidade) é um componente do colesterol que tem importância clínica porque está relacionado à deposição de gorduras nas paredes das artérias, aspecto importante da fisiopatologia da aterosclerose. Como é parte do colesterol total, o LDL tem alta correlação com o próprio colesterol e um estudo desta associação encontrou que
r = 0,829 e
LDL = -9,868 + 0,695 . colesterol
a. Admitindo-se que o ponto de corte para uma concentração normal de colesterol seja de 180 mg/dl, qual seria o limite de valor para LDL?
Use a equação da reta, usando o valor 180 para colesterol: LDL = - 9,868 + 0,695 . 180 = 115,232 mg/dl
b. Qual é o acréscimo esperado em LDL para cada aumento de 10 mg/dl de colesterol?
Se para cada unidade de colesterol o acréscimo é de 0,695, para 10 unidades é 6,95.
c. Se uma pessoa apresentasse uma dosagem nula de colesterol, que valor se esperaria para seu LDL?
Quando a variável independente é nula (zero), o valor da independente é o valor do intercepto. Logo, o valor esperado para LDL quando colesterol = 0 é LDL = - 9,868. NOTE QUE NEM SEMPRE AS PROJEÇÕES QUE FAZEMOS COM A RETA SÃO SENSATAS: do que colhemos de sugestão com nossas contas, há que intervir nosso juízo: não é sensato imaginar colesterol=0 e, portanto, tampouco é sensato imaginar
que nesta situação alguém teria um valor negativo de LDL, o que não existe. O intercepto nesta equação de reta, serve apenas para corrigir estimativas de LDL para um dado valor de colesterol.