EXPLORAT ´ ORIA DE DADOS
4.6 Exerc´ıcios
Como no caso do risco relativo ´e mais conveniente estimar a variˆancia de log(rc), que ´e
Var[log(rc)] = 1 n11
+ 1 n12
+ 1 n21
+ 1 n22
.
Os limites inferior e superior de um itervalo de confian¸ca com coefi-ciente de confian¸ca aproximado de 95% para o logaritmo do raz˜ao de chances (populacional) RC s˜ao obtidos de
log[p1(1−p2)/p2(1−p1)]±1.96 r 1
n11 + 1 n12 + 1
n21 + 1
n22. (4.16) Assim como no caso do risco relativo, os limites do intervalo de con-fian¸ca correspondente para a raz˜ao de chances pode ser obtido por meio da exponencia¸c˜ao dos limites indicados em (4.16).
a) Compare as distribui¸c˜oes de frequˆencias da vari´avel “VO2” em repouso e no pico do exerc´ıcio para pacientes classificados em cada um dos n´ıveis da vari´avel “Etiologia” por meio de gr´aficos QQ e de medidas resumo. Comente os resultados.
b) Repita o item a) utilizando gr´aficos de Bland-Altman.
c) Utilizeboxplots e gr´aficos de perfis m´edios para comparar as dis-tribui¸c˜oes da vari´avel “Frequˆencia card´ıaca” correspondentes a pacientes nos diferentes n´ıveis da vari´avel “NYHA”. Comente os resultados.
6) Para os dados do arquivo salarios, considere a vari´avel “Regi˜ao”, com as classes “Am´erica do Norte”, “Am´erica Latina”, “Europa”e
“Outros”e a vari´avel “Sal´ario de professor secund´ario”. Avalie a asso-cia¸c˜ao entre essas duas vari´aveis.
7) Considere os dados do arquivo figadodiag. Calcule a sensibilidade, especificidade, taxas de falsos positivos e falsos negativos, valores pre-ditivos positivos e negativos e acur´acia das t´ecnicas radiol´ogicas para detec¸c˜ao de altera¸c˜oes anatˆomicas tendo os resultados intraoperat´orios como padr˜ao ´aureo.
8) Analise a vari´avel “Pre¸co de ve´ıculos” segundo as categorias N (nacio-nal) e I (importado) para o conjunto de dados dispon´ıveis no arquivo veiculos.
9) Utilizando a defini¸c˜ao da Nota de Cap´ıtulo 4, prove que se α = 0, ent˜ao r(α) =r.
10) Prove que (4.1) pode ser escrita como χ2=
r
X
i=1 s
X
j=1
(nij −n∗ij)2 n∗ij ,
em que nij ´e a frequˆencia absoluta observada na linha i e coluna j e n∗ij ´e a respectiva frequˆencia esperada.
11) Prove que (4.1) pode ser escrita em termos de frequˆencias relativas como
χ2 =n
r
X
i=1 s
X
j=1
(fij −fij∗)2 fij∗ , com nota¸c˜ao similar `a do problema anterior.
12) Prove que (4.4) e (4.5) s˜ao equivalentes.
13) Prove as rela¸c˜oes (4.11)-(4.13).
14) Os dados da Tabela 4.25 s˜ao provenientes de um estudo em que um dos objetivos era avaliar o efeito da dose de radia¸c˜ao gama (em centi-grays) na forma¸c˜ao de m´ultiplos micron´ucleos em c´elulas de indiv´ıduos normais. Analise os dados descritivamente, calculando o risco relativo de ocorrˆencia de micron´ucleos para cada dose tomando como base a dose nula. Repita a an´alise calculando as raz˜oes de chances correspon-dentes. Quais as conclus˜oes de suas an´alises?
Tabela 4.25: N´umero de c´elulas
Dose de radia¸c˜ao Frequˆencia de c´elulas Total de c´elulas gama (cGy) com m´ultiplos micron´ucleos examinadas
0 1 2373
20 6 2662
50 25 1991
100 47 2047
200 82 2611
300 207 2442
400 254 2398
500 285 1746
15) De uma tabela constru´ıda para avaliar a associa¸c˜ao entre tratamento (ativo e placebo) e cura (sim ou n˜ao) de uma certa mol´estia obteve-se uma raz˜ao de chances igual a 2,0. Explique por que n˜ao se pode concluir da´ı que a probabilidade de cura para pacientes submetidos ao tratamento ativo ´e 2 vezes a probabilidade de cura para pacientes submetidos ao placebo.
16) Um criminologista desejava estudar a rela¸c˜ao entre: X (densidade po-pulacional = n´umero de pessoas por unidade de ´area) e Y (´ındice de assaltos = n´umero de assaltos por 100000 pessoas) em grandes cida-des. Para isto sorteou 10 cidades observando em cada uma delas os valores de X e Y. Os resultados obtidos est˜ao dispostos na Tabela 4.26 Tabela 4.26: Densidade populacional e ´ındice de assaltos em grandes cidades
Cidade 1 2 3 4 5 6 7 8 9 10
X 59 49 75 65 89 70 54 78 56 60
Y 190 180 195 186 200 204 192 215 197 208 a) Classifique as vari´aveis envolvidas.
b) Calcule a m´edia, mediana, desvio-padr˜ao e a distˆancia interquar-tis para cada vari´avel.
c) Construa o diagrama de dispers˜ao entre Y e X e fa¸ca coment´arios sobre a rela¸c˜ao entre as duas vari´aveis.
17) Considere a seguinte tabela.
X 1 3 4 6 8 9 11 14
Y 1 2 4 4 5 7 8 9
O que se pode dizer sobre a rela¸c˜ao entre as vari´aveis X e Y?
a) N˜ao h´a associa¸c˜ao entre X e Y.
b) H´a rela¸c˜ao linear positiva.
c) H´a rela¸c˜ao linear negativa.
d) H´a rela¸c˜ao quadr´atica.
18) Em um teste de esfor¸co cardiopulmonar aplicado a 55 mulheres e 104 homens, foram medidas entre outras, as seguintes vari´aveis:
– Grupo: Normais, Cardiopatas ou DPOC (portadores de doen¸ca pulmonar obstrutiva crˆonica).
– VO2MAX: consumo m´aximo de O2 (ml/min).
– VCO2MAX: consumo m´aximo de CO2 (ml/min).
Algumas medidas descritivas e gr´aficos s˜ao apresentados abaixo nas Tabelas 4.27 e 4.28 e Figura 4.18
Tabela 4.27: VO2MAX
Grupo n M´edia Mediana Desvio Padr˜ao
Normais 56 1845 1707 795
Cardiopatas 57 1065 984 434
DPOC 46 889 820 381
Tabela 4.28: VCO2MAX
Grupo n M´edia Mediana Desvio Padr˜ao
Normais 56 2020 1847 918
Cardiopatas 57 1206 1081 479
DPOC 46 934 860 430
Coeficiente de correla¸c˜ao entre VO2MAX e VCO2MAX = 0,92.
a) Que grupo tem a maior variabilidade?
b) Compare as m´edias e as medianas dos 3 grupos.
c) Compare as distˆancias interquartis dos 3 grupos para cada vari´avel.
Vocˆe acha razo´avel usar a distribui¸c˜ao normal para esse conjunto de dados?
Figura 4.18: Gr´aficos para o Exerc´ıcio 18.
d) O que representam os asteriscos nosboxplots?
e) Que tipo de fun¸c˜ao vocˆe ajustaria para modelar a rela¸c˜ao entre o consumo m´aximo de CO2 e o consumo m´aximo de O2? Por quˆe?
f) H´a informa¸c˜oes que necessitam verifica¸c˜ao quanto a poss´ıveis er-ros? Quais?
19) Para avaliar a associa¸c˜ao entre a persistˆencia do canal arterial (PCA) em rec´em-nascidos pr´e-termo (RNPT) e ´obito ou hemorragia intracra-niana, um pesquisador obteve os dados dispostos na seguinte tabela
Frequˆencias absolutas e relativas de ´obitos e hemorragia intracraniana em rec´em-nascidos
PCA Obito´ Hemorragia intracraniana
Sim N˜ao Total Sim N˜ao Total
Presente 8 13 21 7 14 21
Ausente 1 39 40 7 33 40
Total 9 52 61 14 44 61
Um resumo das an´alises para ´obitos e hemorragia intracraniana est´a disposto na tabela seguinte
Raz˜ao de chances e Intervalo de confian¸ca (95%) Vari´avel valor p Estimativa Lim inf Lim sup
Obito´ 0,001 24,0 2,7 210,5
Hemorragia intracraniana 0,162 2,4 0,7 8,0
a) Interprete as estimativas das raz˜oes de chances, indicando clara-mente a que pacientes elas se referem.
b) Analogamente, interprete os intervalos de confian¸ca correspon-dentes, indicando claramente a que pacientes eles se referem.
c) Com base nos resultados anteriores, o que vocˆe pode concluir sobre a associa¸c˜ao entre persistˆencia do canal arterial e ´obito para RNPT em geral? E sobre a associa¸c˜ao entre a persistˆencia do canal arterial e a ocorrˆencia de hemorragia interna? Justifique suas respostas.
d) Qual a hip´otese nula testada em cada caso?
e) Qual a interpreta¸c˜ao dos n´ıveis descritivos (p-value) em cada caso?
Detalhes podem ser obtidos em Afiune (2000).
20) Em um estudo comparativo de duas drogas para hipertens˜ao os re-sultados indicados nas Tabelas 4.29, 4.30 e 4.31 e Figura 4.19 foram usados para descrever a efic´acia e a tolerabilidade das drogas ao longo de 5 meses de tratamento.
Tabela 4.29: Frequˆencias absoluta e relativa do efeito colateral para as duas drogas
Droga 1 Droga 2
Efeito Colateral n % n %
n˜ao 131 61,22 144 65,45
sim 83 38,79 76 34,54
Tabela 4.30: Distribui¸c˜ao de frequˆencias para as drogas 1 e 2 Varia¸c˜ao Droga 1 Droga 2
Press˜ao n % n %
0` 5 9 4,20561 5 2,27273 5` 10 35 16,3551 29 13,1818 10 ` 20 115 53,7383 125 56,8181 20 ` 30 54 25,2336 56 25,4545 30 ` 40 1 0,46729 5 2,27273
Tabela 4.31: Medidas resumo das drogas 1 e 2 Droga M´edia DP Mediana
1 15,58 6,09 15,49 2 16,82 6,37 17,43
Figura 4.19: Histogramas para a varia¸c˜ao de press˜ao arterial.
a) Com a finalidade de melhorar a apresenta¸c˜ao dos resultados, fa¸ca as altera¸c˜oes que vocˆe julgar necess´arias em cada uma das tabelas
e figura.
b) Calcule a m´edia, o desvio padr˜ao e a mediana da varia¸c˜ao de press˜ao arterial para cada uma das duas drogas por meio do his-tograma.
c) Compare os resultados obtidos no item b) com aqueles obtidos diretamente dos dados da amostra (Tabela 4.31).
21) Numa cidade A em que n˜ao foi veiculada propaganda, a porcentagem de clientes que desistem do plano de TV a cabo depois de um ano ´e 14%. Numa cidade B, em que houve uma campanha publicit´aria, essa porcentagem ´e de 6%. Ent˜ao, considerando uma aproxima¸c˜ao de 2 asas decimais, podemos dizer a raz˜ao de chances (rc) de desistˆencia entre as cidades A e B ´e
a) rc = 2,33 b) rc = 2,55 c) rc = 8,00 d) rc = 1,75 e) Nenhuma das respostas anteriores est´a correta.
22) Em um estudo realizado para avaliar o efeito do tabagismo nos padr˜oes de sono foram consideradas amostras de tamanhos 12 e 15 de duas popula¸c˜oes: Fumantes e N˜ao Fumantes, respectivamente. A vari´avel observada foi o tempo, em minutos, que se leva para dormir. Os correspondentesboxplots e gr´aficos de probabilidade Normal s˜ao apre-sentados nas Figuras 4.20 e 4.21.
Figura 4.20: Boxplotsdo tempo at´e dormir nas popula¸c˜oes Fumantes e N˜ao Fumantes.
Figura 4.21: Gr´afico QQ para as popula¸c˜oes Fumantes e N˜ao Fumantes.
Esses gr´aficos sugerem que:
a) a variabilidade do tempo ´e a mesma nas duas popula¸c˜oes estuda-das;
b) as suposi¸c˜oes para a aplica¸c˜ao do teste t-Student para comparar as m´edias dos tempos nas duas popula¸c˜oes est˜ao v´alidas;
c) os fumantes tendem a apresentar um tempo maior para dormir do que os n˜ao fumantes;
d) as informa¸c˜oes fornecidas permitem concluir que o estudo foi bem planejado;
e) nenhuma das respostas anteriores est´a correta.
23) Considere os dados do arquivo entrevista. Calcule estat´ısticas κ sem e com pondera¸c˜ao para quantificar a concordˆancia entre as duas observadoras (G e P) para as vari´aveis “Impacto” e “Independˆencia”
e comente os resultados.
24) Considere os dados do arquivo endometriose. Construa um gr´afico QQ para comparar as distribui¸c˜oes da vari´avel “Idade” de pacientes dos grupos Controle e Doente.
25) Considere duas amostras de uma vari´avelXcomnunidades amostrais cada. Utilize a defini¸c˜ao (4.8) para mostrar que Var(X) = Var(X) quando as m´edias das duas amostras s˜ao iguais.
26) Utilize o m´etodo Delta para calcular uma estimativa da variˆancia da raz˜ao de chances (ver Nota de Cap´ıtulo 7).
27) Considere os dados do arquivo neonatos contendo pesos de rec´em nascidos medidos por via ultrassonogr´afica (antes do parto) e ao nas-cer. Construa gr´aficos QQ e gr´aficos Bland-Altman para avaliar a concordˆancia entre as duas distribui¸c˜oes. Comente os resultados.
An´ alise de dados de v´ arias vari´ aveis
Nothing would be done at all if a man waited til he could do it so well that no one could find fault with it.
John Henry Newman