• Nenhum resultado encontrado

Exerc´ıcios

No documento Introdu¸c˜ao `a Ciˆencia de Dados (páginas 131-141)

EXPLORAT ´ ORIA DE DADOS

4.6 Exerc´ıcios

Como no caso do risco relativo ´e mais conveniente estimar a variˆancia de log(rc), que ´e

Var[log(rc)] = 1 n11

+ 1 n12

+ 1 n21

+ 1 n22

.

Os limites inferior e superior de um itervalo de confian¸ca com coefi-ciente de confian¸ca aproximado de 95% para o logaritmo do raz˜ao de chances (populacional) RC s˜ao obtidos de

log[p1(1−p2)/p2(1−p1)]±1.96 r 1

n11 + 1 n12 + 1

n21 + 1

n22. (4.16) Assim como no caso do risco relativo, os limites do intervalo de con-fian¸ca correspondente para a raz˜ao de chances pode ser obtido por meio da exponencia¸c˜ao dos limites indicados em (4.16).

a) Compare as distribui¸c˜oes de frequˆencias da vari´avel “VO2” em repouso e no pico do exerc´ıcio para pacientes classificados em cada um dos n´ıveis da vari´avel “Etiologia” por meio de gr´aficos QQ e de medidas resumo. Comente os resultados.

b) Repita o item a) utilizando gr´aficos de Bland-Altman.

c) Utilizeboxplots e gr´aficos de perfis m´edios para comparar as dis-tribui¸c˜oes da vari´avel “Frequˆencia card´ıaca” correspondentes a pacientes nos diferentes n´ıveis da vari´avel “NYHA”. Comente os resultados.

6) Para os dados do arquivo salarios, considere a vari´avel “Regi˜ao”, com as classes “Am´erica do Norte”, “Am´erica Latina”, “Europa”e

“Outros”e a vari´avel “Sal´ario de professor secund´ario”. Avalie a asso-cia¸c˜ao entre essas duas vari´aveis.

7) Considere os dados do arquivo figadodiag. Calcule a sensibilidade, especificidade, taxas de falsos positivos e falsos negativos, valores pre-ditivos positivos e negativos e acur´acia das t´ecnicas radiol´ogicas para detec¸c˜ao de altera¸c˜oes anatˆomicas tendo os resultados intraoperat´orios como padr˜ao ´aureo.

8) Analise a vari´avel “Pre¸co de ve´ıculos” segundo as categorias N (nacio-nal) e I (importado) para o conjunto de dados dispon´ıveis no arquivo veiculos.

9) Utilizando a defini¸c˜ao da Nota de Cap´ıtulo 4, prove que se α = 0, ent˜ao r(α) =r.

10) Prove que (4.1) pode ser escrita como χ2=

r

X

i=1 s

X

j=1

(nij −nij)2 nij ,

em que nij ´e a frequˆencia absoluta observada na linha i e coluna j e nij ´e a respectiva frequˆencia esperada.

11) Prove que (4.1) pode ser escrita em termos de frequˆencias relativas como

χ2 =n

r

X

i=1 s

X

j=1

(fij −fij)2 fij , com nota¸c˜ao similar `a do problema anterior.

12) Prove que (4.4) e (4.5) s˜ao equivalentes.

13) Prove as rela¸c˜oes (4.11)-(4.13).

14) Os dados da Tabela 4.25 s˜ao provenientes de um estudo em que um dos objetivos era avaliar o efeito da dose de radia¸c˜ao gama (em centi-grays) na forma¸c˜ao de m´ultiplos micron´ucleos em c´elulas de indiv´ıduos normais. Analise os dados descritivamente, calculando o risco relativo de ocorrˆencia de micron´ucleos para cada dose tomando como base a dose nula. Repita a an´alise calculando as raz˜oes de chances correspon-dentes. Quais as conclus˜oes de suas an´alises?

Tabela 4.25: N´umero de c´elulas

Dose de radia¸c˜ao Frequˆencia de c´elulas Total de c´elulas gama (cGy) com m´ultiplos micron´ucleos examinadas

0 1 2373

20 6 2662

50 25 1991

100 47 2047

200 82 2611

300 207 2442

400 254 2398

500 285 1746

15) De uma tabela constru´ıda para avaliar a associa¸c˜ao entre tratamento (ativo e placebo) e cura (sim ou n˜ao) de uma certa mol´estia obteve-se uma raz˜ao de chances igual a 2,0. Explique por que n˜ao se pode concluir da´ı que a probabilidade de cura para pacientes submetidos ao tratamento ativo ´e 2 vezes a probabilidade de cura para pacientes submetidos ao placebo.

16) Um criminologista desejava estudar a rela¸c˜ao entre: X (densidade po-pulacional = n´umero de pessoas por unidade de ´area) e Y (´ındice de assaltos = n´umero de assaltos por 100000 pessoas) em grandes cida-des. Para isto sorteou 10 cidades observando em cada uma delas os valores de X e Y. Os resultados obtidos est˜ao dispostos na Tabela 4.26 Tabela 4.26: Densidade populacional e ´ındice de assaltos em grandes cidades

Cidade 1 2 3 4 5 6 7 8 9 10

X 59 49 75 65 89 70 54 78 56 60

Y 190 180 195 186 200 204 192 215 197 208 a) Classifique as vari´aveis envolvidas.

b) Calcule a m´edia, mediana, desvio-padr˜ao e a distˆancia interquar-tis para cada vari´avel.

c) Construa o diagrama de dispers˜ao entre Y e X e fa¸ca coment´arios sobre a rela¸c˜ao entre as duas vari´aveis.

17) Considere a seguinte tabela.

X 1 3 4 6 8 9 11 14

Y 1 2 4 4 5 7 8 9

O que se pode dizer sobre a rela¸c˜ao entre as vari´aveis X e Y?

a) N˜ao h´a associa¸c˜ao entre X e Y.

b) H´a rela¸c˜ao linear positiva.

c) H´a rela¸c˜ao linear negativa.

d) H´a rela¸c˜ao quadr´atica.

18) Em um teste de esfor¸co cardiopulmonar aplicado a 55 mulheres e 104 homens, foram medidas entre outras, as seguintes vari´aveis:

– Grupo: Normais, Cardiopatas ou DPOC (portadores de doen¸ca pulmonar obstrutiva crˆonica).

– VO2MAX: consumo m´aximo de O2 (ml/min).

– VCO2MAX: consumo m´aximo de CO2 (ml/min).

Algumas medidas descritivas e gr´aficos s˜ao apresentados abaixo nas Tabelas 4.27 e 4.28 e Figura 4.18

Tabela 4.27: VO2MAX

Grupo n M´edia Mediana Desvio Padr˜ao

Normais 56 1845 1707 795

Cardiopatas 57 1065 984 434

DPOC 46 889 820 381

Tabela 4.28: VCO2MAX

Grupo n M´edia Mediana Desvio Padr˜ao

Normais 56 2020 1847 918

Cardiopatas 57 1206 1081 479

DPOC 46 934 860 430

Coeficiente de correla¸c˜ao entre VO2MAX e VCO2MAX = 0,92.

a) Que grupo tem a maior variabilidade?

b) Compare as m´edias e as medianas dos 3 grupos.

c) Compare as distˆancias interquartis dos 3 grupos para cada vari´avel.

Vocˆe acha razo´avel usar a distribui¸c˜ao normal para esse conjunto de dados?

Figura 4.18: Gr´aficos para o Exerc´ıcio 18.

d) O que representam os asteriscos nosboxplots?

e) Que tipo de fun¸c˜ao vocˆe ajustaria para modelar a rela¸c˜ao entre o consumo m´aximo de CO2 e o consumo m´aximo de O2? Por quˆe?

f) H´a informa¸c˜oes que necessitam verifica¸c˜ao quanto a poss´ıveis er-ros? Quais?

19) Para avaliar a associa¸c˜ao entre a persistˆencia do canal arterial (PCA) em rec´em-nascidos pr´e-termo (RNPT) e ´obito ou hemorragia intracra-niana, um pesquisador obteve os dados dispostos na seguinte tabela

Frequˆencias absolutas e relativas de ´obitos e hemorragia intracraniana em rec´em-nascidos

PCA Obito´ Hemorragia intracraniana

Sim N˜ao Total Sim N˜ao Total

Presente 8 13 21 7 14 21

Ausente 1 39 40 7 33 40

Total 9 52 61 14 44 61

Um resumo das an´alises para ´obitos e hemorragia intracraniana est´a disposto na tabela seguinte

Raz˜ao de chances e Intervalo de confian¸ca (95%) Vari´avel valor p Estimativa Lim inf Lim sup

Obito´ 0,001 24,0 2,7 210,5

Hemorragia intracraniana 0,162 2,4 0,7 8,0

a) Interprete as estimativas das raz˜oes de chances, indicando clara-mente a que pacientes elas se referem.

b) Analogamente, interprete os intervalos de confian¸ca correspon-dentes, indicando claramente a que pacientes eles se referem.

c) Com base nos resultados anteriores, o que vocˆe pode concluir sobre a associa¸c˜ao entre persistˆencia do canal arterial e ´obito para RNPT em geral? E sobre a associa¸c˜ao entre a persistˆencia do canal arterial e a ocorrˆencia de hemorragia interna? Justifique suas respostas.

d) Qual a hip´otese nula testada em cada caso?

e) Qual a interpreta¸c˜ao dos n´ıveis descritivos (p-value) em cada caso?

Detalhes podem ser obtidos em Afiune (2000).

20) Em um estudo comparativo de duas drogas para hipertens˜ao os re-sultados indicados nas Tabelas 4.29, 4.30 e 4.31 e Figura 4.19 foram usados para descrever a efic´acia e a tolerabilidade das drogas ao longo de 5 meses de tratamento.

Tabela 4.29: Frequˆencias absoluta e relativa do efeito colateral para as duas drogas

Droga 1 Droga 2

Efeito Colateral n % n %

n˜ao 131 61,22 144 65,45

sim 83 38,79 76 34,54

Tabela 4.30: Distribui¸c˜ao de frequˆencias para as drogas 1 e 2 Varia¸c˜ao Droga 1 Droga 2

Press˜ao n % n %

0` 5 9 4,20561 5 2,27273 5` 10 35 16,3551 29 13,1818 10 ` 20 115 53,7383 125 56,8181 20 ` 30 54 25,2336 56 25,4545 30 ` 40 1 0,46729 5 2,27273

Tabela 4.31: Medidas resumo das drogas 1 e 2 Droga M´edia DP Mediana

1 15,58 6,09 15,49 2 16,82 6,37 17,43

Figura 4.19: Histogramas para a varia¸c˜ao de press˜ao arterial.

a) Com a finalidade de melhorar a apresenta¸c˜ao dos resultados, fa¸ca as altera¸c˜oes que vocˆe julgar necess´arias em cada uma das tabelas

e figura.

b) Calcule a m´edia, o desvio padr˜ao e a mediana da varia¸c˜ao de press˜ao arterial para cada uma das duas drogas por meio do his-tograma.

c) Compare os resultados obtidos no item b) com aqueles obtidos diretamente dos dados da amostra (Tabela 4.31).

21) Numa cidade A em que n˜ao foi veiculada propaganda, a porcentagem de clientes que desistem do plano de TV a cabo depois de um ano ´e 14%. Numa cidade B, em que houve uma campanha publicit´aria, essa porcentagem ´e de 6%. Ent˜ao, considerando uma aproxima¸c˜ao de 2 asas decimais, podemos dizer a raz˜ao de chances (rc) de desistˆencia entre as cidades A e B ´e

a) rc = 2,33 b) rc = 2,55 c) rc = 8,00 d) rc = 1,75 e) Nenhuma das respostas anteriores est´a correta.

22) Em um estudo realizado para avaliar o efeito do tabagismo nos padr˜oes de sono foram consideradas amostras de tamanhos 12 e 15 de duas popula¸c˜oes: Fumantes e N˜ao Fumantes, respectivamente. A vari´avel observada foi o tempo, em minutos, que se leva para dormir. Os correspondentesboxplots e gr´aficos de probabilidade Normal s˜ao apre-sentados nas Figuras 4.20 e 4.21.

Figura 4.20: Boxplotsdo tempo at´e dormir nas popula¸c˜oes Fumantes e N˜ao Fumantes.

Figura 4.21: Gr´afico QQ para as popula¸c˜oes Fumantes e N˜ao Fumantes.

Esses gr´aficos sugerem que:

a) a variabilidade do tempo ´e a mesma nas duas popula¸c˜oes estuda-das;

b) as suposi¸c˜oes para a aplica¸c˜ao do teste t-Student para comparar as m´edias dos tempos nas duas popula¸c˜oes est˜ao v´alidas;

c) os fumantes tendem a apresentar um tempo maior para dormir do que os n˜ao fumantes;

d) as informa¸c˜oes fornecidas permitem concluir que o estudo foi bem planejado;

e) nenhuma das respostas anteriores est´a correta.

23) Considere os dados do arquivo entrevista. Calcule estat´ısticas κ sem e com pondera¸c˜ao para quantificar a concordˆancia entre as duas observadoras (G e P) para as vari´aveis “Impacto” e “Independˆencia”

e comente os resultados.

24) Considere os dados do arquivo endometriose. Construa um gr´afico QQ para comparar as distribui¸c˜oes da vari´avel “Idade” de pacientes dos grupos Controle e Doente.

25) Considere duas amostras de uma vari´avelXcomnunidades amostrais cada. Utilize a defini¸c˜ao (4.8) para mostrar que Var(X) = Var(X) quando as m´edias das duas amostras s˜ao iguais.

26) Utilize o m´etodo Delta para calcular uma estimativa da variˆancia da raz˜ao de chances (ver Nota de Cap´ıtulo 7).

27) Considere os dados do arquivo neonatos contendo pesos de rec´em nascidos medidos por via ultrassonogr´afica (antes do parto) e ao nas-cer. Construa gr´aficos QQ e gr´aficos Bland-Altman para avaliar a concordˆancia entre as duas distribui¸c˜oes. Comente os resultados.

An´ alise de dados de v´ arias vari´ aveis

Nothing would be done at all if a man waited til he could do it so well that no one could find fault with it.

John Henry Newman

No documento Introdu¸c˜ao `a Ciˆencia de Dados (páginas 131-141)