• Nenhum resultado encontrado

Exerc´ıcios

No documento Introdu¸c˜ao `a Ciˆencia de Dados (páginas 171-179)

EXPLORAT ´ ORIA DE DADOS

5.7 Exerc´ıcios

Segundo a Tabela 5.8, em ambas as regi˜oes, h´a uma preferˆencia pelo Projeto B ou seja, a chance de preferˆencia pelo projeto B ´e pelo menos o dobro daquela de preferˆencia pelo Projeto A. Se agruparmos os dados somando os resultados de ambas as regi˜oes, obteremos as frequˆencias dispostas na Tabela 5.9.

Tabela 5.9: Frequˆencias agrupadas correspondentes `a Tabela 5.8

Opini˜ao Raz˜ao

Projeto favor´avel desfavor´avel Total de chances

A 5050 5950 11000 6,98

B 1095 9005 10100

Total 6145 9950 21100

A raz˜ao de chances obtida com os dados agrupados indicam que a chance de preferˆencia pelo Projeto A ´e cerca de 7 vezes aquela de pre-ferˆencia pelo Projeto B. Essa aparente incongruˆencia ´e conhecida como o Paradoxo de Simpson e pode ser explicado por uma forte associa¸c˜ao (com rc= 0,001) entre a vari´avel Regi˜ao e Projeto como indicado na Tabela 5.10.

Tabela 5.10: Frequˆencias de pacientes favor´aveis a cada projeto

Regi˜ao Raz˜ao

Projeto 1 2 Total de chances

A 1000 10000 11000 0,001

B 10000 100 10100

Total 11000 10100 21100

A estat´ıstica de Mantel-Haenszel correspondente ´e rcM H = (50×9000)/11000 + (5000×5)/10100

(950×1000)/11000 + (5000×95)/10100 = 0,33 preservando a associa¸c˜ao entre as duas vari´aveis de interesse. Detalhes sobre o Paradoxo de Simpson podem ser encontrados em Paulino e Singer (2006).

adequadas (baixa ou alta, para a substˆancia A, e baixa, m´edia ou alta, para a substˆancia B) na fabrica¸c˜ao da droga. Vinte e quatro volunt´arios foram aleatoriamente distribu´ıdos em 6 grupos de 4 in-div´ıduos e cada grupo foi submetido a um dos 6 tratamentos. A res-posta observada foi o tempo para o desaparecimento dos sintomas (em dias). Os resultados obtidos est˜ao dispostos na Tabela 5.11

Tabela 5.11: Tempo para o desaparecimento dos sintomas (dias) Dose da Dose da substˆancia B

substˆancia A baixa m´edia alta

baixa 10,4 8,9 4,8

baixa 12,8 9,1 4,5

baixa 14,6 8,5 4,4

baixa 10,5 9,0 4,6

alta 5,8 8,9 9,1

alta 5,2 9,1 9,3

alta 5,5 8,7 8,7

alta 5,3 9,0 9,4

a) Fa¸ca uma an´alise descritiva dos dados com o objetivo de avaliar qual a combina¸c˜ao de dosagens das substˆancias faz com que os sintomas desapare¸cam em menos tempo.

b) Especifique o modelo para a compara¸c˜ao dos 6 tratamentos quanto ao tempo para o desaparecimento dos sintomas. Identifique os fa-tores e seus n´ıveis.

c) Construa o gr´afico dos perfis m´edios e interprete-o. Com base nesse gr´afico, vocˆe acha que existe intera¸c˜ao entre os fatores?

Justifique sua resposta.

d) Confirme suas conclus˜oes do item c) por meio de uma ANOVA com dois fatores.

2) Um experimento foi realizado em dois laborat´orios de modo indepen-dente com o objetivo de verificar o efeito de trˆes tratamentos (A1, A2 e A3) na concentra¸c˜ao de uma substˆancia no sangue de animais (dados hipot´eticos). As concentra¸c˜oes observadas nos dois laborat´orios s˜ao apresentas na Tabela 5.12.

Tabela 5.12: Concentra¸c˜ao de uma substˆancia no sangue de animais Laborat´orio 1 Laborat´orio 2

A1 A2 A3 A1 A2 A3

8 4 3 4 6 5

3 8 2 5 7 4

1 10 8 3 7 6

4 6 7 5 8 5

Total 16 28 20 Total 16 28 20

a) O que vocˆe pode comentar sobre as m´edias dos trˆes tratamentos nos dois laborat´orios?

b) Sem nenhum c´alculo, apenas olhando os dados, em qual dos dois laborat´orios ser´a observado o maior valor da estat´ıstica F na an´alise de variˆancia?

3) Um estudo foi realizado com o objetivo de avaliar a influˆencia da exposi¸c˜ao ao material particulado fino (MP2,5) na capacidade vital for¸cada (% do predito) em indiv´ıduos que trabalham em ambiente ex-terno. Deseja-se verificar se o efeito da exposi¸c˜ao depende da ocorrˆencia de hipertens˜ao ou diabetes. Os 101 trabalhadores na amostra foram classificados quanto `a exposi¸c˜ao e presen¸ca de diabetes ou hipertens˜ao.

As m´edias da capacidade vital for¸cada em cada combina¸c˜ao das cate-gorias de diabetes ou hipertens˜ao e exposi¸c˜ao est˜ao representadas na Figura 5.16.

Figura 5.16: Capacidade vital for¸cada (% do predito).

a) Comente descritivamente os resultados obtidos, discutindo a in-tera¸c˜ao entre diabetes e exposi¸c˜ao ao material particulado.

b) Que compara¸c˜oes vocˆe faria para explicar a intera¸c˜ao?

4) Considere os dados do arquivoesforco.

a) Para cada etiologia (CH, ID e IS), construa gr´aficos do desenhista (draftman’s plots) para avaliar a associa¸c˜ao entre os consumos de oxigˆenio (VO2) medidos nos trˆes momentos de exerc´ıcio (LAN, PCR e Pico) e indique os coeficientes de correla¸c˜ao de Pearson e de Spearman correspondentes.

b) Para cada um dos quatro n´ıvei de avalia¸c˜ao (Repouso, LAN, PCR e Pico), construa gr´aficos de perfis m´edios da frequˆencia card´ıaca para as diferentes combina¸c˜oes dos n´ıveis de etiologia (CH, ID e IS) e gravidade da doen¸ca avaliada pelo crit´erio NYHA. Em cada caso, avalie descritivamente as evidˆencias de efeitos dos fatores Etiologia e Gravidade da doen¸ca e de sua intera¸c˜ao.

c) Utilize ANOVA para avaliar se as conclus˜oes descritivas podem ser extrapoladas para a popula¸c˜ao de onde a amostra foi obtida.

5) Considere os dados do arquivoarvores. Obtenha os vetores de m´edias e matrizes de covariˆancias e correla¸c˜oes entre as concentra¸c˜oes dos elementos Mn, Fe, Cu, Zn, Sr, Ba, Mg, Al, P, S, Cl e Ca para cada combina¸c˜ao dos n´ıveis de esp´ecie e tipo de via.

6) Um novo tipo de bateria est´a sendo desenvolvido. Sabe-se que o tipo de material da placa e a temperatura podem afetar o tempo de vida da bateria. H´a trˆes materiais poss´ıveis a testar em trˆes temperaturas escolhidas de forma a serem consistentes com o ambiente de uso do produto: -9ºC, 21ºC e 50ºC. Quatro baterias foram testadas em cada combina¸c˜ao de material e temperatura em ordem aleat´oria. As m´edias observadas do tempo de vida (h) e intervalos de confian¸ca de 95%

para as m´edias populacionais em cada combina¸c˜ao de temperatura e material est˜ao representados no gr´afico da Figura 5.17 .

Figura 5.17: Gr´afico das m´edias observadas do tempo de vida (h) e intervalos de confian¸ca de 95% para as m´edias populacionais em cada combina¸c˜ao de temperatura e material.

Com base nesse gr´afico pode-se conjecturar que:

a) a escolha do material com o qual ´e obtida a maior m´edia do tempo de vida independe da temperatura;

b) as menores m´edias de tempo de vida foram observadas quando foi utilizado o material 1;

c) a temperatura em que foram observadas as maiores m´edias do tempo de vida ´e a de 21ºC;

d) h´a intera¸c˜ao entre Temperatura e Tempo de vida;

e) nenhuma das alternativas acima ´e correta.

7) O gr´afico apresentado na Figura 5.18 considera a associa¸c˜ao entre as vari´aveis press˜ao sist´olica e idade de imigrantes com menos de dez anos (Migra1) e com mais de dez anos (Migra2) desde a migra¸c˜ao.

A dispers˜ao dos pontos indica que:

a) existem muitos pontos aberrantes.

b) existe correla¸c˜ao linear positiva entre as vari´aveis para o grupo Migra2.

c) independentemente do tempo desde a migra¸c˜ao as vari´aveis s˜ao altamente correlacionadas.

d) existe correla¸c˜ao linear positiva entre as vari´aveis para o grupo Migra1.

Figura 5.18: Gr´afico de Press˜ao sist´olica versus Idade para imigrantes.

8) Os dados do arquivopalatoprovˆem de um estudo realizado no Labo-rat´orio Experimental de Polui¸c˜ao Atmosf´erica da Faculdade de Medi-cina da Universidade de S˜ao Paulo para avaliar os efeitos de agentes oxidantes no sistema respirat´orio. Espera-se que a exposi¸c˜ao a maiores concentra¸c˜oes de agentes oxidantes possa causar danos crescentes `as c´elulas ciliares e excretoras de muco, que constituem a principal de-fesa do sistema respirat´orio contra agentes externos. Cinquenta e seis palatos de sapos foram equitativamente e aleatoriamente alocados a um de seis grupos; cada grupo de 8 palatos foi imerso por 35 minutos numa solu¸c˜ao de per´oxido de hidrogˆenio numa concentra¸c˜ao especi-ficada, nomeadamente 0, 1, 8, 16, 32 ou 64 µM. A vari´avel resposta de interesse ´e a velocidade de transporte mucociliar relativa (mm/s), definida como o quociente entre a velocidade de transporte mucociliar num determinado instante e aquela obtida antes da interven¸c˜ao ex-perimental. Essa vari´avel foi observada a cada cinco minutos ap´os a imers˜ao.

a) Obtenha os vetores de m´edias e matrizes de covariˆancias/correla¸c˜oes para os dados correspondentes aos diferentes n´ıveis do fator inte-runidades amostrais (concentra¸c˜ao de per´oxido de hidrogˆenio).

b) Construa gr´aficos de perfis individuais com perfis m´edios e curvas lowess sobrepostas para os diferentes n´ıveis da concentra¸c˜ao de per´oxido de hidrogˆenio.

c) Compare os resultados obtidos com os diferentes n´ıveis do fator interunidades amostrais.

9) Os dados abaixo reportam-se a uma avalia¸c˜ao do desempenho de um

conjunto de 203 estudantes universit´arios em uma disciplina intro-dut´oria de ´Algebra e C´alculo. Os estudantes, agrupados segundo os quatro cursos em que estavam matriculados, foram ainda aleatoria-mente divididos em dois grupos por curso, a cada um dos quais foi atribu´ıdo um de dois professores que lecionaram a mesma mat´eria. O desempenho de cada aluno foi avaliado por meio da mesma prova.

Frequˆencias de aprova¸c˜ao/reprova¸c˜ao de estudantes.

Desempenho

Curso Professor Aprovado Reprovado

Ciˆencias Qu´ımicas A 8 11

B 11 13

Ciˆencias Farmacˆeuticas A 10 14

B 13 9

Ciˆencias Biol´ogicas A 19 25

B 20 18

Bioqu´ımica A 14 2

B 12 4

a) Para valiar a associa¸c˜ao entre Professor e Desempenho, calcule a raz˜ao de chances em cada estrato.

b) Calcule a raz˜ao de chances de Mantel-Haenszel correspondente.

c) Expresse suas conclus˜oes de forma n˜ao t´ecnica.

10) Com base nos dados do arquivo coronarias, construa uma tabela de contingˆencia 2×2×2×2 envolvendo of fatores sexo (SEXO), idade (IDA55) e hipertens˜ao arterial (HA) e a vari´avel resposta les˜ao obstru-tiva coronariana ≥ 50% (LO3). Obtenha as raz˜oes de chances entre cada fator e a vari´avel resposta por meio das correspondentes distri-bui¸c˜oes marginais. Comente os resultados, indicando poss´ıveis proble-mas com essa estrat´egia.

An´ alise de Regress˜ ao

Models are, for the most part, caricatures of reality, but if they are good, like good caricatures, they portray, though perhaps in a disturbed manner, some features of the real world.

Mark Ka˘c

No documento Introdu¸c˜ao `a Ciˆencia de Dados (páginas 171-179)