• Nenhum resultado encontrado

Usos e abusos dos testes t

No documento Delineando a Pesquisa Clínica (páginas 164-168)

Os testes t para duas amostras, foco principal deste capítulo, são usados para comparar valores médios de um desfecho em dois grupos de sujeitos. Os dois grupos podem ser definidos por uma variável preditora (p. ex., medicamento ativo versus placebo em um ensaio clínico randomizado ou presença versus ausência de um fator de risco em um estudo de coorte), ou, então, por uma variável de desfecho em um estudo de caso-controle.

Um teste t para duas amostras pode ser não pareado, se medidas obtidas

em uma única ocasião estiverem sendo comparadas em dois grupos, ou

pareado, se o que estiver sendo comparado entre os dois grupos for a

mudança em um par de medidas realizadas em dois pontos do tempo (p. ex., antes e depois de uma intervenção). Um terceiro tipo de teste t, o

teste t pareado para uma única amostra, compara a mudança média em um par de valores em um único grupo com uma mudança de zero ou com alguma outra mudança especificada.

A Tabela 6F mostra um uso inadequado do teste t pareado para uma única amostra em um ensaio clínico randomizado e cego que compara o efeito de um novo medicamento para dormir, em relação a um controle, na qualidade de vida. Em situações como essa, alguns pesquisadores produziram (e publicaram!) resultados utilizando dois testes t para uma amostra, separadamente para os grupos tratamento e controle.

Na tabela, os valores P assinalados com uma adaga (†) foram gerados pelos testes t pareados para uma única amostra. O primeiro valor P (0,05) revela uma mudança significativa na qualidade de vida nos sujeitos do grupo de tratamento; o segundo valor P (0,16) revela que não houve uma mudança significativa na qualidade de vida no grupo controle. Entretanto, essas análises não permitem fazer inferências sobre as diferenças na qualidade de vida entre os grupos e estaria incorreto concluir que existe um efeito significativo do tratamento com o novo medicamento.

Os valores P assinalados com um asterisco (*) representam os resultados apropriados produzidos por um teste t para duas amostras. Os dois primeiros valores P (0,87 e 0,64) correspondem aos testes t não

pareados que não mostram diferenças significativas entre os grupos nas medidas da qualidade de vida realizadas na linha de base e no final do estudo. O último valor P (0,17) foi produzido por um teste t pareado para duas amostras. Esse valor é mais próximo de 0,05 do que o valor P associado à medida da qualidade de vida do final do estudo (0,64) porque as médias das diferenças em cada par possuem desvios-padrão menores. Entretanto, a melhora na qualidade de vida no grupo tratado (1,3) não foi significativamente diferente do grupo placebo (0,9), e a conclusão correta é que o estudo não demonstra que o tratamento é efetivo.

TABELA 6F Maneiras corretas (e incorretas) de analisar dados pareados

MOMENTO DA REALIZAÇÃO DA AFERIÇÃO

QUALIDADE DE VIDA, MÉDIA ± DP

TRATAMENTO (N = 100) CONTROLE (N = 100) VALOR P

Linha de base 7,0 ± 4,5 7,1 ± 4,4 0,87*

Final do estudo 8,3 ± 4,7 8,0 ± 4,6 0,64*

Valor P 0,05† 0,16†

Diferença 1,3 ± 2,1 0,9 ± 2,0 0,17*

* Comparando o tratamento com o controle. † Comparando a linha de base com o final do estudo.

REFERÊNCIAS

1. Lehr R. Sixteen S-squared over D-squared: a relation for crude sample size estimates. Stat Med 1992;11:1099–1102.

2. Barthel FM, Babiker A, Royston P, Parmar MK. Evaluation of sample size and power for multi-arm survival trials allowing for non-uniform accrual, non- proportional hazards, loss to follow-up and cross-over. Stat Med 2006;25(15):2521– 2542.

3. Ahnn S, Anderson SJ. Sample size determination in complex clinical trials comparing more than two groups for survival endpoints. Stat Med 1998;17(21):2525–2534.

4. Donner A. Sample size requirements for stratified cluster randomization designs [published erratum appears in Stat Med 1997;30(16):2927]. Stat Med 1992;11:743– 750.

5. Kerry SM, Bland JM. Trials which randomize practices II: sample size. Fam Pract 1998;15:84–87.

6. Hemming K, Girling AJ, Sitch AJ, et al. Sample size calculations for cluster randomised controlled trials with a fixed number of clusters. BMC Med Res

Methodol 2011;11:102.

with time to event as the primary endpoint. Stat Med 2013;32(5):739–751.

8. Edwardes MD. Sample size requirements for case–control study designs. BMC Med

Res Methodol 2001;1:11.

9. Drescher K, Timm J, Jöckel KH. The design of case–control studies: the effect of confounding on sample size requirements. Stat Med 1990;9:765–776.

10. Lui KJ. Sample size determination for case–control studies: the influence of the joint distribution of exposure and confounder. Stat Med 1990;9:1485–1493.

11. Latouche A, Porcher R, Chevret S. Sample size formula for proportional hazards modelling of competing risks. Stat Med 2004;23(21):3263–3274.

12. Novikov I, Fund N, Freedman LS. A modified approach to estimating sample size for simple logistic regression with one continuous covariate. Stat Med 2010;29(1):97–107.

13. Vaeth M, Skovlund E. A simple approach to power and sample size calculations in logistic regression and Cox regression models. Stat Med 2004;23(11):1781–1792. 14. Dupont WD, Plummer WD Jr. Power and sample size calculations for studies

involving linear regression. Control Clin Trials 1998;19:589–601.

15. Murcray CE, Lewinger JP, Conti DV, et al. Sample size requirements to detect gene-environment interactions in genome-wide association studies. Genet Epidemiol 2011;35(3):201–210.

16. Wang S, Zhao H. Sample size needed to detect gene-gene interactions using linkage analysis. Ann Hum Genet 2007;71(Pt 6):828–842.

17. Witte JS. Rare genetic variants and treatment response: sample size and analysis issues. Stat Med 2012; 31(25):3041–3050.

18. Willan AR. Sample size determination for cost-effectiveness trials.

Pharmacoeconomics 2011;29(11): 933–949.

19. Glick HA. Sample size and power for cost-effectiveness analysis (Part 2): the effect of maximum willingness to pay. Pharmacoeconomics 2011;29(4):287–296.

20. Glick HA. Sample size and power for cost-effectiveness analysis (Part 1).

Pharmacoeconomics 2011;29(3):189–198.

21. Patel HI. Sample size for a dose-response study [published erratum appears in J Biopharm Stat 1994;4:127]. J Biopharm Stat 1992;2:l–8.

22. Day SJ, Graham DF. Sample size estimation for comparing two or more treatment groups in clinical trials. Stat Med 1991;10:33–43.

23. Guo JH, Chen HJ, Luh WM. Sample size planning with the cost constraint for testing superiority and equivalence of two independent groups. Br J Math Stat

Psychol 2011;64(3):439–461.

24. Zhang P. A simple formula for sample size calculation in equivalence studies. J

Biopharm Stat 2003;13(3):529–538.

25. Stucke K, Kieser M. A general approach for sample size calculation for the three- arm ‘gold standard’ non-inferiority design. Stat Med 2012;31(28):3579–3596.

non-inferiority studies with binary outcomes. Stat Methods Med Res 2011;20(6):595–612.

27. Obuchowski NA. Sample size tables for receiver operating characteristic studies.

AJR Am J Roentgenol 2000;175(3):603–608.

28. Simel DL, Samsa GP, Matchar DB. Likelihood ratios with confidence: sample size estimation for diagnostic test studies. J Clin Epidemiol 1991;44:763–770.

29. Sim J, Wright CC. The kappa statistic in reliability studies: use, interpretation, and sample size requirements. Phys Ther 2005;85(3):257–268.

30. Jewell NP. Statistics for epidemiology. Boca Raton: Chapman and Hall, 2004, p. 68.

SEÇÃO

II

No documento Delineando a Pesquisa Clínica (páginas 164-168)