• Nenhum resultado encontrado

VERDADE NA POPULAÇÃO RESULTADOS NA AMOSTRA

No documento Delineando a Pesquisa Clínica (páginas 106-119)

Warren S Browner, Thomas B Newman e Stephen B Hulley

VERDADE NA POPULAÇÃO RESULTADOS NA AMOSTRA

DO ESTUDO ASSOCIAÇÃO ENTRE O PREDITOR E O DESFECHO AUSÊNCIA DE ASSOCIAÇÃO ENTRE O PREDITOR E O DESFECHO

Rejeitam a hipótese nula Correta Erro tipo I

Não rejeitam a hipótese nula Erro tipo II Correta

Antes de realizar o estudo, o investigador determina a probabilidade máxima tolerada para erros tipo I e tipo II. A probabilidade máxima de um erro tipo I (rejeitar a hipótese nula quando ela for verdadeira) é

denominada α (alfa). Outro termo para a é nível de significância

estatística.

Se, por exemplo, um estudo sobre os efeitos da atividade física nos níveis de glicemia de jejum for delineado com um a de 0,05, isso significa que se definiu como de 5% a probabilidade máxima de se rejeitar a hipótese nula quando ela for verdadeira (ou seja, inferir que há associação entre atividade física e níveis de glicemia de jejum na população, quando na verdade não há). Esse é o nível de incerteza que o investigador se

dispõe a aceitar quando for usar testes estatísticos para analisar os dados após o estudo ter sido concluído.

A probabilidade de um erro tipo II (não rejeitar a hipótese nula quando

ela for falsa) é denominada β (beta). O valor [1 – β] é denominado poder

estatístico e representa a probabilidade de se rejeitar corretamente a hipótese nula na amostra quando o efeito real na população for igual (ou maior do que) a magnitude de efeito especificada.

Se β for 0,10, o investigador decidiu que está disposto a aceitar uma probabilidade de 10% de não encontrar uma associação de uma magnitude de efeito especificada, quando de fato essa associação existe. Isso representa um poder de 0,90, isto é, uma probabilidade de 90% de encontrar uma associação dessa magnitude ou maior. Por exemplo, imagine que o exercício físico realmente leve a uma redução de 20 mg/dL nos níveis de glicemia de jejum em mulheres diabéticas na população. Se o investigador replicasse o estudo várias vezes, com o mesmo poder estatístico de 90%, esperaríamos que, em 9 entre cada 10 estudos, ele rejeitaria corretamente a hipótese nula com um nível especificado de alfa de 0,05 e concluiria que o exercício físico está associado com a glicemia de jejum. Isso não significa que o investigador não poderia detectar um efeito menor, como uma redução de 15 mg/dL; significa apenas que teria menos de 90% de probabilidade de detectá-lo.

Em um cenário ideal, α e β seriam próximos de zero, minimizando a possibilidade de resultados falso-positivos e falso-negativos. Para reduzi- los, no entanto, é necessário aumentar o tamanho de amostra ou implementar outras estratégias discutidas no Capítulo 6. O planejamento do tamanho de amostra tem como meta escolher um número suficiente de sujeitos para manter α e β em níveis aceitavelmente baixos, sem tornar o estudo desnecessariamente caro ou trabalhoso.

Muitos estudos estabelecem a como 0,05 e β como 0,20 (poder de 0,80). Esses valores são arbitrários, sendo possível usar outros. Por exemplo, a faixa convencional para a varia de 0,01 α 0,10 e, para β, de 0,05 a 0,20. Em geral, o investigador deve usar um a baixo quando a questão de pesquisa torna importante evitar erros tipo I (falso-positivos), como ao testar a eficácia de um medicamento que apresenta riscos. Deve-se usar um β baixo (e uma magnitude de efeito pequena) quando for particularmente importante evitar um erro tipo II (falso-negativo), como

no caso em que se deseja fornecer evidências para garantir à opinião pública que é seguro viver próximo a um depósito de lixo tóxico.

Valor P

Vamos agora retornar à hipótese nula, cujo objetivo central ficará finalmente mais claro. A hipótese nula tem apenas uma única função: funcionar como um espantalho. É pressuposta como verdadeira até ser rejeitada como falsa por um teste estatístico. Na análise dos dados, um

teste estatístico é usado para determinar o valor P, que é a probabilidade

de se encontrar – apenas pelo acaso – um efeito tão ou mais forte que o que seria encontrado no estudo se a hipótese nula fosse realmente verdadeira. O ponto central é perceber que, se a hipótese nula for verdadeira, e realmente não houver diferença na população, então a única forma que o estudo poderia ter encontrado uma diferença na amostra seria pelo acaso.

Se essa possibilidade for pequena, então a hipótese nula de que não há diferença pode ser rejeitada em benefício da hipótese alternativa de que há diferença. Por “pequena” queremos dizer que o valor P é menor que α, o nível predeterminado de significância estatística.

Entretanto, um resultado “não significativo” (valor P maior que α) não

significa que não há associação na população; significa apenas que o resultado observado na amostra é pequeno comparado ao que poderia ser encontrado pelo mero acaso. Por exemplo, um investigador pode concluir que mulheres que participam de competições esportivas universitárias têm o dobro da probabilidade de serem submetidas à artroplastia de quadril quando mais velhas do que as que não participam dessas competições, mas, uma vez que o número artroplastias de quadril no estudo foi modesto, esse efeito aparentemente forte teve um valor P de apenas 0,08. Isso significa que, mesmo não havendo associação entre atividade esportiva e artroplastia de quadril na população, haveria, apenas pelo acaso, uma probabilidade de 8% de se encontrar uma associação de magnitude pelo menos semelhante à observada pelo investigador. Se o investigador tivesse configurado o nível de significância como um a bilateral de 0,05, teria concluído que a associação na amostra “não foi estatisticamente significativa”.

para unilateral, relatando-o como “P = 0,04”. Uma opção melhor seria relatar que “Embora os resultados possam sugerir uma associação, não houve significância estatística (P = 0,08)”. Essa solução preserva a integridade do desenho original da hipótese bilateral e também reconhece que a significância estatística não é uma situação do tipo tudo ou nada.

Lados da hipótese alternativa

É importante lembrar que a hipótese alternativa tem, na verdade, dois lados, e um deles ou ambos podem ser testados na amostra usando-se

testes estatísticos uni ou bilaterais1. Quando um teste estatístico bilateral

é usado, o valor P inclui as probabilidades de cometer um erro tipo I em cada uma das direções, o que é aproximadamente duas vezes maior do que a probabilidade em apenas uma direção. Portanto, é fácil converter um valor P unilateral para um valor P bilateral, e vice-versa. Por exemplo, um valor P unilateral de 0,05 é geralmente igual a um valor P bilateral de 0,10. (Alguns testes estatísticos são assimétricos, e é por isso que empregamos a palavra “geralmente”.)

No caso incomum de um investigador estar apenas interessado em um dos lados da hipótese alternativa (p. ex., em um ensaio clínico de não inferioridade que busca determinar se um novo antibiótico não é menos eficaz do que um antibiótico atualmente em uso. Veja o Capítulo 11), o tamanho de amostra pode ser calculado de acordo com a hipótese unilateral. Uma hipótese unilateral, entretanto, nunca deve ser usada apenas para reduzir o tamanho de amostra.

Tipo de teste estatístico

As fórmulas usadas para calcular o tamanho de amostra são baseadas em pressupostos matemáticos que diferem para cada teste estatístico. Portanto, antes de se poder calcular o tamanho de amostra, o investigador deve decidir que método estatístico usar para a análise dos dados. Essa escolha depende principalmente dos tipos de variáveis preditoras e de desfecho no estudo. A Tabela 6.1 lista algumas estatísticas comuns usadas na análise de dados, e o Capítulo 6 fornece métodos simplificados para estimar o tamanho de amostra para estudos que usam essas estatísticas.

Variabilidade

Além da magnitude de um efeito, deve-se atentar também para a sua variabilidade. Os testes estatísticos dependem da capacidade de mostrar uma diferença entre os grupos comparados. Quanto maior a variabilidade (ou dispersão) na variável de desfecho entre os sujeitos, maior a probabilidade de os valores nos grupos se sobrecruzarem, e maior a dificuldade de se demonstrar uma diferença global entre eles. Uma vez que o erro na aferição contribui para a variabilidade global, medidas menos precisas exigem tamanhos de amostra maiores (5).

Considere um estudo sobre os efeitos de duas dietas (uma com baixos níveis de gordura e outra com baixos níveis de carboidratos) sobre a perda de peso em 20 pacientes obesos. Se todos os pacientes que fizerem uma dieta com baixos níveis de gordura perderem 3 kg e todos os que fizerem uma dieta com baixos níveis de carboidratos perderem pouco ou nenhum peso (uma magnitude de efeito de 3 kg), é provável que a dieta com baixos níveis de gordura seja melhor (Figura 5.1A). Por outro lado, se a média de perda de peso for de 3 kg no grupo com baixos níveis de gordura e de 0 kg no grupo com baixos níveis de carboidratos, mas houver grande sobreposição entre os dois grupos (o caso da Figura 5.1B), a variabilidade maior tornará mais difícil detectar uma diferença entre as duas dietas, sendo necessário um tamanho maior de amostra para demonstrar a diferença.

FIGURA 5.1 A: Perda de peso alcançada por duas dietas. Todos os sujeitos na dieta pobre em gordura perderam de 2 a 4 kg, ao passo que a mudança de peso no grupo da dieta pobre em carboidratos variou de –1 a +1 kg. Uma vez que não há sobreposição entre os dois grupos, é razoável inferir que a dieta pobre em gordura teve um desempenho melhor do que a dieta pobre em carboidratos (como seria confirmado por um teste t com um valor P < 0,0001). B: Perda de peso alcançada por duas dietas. Há grande sobreposição na mudança de peso nos dois grupos. Embora a magnitude do efeito seja a mesma (3 kg) como a em A, há pouca evidência de que uma dieta seja superior à outra (como seria confirmado por um teste t, que tem um valor P de 0,19).

Quando uma das variáveis usadas na estimativa do tamanho de amostra for contínua (p. ex., peso corporal na Figura 5.1), o investigador precisará estimar a sua variabilidade. (Veja item sobre o teste t no Capítulo 6 para

mais detalhes.) Nos demais casos, a variabilidade já está incluída nos outros parâmetros usados nas fórmulas e tabelas de tamanho de amostra e não precisa ser especificada.

Hipóteses múltiplas e post hoc

Quando mais de uma hipótese for testada em um estudo, especialmente se algumas das hipóteses forem formuladas após a análise dos dados (hipóteses post hoc), aumenta a probabilidade de que pelo menos uma delas irá alcançar significância estatística tão somente pelo acaso. Por exemplo, se 20 hipóteses independentes são testadas a um a de 0,05, há uma grande probabilidade (64%; [1 – 0,9520]) de que pelo menos uma hipótese será estatisticamente significativa tão somente pelo acaso. Certos estatísticos recomendam que se ajuste o nível de significância estatística no caso de mais de uma hipótese ser testada. Isso mantém a probabilidade global de se aceitar qualquer uma das hipóteses alternativas para o nível especificado de significância quando todos os achados se devem ao acaso. Por exemplo, estudos genômicos que procuram uma associação entre milhares de genótipos e doença precisam usar um a muito menor que 0,05 ou correm o risco de identificar muitas associações falso-positivas.

Um método, denominado procedimento de Bonferroni, em

homenagem a esse matemático, é dividir o nível de significância estatística (p. ex., 0,05) pelo número de hipóteses testadas. Por exemplo, se houver quatro hipóteses, cada uma deve ser testada a um a de 0,0125 (0,05 ÷ 4). Isso requer um aumento considerável no tamanho de amostra se comparado ao necessário para se testar cada uma das hipóteses a um α de 0,05. Portanto, para qualquer hipótese, o método de Bonferroni reduz a probabilidade de um erro tipo I ao custo de aumentar a probabilidade de um erro tipo II ou de requerer um maior tamanho de amostra. Se os resultados de um estudo ainda forem estatisticamente significativos após o ajuste de Bonferroni, essa perda de poder não é um problema. No entanto, quando um resultado perde significância estatística após o ajuste de Bonferroni, isso poderia significar deixar de apoiar uma associação que realmente estava presente na população (um erro tipo II), o que é mais problemático.

usar depende mais da probabilidade a priori de cada hipótese que do número de hipóteses testadas e, por essa razão, nossa opinião geral é de que a abordagem insensata de Bonferroni para o teste de hipóteses múltiplas é, muitas vezes, exigente demais. Pode-se fazer uma analogia com a utilidade de usar testes diagnósticos (6, 7). Ao interpretar os resultados de um teste diagnóstico, um clínico considera a probabilidade de que o paciente testado tenha a doença em questão. Por exemplo, um resultado de um teste ligeiramente anormal em uma pessoa sadia (p. ex., um nível de fosfatase alcalina sérica 15% maior do que o limite superior do normal) é provavelmente um resultado falso-positivo, de pequena importância clínica. Da mesma forma, um valor P de 0,05 para uma hipótese improvável é, também, um resultado provavelmente falso- positivo.

No entanto, um nível de fosfatase alcalina 10 ou 20 vezes maior do que o limite superior do normal provavelmente não ocorreria apenas por acaso (embora possa ser um erro laboratorial). Assim, é pouco provável que um valor P muito pequeno (p. ex., < 0,001) também tenha ocorrido por acaso (embora possa ocorrer devido a um viés). É difícil descartar resultados de testes muito anormais como falso-positivos ou descartar valores P muito baixos considerando-os como devidos ao acaso, mesmo quando a

probabilidade a priori da doença ou da hipótese for baixa.2

Além disso, o número de testes solicitados ou hipóteses testadas nem sempre é relevante. A interpretação de um nível elevado de ácido úrico sérico em um paciente com articulação dolorida e edemaciada não deveria depender do fato de o médico ter pedido um único teste (nível de ácido úrico) ou obtido o resultado como parte de uma bateria de 20 testes. Da mesma forma, ao interpretar o valor P para testar uma hipótese de pesquisa que faz sentido, não importa se o investigador também testou outras hipóteses menos prováveis. O que mais importa é a plausibilidade da hipótese de pesquisa sendo testada. Em outras palavras, que ela tenha uma grande probabilidade a priori de ser correta. (A probabilidade a

priori, nessa abordagem “bayesiana”, é normalmente um juízo subjetivo fundamentado em evidências de outras fontes.) A maioria das hipóteses formuladas durante o delineamento de um estudo normalmente atende a essa exigência. Afinal, por que outro motivo o investigador iria despender tempo e esforço em planejar e implementar o estudo?

E quando surgem associações não antecipadas durante a coleta e análise

dos resultados de um estudo? Esse processo é denominado geração de

hipótese ou, em um tom menos favorável, “mineração de dados” (data-

mining) ou “pescaria” (fishing expedition). As inúmeras comparações

informais feitas durante a análise dos dados são uma forma de testar hipóteses múltiplas. Um problema semelhante ocorre quando as variáveis são redefinidas durante a análise dos dados ou quando os resultados de apenas alguns subgrupos da amostra são apresentados. Os valores P significativos para hipóteses que foram geradas a partir de dados, mas que não foram consideradas durante o delineamento do estudo, muito frequentemente se devem ao acaso. Devem ser vistos com ceticismo e considerados apenas como fonte de potenciais questões de pesquisa para estudos posteriores.

No entanto, às vezes o investigador deixa de especificar uma determinada hipótese antecipadamente, embora essa hipótese pareça plausível quando os dados são analisados. Isso pode ocorrer, por exemplo, quando outros pesquisadores descobrem um novo fator de risco durante a realização do estudo ou quando o investigador inicialmente não havia percebido que a hipótese era boa. Assim, o que importa não é se a hipótese foi formulada antes do início do estudo, mas se a probabilidade a

priori da hipótese é sólida, com base em evidências de outras fontes sobre

sua veracidade (6, 7).

Há vantagens claras em se formular mais de uma hipótese no

planejamento do estudo. O uso de múltiplas hipóteses não relacionadas

aumenta a eficiência do estudo, tornando possível responder a mais questões com um único esforço de pesquisa e descobrir mais associações verdadeiras na população. Formular várias hipóteses relacionadas também pode ser uma boa opção. Se os achados forem consistentes, fortalecem as conclusões da pesquisa. Vários estudos em pacientes com insuficiência cardíaca mostraram que o uso de inibidores da enzima conversora da angiotensina ajuda a reduzir hospitalização, a mortalidade cardiovascular e a mortalidade total. Se apenas uma dessas hipóteses tivesse sido testada, as inferências desses estudos seriam menos definitivas. No entanto, o custo de testar múltiplas hipóteses é, obviamente, mais elevado. Imagine que várias hipóteses pré-formuladas sejam testadas e delas apenas uma ou duas se mostrem estatisticamente significativas. Nesse caso, o

investigador deve decidir (e tentar convencer os revisores, editores e leitores) sobre os resultados significativos, os não significativos ou ambos os conjuntos de resultados são corretos.

Hipóteses principais e secundárias

Alguns estudos, especialmente grandes ensaios clínicos randomizados,

especificam algumas hipóteses como “secundárias”. Isso geralmente

ocorre quando existe uma hipótese principal para a qual o estudo foi

delineado, mas os investigadores também estão interessados em outras questões de pesquisa de menor importância. Por exemplo, o desfecho principal em um ensaio clínico sobre suplementação de zinco pode ser hospitalizações ou visitas à emergência para tratar infecções das vias aéreas superiores, e um desfecho secundário poderia ser o autorrelato dos dias perdidos no trabalho ou na escola. Se o estudo está sendo conduzido para obter a aprovação de um medicamento, então o desfecho principal é o que realmente importa para o órgão regulador. Uma hipótese secundária postulada previamente aumenta a credibilidade dos resultados quando essa hipótese for testada.

Uma boa regra, especialmente para ensaios clínicos, é estabelecer antecipadamente tantas hipóteses quanto façam sentido, mas especificar

apenas uma como hipótese principal, que poderá ser testada

estatisticamente, sem preocupação quanto à necessidade de ajustar para hipóteses múltiplas. E, o que é mais importante, ter uma hipótese principal ajuda também no direcionamento do enfoque do estudo para seu objetivo principal e fornece um suporte claro para o cálculo principal do tamanho de amostra necessário.

Muitos estatísticos e epidemiologistas estão se afastando do teste de hipóteses, com sua ênfase em valores P, e passando a usar mais os intervalos de confiança para relatar a precisão dos resultados do estudo (8- 10). De fato, alguns autores acreditam que todo o processo de basear o planejamento do tamanho da amostra em hipóteses é enganador, em parte porque depende de valores que são desconhecidos (magnitude do efeito) ou arbitrários (α e β) (11). Entretanto, a abordagem que descrevemos é prática e continua sendo a mais utilizada no planejamento da pesquisa clínica.

RESUMO

1. O planejamento do tamanho de amostra é uma parte importante do

delineamento de estudos analíticos e descritivos. O tamanho de amostra deve ser estimado em um estágio inicial no processo de delineamento da pesquisa, de forma que mudanças adicionais que se façam necessárias ainda possam ser implementadas.

2. Os estudos analíticos e os experimentais necessitam de uma hipótese

que especifique, para fins de testes de significância posteriores, a

associação antecipada entre as variáveis preditoras e de desfecho principais. Os estudos puramente descritivos, que não apresentam estratégia de comparação, não exigem a formulação de uma hipótese.

3. Boas hipóteses são específicas em termos de como a população será

amostrada e como as variáveis serão medidas, simples (com apenas

uma variável preditora e uma de desfecho) e formuladas em um

estágio inicial.

4. A hipótese nula, que propõe que a variável preditora não está

associada com o desfecho, é a base para os testes de significância

estatística. A hipótese alternativa propõe que há associação. Os testes

estatísticos tentam rejeitar a hipótese nula de que não há associação em benefício da hipótese alternativa de que há associação.

5. A hipótese alternativa é unilateral (apenas uma direção da associação

será testada) ou bilateral (ambas as direções serão testadas). As

hipóteses unilaterais somente devem ser usadas em casos raros quando apenas uma direção da associação for clínica ou biologicamente relevante.

6. Para estudos analíticos e experimentais, o tamanho de amostra é uma estimativa do número de sujeitos necessários para detectar uma

associação de uma determinada magnitude de efeito e variabilidade,

com uma probabilidade especificada de incorrer em erros tipo I

(falso-positivo) e tipo II (falso-negativo). A probabilidade máxima de

No documento Delineando a Pesquisa Clínica (páginas 106-119)