• Nenhum resultado encontrado

Hipótese nula: não há correlação entre nível de cotinina urinária e densidade óssea em fumantes.

No documento Delineando a Pesquisa Clínica (páginas 128-139)

amostra e o poder estatístico: aplicações e exemplos

VARIÁVEL PREDITORA DICOTÔMICA CONTÍNUA

1. Hipótese nula: não há correlação entre nível de cotinina urinária e densidade óssea em fumantes.

Hipótese alternativa: há correlação entre nível de cotinina urinária e densidade óssea em fumantes.

2. Magnitude de efeito (r) = | – 0,3| = 0,3.

3. α (bilateral) = 0,05; β = 0,10.

Na Tabela 6C, partindo de um r = 0,30, na coluna da esquerda, move-se horizontalmente até α (bilateral) = 0,05 e β = 0,10, onde se encontra o número de fumantes necessário: 113.

OUTRAS CONSIDERAÇÕES E TÓPICOS ESPECIAIS

Abandonos

Todas as unidades amostrais devem estar disponíveis para análise; assim, os sujeitos arrolados para o estudo, mas cujos desfechos não podem ser

determinados (como em casos de abandono), não contam no tamanho de

amostra. Se o investigador antecipar que alguns sujeitos não estarão disponíveis para o seguimento (o que geralmente é o caso), ele deverá estimar a proporção que será perdida e aumentar o tamanho da amostra arrolada de acordo com essa estimativa. Se, por exemplo, o investigador estimar que 20% de sua amostra será perdida no seguimento, o tamanho de amostra deverá ser aumentado por um fator de (1 ÷ [1 – 0,20]), ou 1,25.

Variáveis categóricas

Embora haja razões matemáticas pelas quais não seria adequado estimar

um tamanho de amostra para variáveis ordinais usando um teste

estatístico, na prática as variáveis ordinais podem muitas vezes ser tratadas como variáveis contínuas, especialmente se o número de categorias for relativamente grande (seis ou mais) e se fizer sentido calcular a média dos valores da variável.

Em outras situações, a melhor estratégia é mudar levemente a hipótese de pesquisa dicotomizando a variável categórica. Como exemplo, suponha que um pesquisador esteja estudando se falar inglês como segunda língua está associado ao número de consultas anuais de um paciente com diabetes com um especialista em pé diabético. O número de consultas é distribuído de forma desigual: muitos não farão consulta, outros farão uma única consulta, e apenas alguns farão duas ou mais consultas. Nesse caso, seria possível estimar o tamanho de amostra como

se o desfecho fosse dicotômico (nenhuma consulta versus uma ou mais consultas).

Análise de sobrevivência

Quando um investigador quer comparar a sobrevida ou outros dados do tipo tempo até o evento, como qual de dois tratamentos é mais eficaz em prolongar a vida em mulheres com câncer de mama avançado, a técnica apropriada para analisar os dados é a análise de sobrevivência (2,3). Embora a variável de desfecho, por exemplo meses de sobrevida, pareça ser contínua, o teste t não é adequado nessa situação. Isso porque o que está sendo avaliado, na verdade, não é o tempo propriamente dito (uma variável contínua), mas a proporção de sujeitos que permanecem vivos em cada momento (uma variável dicotômica). De forma semelhante, um investigador poderia comparar a taxa de desenvolvimento de um desfecho (por 100 pessoas-ano de seguimento) em dois grupos. Uma aproximação razoável pode ser feita simplesmente estimando as proporções esperadas de sujeitos com o desfecho nos dois grupos e estimando-se o tamanho de amostra com o teste do qui-quadrado. No entanto, caso se espere que o desfecho ocorra na maioria dos pacientes, como morte em um estudo sobre pacientes com câncer de mama avançado, uma estratégia melhor (uma vez que minimiza o tamanho total da amostra) seria fazer a estimativa com base nas proporções esperadas de sujeitos que terão desenvolvido o desfecho em cada grupo no momento em que aproximadamente metade de todos os desfechos tiverem ocorrido. Por exemplo, em um estudo que compara a sobrevida livre de doença em pacientes com câncer de mama tratadas com tratamento padrão versus experimental, no qual se espera que aproximadamente 60% das pacientes no tratamento-padrão terão morrido em dois anos, comparado com 40% das que receberam tratamento experimental, o tamanho da amostra pode ser estimado usando a “sobrevida em dois anos” como desfecho dicotômico.

Amostragem por conglomerados

Certos delineamentos de pesquisa apresentam amostragem por

conglomerados, onde os sujeitos são amostrados por grupos (Capítulo 11). Considere, por exemplo, um estudo sobre se uma intervenção de

educação continuada para médicos melhora a taxa de cessação do tabagismo entre seus pacientes. Suponha que 20 clínicas sejam aleatoriamente alocadas ao grupo que recebe a intervenção e que 20 clínicas sejam alocadas a um grupo-controle. Os investigadores planejam revisar, um ano depois, os prontuários de uma amostra aleatória de 50 pacientes fumantes na linha de base de cada uma das clínicas e determinar quantos deixaram de fumar. Nesse caso, o tamanho de amostra seria 40 (número de clínicas nos dois grupos) ou 2.000 (número total de pacientes)? A resposta correta situa-se entre esses dois extremos e depende da semelhança entre os pacientes de cada clínica (quanto à probabilidade de parar de fumar) em comparação com a semelhança entre todos os pacientes. Para fazer essa estimativa, podem ser necessários dados de estudos-piloto, a não ser que outro investigador já tenha feito um estudo semelhante. Há várias técnicas para estimar o tamanho de amostra exigido para um estudo que utiliza amostragem por conglomerados (4-7), mas elas são de difícil uso e geralmente requerem o auxílio de um estatístico.

Pareamento (emparelhamento)

Vários motivos diferentes levam o investigador a optar por um delineamento pareado (Capítulo 9). As técnicas apresentadas neste capítulo, que ignoram qualquer pareamento, fornecem estimativas razoáveis do tamanho de amostra exigido, a não ser que a exposição (em um estudo de caso-controle pareado) ou o desfecho (em um estudo de coorte pareado) estejam fortemente correlacionados com a variável que está sendo usada para o pareamento. Estimativas mais precisas, que requerem que o investigador especifique a correlação entre as exposições ou desfechos nos pares que estão emparelhados, podem ser feitas usando- se abordagens-padrão (8), softwares estatísticos ou programas interativos disponíveis na internet.

Ajuste multivariado e outras análises estatísticas especiais

Muitas vezes, ao delinear-se um estudo observacional, conclui-se que uma ou mais variáveis poderão confundir a associação entre preditor e desfecho (Capítulo 9). Nesses casos, é possível incluir técnicas estatísticas no planejamento da análise dos resultados para ajustar para esses

confundidores. Quando esse ajuste for incluído no teste da hipótese principal, a estimativa do tamanho de amostra deve levar em conta esse fato.

Abordagens analíticas que ajustam para as variáveis confundidoras muitas vezes requerem maior tamanho de amostra (9,10). A magnitude do aumento depende de diversos fatores, incluindo a prevalência do confundidor, a força da associação entre preditor e confundidor e a força da associação entre confundidor e desfecho. Esses efeitos são complexos e não há regra que englobe todas as situações.

Foram desenvolvidos métodos multivariados, como regressão linear e regressão logística, que permitem ajustar para variáveis confundidoras.

Outra técnica estatística bastante usada é a análise de azares

proporcionais de Cox, que pode ajustar para confundidores e para diferenças de duração do seguimento. Se uma dessas técnicas for usada para analisar os dados, abordagens correspondentes podem ser usadas para estimar o tamanho de amostra exigido (3,11-14). Há também técnicas de tamanho de amostra para outros delineamentos, como estudos de fatores de risco genéticos ou de potenciais genes candidatos (15-17), estudos econômicos (18-20), estudos de dose-resposta (21) ou estudos que envolvam mais de dois grupos (22). A internet é uma ótima fonte para esses procedimentos mais elaborados: por exemplo, faça uma busca por

sample size (“tamanho de amostra”) e logistic regression (“regressão

logística”).

No entanto, geralmente é mais fácil, pelo menos para investigadores iniciantes, estimar o tamanho de amostra supondo um método mais simples de análise, como o teste do qui-quadrado ou o teste t. Utilizar esses métodos também é uma boa forma de verificar os resultados obtidos quando se utilizam métodos mais sofisticados. Suponha, por exemplo, que um investigador esteja planejando um estudo de caso-controle para saber se o nível de colesterol sérico (variável contínua) está associado à ocorrência de tumores cerebrais (variável dicotômica). Mesmo se o plano eventual for analisar os dados com regressão logística, uma estimativa grosseira do tamanho de amostra pode ser obtida a partir do teste t. Tem sido constatado que as abordagens simplificadas geralmente produzem estimativas de tamanho de amostra semelhantes às geradas por técnicas mais elaboradas. No entanto, se uma proposta de auxílio que envolve altos

custos for submetida para financiamento, deve-se consultar um estatístico experiente. Os revisores de propostas para financiamento esperam que você use uma abordagem mais sofisticada, mesmo se eles perceberem que as estimativas do tamanho de amostra baseiam-se em “chutes” sobre qual seria o risco do desfecho, a magnitude de efeito e assim por diante. Quando você pede auxílio a um estatístico para estimar o tamanho de amostra, isso também passa a mensagem de que você tem acesso aos colaboradores que serão necessários para gerenciar e analisar os dados do estudo. De fato, um bioestatístico irá contribuir de muitas outras formas para o delineamento e execução do estudo. Mesmo assim, o estatístico certamente irá apreciar trabalhar com um pesquisador clínico que pensou sobre essas questões e pelo menos fez uma tentativa inicial de estimativa do tamanho de amostra.

Ensaios clínicos de equivalência e de não inferioridade

Às vezes, a meta de um estudo é descartar uma associação substancial

entre as variáveis preditoras e as de desfecho. Um ensaio clínico de

equivalência testa se um novo medicamento tem praticamente a mesma eficácia que um medicamento já estabelecido. É um desafio planejar o tamanho de amostra em um estudo como esse, pois a magnitude de efeito

desejada é zero ou muito pequena. Um ensaio clínico de não

inferioridade é uma versão unilateral desse delineamento e examina se um novo medicamento é pelo menos não substancialmente inferior ao medicamento já estabelecido (Capítulo 11).

Os cálculos de tamanho de amostra para esses delineamentos são complexos (23-26), e o auxílio de um estatístico experiente é recomendável. Um método aceitável é delinear o estudo de forma que tenha poder substancial (p. ex., 0,90 ou 0,95) para rejeitar a hipótese nula quando a magnitude de efeito for tão pequena que não seja clinicamente importante (p. ex., uma diferença de 5 mg/dL na média da glicemia de jejum). Se os resultados de um estudo com grande poder forem “negativos” (p. ex., se o intervalo de confiança de 95% excluir a diferença pré-especificada de 5 mg/dL), pode-se concluir que os dois medicamentos são equivalentes. Um problema com os estudos de equivalência e de não inferioridade é que o poder adicional e a magnitude pequena de efeito exigem um grande tamanho de amostra; entre esses dois tipos de

delineamento, o de não inferioridade tem a vantagem de ser unilateral, permitindo um menor tamanho de amostra ou um alfa menor.

Outro problema é a perda das salvaguardas comuns contra erros tipo I (rejeitar falsamente a hipótese nula). Essas salvaguardas são inerentes ao paradigma da hipótese nula e protegem um estudo convencional que compara um medicamento ativo contra um placebo. O paradigma da hipótese nula assegura que problemas no delineamento ou na execução de um estudo, como uso de medidas imprecisas ou perda excessiva no seguimento, tornem mais difícil rejeitar a hipótese nula. Portanto, em um estudo convencional que tenta rejeitar uma hipótese nula, há um forte incentivo para que se faça o melhor estudo possível. Em um estudo de não inferioridade, entretanto, em que o objetivo é não encontrar uma diferença, essas salvaguardas não se aplicam.

TÉCNICAS DE TAMANHO DE AMOSTRA PARA ESTUDOS

DESCRITIVOS

Princípios um tanto diferentes também norteiam a estimativa de tamanho de amostra para estudos descritivos, incluindo os estudos sobre testes diagnósticos. Tais estudos não têm variáveis preditora e de desfecho, tampouco comparam estatisticamente grupos diferentes. Portanto, os conceitos de poder e de hipóteses nula e alternativa não se aplicam. Nesses estudos, o investigador calcula estatísticas descritivas, como médias e proporções. Mesmo assim, é comum estudos descritivos (Qual é

a prevalência de depressão em pacientes idosos em um ambulatório?)

fazerem perguntas analíticas (Quais são os preditores de depressão nesses

pacientes?). Nesse caso, o cálculo do tamanho de amostra também deve

considerar o estudo analítico, para evitar um problema comum que é obter poder insuficiente para o que é uma questão de interesse maior.

Estudos descritivos costumam relatar intervalos de confiança, ou seja,

uma faixa de valores para a média ou proporção da amostra. O intervalo de confiança é uma medida de precisão de uma estimativa amostral. O investigador determina o nível de confiança, como, por exemplo, 95% ou 99%. Um intervalo com nível de confiança maior (p. ex., 99%), por ser mais amplo, tem maior probabilidade de incluir o valor populacional real do que um intervalo com um nível de confiança menor (p. ex., 90%).

A amplitude de um intervalo de confiança depende do tamanho de amostra. Por exemplo, um investigador pode querer estimar o escore médio do Exame de Certificação Médica dos Estados Unidos (U.S. Medical Licensing Examination) em um grupo de estudantes de medicina que estudaram usando um currículo alternativo pela internet. A partir de uma amostra de 50 estudantes, ele poderia estimar o escore médio na população de todos os estudantes como de 215, com um intervalo de confiança de 95% de 205 a 225. Um estudo menor, digamos com 20 estudantes, pode ter praticamente o mesmo escore médio, mas é quase certo que teria um intervalo de confiança de 95% mais amplo.

Na estimativa do tamanho de amostra para estudos descritivos, especifica-se o nível e a amplitude desejados para o intervalo de confiança. O tamanho de amostra pode, então, ser determinado a partir das tabelas ou fórmulas contidas no apêndice.

Variáveis contínuas

Para variáveis contínuas, é comum relatar um intervalo de confiança em torno do valor médio da variável. A estimativa do tamanho de amostra para esse intervalo de confiança (Exemplo 6.4) apresenta os seguintes passos:

1. Estimar o desvio-padrão da variável de interesse.

2. Especificar a precisão desejada (amplitude total) do intervalo de confiança.

3. Selecionar o nível de confiança para o intervalo (p. ex., 95%, 99%).

EXEMPLO 6.4 Cálculo do tamanho de amostra para um estudo descritivo de uma variável contínua

Problema: O investigador deseja determinar a média do nível de hemoglobina em alunos da terceira série em uma região urbana com um intervalo de confiança de 95% de ± 0,3 g/dL. Um estudo anterior apontou que o desvio-padrão da hemoglobina em uma cidade semelhante foi de 1 g/dL.

Solução: Os ingredientes para o cálculo do tamanho de amostra são apresentados a seguir:

2. Amplitude total do intervalo = 0,6 g/dL (0,3 g/dL acima e 0,3 g/dL abaixo). Portanto, a amplitude padronizada do intervalo = amplitude total ÷ S = 0,6 ÷ 1 = 0,6.

3. Nível de confiançα = 95%.

Partindo de uma amplitude padronizada de 0,6 na coluna da esquerda da Tabela 6D e de um intervalo de confiança de 95%, o tamanho de amostra exigido é de 43 alunos de terceira série.

Para usar o Apêndice 6D, é preciso padronizar a amplitude total do intervalo (dividi-la pelo desvio-padrão da variável) e, então, localizar, na coluna da esquerda da Tabela 6D, a amplitude padronizada esperada. Feito isso, basta localizar horizontalmente o nível de confiança para obter o tamanho de amostra correspondente.

Variáveis dicotômicas

Em um estudo descritivo com uma variável dicotômica, os resultados podem ser expressos como um intervalo de confiança em torno da proporção estimada de sujeitos com um dos valores. Isso inclui estudos

sobre a sensibilidade ou a especificidade de um teste diagnóstico, que, à

primeira vista, parecem ser variáveis contínuas, mas são na verdade dicotômicas – proporções expressas como percentuais (Capítulo 12). Para estimar o tamanho de amostra para esse intervalo de confiança, deve-se:

1. Estimar a proporção esperada com a característica de interesse na população. (Caso se espere que mais da metade da população tenha a característica, deve-se planejar o tamanho de amostra com base na proporção que se acredite não ter a característica.)

2. Especificar a precisão desejada (amplitude total) para o intervalo de confiança.

3. Selecionar o nível de confiança para o intervalo (p. ex., 95%).

No Apêndice 6E, localize na coluna da esquerda da Tabela 6E a proporção esperada com a característica de interesse. Então, localize horizontalmente, a partir da amplitude e do intervalo de confiança escolhidos, o tamanho de amostra necessário.

O Exemplo 6.5 mostra o cálculo do tamanho de amostra para estimar a sensibilidade de um teste diagnóstico, indicando o número necessário de

sujeitos com a doença. Ao estudar a especificidade do teste diagnóstico, o investigador deve estimar o tamanho de amostra de sujeitos que não apresentam a doença em questão. Há também técnicas para estimar o tamanho de amostra para estudos que usam como desfecho curvas ROC (do inglês, receiver operating characteristic) (27), razões de verossimilhança (28) e confiabilidade (29) (Capítulo 12).

EXEMPLO 6.5 Cálculo do tamanho de amostra para um estudo descritivo com uma variável dicotômica

Problema: O investigador quer determinar a sensibilidade de um novo exame diagnóstico para câncer de pâncreas. Com base em um estudo- piloto, espera que 80% dos pacientes com câncer de pâncreas tenham resultados positivos. Quantos pacientes com esse tipo de câncer serão necessários para estimar uma sensibilidade de 0,80 ± 0,05 e um intervalo de confiança de 95% para esse novo exame?

Solução: Os ingredientes para o cálculo do tamanho de amostra são apresentados a seguir:

1. Proporção esperadα = 0,20. (Como 0,80 é mais da metade, o

tamanho de amostra passa a ser estimado a partir da proporção que se espera que tenha resultado falsamente negativo, isto é, 0,20.)

2. Amplitude total = 0,10 (0,05 abaixo e 0,05 acima).

3. Nível de confiançα = 95%.

Partindo de 0,20 na coluna da esquerda da Tabela 6E e indo para baixo até uma amplitude total de 0,10, o número do meio (representando um nível de confiança de 95%) indica o tamanho de amostra exigido: 246 pacientes com câncer de pâncreas.

O QUE FAZER QUANDO O TAMANHO DE AMOSTRA É FIXO

Há casos em que o tamanho de amostra já está determinado antes do planejamento do estudo, especialmente quando se faz análise de dados secundários. Mesmo quando você está delineando um estudo em que os dados αinda não foram coletados, é comum descobrir que o número de participantes disponíveis ou acessíveis para o estudo é limitado. De fato, a

maioria dos investigadores, se forem honestos, irão admitir que frequentemente trabalham “de trás para frente”, a partir de um tamanho de amostra fixo ou realista, para determinar a magnitude de efeito que eles terão um poder razoável para detectar. Isso explica em parte porque não faz sentido tratar uma estimativa de tamanho de amostra como se fosse um número talhado em uma pedra.

Quando um investigador precisa trabalhar na direção oposta, isto é, partindo do tamanho de amostra, ele estima a magnitude de efeito que poderá ser detectada com um determinado poder estatístico (geralmente 80%) ou, o que é menos comum, o poder para detectar um determinado efeito. É possível, então, usar as tabelas de tamanho de amostra contidas nos apêndices deste capítulo, interpolando quando necessário, ou usar as fórmulas de tamanho de amostra dos apêndices para estimar a magnitude de efeito.

Uma regra geral é que um estudo deve ter um poder de 80% ou mais para detectar uma magnitude de efeito razoável. No entanto, não há nada de mágico em relação ao valor de 80%. Às vezes, um investigador pode ter sorte e achar um resultado estatisticamente significativo mesmo quando tiver poder limitado para isso (mesmo um poder estatístico tão baixo quanto 50% fornece uma probabilidade de 50% de observar um efeito estatisticamente significativo na amostra que está realmente presente na população). Portanto, pode valer a pena fazer estudos com poder estatístico menor do que 80% se o custo associado for baixo, por exemplo quando se analisam dados que já foram coletados. E há alguns estudos – por exemplo, um que mostra que um novo tratamento reduz a pressão arterial pulmonar em mais de 50% em pacientes com hipertensão pulmonar refratária – nos quais um tamanho de amostra de dois ou três sujeitos será suficiente para indicar que vale a pena realizar novos estudos sobre o tema, em relação à segurança e aos efeitos em desfechos clínicos.

No entanto, é importante que o investigador tenha em mente que poderá futuramente enfrentar dificuldades para interpretar (e publicar) um estudo que não encontrou uma associação por falta de poder estatístico; intervalos de confiança amplos irão mostrar a possibilidade de um efeito substancial na população da qual a amostra pequena foi selecionada. Também é importante compreender que um estudo com baixo poder e que teve sorte de encontrar um resultado estatisticamente significativo pode

ser criticado, pois os revisores podem ficar na dúvida sobre se o investigador realmente queria procurar aquela associação ou se simplesmente ficou testando diferentes hipóteses e selecionou o resultado que tinha um valor P estatisticamente significativo.

EXEMPLO 6.6 Cálculo da magnitude de efeito detectável

No documento Delineando a Pesquisa Clínica (páginas 128-139)