liberdade, a probabilidade de ocorrˆencia devido ao acaso de um valor qualquer u > F, F >0, pode ser calculada por (Spiegel et al.,2000):
P{u>F|ν1, ν2}= Γ
ν1+ν2 2
Γν1
2
Γν2
2 ν
ν1 2
1 ν
ν2 2
2
Z ∞ F
uν21−1(ν2+ν1u)−ν1+2ν2du (2.40) Para simplifica¸c˜ao, as probabilidades P{t > T|ν} e P{u > F|ν1, ν2} ser˜ao doravante simplesmente denominadasp-valores. Graficamente, estas probabilidades correspondem `a
´
area sob as fun¸c˜oes de densidade de probabilidade das distribui¸c˜oesteF, respectivamente (Figuras2.7 e2.8).
Para um teste de hip´oteses realizado em um ´unico voxel o p-valor, correspondente `a estat´ıstica T ou F, ´e a probabilidade de ocorrˆencia de uma estat´ıstica com valor igual ou superior, meramente devido ao acaso, ou seja, rejeitar a hip´otese nula quando H0 ´e verdadeira (Tabela 2.1). Para um voxel isolado, o pesquisador pode utilizar a estat´ıstica calculada para rejeitar H0, sabendo que existe uma probabilidadep de obter os mesmos valores por acaso. Outra possibilidade, mais adotada, consiste em, antes mesmo de iniciar o experimento, fixar um nivel de significˆanciaα, bem como a estat´ıstica que produzp=α de acordo com a distribui¸c˜ao a priori dos dados sob H0. Se ao final do experimento, a estat´ıstica obtida for maior ou igual `a estat´ıstica fixada, o que equivale a p 6 α, ent˜ao o H0 ´e rejeitada. O valor α = 0,05 ´e amplamente adodado nos mais variados ramos da pesquisa experimental (Keppel e Wickens,2004).
Tabela 2.1: Os dois tipos de erros cometidos em testes de hip´oteses.
H0 verdadeira H0 falsa H0 rejeitada Erro tipo I Decis˜ao correta H0 n˜ao-rejeitada Decis˜ao
correta Erro tipo II
Figura 2.7: Fun¸c˜ao de densidade de probabilidade para uma distribui¸c˜ao t. A probabilidade de t>T corresponde `a ´area sombreada.
Figura 2.8: Fun¸c˜ao de densidade de probabilidade para uma distribui¸c˜ao F. A probabilidade de u>F corresponde `a ´area sombreada.
Comumente, os voxels cujop-valor ´e inferior a um certo limiarα definido pelo pesqui- sador s˜ao rotulados como “ativos”, apresentados nos mapas com cores vibrantes e usual- mente s˜ao sobrepostos `a imagens estruturais de alta resolu¸c˜ao para aumentar o poder de localiza¸c˜ao. Os demais voxels s˜ao marcados como “inativos”, e n˜ao s˜ao exibidos.
Ao definir o valor cr´ıtico α, ´e muito importante observar que milhares de voxels est˜ao sendo testados simultaneamente, constituindo o chamado problema dos testes m´ultiplos (Cap´ıtulo 3). ´E essencial decidir qual medida de erro (Se¸c˜ao 3.1) ser´a controlada, para que se possa afirmar com relativa seguran¸ca se uma ´area pode ser considerada “ativa” ou n˜ao, e qual probabilidade errar ao efetuar tal afirma¸c˜ao.
Classificar os voxels como “ativos” ou “inativos” traz algumas vantagens ao pesqui- sador. Mapas limiarizados podem geralmente ser interpretados mais facilmente, especial- mente quando sobrepostos a imagens estruturais de alta resolu¸c˜ao, e a compara¸c˜ao visual entre mapas de diferentes indiv´ıduos tamb´em ´e mais simples. Al´em disso, ´areas cujos p-valores s˜ao elevados s˜ao de pouco ou nenhum interesse para o pesquisador.
Todavia, a limiariza¸c˜ao apresenta alguns riscos, para os quais o pesquisador deve estar sempre atento. A escolha inapropriada do limiar pode mascarar resultados importantes, ou ainda, perigosamente exibir ´areas com elevada estat´ıstica calculada meramente devido ao acaso ou a artefatos. Al´em disso, na sele¸c˜ao do limiar est´a implicita a suposi¸c˜ao de que existe uma rela¸c˜ao mutuamente exclusiva entre “atividade” e “inatividade” para esta ou aquela regi˜ao cerebral. Contudo, diferentes regi˜oes cerebrais participam em maior ou menor escala ao executar uma tarefa. Tentar classificar todas regi˜oes, e todas as respostas poss´ıveis em apenas nos padr˜oes ligado/desligado pode ser considerado, no m´aximo, uma aproxima¸c˜ao ao verdadeiro grau com que cada regi˜ao contribui para a execu¸c˜ao de uma tarefa experimental (Loring et al.,2002).
Idealmente, os resultados de experimentos de fMRI deveriam ser interpretados direta- mente no mapa estat´ıstico, no qual as probabilidades de erro tipo I s˜ao exibidas claramente para todos os voxels (Jernigan et al., 2003). Nessa situa¸c˜ao o pesquisador teria a opor- tunidade de observar ´areas cujo sinal BOLD apresentou alguma correla¸c˜ao com a tarefa experimental, mesmo sem atingir o n´ıvel de significˆancia necess´ario para receber o r´otulo de “ativo”. Do ponto de vista experimental, a vantagem imediata seria a reavalia¸c˜ao do paradigma utilizado, que poderia ser modificado para evidenciar com mais clareza a hip´otese em teste pelo pesquisador. Do ponto de vista cl´ınico, o mapa n˜ao-limiarizado tamb´em poderia ser interpretado em conjunto com os sinais e sintomas apresentados pelo paciente, com os resultados de outros testes diagn´osticos, e com o tratamento sendo re- alizado. No uso cl´ınico, como ocorre com qualquer teste diagn´ostico, estudos por fMRI n˜ao podem ser interpretados isoladamente. Al´em disso, o limite entre “normalidade” e
“anormalidade” ainda precisa ser estabelecido.
Ao analisar um mapa limiarizado como o da Figura2.9, deve-se observar que as ´areas
Figura 2.9: Resultado de um experimento de fMRI. Os mapas estat´ısticos podem ser limiarizados e apresentados sobrepostos `a uma imagem estrutural de alta resolu¸c˜ao (a), ou exibidos diretamente (b). A limiariza¸c˜ao facilita a interpreta¸c˜ao do resultado, mas despreza informa¸c˜oes potencialmente relevantes.
que n˜ao foram declaradas como ativas n˜ao est˜ao “desligadas” ou “adormecidas”. Mui- tas ´areas cerebrais subliminares podem ter participa¸c˜ao essencial na realiza¸c˜ao da tarefa experimental, embora esta participa¸c˜ao possa n˜ao ter sido detectada devido ao desenho experimental inapropriado, ao modelamento impr´oprio da matriz experimental, por raz˜oes inerentes ao modelo linear geral, excesso de ru´ıdo ou outras vari´aveis indesejadas, ou me- ramente por estar aqu´em dos limites de resolu¸c˜ao espacial e temporal do m´etodo, o qual avalia s´o indiretamente a verdadeira atividade neuronal (Bandettini, 2002). Isso ´e par- ticularmente importante nos voxels adjacentes `as ´areas declaradas ativas, visto que os p-valores n˜ao variam de maneira abrupta no espa¸co, e a inspe¸c˜ao das imagens limiarizadas em geral sugere justamente o oposto.
Uma implica¸c˜ao pr´atica relacionada ao problema da limiariza¸c˜ao consiste no arquiva- mento dos mapas calculados. Sempre que poss´ıvel, os mapas devem ser salvos por inteiro, sem a limiariza¸c˜ao. Isso facilita posterior rean´alise, bem como o trabalho futuro de outros pesquisadores interessados em meta-an´alises (Jernigan et al.,2003).
Al´em disso, antes de analisar o mapa, ´e necess´ario conhecer cada detalhe do desenho experimental. A grande maioria dos experimentos atualmente realizados identifica asso- cia¸c˜ao entre ´areas cerebrais e tarefas experimentais, ou seja, verifica por exemplo, que uma
´
area A est´a associada `a execu¸c˜ao do processo cognitivo P, n˜ao implicando que a ´area A
´e necess´aria ou suficiente para a execu¸c˜ao deP (Smith e Jonides, 2003). Para assegurar queA´e necess´aria para a execu¸c˜ao de P, seria necess´ario demonstrar que na ausˆencia de A,P esta comprometido. Sempre que poss´ıvel, deve-se correlacionar os dados de exames de imagem com dados cl´ınicos, especialmente no c´erebro patol´ogico.
Outra quest˜ao importante diz respeito aos contornos das ´areas de atividade cerebral.
Figura 2.10: Mapa frenol´ogico elaborado por Joseph Millott Severn da Brighton Phrenological Institution, 1905. A frenologia ainda era bastante popular nos primeiros anos do s´eculoxx(cortesia da Whipple Museum Reserve Gallery, University of Cambridge).
Pesquisadores costumam interpretar um certo “padr˜ao” de ativa¸c˜ao atribuindo caracteris- ticas funcionais a estruturas anatˆomicas sobre as quais os voxels coloridos s˜ao apresentados, e n˜ao aos demais (Jernigan et al., 2003). ´E amplamente sabido, muito antes do advento das modernas t´ecnicas de neuroimagem, que as ´areas corticais apresentam variabilidade importante entre indiv´ıduos, e que um mesmo indiv´ıduo apresenta variabilidade funcional ao longo da vida.
A interpreta¸c˜ao apressada ou intempestiva de mapas limiarizados pode conduzir a conclus˜oes tendenciosas e dar suporte, ainda que indiretamente, a teorias de segrega¸c˜ao do funcionamento cerebral h´a muito em desuso. O exemplo da frenologia, pseudo-ciˆencia que floresceu no s´eculo xix (Figura 2.10), deve ser sempre lembrado antes de extrairmos conclus˜oes baseadas exclusivamente na interpreta¸c˜ao de resultados de fMRI, especialmente mapas limiarizados (Uttal,2001).
N˜ao surpreendentemente, mapas n˜ao-limiarizados n˜ao est˜ao livres de problemas. Os mapas s˜ao computados a partir de c´alculos estat´ısticos variados, baseados em suposi¸c˜oes muitas vezes n˜ao suficientemente bem compreendidas para dar suporte a estudos de neu- roimagem (Cohen,1996).
Apesar de suas limita¸c˜oes e, ocasionalmente, uso inapropriado por pesquisadores ingˆe- nuos (Cohen,1996), exames de neuroimagem funcional como fMRI j´a conquistaram espa¸co e provaram valor em uma variedade de situa¸c˜oes (Donaldson,2004;Jonides et al.,2006).
N˜ao obstante, o bom senso e o conhecimento detalhado das limita¸c˜oes do m´etodo devem prevalecer antes da extra¸c˜ao de conclus˜oes. Caso contr´ario, um m´etodo de estudo ainda jovem e promissor poder´a cair rapidamente em descr´edito.
O problema dos testes m´ ultiplos
Conforme revisado no Cap´ıtulo 2, para um voxel isolado, ´e suficiente calcular o p-valor, e confront´a-lo com o n´ıvel de significˆancia α definido antes de iniciar o experimento para rejeitar ou n˜ao a hip´otese nula H0 de ausˆencia de atividade para aquele voxel. Contudo, no contexto de neuroimagem funcional, testes de hip´oteses envolvendo um ´unico voxel tˆem pouca ou nenhuma utilidade. Os testes s˜ao realizados simultaneamente em uma grande quantidade de voxels. Ao executar muitos testes de hip´oteses, por´em, a probabilidade de ocorrˆencia de p-valores abaixo do n´ıvel de significˆancia α, meramente devido ao acaso, aumenta substancialmente.
Este ´e o denominado problema dos testes m´ultiplos1. Eventos raros para um teste isolado podem ocorrer muito freq¨uentemente se um n´umero suficientemente grande de testes for realizado, de modo que se pode inferir a presen¸ca de efeito, quando na verdade nenhum efeito existe (Abdi,2007).
Tome-se, por exemplo, um exame de ressonˆancia magn´etica funcional em que tenham sido adquiridos 26 cortes, cada qual contendo uma imagem (matriz) 64×64 voxels. O n´umero total de voxels ´e 64×64×26 = 106496. Supondo que somente sejam testados os voxels contidos dentro do enc´efalo, e que o mesmo ocupe somente cerca de metade do volume total de voxels, o n´umero total de testes de hip´oteses sendo executados ´e 106496/2 = 53248. Para um n´ıvel de significˆancia estabelecido emα= 0,05, espera-se que aproximadamente 53248×0,05 = 2662 voxels sejam declarados ativos, meramente devido ao acaso, um n´umero inaceitavelmente elevado.
O n´ıvel de significˆanciaαdefinido pelo pesquisador corresponde, para um determinado voxel, a um valor lim´ıtrofe, aqui representado apenas port, para o escore estat´ıstico, acima do qual o voxel ´e declarado ativo. O valor exato do limiar depende da distribui¸c˜ao de probabilidade para os escores quando H0 ´e verdadeira em toda a imagem (Se¸c˜ao 2.4.3).
1Tamb´em chamado de problema das m´ultiplas compara¸c˜oes. Esta denomina¸c˜ao, todavia, n˜ao ´e reco- mend´avel, por sugerir que os testes est˜ao sendo comparados entre si, o que normalmente n˜ao ´e o caso (Nichols e Hayasaka,2003).
61
Hip´otese nula falsa
Hipotese nula
verdadeira Total Declarado
significativo VVP VFP VP
Declarado
n˜ao-significativo VFN VVN VN
Total VF VV V
VVP: verdadeiros positivos (H0corretamente rejeitada);VVN: verdadeiros nega- tivos (H0corretamente n˜ao rejeitada);VFP: falsos positivos (H0incorretamente rejeitada); VFN: falsos negativos (H0 incorretamente n˜ao rejeitada); VV: H0
verdadeira;VF: H0 falsa;VP: total de testes em queH0foi rejeitada;VN: total de testes em queH0 n˜ao foi rejeitada;V: total de testes (voxels).
Ao deparar-se com m´ultiplos testes, o problema do pesquisador consiste em definir um valor lim´ıtrofe para todos os voxels que permita identificar a maior quantidade poss´ıvel de voxels “ativos” corretamente, mas ao mesmo tempo minimizando a quantidade daqueles declarados como “ativos” erroneamente. O valor lim´ıtrofe deve ainda permitir algum controle sobre a possibilidade de marcar erroneamente um voxel “inativo” como “ativo”.
Admita-se queV seja o total de voxels sendo testados para a presen¸ca do efeito expe- rimental, ou seja, os voxels em que o teste de hip´oteses est´a sendo aplicado, a Tabela3.1 mostra como estes voxels podem ser classificados, dependendo dos resultados encontrados quando o pesquisador escolhe o limiar t.