CORRELATOS OSCILATÓRIOS DO PROCESSAMENTO DE

2 APRENDENDO COM FEEDBACK: UMA BREVE REVISÃO

2.5 CORRELATOS OSCILATÓRIOS DO PROCESSAMENTO DE

A grande maioria dos artigos sobre os correlatos neurais do processamento de feedback focou nos componentes evocados do sistema de monitoramento da performance (Cohen, et al., 2011). Conforme foi afirmado antes neste capítulo, eventos neurais que não estão em fase sincronizados com o feedback, ou seja, que não acontecem exatamente no mesmo momento, não podem ser detectados se a atividade neural for analisada exclusivamente no domínio dos ERPs, uma vez que sinais que não estão em fase síncrona se cancelariam na média final (Herrmann, Grigutsch, & Busch, 2005).

Cohen et al. (2011) argumentam que embora exista um grande número de artigos dando suporte à associação entre o FRN e as respostas dopaminérgicas fásicas, ainda não há evidência inequívoca para tal. Os autores não negam a ligação, mas sugerem que não existem evidências convincentes que pudessem garantir que a resposta dopaminérgica fásica é a principal origem das diferenças do FRN observadas em tais pesquisas. Além disso, os autores criticaram que a maioria dos estudos na área de aprendizagem baseada no feedback

focaram exclusivamente no mecanismo pelo qual a necessidade de mudança é sinalizada ao invés de endereçar os mecanismos pelos quais a aprendizagem acontece, sem considerar a natureza das representações sendo aprendidas. Os autores defenderam que a análise das oscilações ou das decomposições de tempo e frequência do EEG e MEG oferece informações mais ricas e biologicamente interpretáveis em relação à como o feedback é processado para a aprendizagem do que o FRN.

Existem algumas predições centrais no novo modelo para aprendizagem com feedback proposto por Cohen et al. (2011): 1) A aprendizagem está associada ao aumento na sincronização entre áreas de processamento do estímulo e as áreas motoras relacionadas ao mapeamento sendo aprendido; 2) As alterações na sincronização relacionadas à aprendizagem são moduladas de forma top-down8: oscilações teta frontais modulam a aprendizagem com feedback negativo, enquanto que beta frontal modula aprendizagem por meio de feedback positivo; 3) Modulações do córtex pré-frontal da sincronização entre áreas estão refletidas nas diferenças entre e intrassujeitos. Em relação às diferenças intrassujeitos, é esperado que a aprendizagem promova mudanças nessa sincronização; em relação às diferenças entre sujeitos, é esperado que as maiores sincronizações entre áreas cerebrais sejam observadas em sujeitos que são melhores aprendizes. Estas predições são novas e ainda não foram testadas. No entanto, os autores fizeram tais predições com base em alguns estudos disponíveis a respeito dos correlatos oscilatórios da aprendizagem.

A principal faixa de frequência analisada nos estudos sobre processamento de feedback e sobre o sistema de monitoramento do desempenho é a teta (4-8 Hz). Foi sugerido que o ERN representa uma sincronização em fase de intermitente atividade de EEG na frequência teta (Luu, Tucker, & Makeig, 2004). Outros estudos concluíram que o ERN surge de um reinício da fase e da sincronia de fase de atividade de EEG na frequência teta, no contexto de que teta aumenta após um erro ser cometido (Trujillo & Allen, 2007).

Um dos primeiros estudos investigando os correlatos oscilatórios do processamento de feedback (Cohen, et al., 2007)

8_{Na neurociência, modulação top-down é definida como o processo controlado} pelas áreas executivas do cérebro, especialmente as áreas pré-frontais. Esse termo é utilizado em inglês ao longo do texto para evitar a tradução literal que daria uma ideia de modulação “de cima para baixo”, uma vez que as áreas pré- frontais que realizam as funções executivas não estão necessariamente na parte de cima do cérebro, e sim, nas porções externas anteriores.

demonstrou que a energia de teta aumenta após as perdas em relação aos ganhos, especialmente nas áreas médias frontais, enquanto que a energia em gama (21-29 Hz) nas mesmas regiões aumenta após os ganhos, mas não após as perdas. Foi observado que essas respostas são moduladas pela probabilidade da recompensa, com as maiores diferenças para perdas inesperadas. Além disso, eles verificaram que o FRN não foi sensível aos mesmos aspectos do feedback que as oscilações em teta, sugerindo que essas duas técnicas de análise podem fornecer insights complementares sobre os processos neurais associados ao feedback.

Outros estudos apresentaram evidências de que o feedback de erro provoca um aumento na energia de teta aproximadamente 200 a 400 ms após a apresentação do feedback (Cavanagh, et al., 2012; Christie & Tata, 2009; Cohen, Elger, & Fell, 2009; Marco-Pallares, et al., 2008; van de Vijver, et al., 2011). O segundo resultado relativo ao aumento em gama-baixo ou beta-alto (20-30 Hz) após feedback positivo ou após recompensas, foi também evidenciado em outros estudos (Marco-Pallares, et al., 2008; van de Vijver, et al., 2011). Por outro lado, um aumento na energia de gama (30-40 Hz) após feedback negativo em relação ao positivo em um paradigma de teste de hipóteses foi encontrado por outro estudo (Papo, et al., 2007).

Um estudo recente (Cavanagh, et al., 2011) utilizou modelagem computacional para calcular os erros de predição e a incerteza inerente a cada tentativa, a fim de investigar como as oscilações teta na área média-frontal são moduladas pela incerteza e como que esses sinais estão conectados com as abordagens de exploração da mesma ou mudança de estratégia (exploration vs. exploitation)9 em uma tarefa de aprendizagem por reforço. Durante a tarefa, os participantes tinham primeiramente que explorar as opções de resposta (exploration) para

9_{No inglês, exploitation significa utilizar repetidamente o mesmo recurso,} enquanto que o termo exploration refere-se à exploração de novos recursos e novas possibilidades. Na literatura os termos exploration e exploitation são utilizados para designar duas abordagens cognitivas distintas. Exploitation é o termo utilizado para descrever a abordagem na qual o sujeito utiliza a mesma estratégia ou técnica sem explorar novas possibilidades. Na neurociência cognitiva, exploration é uma abordagem onde o sujeito testa novas possibilidades ou estratégias mentais. Para ter um bom desempenho, é necessário iniciar com maior exploration, testando diferentes estratégias, e então se valer dessa técnica que funcionou melhor para obter melhor desempenho (exploitation). Essa descrição foi necessária uma vez que não foram encontradas palavras em português que sozinhas fossem boas traduções para tais termos.

então encontrar um padrão ótimo de resposta (exploitation). Três resultados principais apoiaram a ideia de que a energia de teta nas áreas médias-frontais e frontopolar direita reflete o grau de incerteza associado ao feedback: 1) incerteza relativa e energia de teta foram positivamente correlacionados somente quando os participantes estavam escolhendo uma opção com maior incerteza associada; 2) estas correlações foram encontradas nas áreas cerebrais associadas com a exploração de novas estratégias (exploration), incluindo córtex dorsomedial e o polo frontal direito; 3) estes efeitos relacionados com a exploração (exploration) foram maiores em participantes que efetivamente utilizaram a incerteza como guia para a exploração de novas estratégias.

A energia de teta representa, portanto, diferentes características do sistema de monitoramento de desempenho. Utilizando um conjunto de tarefas diferentes, a hipótese de que os processos oscilatórios na frequência teta são refletidos em uma gama de componentes de ERP médios-frontais, como o ERN, FRN, N2 (controle e dissonante) e a negatividade relacionada à resposta correta (CRN), foi testada (Cavanagh, et al., 2012). Mesmo que estes componentes do ERP sejam estudados como indexadores do sistema de monitoramento do desempenho, eles são diferentemente sensíveis a diferentes características do feedback e resposta. Por exemplo, o N2 é sensível a variações nas demandas de estímulo-resposta, enquanto que o N2 dissonante responde a estímulos que representam uma diferenciação perceptiva inesperada (ou uma dissonância perceptiva). Os resultados desse estudo mostraram que, enquanto esses componentes específicos de ERP são sensíveis a manipulações de características específicas dos estímulos em cada tarefa, a energia de teta foi sensível a todas as manipulações, sugerindo que teta médio-frontal reflete um mecanismo não específico para a organização dos processos neurais próximos aos pontos de decisão ou para coordenar informações de desempenho de fontes externas e internas. Neste estudo, a energia de teta foi sensível à novidade, ao conflito, à punição e ao erro, todos esses considerados como informação relevante para o desempenho.

Recentemente, van de Vijver et al. (2011) investigaram os correlatos oscilatórios do processamento de feedback em uma tarefa de produção temporal. Foi observado um aumento na energia de teta nas áreas médias-frontais após o feedback negativo, enquanto que após o feedback positivo (“correto”), a energia em beta (18-24 Hz) aumentou sobre a região central do hemisfério esquerdo. O aumento da energia de teta foi um bom preditor do ajuste adequado na próxima tentativa;

ajustes corretos foram associados com maior energia em teta após feedback negativo na tentativa anterior. Além disso, sincronização em teta entre a área média-frontal (eletrodo FCz) e o pré-frontal direito (eletrodo F6) e entre o pré-frontal direito (F6) e a área sensoriomotora esquerda (CP3) aumentou mais após feedback de erro do que de acerto. Os autores sugeriram que a detecção de erro no feedback leva a uma maior comunicação entre a área de monitoramento de performance (média-frontal) e às áreas associadas com a tomada de decisão e também relacionadas com a reestruturação do plano de ação (áreas pré-frontais dorsolaterais).

3 ESTUDO 1: MUITO PERTO OU MUITO LONGE?

No documento Aprendendo com feedback: um estudo sobre como o cérebro utiliza informação para aprender (páginas 59-65)