• Nenhum resultado encontrado

5. Estímulos e orientações em Neuroeconomia

5.4 Aprendizagem por reforço

Um tema que deveria ser constante no estudo da Neuroeconomia é a aprendizagem. Isso porque a interação com a vida económica é constante na vida de um indivíduo. A forma como criamos hábitos de compra, de negociação, de gestão de equipes, de vendas, de liderança, entre outros temas da Neuroeconomia, está diretamente relacionado com a forma e o tipo de aprendizagem.

Um ponto relevante para o entendimento do comportamento animal (em especial dos seres humanos) é o estímulo por meio de recompensas e punições. Para tal, o estudo relacionado

com a aprendizagem por reforço tem se mostrado pertinente para compreender um pouco deste processo.

Na área da aprendizagem por reforço é evidenciada a presença marcante de duas abordagens: o condicionamento Pavloviano e o condicionamento instrumental (ver Tassi, 2011, p. 30). A primeira abordagem ganhou esta denominação por conta de seu criador, Ivan Petrovich Pavlov (1849-1936), ganhador do Prémio Nobel de Medicina e Fisiologia de 1904. Pavlov considerou que algumas respostas comportamentais são reflexos incondicionados, ou seja, são inatas em vez de aprendidas, enquanto que outras constituem reflexos condicionados. Estes são aprendidos através do emparelhamento com situações agradáveis ou aversivas (ver Eduardo, 2009, p. 59). No instrumental o agente tem controle sobre os estímulos futuros através de suas ações; por exemplo, um animal que determina a liberação do alimento pressionando uma alavanca. Para a neurociência existe ainda a questão da implementação neural deste aprendizado, considerando estruturas neurais e a questão de saber de que forma as informações sobre o meio ambiente são armazenadas e como, a partir destas informações, decisões adaptadas são geradas (ver Tassi, 2011, p. 30).

Desta forma é interessante observar a modelação matemática da aprendizagem por reforço (ver Tassi, 2011, p. 33).

𝑛𝑜𝑣𝑜 = ⋁𝑎𝑛𝑡𝑖𝑔𝑜 + 𝜂(𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜 − 𝑒𝑥𝑝𝑒𝑐𝑡𝑎𝑡𝑖𝑣𝑎) (23), ou

𝑛𝑜𝑣𝑜= ⋁𝑎𝑛𝑡𝑖𝑔𝑜 + 𝜂(𝑅 − ⋁𝑎𝑛𝑡𝑖𝑔𝑜) (24),

Isto significa que numa tentativa o poder preditivo de estímulo (⋁𝑛𝑜𝑣𝑜) mudará, para mais ou

para menos, somente se o valor do resultado, isto é, do reforço obtido (R), for maior ou menor que o esperado ou previsto (⋁𝑎𝑛𝑡𝑖𝑔𝑜 ). Caso seja igual, nenhuma mudança ocorrerá no valor. A intensidade de variação será dada pelo coeficiente de aprendizagem 𝜂(0 < 𝜂 ≤ 1). Quanto maior o valor do coeficiente de aprendizagem 𝜂, maior será a importância do resultado da última tentativa na determinação do valor do estímulo (ver Tassi, 2011, p. 33).

Considerando agora o modelo alternativo para o condicionamento Pavloviano: a Regra de Diferença Temporal (DT). Diferente do modelo anterior, a DT considera o efeito tempo para a análise. Outra diferença se refere à meta de aprendizado. A DT procura fazer uma estimativa dos valores dos distintos estados, considerando um estímulo de recompensa ou punição futura, como segue no modelo matemático. O valor do estado “s” no momento “t” é:

⋁(𝑠, 𝑡) = 𝐸[𝑦0𝑟

𝑡+ 𝑦1𝑟𝑡+1+𝑦2𝑟𝑡+2+ 𝑦3𝑟𝑡+3+ ⋯ + 𝑦𝑛𝑟𝑡+𝑛] (25),

com 0 < 𝑦 ≤ 1. O operador 𝐸[. ] indica que o ⋁𝑡 é a expectativa matemática ou média dos valores entre colchetes referentes às diversas séries de tentativas anteriores (o modelo parte da pressuposição de que o agente percorreu diversas vezes a sequência de estados de t=0 até t=n). A eq. (25), apresentada na sua forma estendida, informa que o valor do estado “s” no momento “t” é igual ao valor do reforço imediatamente disponível, somado ao valor descontado por 𝑦 do reforço do estado seguinte, mais o valor do reforço do estado sucessivo descontado 𝑦2 e assim sucessivamente, de maneira que a cada passo temporal o valor do reforço respectivo sofre uma desvalorização semelhante, fazendo com que os reforços mais distantes tenham valor menor que os mais recentes. É o que chamamos de desconto exponencial. Podemos reescrever a eq. (25) na forma abreviada abaixo. Com o objetivo de simplificar a notação passamos a utilizar ⋁𝑡 em lugar de ⋁(𝑠,𝑡)..

⋁𝑡 = 𝑟𝑡+ 𝑦⋁𝑡+1 (26).

Desta forma o aprendizado no DT é identificado pela repetição frequente da sucessão de estados e pela correção repetida das estimativas. De forma especifica, ocorre um ajuste entre a diferença do valor esperado e do valor encontrado para atualizar o valor do estado (ver Tassi, 2011, p. 33).

𝐷𝑖𝑓𝑒𝑟𝑒𝑛ç𝑎 = 𝑟𝑒𝑓𝑜𝑟ç𝑜 𝑒𝑠𝑡𝑎𝑑𝑜 𝑎𝑡𝑢𝑎𝑙 + 𝑦 𝑝𝑟𝑒𝑣𝑖𝑠ã𝑜 𝑝𝑟ó𝑥𝑖𝑚𝑜 𝑒𝑠𝑡𝑎𝑑𝑜 − 𝑝𝑟𝑒𝑣𝑖𝑠ã𝑜 𝑑𝑜 𝑒𝑠𝑡𝑎𝑑𝑜 𝑎𝑡𝑢𝑎𝑙:

𝛿𝑡= 𝑟𝑡+ 𝑦⋁𝑡+1− ⋁𝑡 (27).

A equação 27 apresenta o erro “𝛿𝑡” que é utilizado para atualização do valor “⋁𝑡”. Esta

equação representa a diferença entre o esperado (⋁𝑡) e o obtido tanto com o reforço imediato

como transição a um novo estado (𝑟𝑡+ 𝑦⋁𝑡+1). Obviamente 𝛿𝑡 codifica a surpresa, erro de previsão ou violação de expectativa que será utilizada para a atualização do valor do estado após multiplicação por uma constante que determina, como no caso anterior, o quanto o valor será alterado em função deste sinal.

Neste caso a atualização dependerá do coeficiente de aprendizagem 𝜂(0 < 𝜂 ≤ 1), estabelece o quanto o resultado da experiência recente será determinante (ver Tassi, 2011, p. 37).

Vejamos agora o condicionamento operante. Neste modelo a transição entre estados passa a depender das ações do agente e a meta deste passa a ser escolher que o condicionem a estados associados à maior soma de reforços presentes e futuros. Cada ação determina a transição e o reforço imediato, mas também as possíveis transições subsequentes e consequentes reforços. Desta forma, quando o agente recebe um reforço após uma sequência de várias ações é necessário descobrir qual a ação anterior que aumentou a probabilidade de reforço. Tal problema é denominado “alocação de crédito temporal” (ver Tassi, 2011, p. 37).

Considerando a formulação matemática,

𝑝(𝑎çã𝑜|𝑒𝑠𝑡𝑎𝑑𝑜)𝑛𝑜𝑣𝑜= 𝑝(𝑎çã𝑜|𝑒𝑠𝑡𝑎𝑑𝑜)𝑎𝑛𝑡𝑖𝑔𝑜+ 𝜂𝛿 (29).

Outro algoritmo de aprendizagem por reforço para modelar o condicionamento operante é o “aprendizado-Q”. Neste algoritmo, o agente aprende diretamente a encontrar a melhor probabilidade de ação em cada estado sem necessidade de aprender o valor de cada estado (ver Tassi, 2011, p. 38).

𝑞(𝑠, 𝑎) = 𝐸[𝑟𝑡+ 𝑦1 𝑟

𝑡+1+ 𝑦2 𝑟𝑡+2+ ⋯ + 𝑦𝑛 𝑟𝑡+𝑛 |𝑒𝑠𝑡𝑎𝑑𝑜(𝑡) = 𝑠, 𝑎çã𝑜(𝑡) = 𝑎] (30).

Esta equação, onde 𝑄(𝑠, 𝑎) é o valor médio da ação(a) no estado(s), nos diz o quanto o agente pode, em média, esperar se no estado 𝑠 escolher a ação 𝑎 e, a seguir, escolher sempre a ação que a experiência anterior ensinou ser a de maior retorno. Ao fazer esta escolha, o agente transita para o próximo estado e recebe ou não reforço. Neste ponto a diferença entre a previsão e o ocorrido será calculada, 𝛿𝑡, e este será utilizado para atualizar o valor daquele par

estado-ação,

𝑄(𝑠, 𝑎): 𝑄(𝑠, 𝑎)𝑛𝑜𝑣𝑜 = 𝑄(𝑠, 𝑎)𝑎𝑛𝑡𝑖𝑔𝑜+ 𝜂𝛿𝑡 (31),

enquanto outros valores de 𝑄 para os outros pares de estado e ação mantêm-se inalterados. O processo de aprendizado-Q consiste na repetição de três passos: (1) fazer a previsão da expectativa de reforço das ações candidatas naquele estado; (2) selecionar a ação que tiver a maior expectativa de reforço; e (3) atualizar o valor de 𝑄 para aquele par estado-ação que foi escolhido, usando o erro ou a discrepância entre o valor obtido e esperado (ver Tassi, 2011, p. 39).