Resultados - Uma arquitetura cognitiva para o aprendizado instrumental em agentes inteligentes

5.2 Experimentos

5.2.1 Resultados

Nos gráficos apresentados a seguir, são mostrados os resultados obtidos nos experimentos. Neles, cada controlador é apresentado por uma cor e uma legenda fixa, mantidas ao longo de todas as imagens. São elas:

∙ Controlador de Referência: Mostrado em cinza, sob a legenda de simpleRL.

∙ Controlador cognitivo puramente baseado em expectativas: Mostrado em roxo, sob a legenda de wandercogSimple.

∙ Controlador Cognitivo com Memória Episódica: Mostrado em azul, sob a legenda de EpMem.

∙ Controlador Cognitivo com Exploração: Mostrado em oliva, sob a legenda de Ep-

MemExploration.

∙ Controlador Cognitivo completo: Mostrado em verde, sob a legenda de Full.

5.2.1.1 Plataforma Contínua

simpleRL wandercogSimple0 EpMem EpMemExploration Full 5

10 15

20 Mean Victory Number

Figura 33 – Número médio de vitórias por rodada para o cenário da Plataforma Contínua. Neste gráfico quanto maior o valor, melhor é o resultado.

As figuras 33 a 35 mostram os resultados obtidos nos experimentos com plataforma contínua.

No primeiro gráfico (fig. 33), nota-se que a simplicidade do cenário favorece uma exploração mais rápida, como evidenciado pela vitória do Aprendizado por Reforço simples. Porém, no terceiro gráfico (fig. 35), vê-se uma discrepância entre o Aprendizado

simpleRL wandercogSimple wandercogEpMem wandercogEpMemExploration wandercogFull 0 200 400 600 800 1000 1200

Figura 34 – Distribuição dos dados em um gráfico boxplot dos tempos (em ticks internos do Malmo) necessários para o agente atingir o bloco especial de lápis lazúli na Plataforma Contínua, quando o faz. As caixas representam respectivamente os controladores ’simpleRL’, ’cogSimple’, ’EpMem’, ’EpMemExplorarion’ e ’Full’. Os pontos vermelhos no meio da distribuição representam a média dos valores. Aqui, quanto menor é o valor melhor é o resultado.

simpleRL wandercogSimple wandercogEpMem wandercogEpMemExploration wandercogFull 0 50 100 150 200 250 300

Figura 35 – Distribuição dos dados em um gráfico boxplot do número de comandos ne- cessários para que o agente atinja o bloco especial na Plataforma Contínua, quando o faz. As caixas representam respectivamente os controladores ’sim- pleRL’, ’cogSimple’, ’EpMem’, ’EpMemExplorarion’ e ’Full’. Os pontos vermelhos no meio da distribuição representam a média dos valores. Um valor menor representa um resultado melhor.

por Reforço e os controladores propostos.Assim, apesar de ficar desde já clara a maior eficiência em termos de número de ações tomadas, para cenários simples como o destes experimentos, uma estratégia mais simples porém mais veloz se mostra mais efetiva.

5.2.1.2 Plataforma Fragmentada

Neste cenário, cujos resultados são apresentados nas figuras 36 a 38, a presença de um pouco mais de complexidade no ambiente, na forma de fragmentação aleatória da plataforma, favorece modelos com maior capacidade de generalização, que conseguem se adaptar de forma mais eficiente. No terceiro gráfico (fig. 37) a diferença de número de comandos quando comparado ao cenário anterior é reforçada.

simpleRL wandercogSimple0 EpMem EpMemExploration Full 2

4 6 8 10

12 Mean Victory Number

Figura 36 – Número médio de vitórias por rodada para o cenário da Plataforma Frag- mentada. Neste gráfico quanto maior o valor, melhor é o resultado.

simpleRL wandercogSimple wandercogEpMem wandercogEpMemExploration wandercogFull 0 200 400 600 800 1000 1200

Figura 37 – Distribuição dos dados em um gráfico boxplot dos tempos (em ticks internos do Malmo) necessários para o agente atingir o bloco especial de lápis lazúli na Plataforma Fragmentada, quando o faz. As caixas representam respectivamente os controladores ’simpleRL’, ’cogSimple’, ’EpMem’, ’EpMemExplo- rarion’ e ’Full’. Os pontos vermelhos no meio da distribuição representam a média dos valores. Aqui, quanto menor é o valor melhor é o resultado.

5.2.1.3 Plataforma Longa

As figuras 39 a 41 mostram os resultados obtidos nos experimentos com plataforma longa contínua. Neste cenário fica evidente que, para um número razoavelmente

simpleRL wandercogSimple wandercogEpMem wandercogEpMemExploration wandercogFull 0 50 100 150 200 250 300

Figura 38 – Distribuição dos dados em um gráfico boxplot do número de comandos ne- cessários para que o agente atinja o bloco especial na Plataforma Fragmen- tada, quando o faz. As caixas representam respectivamente os controladores ’simpleRL’, ’cogSimple’, ’EpMem’, ’EpMemExplorarion’ e ’Full’. Os pontos vermelhos no meio da distribuição representam a média dos valores, Um valor menor representa um resultado melhor.

simpleRL wandercogSimple0 EpMem EpMemExploration Full 5

10 15

20 Mean Victory Number

Figura 39 – Número médio de vitórias por rodada para o cenário da Plataforma Longa Contínua. Neste gráfico quanto maior o valor, melhor é o resultado. Note que apesar de similar a Plataforma Contínua o mero aumento no número de estados já favorece métodos um pouco mais generalizados que tratem de questões com exploração.

maior de estados, sendo similar a Plataforma Contínua em outros aspectos, métodos um pouco mais generalizados que tratam de questões como exploração apresentam melhores resultados, sendo o controlador completo proposto aquele com melhor desempenho e eficiência em termos de número de ações.

simpleRL wandercogSimple wandercogEpMem wandercogEpMemExploration wandercogFull 0 500 1000 1500 2000

Figura 40 – Distribuição dos dados em um gráfico boxplot dos tempos (em ticks internos do Malmo) necessários para o agente atingir o bloco especial de lápis lazúli na Plataforma Longa Contínua, quando o faz. As caixas representam respectivamente os controladores ’simpleRL’, ’cogSimple’, ’EpMem’, ’EpMemExplo- rarion’ e ’Full’. Os pontos vermelhos no meio da distribuição representam a média dos valores. Aqui, quanto menor é o valor melhor é o resultado.

simpleRL wandercogSimple wandercogEpMem wandercogEpMemExploration wandercogFull 0 100 200 300 400 500

Figura 41 – Distribuição dos dados em um gráfico boxplot do número de comandos neces- sários para que o agente atinja o bloco especial na Plataforma Longa Contí- nua, quando o faz. As caixas representam respectivamente os controladores ’simpleRL’, ’cogSimple’, ’EpMem’, ’EpMemExplorarion’ e ’Full’. Os pontos vermelhos no meio da distribuição representam a média dos valores, Um valor menor representa um resultado melhor.

5.2.1.4 Plataforma Longa Fragmentada

As figuras 42 a 44 mostram os resultados obtidos nos experimentos com plataforma longa fragmentada. Neste cenário, mesmo reduzindo a performance de todos os

simpleRL wandercogSimple0 EpMem EpMemExploration Full 2 4 6 8 10 12

14 Mean Victory Number

Figura 42 – Número médio de vitórias por rodada para o cenário da Plataforma Longa Fragmentada. Neste gráfico quanto maior o valor, melhor é o resultado.

simpleRL wandercogSimple wandercogEpMem wandercogEpMemExploration wandercogFull 100 200 300 400 500 600 700 800 900

Figura 43 – Distribuição dos dados em um gráfico boxplot dos tempos (em ticks inter- nos do Malmo) necessários para o agente atingir o bloco especial de lápis lazúli na Plataforma Longa Fragmentada, quando o faz. As caixas representam respectivamente os controladores ’simpleRL’, ’cogSimple’, ’EpMem’, ’EpMemExplorarion’ e ’Full’. Os pontos vermelhos no meio da distribuição representam a média dos valores. Aqui, quanto menor é o valor melhor é o resultado.

simpleRL wandercogSimple wandercogEpMem wandercogEpMemExploration wandercogFull 0 50 100 150 200

Figura 44 – Distribuição dos dados em um gráfico boxplot do número de comandos neces- sários para que o agente atinja o bloco especial na Plataforma Longa Fragmen- tada, quando o faz. As caixas representam respectivamente os controladores ’simpleRL’, ’cogSimple’, ’EpMem’, ’EpMemExplorarion’ e ’Full’. Os pontos vermelhos no meio da distribuição representam a média dos valores, Um valor menor representa um resultado melhor.

controladores, o maior número de estados e leve aumento de complexidade favorecem os métodos propostos e, novamente, controlador completo apresenta os melhores resultados, com grande discrepância entre o mesmo e o Aprendizado por Reforço.

No documento Uma arquitetura cognitiva para o aprendizado instrumental em agentes inteligentes (páginas 85-91)