Testes de pontuação - Aprendizagem por reforço profundo uma nova perspectiva sobre o problema d

5.7 Algoritmo

6.3.3 Testes de pontuação

O desempenho do algoritmo foi testado em configurações diferentes do problema. Para cada configuração foram realizados 100 experimentos (distintos) compostos cada um por uma sequência aleatória de emergências. Para cada sequência foi calculado o tempo total gasto Â_t=0T ct(i, j) por cada agente no deslocamento das ambulâncias. No final dos

experimentos, foram registrados os tempos, médio, mínimo e máximo. Em seguida, foi realizado um teste de pontuação entre os agentes, aquele que deslocou as ambulâncias em menos tempo foi considerado vitorioso. Nos casos de empate, nenhuma pontuação foi considerada. Para avaliar o desempenho em curto e longo prazo foram consideradas sequências de emergência de duração T = 100, T = 1000 e T = 10000.

Conﬁguração 1

A partir da análise dos resultados (ver tabela 6.3) para a conﬁguração do problema com n = 9 e k = 2, foi observado que o algoritmo Q-learning demonstrou uma melhor política de deslocamento, obtendo um maior número de vitórias. Nesse caso, a abordagem tabular necessitou de uma estrutura de armazenamento com 684 pares estado-ação,

6.3. ANÁLISE DE DESEMPENHO 57 enquanto na solução aproximada foram utilizados 314 parâmetros.

Algoritmos n,k _{Min Max Média Wins Min Max}T = 100 T = 1000_Média _Wins _Min _MaxT = 10000_Média _Wins Q-learning 9,2 147 218 188.29 43 1733 1953 1864.23 66 18376 18888 18616.22 94 Q-learning com MLP 141 218 189.61 34 1748 1956 1873.73 31 18438 18968 18713.4 6 Guloso 144 222 192.56 13 1784 2005 1906.4 1 18766 19312 19027.52 0 Palavras chaves

Min - Tempo mínimo gasto Max - Tempo máximo gasto Média - Tempo médio gasto

Vitórias

Tabela 6.3: Comparação entre os algoritmos para cidade com 9 regiões e 2 ambulâncias.

Conﬁguração 2

Para a conﬁguração do problema com n = 9 e k = 4 (ver tabela 6.4), foi observado que o algoritmo Q-learning com MLP demonstrou uma melhor política de deslocamento, obtendo um maior número de vitórias. Também é possível observar que o comportamento do agente aproximado ﬁcou muito próximo do Q-learning. Nesse caso, a abordagem tabular necessitou de uma estrutura de armazenamento com 4536 pares estado-ação, enquanto na solução aproximada foram utilizados 3620 parâmetros. Com um pequeno aumento da dimensão do problema o algoritmo proposto mostrou que uma solução aproximada pode ter um bom desempenho em relação ao Q-learning. Isso pode se dar pelo fato de que o número de requisições utilizados para o treinamento do Q-learning foi o mesmo utilizado para o treinamento da rede neural. Consequentemente, o Q-learning necessitaria de mais amostras para treinamento.

Algoritmos n,k _{Min Max Média Wins Min Max}T = 100 T = 1000_Média _Wins _Min _MaxT = 10000_Média _Wins Q-learning

9,4 79 127 104.51 36 942 1152 1036.21 42 10104 10582 10352.61 41 Q-learning com MLP 79 126 105.13 34 971 1121 1037.33 38 10113 10612 10353.26 55 Guloso 73 135 106.14 24 951 1110 1047.21 16 10241 10738 10484 4 Palavras chaves

Min - Tempo mínimo gasto Max - Tempo máximo gasto Média - Tempo médio gasto

Vitórias

Conﬁguração 3

Para a conﬁguração do problema com n = 10 e k = 2, foi observado que o algoritmo Q-learning demonstrou uma melhor política de deslocamento, obtendo um maior número de vitórias (ver tabela 6.5). Nesse caso, a abordagem tabular necessitou de uma estrutura de armazenamento com 900 pares estado-ação, enquanto na solução aproximada foram utilizados 834 parâmetros.

Algoritmos n,k _{Min Max Média Wins Min Max}T = 100 T = 1000_Média _Wins _Min _MaxT = 10000_Média _Wins Q-learning

10,2 291 432 355.59 20 3273 3745 3509.69 42 34227 35778 35047.11 94 Q-learning com MLP 284 432 356.14 12 3257 3738 3513.74 40 34258 35821 35091.05 6

Guloso 294 417 362.52 11 3358 3777 3568.77 10 35039 36360 35704.00 0 Palavras chaves

Min - Tempo mínimo gasto Max - Tempo máximo gasto Média - Tempo médio gasto

Vitórias

Tabela 6.5: Comparação entre os algoritmos para a cidade com 10 regiões e 2 ambulân- cias.

Conﬁguração 4

Na conﬁguração do problema com n = 15 e k = 2 foi observado que o algoritmo Q- learning com MLP, assim como na conﬁguração com n = 9 e k = 4, demonstrou uma melhor política de deslocamento, obtendo um maior número de vitórias (ver tabela 6.6). Nesse caso, a abordagem tabular necessitou de uma estrutura de armazenamento com 3150 pares estado-ação, enquanto na solução aproximada foram utilizados 2306 parâme- tros.

Algoritmos n,k _{Min Max Média Wins Min Max}T = 100 T = 1000_Média _Wins _Min _MaxT = 10000_Média _Wins Q-learning

15,2 334 510 411.30 27 3836 4324 4058.46 13 40008 41319 40681.76 0 Q-learning com MLP 319 503 408.64 46 3761 4282 4019.94 86 39716 40913 40303.76 100

Guloso 324 522 418.96 15 3913 4356 4144.74 1 40892 42020 41485.92 0 Palavras chaves

Min - Tempo mínimo gasto Max - Tempo máximo gasto Média - Tempo médio gasto

Vitórias

6.3. ANÁLISE DE DESEMPENHO 59 Conﬁguração 5

Na conﬁguração do problema com n = 20 e k = 2 foi observado que o algoritmo Q- learning com MLP demonstrou uma melhor política de deslocamento, obtendo um maior número de vitórias (ver tabela 6.7). O algoritmo Q-learning necessitou de uma estrutura de armazenamento com 7600 pares estado-ação enquanto a rede neural foi composta por 5890 parâmetros.

Algoritmos n,k _{Min Max Média Wins Min Max}T = 100 T = 1000_Média _Wins _Min _MaxT = 10000_Média _Wins Q-learning

20,2 348 497 419.29 20 3973 4452 4230.58 3 41731 42952 42343.22 0 Q-learning com MLP 343 501 411.78 67 3887 4384 4136.27 97 40649 42126 41368.35 100

Guloso 373 496 428.10 8 4099 4575 4318.00 0 42510 43993 43210.14 0 Palavras chaves

Min - Tempo mínimo gasto Max - Tempo máximo gasto Média - Tempo médio gasto

Vitórias

Tabela 6.7: Comparação entre os algoritmos para a cidade com 20 regiões e 2 ambulâncias

Conﬁguração 6

Na conﬁguração do problema com n = 20 e k = 3 foi observado que o algoritmo Q- learning com MLP demonstrou novamente uma melhor política de deslocamento, obtendo um maior número de vitórias (ver tabela 6.8). O algoritmo Q-learning necessitou de uma estrutura de armazenamento com 68400 pares estado-ação enquanto a rede neural foi composta por 24579 parâmetros.

Algoritmos n,k _{Min Max Média Wins Min Max}T = 100 T = 1000_Média _Wins _Min _MaxT = 10000_Média _Wins Q-learning

20,3 277 393 344.75 33 3263 3761 3509.33 19 34417 35767 35081.79 9 Q-learning com MLP 285 415 344.31 46 3248 3708 3469.00 78 34156 35663 34790.00 91

Guloso 301 433 353.51 17 3373 3773 3597.96 0 35325 36646 36003.36 0 Palavras chaves

Min - Tempo mínimo gasto Max - Tempo máximo gasto Média - Tempo médio gasto

Vitórias

Conﬁguração 7

Na conﬁguração do problema com n = 20 e k = 4 foi observado que o algoritmo Q- learning com MLP demonstrou novamente uma melhor política de deslocamento, obtendo um maior número de vitórias (ver tabela 6.9). O algoritmo Q-learning necessitou de uma estrutura de armazenamento com 387600 pares estado-ação enquanto a rede neural foi composta por 25604 parâmetros.

Algoritmos n,k _{Min Max Média Wins Min Max}T = 100 T = 1000_Média _Wins _Min _MaxT = 10000_Média _Wins Q-learning

20,4 258 384 317.74 13 2963 3386 3206.60 0 31272 32507 31943.31 0 Q-learning com MLP 226 381 294.94 50 2814 3143 2980.62 89 29250 30566 29819.78 100

Guloso 250 369 302.90 34 2797 3214 3055.83 11 30114 31131 30568.75 0 Palavras chaves

Min - Tempo mínimo gasto Max - Tempo máximo gasto Média - Tempo médio gasto

Vitórias

Tabela 6.9: Comparação entre os algoritmos para a cidade com 20 regiões e 4 ambulâncias

Conﬁguração 8

Na conﬁguração do problema com n = 20 e k = 5 foi observado que o algoritmo Q- learning com MLP demonstrou novamente uma melhor política de deslocamento, obtendo um maior número de vitórias (ver tabela 6.10). O algoritmo Q-learning necessitou de uma estrutura de armazenamento com 1550400 pares estado-ação enquanto a rede neural foi composta por 26629 parâmetros.

Algoritmos n,k _{Min Max Média Wins Min Max}T = 100 T = 1000_Média _Wins _Min _MaxT = 10000_Média _Wins Q-learning

20,5 253 381 314.51 0 2961 3436 3205.79 0 31500 32843 32058.52 0 Q-learning com MLP 199 320 252.25 58 2351 2724 2526.08 93 24682 26041 25318.13 100

Guloso 199 321 258.26 42 2444 2738 2600.74 7 25267 26652 26072.42 0 Palavras chaves

Min - Tempo mínimo gasto Max - Tempo máximo gasto Média - Tempo médio gasto

Vitórias

Tabela 6.10: Comparação entre os algoritmos para a cidade com 20 regiões e 5 ambulân- cias

No documento Aprendizagem por reforço profundo uma nova perspectiva sobre o problema dos k-servos (páginas 78-83)