• Nenhum resultado encontrado

SEMÁFORO INTELIGENTE - INTEGRAÇÃO DE APRENDIZAGEM POR REFORÇO E A TÉCNICA CMAC

N/A
N/A
Protected

Academic year: 2021

Share "SEMÁFORO INTELIGENTE - INTEGRAÇÃO DE APRENDIZAGEM POR REFORÇO E A TÉCNICA CMAC"

Copied!
6
0
0

Texto

(1)

SEM ´AFORO INTELIGENTE - INTEGRA ¸C ˜AO DE APRENDIZAGEM POR REFOR ¸CO E A T´ECNICA CMAC

Felipe Lira Santana Silva∗, Gabriel Melo Costa, Guilherme Sousa Bastos∗ ∗Instituto de Engenharia de Sistemas e Tecnologias da Informa¸c˜ao, Universidade Federal de Itajub´a

Avenida Bps, 1303 Itajub´a, MG, Brasil

Emails: felipe.lira.ss@gmail.com, gabrielmelo12@yahoo.com.br, sousa@unifei.edu.br

Abstract— The increase of vehicle fleet at the major cities, due to the growth and development of the country, generates a serious problem in relation to urban mobility. This problem is generally aggravated by the current process of setting the time of the traffic lights, which does not take into consideration specific variations in the flow of vehicles throughout the day. This work presents the development of a Reinforcement Learning (RL) algorithm that operates a set of four crossroads interconnected, and an implementation of a new model based on CMAC (The Cerebellar Model Articullation Controller) technique to solve the course of dimensionality problem generated by the interconnection of the crossroads. The program was developed using the MatLab R software and the simulations were made using the SimEvents R package. The RL algorithm aims to learn the optimal adjustment of the traffic lights to each specific flow profile found in different hours of the day at the city, maximizing automobile traffic.

Keywords— Reinforcement Learning, SimEvents, CMAC, Flow of Vehicles.

Resumo— O aumento da frota de ve´ıculos devido ao crescimento e desenvolvimento do pa´ıs gera, sobretudo nas grandes metr´opoles, um s´erio problema de mobilidade urbana. Este problema ´e geralmente agravado pelo atual processo de ajuste de tempos dos sem´aforos que acabam gerando congestionamentos desnecess´arios por n˜ao considerar a varia¸c˜ao do fluxo de ve´ıculos durante o decorrer do dia. Este trabalho prop˜oe o desenvolvimento de um algoritmo de Aprendizagem por Refor¸co para operar de forma centralizada uma malha de quatro cruzamentos interconectados, e a implementa¸c˜ao de uma nova modelagem utilizando a t´ecnica CMAC (The Cerebellar Model Articullation Controller) para solucionar o problema de explos˜ao de estados que surge ao se considerar mais de um cruzamento interconectado. A programa¸c˜ao foi desenvolvida utilizando o software Matlab R e as simula¸c˜oes foram realizadas no pacote SimEvents R do mesmo software. O algoritmo de Aprendizagem por Refor¸co busca aprender o ajuste ´otimo dos sem´aforos para cada perfil de fluxo de ve´ıculos nos cruzamentos maximizando o tr´afego de autom´oveis.

Palavras-chave— Aprendizagem por Refor¸co, SimEvents, CMAC, Fluxo de Ve´ıculos.

1 Introdu¸c˜ao

Com o crescimento da frota de ve´ıculos nas gran-des cidagran-des do pa´ıs e a satura¸c˜ao do espa¸co f´ı-sico, para constru¸c˜ao de ruas e avenidas que su-portem o grande fluxo de autom´oveis, surge um s´erio problema de mobilidade urbana onde quilˆo-metros de congestionamentos s˜ao formados por diversos fatores, tais como ineficiˆencia do trans-porte p´ublico, rotas e sinaliza¸c˜ao mal planeja-das, e tempo gasto pelos ve´ıculos nos cruzamentos de vias. O problema da mobilidade urbana que as grandes cidades vˆem enfrentando ´e citado por (Scaringella, 2001) em que ´e enfatizado o uso de tecnologia para controle do tr´afego.

Este artigo tem como objetivo dar continui-dade ao trabalho apresentado em Costa e Bas-tos (2012) aplicando a Aprendizagem por Refor¸co (AR) em um conjunto de sem´aforos inteligentes em quatro cruzamentos interdependentes para um funcionamento ´otimo, isto ´e, maximizando o fluxo de ve´ıculos e conseq¨uentemente reduzindo e/ou evitando a forma¸c˜ao de congestionamento.

Este trabalho apresenta o problema de explo-s˜ao de estados (course of dimensionality) gerado pela interconex˜ao de quatro cruzamentos, e o pro-blema do ajuste dos tempos de abertura e

fecha-mento dos sem´aforos, sendo que existem dois cru-zamentos de entrada e dois crucru-zamentos de sa´ıda da malha de tr´afego. Desse modo, a abertura de um sem´aforo com tempo inadequado pode formar congestionamentos desnecess´arios nas vias trans-versais ou at´e mesmo no decorrer desta mesma via. Com a interconex˜ao de quatro cruzamentos ´e necess´ario modificar a modelagem do problema pois, dependendo das discretiza¸c˜oes, ´e gerado um n´umero elevado de estados para representa¸c˜ao do problema. Foi ent˜ao desenvolvida uma mode-lagem dos estados utilizando a t´ecnica CMAC (The Cerebellar Model Articulation Controller) (Albus, 1975) com sua implementa¸c˜ao sendo in-tegrada com AR (Ribeiro and Gabrielli, 2003).

A AR Sutton and Barto (1998), ´e um forma-lismo da Inteligˆencia Artificial que permite a um indiv´ıduo aprender a partir da sua intera¸c˜ao com o ambiente no qual ele est´a inserido, e ser´a utili-zada no problema de encontrar o ajuste de tempos ´

otimo, maximizando o fluxo de ve´ıculos. A t´ecnica especifica de AR em modo on-line (o SARSA) ser´a utilizado para otimizar o tempo referente `a aber-tura e fechamento dos sem´aforos.

Para a implementa¸c˜ao do trabalho foram uti-lizados o software matem´atico MatLab R

e seu pacote de simula¸c˜ao SimEvents R

(2)

re-sultados atrav´es de equa¸c˜oes matem´aticas e que tem como objetivo proporcionar melhores solu¸c˜oes para o desenvolvimento do processo.

Atrav´es da utiliza¸c˜ao da t´ecnica CMAC in-tegrada com o algoritmo de AR espera-se poder trabalhar com uma modelagem mais detalhada do ambiente, com um menor custo computacio-nal e obter resultados pr´oximos ou melhores do que com a represent¸c˜ao sem o uso do CMAC. A integra¸c˜ao permitir´a utilizar a quantidade de car-ros esperando nas ruas como parte do espa¸co de estados, de forma que a explos˜ao de estados re-presentados n˜ao prejudique o desempenho do al-goritmo. Essa flexibilidade tamb´em permitir´a adi-cionar mais cruzamentos `a malha de tr´afego tor-nando poss´ıvel a aplica¸c˜ao do sem´aforo em peque-nas partes de uma cidade como bairros ou outros tipos de zoneamento.

2 Aprendizagem por Refor¸co (AR) Aprendizado por Refor¸co ´e uma t´ecnica de apren-dizado de m´aquina utilizada para solucionar pro-blemas que, a priori, n˜ao possuem modelos dispo-n´ıveis (Reinaldo A. C. Bianchi, 2005). O agente aprende por intera¸c˜ao direta com o ambiente no qual esta inserido recebendo refor¸cos positivos ou negativos de acordo com os resultados obtidos pe-las a¸c˜oes tomadas. A AR utiliza como dom´ınio base um Processo decis´orio de Markov (Bastos, 2010).

Define-se aprendizagem por refor¸co como a aprendizagem de um sinal de recompensa para es-colher uma a¸c˜ao ´otima a∗ no estado atual s

t do

agente. Geralmente o objetivo de todo algoritmo de AR ´e de encontrar uma boa a¸c˜ao que otimiza a recompensa a longo prazo. O agente aprende por tentativa e erro e tenta adaptar sua pol´ıtica de acordo com as recompensas recebidas.Os ele-mentos que caracterizam a AR s˜ao:

• Aprendizado por intera¸c˜ao; • Retorno atrasado;

• Investiga¸c˜ao versus explora¸c˜ao: ´E utilizada a pol´ıtica e-greedy para balancear a investi-ga¸c˜ao e explora¸c˜ao. Essa pol´ıtica escolhe a a¸c˜ao ´otima de acordo com uma probabilidade E → [0, 1] que cresce com o tempo, sendo 1 − E a probabilidade de tomar uma a¸c˜ao aleat´oria.

O m´etodo utilizado neste trabalho ´e o SARSA (State-Action-Reward-Action-State) um m´etodo de convergˆencia on-policy, isto ´e, permite inter-ferˆencia durante a execu¸c˜ao da a¸c˜ao. ´E baseado na equa¸c˜ao 2 que garante sua convergˆencia.

Sendo:

∆ = αt(st, at)(rt+ γQt(st+1, at+1)) (1)

Temos:

Qt+1(st, at) = (1 − αt(st, at))Qt(st, at) + ∆ (2)

Fazendo a an´alise dos m´etodos de convergˆen-cias para o projeto em desenvolvimento, o melhor m´etodo a ser usado ´e o SARSA, pois se trata da simula¸c˜ao de um cruzamento que pode apresentar diversos estados, isto ´e, quantidades de ve´ıculos x a¸c˜oes. Com esta busca constante pela melhor a¸c˜ao a ser tomada a cada estado, este m´etodo permite encontrar um funcionamento ´otimo dos sem´aforos nos cruzamentos, evitando gera¸c˜ao de congestio-namento muitas vezes desnecess´arios.

3 The Cerebellar Model Articullation Controller (CMAC)

O CMAC ´e uma rede neural artificial criada com o intuito de modelar o cerebelo humano. Ele ´e atualmente usado no controle de sistemas com muitos graus de liberdade, por exemplo um bra¸co rob´otico industrial, por conta de sua alta capa-cidade de aprender fun¸c˜oes n˜ao lineares rapida-mente (Shannon, 1992).

A vantagem da utiliza¸c˜ao do CMAC neste tra-balho est´a no seu algoritmo de endere¸camento de mem´oria, o qual diminui substancialmente o ta-manho das vari´aveis usadas para representar os estados do sistema, sobre as quais o algoritmo de aprendizagem por refor¸co ir´a atuar.

A parte do algoritmo do CMAC utilizada neste trabalho ´e chamada Perceptron.

Formalmente o Perceptron ´e representado por:

f : S → A g: A → P Onde:

• S´e o vetor de entrada dos valores dos senso-res;

• A´e a matriz de associa¸c˜ao;

• P ´e o vetor de sa´ıda com as respostas do sis-tema.

3.1 Vetor S

O vetor S possui os valores de cada uma das vari´aveis utilizadas na modelagem do problema, como exemplo pode-se citar um vetor S = (X1, X2, X3, X4) no qual cada variavel X possui a

informa¸c˜ao de um ou mais sensores. 3.2 Matriz de associa¸c˜ao

A matriz de associa¸c˜ao utilizada ´e chamada de look-up table, ela possui trˆes parˆametros: reso-lution, m e overlap. O parˆametro resolution ´e

(3)

Tabela 1: Look-up Table 1 2 3 4 5 6 7 8 9 10 1 1 1 2 2 2 3 3 3 4 5 6 6 6 7 7 7 8 8 8 9 9 10 10 10 11 11 11 12 12 13 13 13 14 14 14 15 15 15 16

determinado pelo intervalo m´aximo das vari´aveis de entrada. O mapeamento m determina quan-tas linhas a matriz de associa¸c˜ao possuir´a e o overlap determina o n´ıvel de generaliza¸c˜ao do al-goritmo. Com todos os parˆametros definidos, pode-se formar e preencher a matriz de associa-¸c˜ao preenchendo-a com inteiros iniciando em 1 da esquerda pra direita e de cima para baixo. Soma-se uma unidade no ´ındice quando este for repetido nas devidas posi¸c˜oes n vezes, sendo n = overlap, ou no come¸co de cada linha. Um exemplo da ma-triz look-up table ´e mostrada na tabela 1.

3.3 Endere¸camento Virtual

A partir da look-up table pode-se obter o vetor de endere¸co (Vx) dos quatro ´ındices que

repre-sentar˜ao o estado relacionado ao vetor S. Para cada vari´avel ser˜ao obtidos quatro ´ındices que es-t˜ao dispostos na coluna de n´umero igual ao va-lor da vari´avel, utilizando a tabela 1 como exem-plo e supondo um vetor de 4 vari´aveis (X1, X2, X3 e X4) com valores definidos como se segue: X1 = 2, X2 = 10, X3 = 5 e X4 = 3 por exem-plo, tem-se os seguintes conjuntos de ´ındices V.

• Para X1= 2; V x1= 1, 6, 9, 13; • Para X2= 10; V x2= 4, 8, 12, 16; • Para X3= 5; V x3= 2, 7, 10, 14; • Para X4= 3; V x4= 1, 6, 10, 13;

Concatenando-se os conjuntos de ´ındices obt´em-se o vetor de endere¸cos A.

A= [1421, 6876, 1121010, 13161413].

Este ´e o vetor de endere¸cos virtuais do estado S = 2, 10, 5, 3, o qual ser´a usado para encontrar os ´ındices do vetor de estado utilizada na apren-dizagem por refor¸co.

3.4 Hash Coding

O ´ındice 13161413 n˜ao ´e um endere¸co que possa ser usado com facilidade na pr´atica. O Hash Co-ding ´e uma t´ecnica que diminui a quantidade de mem´oria necess´aria nesses casos.

Neste trabalho o Hash Coding utiliza os ´ındi-ces de A como um valor semente para gerar um n´umero pseudorrandˆomico entre 0 e 1, o qual ´e

Figura 1: Contexto dos quatro cruzamentos

multiplicado pela quantidade de mem´oria dispo-n´ıvel possibilitando assim alocar os estados no es-pa¸co de mem´oria.

Como o estado agora ´e representado por uma combina¸c˜ao de 4 ´ındices, o n´umero de estados poss´ıveis na modelagem dada como exemplo ´e de 104 estados, portanto, matematicamente ´e

poss´ı-vel guardar suas informa¸c˜oes em um vetor de 24 posi¸c˜oes, pois a combina¸c˜ao de 24 em 4 ´ındices ´e igual a 10626, ou seja ´e poss´ıvel representar 10626 estados trabalhando com essa representa¸c˜ao e um vetor de 24 posi¸c˜oes. Na pr´atica n˜ao ´e feita uma redu¸c˜ao deste tipo pois, como o n´umero gerado ´e pseudorrandˆomico podem haver dois ´ındices di-ferentes que gerar˜ao o mesmo valor, ocasionando conflitos de mem´oria e perda de dados.

4 Modelagem

Primeiramente criou-se um contexto para as qua-tro ruas como mostrado na figura 1 no qual as ruas horizontais s˜ao vias onde, em uma delas circula na grande maioria ve´ıculos do centro comercial da ci-dade, e a outra via foi constru´ıda pela ind´ustria ali instalada para o trˆansito dos ve´ıculos de seus fornecedores e funcion´arios. As ruas verticais s˜ao vias locais que cruzam as avenidas, uma delas ´e a rua que leva para uma escola de ensino funda-mental e a outra leva `a melhor pizzaria da cidade que funciona somente depois das 17h.

Com essa contextualiza¸c˜ao foi poss´ıvel deter-minar fluxos diferentes de ve´ıculos para cada via e para cada per´ıodo do dia. Dividiu-se o dia em quatro per´ıodos:

• Itervalo 1: das 0h `as 7h, 9h `as 10h, 12h `as 17h e 19h `as 0h, com grande movimento na via do com´ercio;.

• Itervalo 2: das 7h `as 9h, com grande movi-mento na via da ind´ustria;

(4)

• Itervalo 3: das 10h `as 12h, com grande movi-mento na via da escola;

• Itervalo 4: das 17h `as 19h, com grande movi-mento na via da pizzaria;

Foram testadas duas modelagens diferentes para o sistema do sem´aforo que ser˜ao chamadas: Modelagem B´asica e Modelagem CMAC.

4.1 Modelagem B´asica

A modelagem b´asica utiliza como estados poss´ı-veis uma discretiza¸c˜ao dos valores dos parˆametros Period e Pulse de cada cruzamento, totalizando 8 parˆametros e 390625 estados poss´ıveis.

• Valores poss´ıveis para Period = [40, 50, 60, 70, 80] segundos;

• Valores poss´ıveis para Pulse = [1, 25, 50, 75, 99] porcento.

As a¸c˜oes s˜ao feitas ao realizar a mudan¸ca do estado, alterando assim somente um ou os 8 parˆ a-metros de uma vez e simulando para aquele novo estado. S˜ao portanto 9 a¸c˜oes poss´ıveis.

A recompensa do novo estado ´e definida como a raz˜ao entre o n´umero de ve´ıculos que sa´ıram pelo que entraram na malha dos quatro cruzamentos. 4.2 Modelagem CMAC e integra¸c˜ao com a AR A modelagem b´asica foi proposta como modela-gem inicial, por´em nas simula¸c˜oes se mostrou ine-ficiente com a varia¸c˜ao do fluxo de ve´ıculos pois n˜ao leva em conta essa varia¸c˜ao nos estados. No entanto, para introduzir informa¸c˜oes dos ve´ıculos dos oito segmentos das vias (dois segmentos na frente de cada sem´aforo) ´e necess´ario implemen-tar a t´ecnica de generaliza¸c˜ao CMAC para dimi-nuir os n´umeros de estados com o qual o algoritmo vai realizar o aprendizado.

Os estados s˜ao os valores dos parˆametros de tempo de cada cruzamento e da porcentagem de ve´ıculos esperando em cada uma das oito filas amostradas em [0, 25, 50, 80, 90, 100] porcento. A representa¸c˜ao dos estados ´e feita por cinco ´ındices diferentes no intervalo de 0 a 5000.

Neste trabalho o vetor S utilizado no perceptron cont´em os valores das discretiza¸c˜oes de cada vari´avel da modelagem implementada, s˜ao no total 16 vari´aveis (dois parˆametros e duas vias por cruzamento) agrupadas de duas em duas to-talizando 8 vari´aveis de entrada com valores de 1 a 36 no m´aximo.

Para gerar a Look-up Table, os valores utiliza-dos nessa pesquisa s˜ao: resolution, discretizacao das variaveis, igual a 36, que define o valor m´a-ximo de cada vari´avel de estado, m igual a 5, que define quantos indices representar´a cada estado e overlap igual a 4 define o grau de generaliza¸c˜ao da representa¸c˜ao. 0 50 100 150 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Steps Valor do parâmetro em %

Figura 2: Varia¸c˜ao do valor dos parˆametros

As a¸c˜oes s˜ao aumentar ou diminuir um parˆ a-metro de acordo com os poss´ıveis valores. Para o pulso os valores poss´ıveis s˜ao: [1, 10, 25, 50, -1, -10, -25, -50], e para o per´ıodo: [1, 5, 10, 20, -1, -5, -10, -20], totalizando 64 a¸c˜oes poss´ıveis. Mesmo as a¸c˜oes sendo individuais, a cada intera¸c˜ao o se-m´aforo toma 5 a¸c˜oes, uma para cada ´ındice que representa o estado.

O c´alculo do refor¸co ´e baseado no tempo de espera m´edio dos ve´ıculos nas filas, o qual ´e in-versamente proporcional a exponencial do tempo de espera, sendo o tempo de espera a soma dos tempos m´edios nas ruas que se interceptam no cruzamento no qual a a¸c˜ao foi realizada, para o cruzamento 1, por exemplo o tempo de espera ´e o total de vias do com´ercio e a via da escola.

As atualiza¸c˜oes da matriz Q(s, a) s˜ao realiza-das para cada ´ındice separadamente pois ´e obtido um refor¸co diferente para cada cruzamento. Por-tanto os ´ındices cujas a¸c˜oes atuam em um mesmo cruzamento receber˜ao o mesmo refor¸co, depen-dendo da ´epoca de decis˜ao, e um valor de Q(s, a) calculado de acordo com os valores associados a cada ´ındice. J´a os ´ındices que indicaram uma a¸c˜ao atuante em outro cruzamento receber´a um refor¸co diferente. Dessa forma a o valor Q(s, a) ´e obtido levando-se em conta as ruas nas quais os tempos dos sem´aforos do determinado cruzamento podem interferir no fluxo de carros.

Embora mais complexa, a modelagem base-ada no CMAC possui mais informa¸c˜oes e um me-nor custo computacional do que a modelagem b´a-sica por trabalhar com matrizes de menores di-mens˜oes.

5 Resultados

Os resultados foram divididos em treinamentos e simula¸c˜oes:

• Treinamentos: S˜ao realizadas 3 simula¸c˜oes nas quais, a primeira ´e feita com β = 0 e pr= 0 onde pr ´e a probabilidade da pol´ıtica

(5)

e-greedy de tomar uma a¸c˜ao ´otima. A se-gunda simula¸c˜ao aumenta exponencialmente β e pr at´e seus valores chegarem no limite, 100 e 0,99 respectivamente, no final da simu-la¸c˜ao, como mostrado na figura 2, e a terceira simula¸c˜ao ´e realizada com os parˆametros no limite. Esse ´e o treinamento feito para cada per´ıodo do dia separadamente totalizando 12 simula¸c˜oes ao todo;

• Simula¸c˜ao: ´E simulado um dia real, 144 pas-sos representando 10 minutos cada passo, com os diferentes per´ıodos do dia e parˆ ame-tros no limite para observar a dinˆamica do algoritmo.

Os diferentes fluxos de ve´ıculo s˜ao gerados se-gundo uma distribui¸c˜ao normal em torno da m´e-dia caracter´ıstica de cada via em cada intervalo do dia.

5.1 Testes

Os testes tˆem como objetivo realizar o treina-mento da AR para ser aplicada em uma situa¸c˜ao simulando um dia real com fluxos variados.

Com o intuito de resumir os testes, a seguir s˜ao mostrados os resultados dos testes da mode-lagem b´asica e da modemode-lagem utilizando o CMAC para o intervalo 2. 0 50 100 150 200 250 300 350 400 450 0 0.2 0.4 0.6 0.8 1 Steps Recompensa

Figura 3: Treinamento da modelagem b´asica para o per´ıodo 2 0 50 100 150 200 250 300 350 400 450 0 0.2 0.4 0.6 0.8 1 Steps Recompensa

Figura 4: Treinamento da modelagem CMAC para o per´ıodo 2

Como ´e poss´ıvel observar nas figuras 3 e 4 o algoritmo utilizando a modelagem CMAC conver-giu para valores mais altos enquanto que a mode-lagem b´asica convergiu para um estado sub´otimo,

esse comportamento foi observado na maior parte dos testes e indica um aprendizado mais r´apido utilizando o CMAC.

5.2 Simula¸c˜oes

Os resultados das simula¸c˜oes realizadas com a mo-delagem b´asica e a momo-delagem CMAC s˜ao mostra-das a seguir. 0 50 100 150 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Steps Recompensa

Figura 5: Simula¸c˜ao da modelagem b´asica

0 50 100 150 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Steps Recompensa

Figura 6: Simula¸c˜ao da modelagem CMAC Nota-se na figura 5 que a modelagem b´asica n˜ao mant´em uma constˆancia durante a simula¸c˜ao por n˜ao ter as informa¸c˜oes do fluxo de ve´ıculos para tomar as a¸c˜oes, j´a a modelagem utilizada o CMAC gerou o resultado mostrado na figura 6, na qual nota-se uma estabilidade durante os interva-los determinados durante os testes. Assim, mesmo obtendo algumas altas porcentagens de ve´ıculos saindo da malha, a aplica¸c˜ao da modelagem b´a-sica n˜ao ´e recomendada sem adicionar aos estados as informa¸c˜oes sobre o per´ıodo do dia ou sobre o fluxo de ve´ıculos.

6 Conclus˜oes

Neste trabalho foi desenvolvido um sistema de se-m´aforo inteligente baseado na t´ecnica de

(6)

Apren-dizagem por Refor¸co que aprende a controlar o fluxo de ve´ıculos em uma malha de quatro cru-zamentos alterando-se os tempos dos sem´aforos. Foram desenvolvidas duas modelagens que lidam de forma diferente com a explos˜ao de estados que ocorre por conta da forma centralizada de tomar decis˜oes para quatro cruzamentos.

Comparando-se as modelagens apresentadas na figura 5 e na figura 6 tem-se que os resultados obtidos demonstram a maior eficiˆencia da modela-gem utilizando o CMAC por realizar um controle do tr´afego de ve´ıculos mesmo com as varia¸c˜oes du-rante o dia.

O n´umero total de estados que a modelagem CMAC representa neste trabalho, se fosse utili-zar a t´ecnica padr˜ao, ´e da ordem de 1011 estados

poss´ıveis. Mesmo assim seu custo computacional ´e bem menor por trabalhar com matrizes de me-nores dimens˜oes e realizar uma generaliza¸c˜ao dos estados sendo que, ao final das simula¸c˜oes 93% dos 5000 estados nesta modelagem j´a haviam sido visi-tados ao menos uma vez, enquanto que na modela-gem b´asica esse n´umero cai para apenas 6%, o que tamb´em indica uma maior velocidade de aprendi-zagem.

O CMAC apresenta desvantagens quando ´e necess´ario saber quais s˜ao as caracter´ısticas dos estados que apresentaram maior recompensa pois a utiliza¸c˜ao do hash-coding faz com que se percam as informa¸c˜oes do ambiente no algoritmo, e podem haver conflitos de dois estados diferentes represen-tados pelos mesmos ´ındices por utilizar n´umeros pseudo-randˆomicos na generaliza¸c˜ao.

Como poss´ıveis trabalhos futuros pode-se citar a implementa¸c˜ao do TiMDP (Processos Decis´orios de Markov dependentes do Tempo) baseando-se na modelagem utilizando o CMAC desenvolvida neste trabalho.

Agradecimentos

Os autores agradecem `a Funda¸c˜ao de Amparo `a Pesquisa do Estado de Minas Gerais (FAPEMIG) pelo apoio prestado neste trabalho.

Referˆencias

Albus, J. S. (1975). A new approach to manipu-lator control: The cerebellar model articula-tion controller (cmac), Journal of Dynamic Systems, Measurement, and Control . Gabriel M. Costa, G. S. B. (2012). Sem´aforo

inteligente-uma aplica¸c˜ao de aprendizagem por refor¸co, XIX Congresso Brasileiro de Au-tom´atica.

Reinaldo A. C. Bianchi, A. H. R. C. (2005). Uso de heur´ısticas para a acelera¸c˜ao do aprendi-zado por refor¸co, XXV Congresso da Socie-dade Brasileira de Computa¸c˜ao.

Ribeiro, C. H. C. and Gabrielli, L. H. (2003). Aprendizagem por refor¸co para times de robˆos, IX Encontro de Inicia¸c˜ao Cient´ıfica e P´os-Gradua¸c˜ao do ITA.

Scaringella, R. S. (2001). A crise da mobilidade urbana em s˜ao paulo, S ˜Ao Paulo em Perspec-tiva15.

Shannon, J. M. (1992). An application of the cerebellar model articulation controller for a switched reluctance rotor position estimator, Technical report.

Sutton, R. S. and Barto, A. G. (1998). Reinforce-ment learning: An introduction.

Referências

Documentos relacionados

Foi nessa direção que a doutrina alemã passou a reconhecer a inexigibilidade de outra conduta como comportamento adequado à norma como princípio geral de exculpação, pois, no

Dessa forma, este estudo teve como objetivo determinar as alterações celulares induzidas pelo estresse térmico calórico e o efeito das estações seca e chuvosa na indução de

Efeito do fator de crescimento insulina símile I na infecção in vitro de macrófagos peritoneais de camundongos por Leishmania L.. Dissertação de mestrado apresentada ao Programa

Não existe, por sua vez, relatos na literatura sobre os produtos de degradação do DEC, ivermectina e albendazol, sendo estes medicamentos utilizados em larga escala pela

Deste modo, este trabalho teve por objetivo investigar princípios de design de uma Sequência Didática (SD) sobre mitose e câncer, inspirada na história de

O entendimento da metáfora dentro-fora traz uma demarcação do que estaria dentro e fora do corpo por meio de sua superfície, a pele. Sendo esta, muitas vezes considerada como

Dessa forma, a partir da perspectiva teórica do sociólogo francês Pierre Bourdieu, o presente trabalho busca compreender como a lógica produtivista introduzida no campo

Atualmente os currículos em ensino de ciências sinalizam que os conteúdos difundidos em sala de aula devem proporcionar ao educando o desenvolvimento de competências e habilidades