SEMÁFORO INTELIGENTE - INTEGRAÇÃO DE APRENDIZAGEM POR REFORÇO E A TÉCNICA CMAC

(1)

SEM ÁFORO INTELIGENTE - INTEGRA ¸C ÃO DE APRENDIZAGEM POR REFOR ¸CO E A TÉCNICA CMAC

Felipe Lira Santana Silva∗_{, Gabriel Melo Costa}∗_{, Guilherme Sousa Bastos}∗ ∗_{Instituto de Engenharia de Sistemas e Tecnologias da Informa¸c˜}_{ao, Universidade Federal de Itajub´}_a

Avenida Bps, 1303 Itajub´a, MG, Brasil

Emails: felipe.lira.ss@gmail.com, gabrielmelo12@yahoo.com.br, sousa@unifei.edu.br

Abstract— The increase of vehicle fleet at the major cities, due to the growth and development of the country, generates a serious problem in relation to urban mobility. This problem is generally aggravated by the current process of setting the time of the traffic lights, which does not take into consideration specific variations in the flow of vehicles throughout the day. This work presents the development of a Reinforcement Learning (RL) algorithm that operates a set of four crossroads interconnected, and an implementation of a new model based on CMAC (The Cerebellar Model Articullation Controller) technique to solve the course of dimensionality problem generated by the interconnection of the crossroads. The program was developed using the MatLab R software and the simulations were made using the SimEvents R _{package. The RL algorithm aims to learn the} optimal adjustment of the traffic lights to each specific flow profile found in different hours of the day at the city, maximizing automobile traffic.

Keywords— Reinforcement Learning, SimEvents, CMAC, Flow of Vehicles.

Resumo— O aumento da frota de ve´ıculos devido ao crescimento e desenvolvimento do pa´ıs gera, sobretudo nas grandes metrópoles, um sério problema de mobilidade urbana. Este problema é geralmente agravado pelo atual processo de ajuste de tempos dos semáforos que acabam gerando congestionamentos desnecessários por não considerar a varia¸cão do fluxo de ve´ıculos durante o decorrer do dia. Este trabalho propõe o desenvolvimento de um algoritmo de Aprendizagem por Refor¸co para operar de forma centralizada uma malha de quatro cruzamentos interconectados, e a implementa¸cão de uma nova modelagem utilizando a técnica CMAC (The Cerebellar Model Articullation Controller) para solucionar o problema de explosão de estados que surge ao se considerar mais de um cruzamento interconectado. A programa¸cão foi desenvolvida utilizando o software Matlab R _{e as simula¸c˜}_oes foram realizadas no pacote SimEvents R _{do mesmo software. O algoritmo de Aprendizagem por Refor¸co busca} aprender o ajuste ótimo dos semáforos para cada perfil de fluxo de ve´ıculos nos cruzamentos maximizando o tráfego de automóveis.

Palavras-chave— Aprendizagem por Refor¸co, SimEvents, CMAC, Fluxo de Ve´ıculos.

1 Introdu¸c˜ao

Com o crescimento da frota de ve´ıculos nas gran-des cidagran-des do pa´ıs e a satura¸cão do espa¸co f´ı-sico, para constru¸cão de ruas e avenidas que su-portem o grande fluxo de automóveis, surge um sério problema de mobilidade urbana onde quilô-metros de congestionamentos são formados por diversos fatores, tais como ineficiência do trans-porte público, rotas e sinaliza¸cão mal planeja-das, e tempo gasto pelos ve´ıculos nos cruzamentos de vias. O problema da mobilidade urbana que as grandes cidades vêm enfrentando é citado por (Scaringella, 2001) em que é enfatizado o uso de tecnologia para controle do tráfego.

Este artigo tem como objetivo dar continui-dade ao trabalho apresentado em Costa e Bas-tos (2012) aplicando a Aprendizagem por Refor¸co (AR) em um conjunto de semáforos inteligentes em quatro cruzamentos interdependentes para um funcionamento ótimo, isto é, maximizando o fluxo de ve´ıculos e conseqüentemente reduzindo e/ou evitando a forma¸cão de congestionamento.

Este trabalho apresenta o problema de explo-s˜ao de estados (course of dimensionality) gerado pela interconex˜ao de quatro cruzamentos, e o pro-blema do ajuste dos tempos de abertura e

fecha-mento dos semáforos, sendo que existem dois cru-zamentos de entrada e dois crucru-zamentos de sa´ıda da malha de tráfego. Desse modo, a abertura de um semáforo com tempo inadequado pode formar congestionamentos desnecessários nas vias trans-versais ou até mesmo no decorrer desta mesma via. Com a interconexão de quatro cruzamentos é necessário modificar a modelagem do problema pois, dependendo das discretiza¸cões, é gerado um número elevado de estados para representa¸cão do problema. Foi então desenvolvida uma mode-lagem dos estados utilizando a técnica CMAC (The Cerebellar Model Articulation Controller) (Albus, 1975) com sua implementa¸cão sendo in-tegrada com AR (Ribeiro and Gabrielli, 2003).

A AR Sutton and Barto (1998), é um forma-lismo da Inteligência Artificial que permite a um indiv´ıduo aprender a partir da sua intera¸cão com o ambiente no qual ele está inserido, e será utili-zada no problema de encontrar o ajuste de tempos ´

otimo, maximizando o fluxo de ve´ıculos. A técnica especifica de AR em modo on-line (o SARSA) será utilizado para otimizar o tempo referente à aber-tura e fechamento dos semáforos.

Para a implementa¸c˜ao do trabalho foram uti-lizados o software matem´atico MatLab R

e seu pacote de simula¸c˜ao SimEventsR

(2)

re-sultados através de equa¸cões matemáticas e que tem como objetivo proporcionar melhores solu¸cões para o desenvolvimento do processo.

Através da utiliza¸cão da técnica CMAC in-tegrada com o algoritmo de AR espera-se poder trabalhar com uma modelagem mais detalhada do ambiente, com um menor custo computacio-nal e obter resultados próximos ou melhores do que com a represent¸cão sem o uso do CMAC. A integra¸cão permitirá utilizar a quantidade de car-ros esperando nas ruas como parte do espa¸co de estados, de forma que a explosão de estados re-presentados não prejudique o desempenho do al-goritmo. Essa flexibilidade também permitirá adi-cionar mais cruzamentos à malha de tráfego tor-nando poss´ıvel a aplica¸cão do semáforo em peque-nas partes de uma cidade como bairros ou outros tipos de zoneamento.

2 Aprendizagem por Refor¸co (AR) Aprendizado por Refor¸co é uma técnica de apren-dizado de máquina utilizada para solucionar pro-blemas que, a priori, não possuem modelos dispo-n´ıveis (Reinaldo A. C. Bianchi, 2005). O agente aprende por intera¸cão direta com o ambiente no qual esta inserido recebendo refor¸cos positivos ou negativos de acordo com os resultados obtidos pe-las a¸cões tomadas. A AR utiliza como dom´ınio base um Processo decisório de Markov (Bastos, 2010).

Define-se aprendizagem por refor¸co como a aprendizagem de um sinal de recompensa para es-colher uma a¸c˜ao ´otima a∗ _{no estado atual s}

t do

agente. Geralmente o objetivo de todo algoritmo de AR é de encontrar uma boa a¸cão que otimiza a recompensa a longo prazo. O agente aprende por tentativa e erro e tenta adaptar sua pol´ıtica de acordo com as recompensas recebidas.Os ele-mentos que caracterizam a AR são:

• Aprendizado por intera¸c˜ao; • Retorno atrasado;

• Investiga¸cão versus explora¸cão: É utilizada a pol´ıtica e-greedy para balancear a investi-ga¸cão e explora¸cão. Essa pol´ıtica escolhe a a¸cão ótima de acordo com uma probabilidade E → [0, 1] que cresce com o tempo, sendo 1 − E a probabilidade de tomar uma a¸cão aleatória.

O método utilizado neste trabalho é o SARSA (State-Action-Reward-Action-State) um método de convergência on-policy, isto é, permite inter-ferência durante a execu¸cão da a¸cão. É baseado na equa¸cão 2 que garante sua convergência.

Sendo:

∆ = αt(st, at)(rt+ γQt(st+1, at+1)) (1)

Temos:

Qt+1(st, at) = (1 − αt(st, at))Qt(st, at) + ∆ (2)

Fazendo a análise dos métodos de convergên-cias para o projeto em desenvolvimento, o melhor método a ser usado é o SARSA, pois se trata da simula¸cão de um cruzamento que pode apresentar diversos estados, isto é, quantidades de ve´ıculos x a¸cões. Com esta busca constante pela melhor a¸cão a ser tomada a cada estado, este método permite encontrar um funcionamento ótimo dos semáforos nos cruzamentos, evitando gera¸cão de congestio-namento muitas vezes desnecessários.

3 The Cerebellar Model Articullation Controller (CMAC)

O CMAC é uma rede neural artificial criada com o intuito de modelar o cerebelo humano. Ele é atualmente usado no controle de sistemas com muitos graus de liberdade, por exemplo um bra¸co robótico industrial, por conta de sua alta capa-cidade de aprender fun¸cões não lineares rapida-mente (Shannon, 1992).

A vantagem da utiliza¸cão do CMAC neste tra-balho está no seu algoritmo de endere¸camento de memória, o qual diminui substancialmente o ta-manho das variáveis usadas para representar os estados do sistema, sobre as quais o algoritmo de aprendizagem por refor¸co irá atuar.

A parte do algoritmo do CMAC utilizada neste trabalho ´e chamada Perceptron.

Formalmente o Perceptron ´e representado por:

f : S → A g: A → P Onde:

• S´e o vetor de entrada dos valores dos senso-res;

• A´e a matriz de associa¸c˜ao;

• P ´e o vetor de sa´ıda com as respostas do sis-tema.

3.1 Vetor S

O vetor S possui os valores de cada uma das vari´aveis utilizadas na modelagem do problema, como exemplo pode-se citar um vetor S = (X1, X2, X3, X4) no qual cada variavel X possui a

informa¸c˜ao de um ou mais sensores. 3.2 Matriz de associa¸c˜ao

A matriz de associa¸cão utilizada é chamada de look-up table, ela possui três parâmetros: reso-lution, m e overlap. O parâmetro resolution é

(3)

Tabela 1: Look-up Table 1 2 3 4 5 6 7 8 9 10 1 1 1 2 2 2 3 3 3 4 5 6 6 6 7 7 7 8 8 8 9 9 10 10 10 11 11 11 12 12 13 13 13 14 14 14 15 15 15 16

determinado pelo intervalo máximo das variáveis de entrada. O mapeamento m determina quan-tas linhas a matriz de associa¸cão possuirá e o overlap determina o n´ıvel de generaliza¸cão do al-goritmo. Com todos os parâmetros definidos, pode-se formar e preencher a matriz de associa-¸cão preenchendo-a com inteiros iniciando em 1 da esquerda pra direita e de cima para baixo. Soma-se uma unidade no ´ındice quando este for repetido nas devidas posi¸cões n vezes, sendo n = overlap, ou no come¸co de cada linha. Um exemplo da ma-triz look-up table é mostrada na tabela 1.

3.3 Endere¸camento Virtual

A partir da look-up table pode-se obter o vetor de endere¸co (Vx) dos quatro ´ındices que

repre-sentarão o estado relacionado ao vetor S. Para cada variável serão obtidos quatro ´ındices que es-tão dispostos na coluna de número igual ao va-lor da variável, utilizando a tabela 1 como exem-plo e supondo um vetor de 4 variáveis (X1, X2, X3 e X4) com valores definidos como se segue: X1 = 2, X2 = 10, X3 = 5 e X4 = 3 por exem-plo, tem-se os seguintes conjuntos de ´ındices V.

• Para X₁= 2; V x₁= 1, 6, 9, 13; • Para X₂= 10; V x₂= 4, 8, 12, 16; • Para X₃= 5; V x₃= 2, 7, 10, 14; • Para X₄= 3; V x₄= 1, 6, 10, 13;

Concatenando-se os conjuntos de ´ındices obt´em-se o vetor de endere¸cos A.

A= [1421, 6876, 1121010, 13161413].

Este ´e o vetor de endere¸cos virtuais do estado S = 2, 10, 5, 3, o qual ser´a usado para encontrar os ´ındices do vetor de estado utilizada na apren-dizagem por refor¸co.

3.4 Hash Coding

O ´ındice 13161413 não é um endere¸co que possa ser usado com facilidade na prática. O Hash Co-ding é uma técnica que diminui a quantidade de memória necessária nesses casos.

Neste trabalho o Hash Coding utiliza os ´ındi-ces de A como um valor semente para gerar um número pseudorrandômico entre 0 e 1, o qual é

Figura 1: Contexto dos quatro cruzamentos

multiplicado pela quantidade de mem´oria dispo-n´ıvel possibilitando assim alocar os estados no es-pa¸co de mem´oria.

Como o estado agora é representado por uma combina¸cão de 4 ´ındices, o número de estados poss´ıveis na modelagem dada como exemplo é de 104 _{estados, portanto, matematicamente é}

poss´ı-vel guardar suas informa¸cões em um vetor de 24 posi¸cões, pois a combina¸cão de 24 em 4 ´ındices é igual a 10626, ou seja é poss´ıvel representar 10626 estados trabalhando com essa representa¸cão e um vetor de 24 posi¸cões. Na prática não é feita uma redu¸cão deste tipo pois, como o número gerado é pseudorrandômico podem haver dois ´ındices di-ferentes que gerarão o mesmo valor, ocasionando conflitos de memória e perda de dados.

4 Modelagem

Primeiramente criou-se um contexto para as qua-tro ruas como mostrado na figura 1 no qual as ruas horizontais são vias onde, em uma delas circula na grande maioria ve´ıculos do centro comercial da ci-dade, e a outra via foi constru´ıda pela indústria ali instalada para o trânsito dos ve´ıculos de seus fornecedores e funcionários. As ruas verticais são vias locais que cruzam as avenidas, uma delas é a rua que leva para uma escola de ensino funda-mental e a outra leva à melhor pizzaria da cidade que funciona somente depois das 17h.

Com essa contextualiza¸c˜ao foi poss´ıvel deter-minar fluxos diferentes de ve´ıculos para cada via e para cada per´ıodo do dia. Dividiu-se o dia em quatro per´ıodos:

• Itervalo 1: das 0h às 7h, 9h às 10h, 12h às 17h e 19h às 0h, com grande movimento na via do comércio;.

• Itervalo 2: das 7h `as 9h, com grande movi-mento na via da ind´ustria;

(4)

• Itervalo 3: das 10h `as 12h, com grande movi-mento na via da escola;

• Itervalo 4: das 17h `as 19h, com grande movi-mento na via da pizzaria;

Foram testadas duas modelagens diferentes para o sistema do semáforo que serão chamadas: Modelagem Básica e Modelagem CMAC.

4.1 Modelagem B´asica

A modelagem básica utiliza como estados poss´ı-veis uma discretiza¸cão dos valores dos parâmetros Period e Pulse de cada cruzamento, totalizando 8 parâmetros e 390625 estados poss´ıveis.

• Valores poss´ıveis para Period = [40, 50, 60, 70, 80] segundos;

• Valores poss´ıveis para Pulse = [1, 25, 50, 75, 99] porcento.

As a¸cões são feitas ao realizar a mudan¸ca do estado, alterando assim somente um ou os 8 parˆ a-metros de uma vez e simulando para aquele novo estado. São portanto 9 a¸cões poss´ıveis.

A recompensa do novo estado é definida como a razão entre o número de ve´ıculos que sa´ıram pelo que entraram na malha dos quatro cruzamentos. 4.2 Modelagem CMAC e integra¸cão com a AR A modelagem básica foi proposta como modela-gem inicial, porém nas simula¸cões se mostrou ine-ficiente com a varia¸cão do fluxo de ve´ıculos pois não leva em conta essa varia¸cão nos estados. No entanto, para introduzir informa¸cões dos ve´ıculos dos oito segmentos das vias (dois segmentos na frente de cada semáforo) é necessário implemen-tar a técnica de generaliza¸cão CMAC para dimi-nuir os números de estados com o qual o algoritmo vai realizar o aprendizado.

Os estados são os valores dos parâmetros de tempo de cada cruzamento e da porcentagem de ve´ıculos esperando em cada uma das oito filas amostradas em [0, 25, 50, 80, 90, 100] porcento. A representa¸cão dos estados é feita por cinco ´ındices diferentes no intervalo de 0 a 5000.

Neste trabalho o vetor S utilizado no perceptron contém os valores das discretiza¸cões de cada variável da modelagem implementada, são no total 16 variáveis (dois parâmetros e duas vias por cruzamento) agrupadas de duas em duas to-talizando 8 variáveis de entrada com valores de 1 a 36 no máximo.

Para gerar a Look-up Table, os valores utiliza-dos nessa pesquisa são: resolution, discretizacao das variaveis, igual a 36, que define o valor má-ximo de cada variável de estado, m igual a 5, que define quantos indices representará cada estado e overlap igual a 4 define o grau de generaliza¸cão da representa¸cão. 0 50 100 150 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Steps Valor do parâmetro em %

Figura 2: Varia¸c˜ao do valor dos parˆametros

As a¸cões são aumentar ou diminuir um parˆ a-metro de acordo com os poss´ıveis valores. Para o pulso os valores poss´ıveis são: [1, 10, 25, 50, -1, -10, -25, -50], e para o per´ıodo: [1, 5, 10, 20, -1, -5, -10, -20], totalizando 64 a¸cões poss´ıveis. Mesmo as a¸cões sendo individuais, a cada intera¸cão o se-máforo toma 5 a¸cões, uma para cada ´ındice que representa o estado.

O cálculo do refor¸co é baseado no tempo de espera médio dos ve´ıculos nas filas, o qual é in-versamente proporcional a exponencial do tempo de espera, sendo o tempo de espera a soma dos tempos médios nas ruas que se interceptam no cruzamento no qual a a¸cão foi realizada, para o cruzamento 1, por exemplo o tempo de espera é o total de vias do comércio e a via da escola.

As atualiza¸cões da matriz Q(s, a) são realiza-das para cada ´ındice separadamente pois é obtido um refor¸co diferente para cada cruzamento. Por-tanto os ´ındices cujas a¸cões atuam em um mesmo cruzamento receberão o mesmo refor¸co, depen-dendo da época de decisão, e um valor de Q(s, a) calculado de acordo com os valores associados a cada ´ındice. Já os ´ındices que indicaram uma a¸cão atuante em outro cruzamento receberá um refor¸co diferente. Dessa forma a o valor Q(s, a) é obtido levando-se em conta as ruas nas quais os tempos dos semáforos do determinado cruzamento podem interferir no fluxo de carros.

Embora mais complexa, a modelagem base-ada no CMAC possui mais informa¸cões e um me-nor custo computacional do que a modelagem bá-sica por trabalhar com matrizes de menores di-mensões.

5 Resultados

Os resultados foram divididos em treinamentos e simula¸c˜oes:

• Treinamentos: São realizadas 3 simula¸cões nas quais, a primeira é feita com β = 0 e pr= 0 onde pr é a probabilidade da pol´ıtica

(5)

e-greedy de tomar uma a¸cão ótima. A se-gunda simula¸cão aumenta exponencialmente β e pr até seus valores chegarem no limite, 100 e 0,99 respectivamente, no final da simu-la¸cão, como mostrado na figura 2, e a terceira simula¸cão é realizada com os parâmetros no limite. Esse é o treinamento feito para cada per´ıodo do dia separadamente totalizando 12 simula¸cões ao todo;

• Simula¸cão: É simulado um dia real, 144 pas-sos representando 10 minutos cada passo, com os diferentes per´ıodos do dia e parˆ ame-tros no limite para observar a dinâmica do algoritmo.

Os diferentes fluxos de ve´ıculo são gerados se-gundo uma distribui¸cão normal em torno da mé-dia caracter´ıstica de cada via em cada intervalo do dia.

5.1 Testes

Os testes tˆem como objetivo realizar o treina-mento da AR para ser aplicada em uma situa¸c˜ao simulando um dia real com fluxos variados.

Com o intuito de resumir os testes, a seguir s˜ao mostrados os resultados dos testes da mode-lagem b´asica e da modemode-lagem utilizando o CMAC para o intervalo 2. 0 50 100 150 200 250 300 350 400 450 0 0.2 0.4 0.6 0.8 1 Steps Recompensa

Figura 3: Treinamento da modelagem b´asica para o per´ıodo 2 0 50 100 150 200 250 300 350 400 450 0 0.2 0.4 0.6 0.8 1 Steps Recompensa

Figura 4: Treinamento da modelagem CMAC para o per´ıodo 2

Como é poss´ıvel observar nas figuras 3 e 4 o algoritmo utilizando a modelagem CMAC conver-giu para valores mais altos enquanto que a mode-lagem básica convergiu para um estado subótimo,

esse comportamento foi observado na maior parte dos testes e indica um aprendizado mais r´apido utilizando o CMAC.

5.2 Simula¸c˜oes

Os resultados das simula¸cões realizadas com a mo-delagem básica e a momo-delagem CMAC são mostra-das a seguir. 0 50 100 150 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Steps Recompensa

Figura 5: Simula¸c˜ao da modelagem b´asica

0 50 100 150 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Steps Recompensa

Figura 6: Simula¸cão da modelagem CMAC Nota-se na figura 5 que a modelagem básica não mantém uma constância durante a simula¸cão por não ter as informa¸cões do fluxo de ve´ıculos para tomar as a¸cões, já a modelagem utilizada o CMAC gerou o resultado mostrado na figura 6, na qual nota-se uma estabilidade durante os interva-los determinados durante os testes. Assim, mesmo obtendo algumas altas porcentagens de ve´ıculos saindo da malha, a aplica¸cão da modelagem bá-sica não é recomendada sem adicionar aos estados as informa¸cões sobre o per´ıodo do dia ou sobre o fluxo de ve´ıculos.

6 Conclus˜oes

Neste trabalho foi desenvolvido um sistema de se-m´aforo inteligente baseado na t´ecnica de

(6)

Apren-dizagem por Refor¸co que aprende a controlar o fluxo de ve´ıculos em uma malha de quatro cru-zamentos alterando-se os tempos dos semáforos. Foram desenvolvidas duas modelagens que lidam de forma diferente com a explosão de estados que ocorre por conta da forma centralizada de tomar decisões para quatro cruzamentos.

Comparando-se as modelagens apresentadas na figura 5 e na figura 6 tem-se que os resultados obtidos demonstram a maior eficiência da modela-gem utilizando o CMAC por realizar um controle do tráfego de ve´ıculos mesmo com as varia¸cões du-rante o dia.

O número total de estados que a modelagem CMAC representa neste trabalho, se fosse utili-zar a técnica padrão, é da ordem de 1011 _estados

poss´ıveis. Mesmo assim seu custo computacional é bem menor por trabalhar com matrizes de me-nores dimensões e realizar uma generaliza¸cão dos estados sendo que, ao final das simula¸cões 93% dos 5000 estados nesta modelagem já haviam sido visi-tados ao menos uma vez, enquanto que na modela-gem básica esse número cai para apenas 6%, o que também indica uma maior velocidade de aprendi-zagem.

O CMAC apresenta desvantagens quando é necessário saber quais são as caracter´ısticas dos estados que apresentaram maior recompensa pois a utiliza¸cão do hash-coding faz com que se percam as informa¸cões do ambiente no algoritmo, e podem haver conflitos de dois estados diferentes represen-tados pelos mesmos ´ındices por utilizar números pseudo-randômicos na generaliza¸cão.

Como poss´ıveis trabalhos futuros pode-se citar a implementa¸c˜ao do TiMDP (Processos Decis´orios de Markov dependentes do Tempo) baseando-se na modelagem utilizando o CMAC desenvolvida neste trabalho.

Agradecimentos

Os autores agradecem à Funda¸cão de Amparo à Pesquisa do Estado de Minas Gerais (FAPEMIG) pelo apoio prestado neste trabalho.

Referˆencias

Albus, J. S. (1975). A new approach to manipu-lator control: The cerebellar model articula-tion controller (cmac), Journal of Dynamic Systems, Measurement, and Control . Gabriel M. Costa, G. S. B. (2012). Sem´aforo

inteligente-uma aplica¸c˜ao de aprendizagem por refor¸co, XIX Congresso Brasileiro de Au-tom´atica.

Reinaldo A. C. Bianchi, A. H. R. C. (2005). Uso de heur´ısticas para a acelera¸c˜ao do aprendi-zado por refor¸co, XXV Congresso da Socie-dade Brasileira de Computa¸c˜ao.

Ribeiro, C. H. C. and Gabrielli, L. H. (2003). Aprendizagem por refor¸co para times de robôs, IX Encontro de Inicia¸cão Cient´ıfica e Pós-Gradua¸cão do ITA.

Scaringella, R. S. (2001). A crise da mobilidade urbana em s˜ao paulo, S ˜Ao Paulo em Perspec-tiva15.

Shannon, J. M. (1992). An application of the cerebellar model articulation controller for a switched reluctance rotor position estimator, Technical report.

Sutton, R. S. and Barto, A. G. (1998). Reinforce-ment learning: An introduction.