UM CONTROLADOR PARA ROBÔS MÓVEIS BASEADO EM NUVEM DE PARTÍCULAS

(1)

UM CONTROLADOR PARA ROB ÔS M ÓVEIS BASEADO EM NUVEM DE PARTÍCULAS

Jorge Augusto Vasconcelos Alves∗_{, Walter Fetter Lages}∗ ∗_{Universidade Federal do Rio Grande do Sul}

Departamento de Engenharia El´etrica Av. Osvaldo Aranha, 103 90035-190 Porto Alegre, RS, Brasil

Emails: jorge@ece.ufrgs.br, fetter@ece.ufrgs.br

Abstract— Common control systems for mobile robots include the use of deterministic control laws together

with state estimation approaches and the consideration of the certainty equivalence principle. Recent approaches consider the use of partially observable Markov decision process strategies together with Bayesian estimators. In order to reduce processing power and yet allow for multimodal or non-Gaussian distributions, a scheme based on a particle filter and a corresponding cloud of input signals is proposed in this paper. Results are presented and compared to a scheme with extended Kalman filter and the assumption that the certainty equivalence holds.

Keywords— Mobile robotics, Particle filter, Nonlinear control, Stochastic control, Stochastic estimation.

Resumo— O controle usual de robˆos m´oveis inclui o uso de leis de controle determin´ısticas juntamente com

estimadores de estados e a considera¸cão do princ´ıpio da equivalência à certeza. Resultados recentes consideram

o uso de processo de decis˜ao de Markov parcialmente observ´aveis juntamente com o uso de estimadores

bayesi-anos. De forma a reduzir o esfor¸co computacional e mesmo assim considerar distribui¸c˜oes multimodais ou n˜ao

gaussianas, este artigo prop˜oe um esquema baseado em um filtro de part´ıculas para estima¸c˜ao do estado e uma

nuvem de part´ıculas para os sinais de controle. Os resultados s˜ao comparados com um esquema utilizando o

filtro de Kalman estendido e o princ´ıpio da equivalˆencia a certeza.

Palavras-chave— Robôs móveis, Filtro de part´ıculas, Controle não linear, Controle estocástico, Estima¸cão

estoc´astica.

1 Introdu¸c˜ao ´

E sabido que robôs móveis estão sujeitos à incer-teza tanto no seu comportamento quanto no am-biente no qual o robô navega (Thrun et al., 2005). O enfoque clássico para estima¸cão de estados e controle de sistemas estocásticos é considerar o valor esperado das variáveis de estado e o prin-c´ıpio da equivalência à certeza (Anderson e Mo-ore, 1989). No entanto, enfoques baseados no va-lor esperado não podem ser utilizados quando dis-tribui¸cões multimodais, ou mesmo assimétricas, estão presentes. Por outro lado, distribui¸cões as-simétricas ou multimodais podem surgir devido à fusão de sensores e problemas t´ıpicos de rob´ o-tica (Kaelbling et al., 1998). Adicionalmente, a dinâmica não linear frequentemente gera distribui-¸cões multimodais ou assimétricas a partir de dis-tribui¸cões normais ou simétricas. O estado da arte atual para tratar incertezas, especialmente as com distribui¸cões de probabilidade não gaussianas, é utilizar filtros bayesianos para estimar o estado do sistema e então obter um sinal de controle ba-seado no resultados da estima¸cão. Tipicamente, o resultado da estima¸cão é uma densidade de proba-bilidade ou um histograma ou um conjunto de par-t´ıculas ou probabilidades sobre um mapa topol´ o-gico. Este sinal pode ser obtido a partir de um dos modos da distribui¸cão ou através de otimiza¸cão, como nos enfoques de processo de decisão de Mar-kov parcialmente observáveis (POMDP) (Blanco et al., 2010; Thrun et al., 2005). O uso de POMDP

para sistemas com estados cont´ınuos requer apro-xima¸cões, pois caso contrário, o problema torna-se intratável (Baral et al., 2000; Littman et al., 1995). Este artigo propõe um esquema de controle para um robô móvel com acionamento diferencial que mapeia um conjunto de poss´ıveis estados em um espa¸co de sinais de controle. Tanto as transi-¸cões de estado quanto as observatransi-¸cões são sujeitas à incerteza. Portanto, um filtro de part´ıculas é pro-posto para estima¸cão de estados. No entanto, a es-timativa do estado não é considerada como sendo apenas um vetor, mas toda a nuvem de part´ıcu-las que representa a probabilidade de cada vetor de estado. A seguir, uma lei de controle global-mente estável é considerada para o mapeamento da nuvem de part´ıculas no espa¸co de estados em um nuvem de part´ıculas no espa¸co de entradas da planta. O sinal de entrada a ser efetivamente aplicado no robô é, então, escolhido entre os per-tencentes às regiões mais populadas do espa¸co de entradas.

2 Descri¸c˜ao do Sistema

A cinemática de um robô móvel com acionamento diferencial movendo-se em um plano horizontal pode ser descrita, em tempo cont´ınuo por

˙x = f (x, u) =   cos x3 0 sen x3 0 0 1  u (1)

(2)

onde x = x1 x2 x3 T

´e o vetor de estados e u= u1 u2

T

é o vetor de entradas. As variá-veis de estado x1e x2são as coordenadas no plano,

x3 é o ângulo de orienta¸cão, e as variáveis de

en-trada u1 e u2 s˜ao as velocidades linear e angular,

respectivamente.

Uma realiza¸c˜ao em tempo discreto (Lages, 1998) ´e dada por

x(k + 1) = fd(x(k), u(k)) (2) = x(k) +     T u1(k) h sincT u2(k) 2 cosx3(k) +T u2₂(k) i T u1(k) h sincT u2(k) 2 senx3(k) +T u2₂(k) i T u2(k)    

onde sinc x, sen x

x e T ´e o per´ıodo de

amostra-gem.

O comportamento do robˆo pode ser melhor descrito por modelos estoc´asticos, como descrito por Thrun et al. (2005) e Rekleitis (2004).

Os efeitos estocásticos podem ser observados no movimento do robô como uma deriva com re-la¸cão à trajetória nominal, tanto na distância tra-fegada quanto na orienta¸cão. Estes erros cres-cem com o tempo, e portanto, serão modelados aqui como velocidades lineares e angulares incer-tas. Adicionalmente, os efeitos estocásticos estão fortemente relacionados com a velocidade linear do robô (Rekleitis, 2004). Assim, a versão esto-cástica de (1) é ˙x(t) = f (x(t), u(t) + w(t)) , (3) com w(t) = u1(t)wt(t) wD(t) T , onde wt(t) ∼ N 0, σ2

t e wD(t)∼ N 0, σ2D s˜ao processos

gaus-sianos representando as incertezas nas velocidades linear e angular, respectivamente.

Para obter um modelo discreto que pode re-presentar adequadamente a incerteza de orienta-¸cão em k + 1, será assumido aqui, com base em Rekleitis (2004), que metade dos efeitos da incer-teza na velocidade angular atua através da transi-¸cão de estado, portanto afetando tanto a positransi-¸cão quanto a orienta¸cão em k + 1, e a outra metade atua diretamente na orienta¸cão em k + 1. Conse-quentemente, a incerteza wD(t) no modelo

cont´ı-nuo ser´a representada por duas incertezas no mo-delo discreto: wd1(k)∼ N 0, σ

2

d, que atua

atra-v´es da transi¸c˜ao de estado e wd2(k)∼ N 0, σ

2 d,

que atua diretamente no estado em k + 1. Os efei-tos de wt(t) podem ser mapeados diretamente em

wt(k)∼ N 0, σt2. Logo, o modelo discreto pode

ser escrito como:

x(k + 1) = fd(x(k), u(k) + w1(k)) + w2(k), (4)

onde a transi¸c˜ao de estados fd(· , · ) ´e dada por

(2) e w1(k), u1(k) w_wt(k) d1k) , w2(k), T u1(k)   0 0 wd2(k)  

Como assume-se que wd1(k) e wd2(k)

repre-sentam metade dos efeitos de wD(t), sua variˆancia

deve ser a metade de σ2 D, ou σd= σD √ 2. ´

E importante notar que embora w1(k), w1(k)

e w2(k) apare¸cam como termos aditivos em (3) e

(4), eles n˜ao s˜ao, na realidade, incerteza aditiva, pois dependem da velocidade linear u1(k) e tanto

f (_{· , · ) quanto f}d(· , · ) s˜ao n˜ao lineares.

O modelo (4) será utilizado para estimar as transi¸cões de estado para um conjunto de poss´ıveis valores do vetor de estado, como será explicado em detalhes na se¸cão 3.1. É importante notar que mesmo que wt(k), wd1(k) e wd2(k) sejam

assumi-dos gaussianos, o estado resultante x(k + 1) não é gaussiano, devido às não-linearidades. O modelo (3) será usado para simular o robô na se¸cão 4, en-quanto o modelo (4) será utilizado para estima¸cão de estado.

3 Sistema de Controle 3.1 Estima¸c˜ao de Estado

Robôs móveis não podem, em geral, determinar sua pose (i.e., posi¸cão e orienta¸cão) através de sensores internos. A sua pose deve ser estimada. Aqui assume-se que o robô est´a equipado com en-codersincrementais nas rodas e um GPS. As leitu-ras dos encoders s˜ao consideradas como medidas das entradas de velocidade do robô, enquanto o GPS fornece uma medida da pose. Tanto as lei-turas dos encoders quando as leilei-turas do GPS s˜ao corrompidas por incertezas, de forma que não é poss´ıvel saber-se a pose real do robô. Além disso, as medidas dos encoders est˜ao dispon´ıveis a cada instante de amostragem, enquanto as observa¸cões do GPS são dispon´ıveis a uma taxa menor do que a taxa de amostragem do sistema.

Como as leituras dos encoders s˜ao mapeadas como medidas das entradas do sistema, u(k), o ve-tor de observa¸cão y(k), corrompido pela incerteza v(k), é restrito à observa¸cão do GPS

y(k) = h (x(k), v(k)) = x(k) + v(k). (5) O filtro de part´ıculas, no entanto, poderia ser estendido para considerar outros sensores, in-cluindo sensores de outros tipos, simplesmente considerando-os na defini¸cão de h (x(k), v(k)).

Note que para outros tipos de sensores, o ma-peamento de x(k) e v(k) em y(k) pode ser n˜ao linear e que quando sensores redundantes forem usados, a dimens˜ao de y(k) pode ser maior do que a de x(k).

(3)

Como é o caso para muitas técnicas de filtra-gem bayesiana, os algoritmos de filtro de part´ıcu-las podem ser divididos em dois estágios, denomi-nados predi¸cão e atualiza¸cão. O funcionamento do filtro de part´ıculas é resumido a seguir. Uma des-cri¸cão mais detalhada está dispon´ıvel em Thrun et al. (2005).

A cada instante de amostragem, os poss´ıveis valores do vetor de estado xi(k), i∈ [1, M], s˜ao

considerados, com base nas observa¸c˜oes anteriores do sistema. Cada vetor xi(k) ´e denominado uma

part´ıcula e M é o número total de part´ıculas. A cren¸ca do estado belp(x(k)) é dada pelo conjunto

de todas as part´ıculas, ou seja:

belp(x(k)) ={x1(k), x2(k), . . . , xM(k)}. (6)

A cren¸ca do estado é uma aproxima¸cão de uma fun¸cão de densidade de probabilidade no seguinte sentido: regiões do espa¸co de estados com um n´ u-mero relativamente grande de part´ıculas tem altos valores de densidade de probabilidade, enquanto regiões com relativamente poucas part´ıculas repre-sentam baixos valores de densidade de probabili-dade.

A etapa de predi¸c˜ao do algoritmo calcula a cren¸ca a priori do estado no instante k + 1, belp(x(k + 1)), a partir da cren¸ca do estado no

instante k e do vetor de entradas do sistema. Para cada part´ıcula da cren¸ca do estado, uma nova par-t´ıcula é gerada conforme a fun¸cão de transi¸cão de estado do sistema (4), com os termos de incerteza obtidos de um gerador de números aleatórios com distribui¸cão apropriada, o que pode ser feito para qualquer distribui¸cão. A cren¸ca a priori do estado é denotada por

belp(x(k + 1)) = {x1(k+1), x2(k+1), . . . , xM(k+1)},

(7) onde cada part´ıcula xi(k + 1), i∈ [1, M], ´e obtida

de

xi(k + 1) = fd(xi(k), u(k) + w1i(k)) + w2i(k).

(8) O conjunto de part´ıculas belp(x(k + 1)) ´e

ob-tido sem informa¸cão da observa¸cão do sistema em k + 1: é calculado apenas a partir da con-junto de part´ıculas belp(x(k)) e as entradas da

planta. Este conjunto de part´ıculas é, então, atualizado com a informa¸cão das observa¸cões, obtendo-se a nova cren¸ca do estado no instante k + 1, belp(x(k + 1)). Isto é feito a partir do

chamado fator de importˆancia ιi(k + 1) de cada

part´ıcula xi(k + 1), dado por

ιi(k) = fy(y(k)|xi(k)) , com fy(y(k)|x(k)) = e(−12[y(k)−Cx(k)] T P[y(k)−Cx(k)]) p(2π)n_|P| ,

onde P é a matriz de covariância da incerteza e n é o número de linhas de y(k).

A cren¸ca do estado belp(x(k + 1)) ´e obtida

atrav´es da sele¸c˜ao das part´ıculas, entre aquelas em belp(x(k + 1)), com uma probabilidade

pro-porcional ao seu fator de importˆancia (Thrun et al., 2005).

A atualiza¸cão da cren¸ca requer que seja feita uma observa¸cão. Neste artigo, o GPS é conside-rado ter um per´ıodo de amostragem maior do que o dos encoders incrementais. Como resultado, a etapa de atualiza¸cão não ocorre a cada instante de amostragem, mas apenas quando as observa-¸cões do GPS são obtidas.

3.2 Controle

Um resultado importante sobre o controle de robôs móveis é que não é poss´ıvel estabilizar assintotica-mente o sistema em um ponto arbitrário através de uma lei de controle suave e invariante no tempo (Brockett, 1982). No entanto, apesar disto, o sis-tema é controlável (Astolfi, 1994).

Considera-se, aqui, um mapeamento do es-pa¸co de estados para o eses-pa¸co de entradas pro-posto por Lages e Hemerly (1998), que permite a obten¸cão de uma lei de controle assintoticamente estável. Se o mapeamento for representado por g : X _{→ U, x ∈ X e u ∈ U, então o sistema} autônomo

˙x = f (x, g(x))

onde f (· , · ) é descrito por (1), é assintotica-mente estável na origem. No entanto, deseja-se estabilizar o robô em qualquer ponto xr, ou

seja, qualquer posi¸c˜ao e orienta¸c˜ao (xr1, xr2, xr3).

Isso pode ser feito pela mudan¸ca de coordenadas ¯

x(x, xr),obtida pela transforma¸c˜ao

¯

x=R(xr3) 0

0 1

(x_{− x}r) (9)

onde R(xr3) ´e uma matriz de rota¸c˜ao 2-D , ou

seja, R(xr3) = cos xr3 sen xr3 − sen xr3 cos xr3 .

Logo, se o sistema ˙¯x= f (¯x, g(¯x)) ´e est´avel em ¯

x= 0, então ˙x = f (x, g(x)) é estável em x = xr.

Portanto, para estabilizar o sistema em qualquer ponto arbitr´ario xr, com base na lei de controle

g que leva o estado para a origem, ´e suﬁciente utilizar g(¯x) (Sørdalen, 1993).

Aqui, o resultado da estima¸cão de estados é um conjunto de part´ıculas. Esta estimativa pode ter pontos agrupados em torno de regiões distin-tas do espa¸co de estados, devido a cren¸cas mul-timodais. Como consequência, nem estimadores baseados em média quadrática, nem estimadores baseados em valor esperado produzem resultados apropriados e o princ´ıpio da equivalência a certeza não pode ser aplicado. Propõe-se, neste caso, ge-rar o sinal de controle a partir da cren¸ca atual do estado considerando o sinal de controle que seria

(4)

gerado para cada part´ıcula pertencente à cren¸ca do estado, mapeando-se com isto a cren¸ca do es-tado para o espa¸co de entradas do sistema, cuja distribui¸cão refletirá os valores adequados para a entrada do sistema.

A cada instante de amostragem k, a cren¸ca belp(x(k)) representa os poss´ıveis valores para o

vetor de estado. Para cada part´ıcula xi(k), desta

cren¸ca, uma part´ıcula de controle ui(k) ´e obtida

por

ui(k) = g (¯xi(k)) ,

com ¯xi(k) computada por (9), resultando

belp(u(k)) ={u1(k), u2(k), . . . , uM(k)} (10)

onde g (¯xi(k)) ´e um mapeamento apropriado do

espa¸co de estados para o espa¸co de entradas. Para cada part´ıcula da cren¸ca do estado, ´e utilizada a seguinte transforma¸c˜ao de coordena-das (Lages e Hemerly, 1998):

e = q ¯ x2 1+ ¯x22 (11) ψ = atan2(¯x2, ¯x1) (12) α = ¯x3− ψ, (13)

que, com o sinal de controle ui(k) =

[ui1(k) ui2(k)] T ui1 =−γ1e cos α (14) ui2 =−γ2α− γ1cos α sen α α (α− hψ), (15) com h, γ1, γ2 > 0, faz (1) ser assintoticamente

est´avel (Lages e Hemerly, 1998). Consequente-mente, a cren¸ca de controle cont´em os sinais de controle que estabilizam em um ponto as part´ıcu-las da cren¸ca do estado.

O critério para escolher um vetor de controle dentre as part´ıculas pertencentes à belp(u(k)) é

selecionar a part´ıcula com o maior suporte local, ou seja, escolher a part´ıcula cujas vizinhas tam-b´em est˜ao contidas em belp(u(k)). A vizinhan¸ca

de cada part´ıcula ui(k) foi escolhida com uma

re-gi˜ao elipsoidal_Si, centrada em ui(k), dada por

Si= u(k) : (u1− ui1) 2 a2 1 +(u2− ui2) 2 a2 2 < 1 , onde a1 e a2s˜ao os raios da elipse.

3.3 Filtro de Kalman Estendido

Para avaliar o desempenho da estratégia de con-trole proposta, que usa um filtro de part´ıculas e uma nuvem de sinais de controle, será feita uma compara¸cão com a estratégia clássica de utilizar um filtro de Kalman estendido e calcular-se o con-trole utilizando-se o princ´ıpio da equivalência à certeza. Ressalte-se que em ambos os casos será utilizado o mesmo mapeamento de estados para entradas apresentado na se¸cão 3.2.

Os dois casos consideram aproxima¸cões para gerar uma estimativa para o estado. O filtro de part´ıcula produz uma estimativa representada por um conjunto de valores poss´ıveis, as part´ıculas, que são uma aproxima¸cão da distribui¸cão de pro-babilidade conjunta dos estados. O filtro de Kal-man estendido produz uma aproxima¸cão da dis-tribui¸cão de probabilidade conjunta dos estados dada por uma gaussiana multivariável e considera uma aproxima¸cão das fun¸cões de transi¸cão de es-tados e de observa¸cão dadas pelo primeiro termo da expansão em série de Taylor das respectivas fun¸cões.

A atualiza¸cão da estimativa do estado feita pelo filtro de Kalman estendido é baseada no ga-nho de Kalman e na observa¸cão. Como a cren¸ca é resumida por uma média (ˆx(k)) e uma matriz de covariância Q(k), as equa¸cões de atualiza¸cão podem ser escritas em fun¸cão destas variáveis. As equa¸cões do filtro também dependem do Jacobi-ano F(k) de fd(· ) F(k) = ∂fd(x(k), u(k)) ∂x(k) x(k)=ˆx(k) =     1 0 −T u1(k) sinc _{T u} 2(k) 2 senx3(k) +T u2₂(k) 0 1 T u1(k) sinc T u2(k) 2 cosx3(k) +T u2₂(k) 0 0 1     ; do jacobiano H(k) de h(· ), H(k) = ∂h(x(k), u(k)) ∂x(k) _x(k)=ˆ_x(k) = I;

e das matrizes de covariˆancia Q(k) e R(k), relati-vas `as incertezas de fd(· ) e h( · ), respectivamente.

As etapas de atualiza¸cão da estimativa do es-tado e predi¸cão são computadas conforme as equa-¸cões usuais do filtro de Kalman estendido.

4 Resultados de Simula¸c˜ao

O robô foi simulado através do modelo estocás-tico em tempo cont´ınuo dado por (3), integrado utilizando-se um algoritmo de Runge-Kutta de 4a _{ordem. O filtro de part´ıculas utilizou na sua}

etapa de predi¸cão o modelo estocástico do robô em tempo discreto, dado por (4). Os parâmetros das incertezas foram σt= 0, 005 e σD= 0, 1745rad/m.

A matriz de covariˆancia da observa¸c˜ao foi P = diag(σy1, σy2, σy2), com σy1 = σy2 = 0.1 m e σy3=

1◦_{. A velocidade m´axima das rodas ´e 0.471 m/s.}

O per´ıodo de amostragem do controle ´e T = 50ms e o GPS fornece medidas (com incertezas) a cada 200 ms. Um total de 900 part´ıculas foram usadas para estima¸c˜ao de estados, sendo que na cren¸ca inicial todas foram espa¸cadas igualmente em uma ´

area de 1m2 _{centrada em x(0). Os parˆ}_{ametros do}

controlador foram γ1 = 0, 5, γ2 = 0, 5 rh = 1, 0.

Os raios do elipsoide utilizado para determinar a vizinhan¸ca do sinal de controle foram 0, 05 e 0, 2. A pose inicial foi x(0) =4 0 πTe a referˆencia foi ajustada em xr=1.0 3.0 −π/2

T

(5)

A cren¸ca do controle em k = 0 é mostrada na figura 1. Como as part´ıculas da cren¸ca inicial do estado estão estruturadas em uma grade, a cren¸ca do controle resultante mantém parte daquela es-trutura. 1.25 1.3 1.35 1.4 1.45 1.5 1.55 1.6 1.65 1.7 1.75 −2.3 −2.25 −2.2 −2.15 −2.1 −2.05 u1 (m/s) u2 (rad/s)

Figura 1: Cren¸ca do controle em k = 0. A cren¸ca do estado em k = 50 é mostrada na figura 2. A figura 3 mostra a sua proje¸cão no plano X1× X2 com a orienta¸cão omitida. A cren¸ca do

controle correspondente ´e mostrada na ﬁgura 4.

2.85 2.9 2.95 3 3.05 1.15 1.2 1.25 1.3 1.35 1.4 0.34 0.36 0.38 0.4 0.42 0.44 0.46 x3 x1 x2

Figura 2: Cren¸ca do estado em k = 50.

2.85 2.9 2.95 3 3.05 1.15 1.2 1.25 1.3 1.35 x1 (m) x2 (m)

Figura 3: Proje¸c˜ao da cren¸ca do estado em k = 50 no plano X1× X2.

A figura 5 mostra os sinais de controle em fun¸cão do tempo. A trajetória do robô no plano é mostrada na figura 6, juntamente com a tra-jetória gerada pelo método utilizando filtro de

−0.64 −0.62 −0.6 −0.58 −0.56 −0.54 −0.52 −0.5 −0.65 −0.64 −0.63 −0.62 −0.61 −0.6 −0.59 −0.58 −0.57 −0.56 u1 (m/s) u2 (rad/s)

Figura 4: Cren¸ca do controle em k = 50.

0 200 400 600 800 1000 1200 1400 −1 −0.5 0 0.5 1 1.5 2 k u1 (m/s) 0 200 400 600 800 1000 1200 1400 −3 −2 −1 0 1 2 k u2 (rad/s)

Figura 5: Sinais de controle em fun¸cão do tempo. Linha sólida: método proposto. Linha pontilhada: EKF e equivalência à certeza.

Kalman estendido. A posi¸cão final do robô é x(k) =_{1, 044 3, 090 −1, 571}T.

O experimento foi repetido 50 vezes, como forma de verificar os efeitos estocásticos em re-gime. A média e o desvio padrão do estado no ´

ultimo instante de amostragem são mostrados na tabela 1. A tabela 2 mostra os resultados equiva-lentes utilizando o filtro de Kalman estendido e o princ´ıpio da equivalência à certeza. Nota-se que, embora os valores das médias sejam semelhantes para ambos os controladores, utilizando-se a estra-tégia proposta neste artigo tem-se desvios padrão bem menores, o que significa que o desempenho do controlador é bem mais consistente e robusto `

as incertezas presentes no sistema do que a estra-t´egia de utilizar EKF com um controlador baseado na equivalˆencia a certeza.

Tabela 1: Pose final média e desvio padrão com o método proposto.

M´edia Desvio padr˜ao x1 (m) 0, 9973 0, 0203

x2 (m) 3, 0027 0, 0139

(6)

0.5 1 1.5 2 2.5 3 3.5 4 0 0.5 1 1.5 2 2.5 3 3.5 x1 (m) x2 (m)

Figura 6: Trajetória do robô. Linha sólida: mé-todo proposto. Linha pontilhada: EKF e equiva-lência à certeza.

Tabela 2: Pose final média e desvio padrão com EKF e equivalência à certeza.

M´edia Desvio padr˜ao x1 (m) 1, 0538 0, 2750

x2 (m) 2, 9276 0, 2127

x3(rad) −1, 4310 0, 4977

5 Conclus˜oes

Um método para controlar um robô móvel com acionamento diferencial que pode acomodar in-certezas não gaussianas na transi¸cão de estados e nos sensores foi proposto neste artigo e teve seu desempenho comparado com o enfoque clássico de utilizar um filtro de Kalman estendido e o princ´ı-pio da equivalência à certeza.

Foi utilizada uma estratégia e estima¸cão de estados baseada em filtro de part´ıculas e a nu-vem de part´ıculas representando a cren¸ca do es-tado foi mapeada para o espa¸co de entradas atra-vés da utiliza¸cão de uma lei de controle não su-ave, resultando em uma distribui¸cão de part´ıcu-las no espa¸co de entradas, representando a cren¸ca do controle. O sinal de controle foi então obtido desta cren¸ca através de um método que consi-dera o suporte local para o sinal de controle com maior probabilidade. Embora os valores das mé-dias dos erros sejam semelhantes para ambos os controladores, utilizando-se a estratégia proposta neste artigo tem-se desvios padrão bem menores, o que significa que o desempenho do controlador é bem mais consistente e robusto às incertezas pre-sentes no sistema do que a estratégia de utilizar EKF com um controlador baseado na equivalência `

a certeza.

Agradecimentos

Os autores agradecem à CAPES e à FAPERGS pelo apoio financeiro.

Referˆencias

Anderson, B. D. O. e Moore, J. B. (1989). Op-timal Control: Linear Quadratic Methods, Prentice-Hall Information and System Scien-ces Series, Prentice-Hall, Englewood Cliﬀs, NJ, USA.

Astolﬁ, A. (1994). On the stabilization of nonholo-nomic systems, Proceedings of the 33rd IEEE American Conference on Decision and Con-trol, Piscataway, NJ, IEEE Press, Lake Bu-ena Vista, FL, pp. 3481–3486.

Baral, C., Kreinovich, V. e Trejo, R. (2000). Com-putational complexity of planning and appro-ximate planning in the presence of incom-pleteness, Artificial Intelligence 122(1): 241– 267.

Blanco, J.-L., González, J. e Fernández-Madrigal, J.-A. (2010). Optimal filtering for non-parametric observation models: Applications to localization and slam, International Jour-nal of Robotics Research 29(14): 1726–1742. Brockett, R. W. (1982). New Directions in Applied

Mathematics, Springer-Verlag, New York. Kaelbling, L. P., Cassandra, A. R. e Littman,

M. L. (1998). Planning and acting in parti-ally observable stochastic domains, Artificial Intelligence 101(1): 99–134.

Lages, W. F. (1998). Controle e Estima¸cão de Posi¸cão e Orienta¸cão de Robôs Móveis, Tese de doutorado, Instituto Tecnológico de Aero-náutica, São José dos Campos, SP. Orienta-dor: Elder M. Hemerly.

Lages, W. F. e Hemerly, E. M. (1998). Smo-oth time-invariant control of wheeled mobile robots, Proceedings of The XIII Internatio-nal Conference on Systems Science, Techni-cal University of Wroc law, Wroc law, Poland. Littman, M. L., Cassandra, A. R. e Kaelbling, L. P. (1995). Eﬃcient dynamic-programming updates in partially observable markov de-cision processes, Technical Report CS-95-19, Brown University, Providence, RI, USA. Rekleitis, I. M. (2004). A particle ﬁlter

tuto-rial for mobile robot localization, Technical Report TR-CIM-04-02, Centre for Intelligent Machines, McGill University, Montreal, Qu´e-bec, Canada.

Sørdalen, O. J. (1993). Feedback Control of Nonholonomic Mobile Robots, Thesis (dr. ing.), The Norwegian Institute of Technology, Trondheim, Norway.

Thrun, S., Burgard, W. e Fox, D. (2005). Probabi-listic Robotics, MIT Press, Cambridge, MA.