• Nenhum resultado encontrado

UM CONTROLADOR PARA ROBÔS MÓVEIS BASEADO EM NUVEM DE PARTÍCULAS

N/A
N/A
Protected

Academic year: 2021

Share "UM CONTROLADOR PARA ROBÔS MÓVEIS BASEADO EM NUVEM DE PARTÍCULAS"

Copied!
6
0
0

Texto

(1)

UM CONTROLADOR PARA ROB ˆOS M ´OVEIS BASEADO EM NUVEM DE PART´ICULAS

Jorge Augusto Vasconcelos Alves∗, Walter Fetter Lages∗ ∗Universidade Federal do Rio Grande do Sul

Departamento de Engenharia El´etrica Av. Osvaldo Aranha, 103 90035-190 Porto Alegre, RS, Brasil

Emails: jorge@ece.ufrgs.br, fetter@ece.ufrgs.br

Abstract— Common control systems for mobile robots include the use of deterministic control laws together

with state estimation approaches and the consideration of the certainty equivalence principle. Recent approaches consider the use of partially observable Markov decision process strategies together with Bayesian estimators. In order to reduce processing power and yet allow for multimodal or non-Gaussian distributions, a scheme based on a particle filter and a corresponding cloud of input signals is proposed in this paper. Results are presented and compared to a scheme with extended Kalman filter and the assumption that the certainty equivalence holds.

Keywords— Mobile robotics, Particle filter, Nonlinear control, Stochastic control, Stochastic estimation.

Resumo— O controle usual de robˆos m´oveis inclui o uso de leis de controle determin´ısticas juntamente com

estimadores de estados e a considera¸c˜ao do princ´ıpio da equivalˆencia `a certeza. Resultados recentes consideram

o uso de processo de decis˜ao de Markov parcialmente observ´aveis juntamente com o uso de estimadores

bayesi-anos. De forma a reduzir o esfor¸co computacional e mesmo assim considerar distribui¸c˜oes multimodais ou n˜ao

gaussianas, este artigo prop˜oe um esquema baseado em um filtro de part´ıculas para estima¸c˜ao do estado e uma

nuvem de part´ıculas para os sinais de controle. Os resultados s˜ao comparados com um esquema utilizando o

filtro de Kalman estendido e o princ´ıpio da equivalˆencia a certeza.

Palavras-chave— Robˆos m´oveis, Filtro de part´ıculas, Controle n˜ao linear, Controle estoc´astico, Estima¸c˜ao

estoc´astica.

1 Introdu¸c˜ao ´

E sabido que robˆos m´oveis est˜ao sujeitos `a incer-teza tanto no seu comportamento quanto no am-biente no qual o robˆo navega (Thrun et al., 2005). O enfoque cl´assico para estima¸c˜ao de estados e controle de sistemas estoc´asticos ´e considerar o valor esperado das vari´aveis de estado e o prin-c´ıpio da equivalˆencia `a certeza (Anderson e Mo-ore, 1989). No entanto, enfoques baseados no va-lor esperado n˜ao podem ser utilizados quando dis-tribui¸c˜oes multimodais, ou mesmo assim´etricas, est˜ao presentes. Por outro lado, distribui¸c˜oes as-sim´etricas ou multimodais podem surgir devido `a fus˜ao de sensores e problemas t´ıpicos de rob´ o-tica (Kaelbling et al., 1998). Adicionalmente, a dinˆamica n˜ao linear frequentemente gera distribui-¸c˜oes multimodais ou assim´etricas a partir de dis-tribui¸c˜oes normais ou sim´etricas. O estado da arte atual para tratar incertezas, especialmente as com distribui¸c˜oes de probabilidade n˜ao gaussianas, ´e utilizar filtros bayesianos para estimar o estado do sistema e ent˜ao obter um sinal de controle ba-seado no resultados da estima¸c˜ao. Tipicamente, o resultado da estima¸c˜ao ´e uma densidade de proba-bilidade ou um histograma ou um conjunto de par-t´ıculas ou probabilidades sobre um mapa topol´ o-gico. Este sinal pode ser obtido a partir de um dos modos da distribui¸c˜ao ou atrav´es de otimiza¸c˜ao, como nos enfoques de processo de decis˜ao de Mar-kov parcialmente observ´aveis (POMDP) (Blanco et al., 2010; Thrun et al., 2005). O uso de POMDP

para sistemas com estados cont´ınuos requer apro-xima¸c˜oes, pois caso contr´ario, o problema torna-se intrat´avel (Baral et al., 2000; Littman et al., 1995). Este artigo prop˜oe um esquema de controle para um robˆo m´ovel com acionamento diferencial que mapeia um conjunto de poss´ıveis estados em um espa¸co de sinais de controle. Tanto as transi-¸c˜oes de estado quanto as observatransi-¸c˜oes s˜ao sujeitas `a incerteza. Portanto, um filtro de part´ıculas ´e pro-posto para estima¸c˜ao de estados. No entanto, a es-timativa do estado n˜ao ´e considerada como sendo apenas um vetor, mas toda a nuvem de part´ıcu-las que representa a probabilidade de cada vetor de estado. A seguir, uma lei de controle global-mente est´avel ´e considerada para o mapeamento da nuvem de part´ıculas no espa¸co de estados em um nuvem de part´ıculas no espa¸co de entradas da planta. O sinal de entrada a ser efetivamente aplicado no robˆo ´e, ent˜ao, escolhido entre os per-tencentes `as regi˜oes mais populadas do espa¸co de entradas.

2 Descri¸c˜ao do Sistema

A cinem´atica de um robˆo m´ovel com acionamento diferencial movendo-se em um plano horizontal pode ser descrita, em tempo cont´ınuo por

˙x = f (x, u) =   cos x3 0 sen x3 0 0 1  u (1)

(2)

onde x = x1 x2 x3 T

´e o vetor de estados e u= u1 u2

T

´e o vetor de entradas. As vari´a-veis de estado x1e x2s˜ao as coordenadas no plano,

x3 ´e o ˆangulo de orienta¸c˜ao, e as vari´aveis de

en-trada u1 e u2 s˜ao as velocidades linear e angular,

respectivamente.

Uma realiza¸c˜ao em tempo discreto (Lages, 1998) ´e dada por

x(k + 1) = fd(x(k), u(k)) (2) = x(k) +     T u1(k) h sincT u2(k) 2  cosx3(k) +T u22(k) i T u1(k) h sincT u2(k) 2  senx3(k) +T u22(k) i T u2(k)    

onde sinc x, sen x

x e T ´e o per´ıodo de

amostra-gem.

O comportamento do robˆo pode ser melhor descrito por modelos estoc´asticos, como descrito por Thrun et al. (2005) e Rekleitis (2004).

Os efeitos estoc´asticos podem ser observados no movimento do robˆo como uma deriva com re-la¸c˜ao `a trajet´oria nominal, tanto na distˆancia tra-fegada quanto na orienta¸c˜ao. Estes erros cres-cem com o tempo, e portanto, ser˜ao modelados aqui como velocidades lineares e angulares incer-tas. Adicionalmente, os efeitos estoc´asticos est˜ao fortemente relacionados com a velocidade linear do robˆo (Rekleitis, 2004). Assim, a vers˜ao esto-c´astica de (1) ´e ˙x(t) = f (x(t), u(t) + w(t)) , (3) com w(t) = u1(t)wt(t) wD(t) T , onde wt(t) ∼ N 0, σ2

t e wD(t)∼ N 0, σ2D s˜ao processos

gaus-sianos representando as incertezas nas velocidades linear e angular, respectivamente.

Para obter um modelo discreto que pode re-presentar adequadamente a incerteza de orienta-¸c˜ao em k + 1, ser´a assumido aqui, com base em Rekleitis (2004), que metade dos efeitos da incer-teza na velocidade angular atua atrav´es da transi-¸c˜ao de estado, portanto afetando tanto a positransi-¸c˜ao quanto a orienta¸c˜ao em k + 1, e a outra metade atua diretamente na orienta¸c˜ao em k + 1. Conse-quentemente, a incerteza wD(t) no modelo

cont´ı-nuo ser´a representada por duas incertezas no mo-delo discreto: wd1(k)∼ N 0, σ

2

d, que atua

atra-v´es da transi¸c˜ao de estado e wd2(k)∼ N 0, σ

2 d,

que atua diretamente no estado em k + 1. Os efei-tos de wt(t) podem ser mapeados diretamente em

wt(k)∼ N 0, σt2. Logo, o modelo discreto pode

ser escrito como:

x(k + 1) = fd(x(k), u(k) + w1(k)) + w2(k), (4)

onde a transi¸c˜ao de estados fd(· , · ) ´e dada por

(2) e w1(k), u1(k) wwt(k) d1k)  , w2(k), T u1(k)   0 0 wd2(k)  

Como assume-se que wd1(k) e wd2(k)

repre-sentam metade dos efeitos de wD(t), sua variˆancia

deve ser a metade de σ2 D, ou σd= σD √ 2. ´

E importante notar que embora w1(k), w1(k)

e w2(k) apare¸cam como termos aditivos em (3) e

(4), eles n˜ao s˜ao, na realidade, incerteza aditiva, pois dependem da velocidade linear u1(k) e tanto

f (· , · ) quanto fd(· , · ) s˜ao n˜ao lineares.

O modelo (4) ser´a utilizado para estimar as transi¸c˜oes de estado para um conjunto de poss´ıveis valores do vetor de estado, como ser´a explicado em detalhes na se¸c˜ao 3.1. ´E importante notar que mesmo que wt(k), wd1(k) e wd2(k) sejam

assumi-dos gaussianos, o estado resultante x(k + 1) n˜ao ´e gaussiano, devido `as n˜ao-linearidades. O modelo (3) ser´a usado para simular o robˆo na se¸c˜ao 4, en-quanto o modelo (4) ser´a utilizado para estima¸c˜ao de estado.

3 Sistema de Controle 3.1 Estima¸c˜ao de Estado

Robˆos m´oveis n˜ao podem, em geral, determinar sua pose (i.e., posi¸c˜ao e orienta¸c˜ao) atrav´es de sensores internos. A sua pose deve ser estimada. Aqui assume-se que o robˆo est´a equipado com en-codersincrementais nas rodas e um GPS. As leitu-ras dos encoders s˜ao consideradas como medidas das entradas de velocidade do robˆo, enquanto o GPS fornece uma medida da pose. Tanto as lei-turas dos encoders quando as leilei-turas do GPS s˜ao corrompidas por incertezas, de forma que n˜ao ´e poss´ıvel saber-se a pose real do robˆo. Al´em disso, as medidas dos encoders est˜ao dispon´ıveis a cada instante de amostragem, enquanto as observa¸c˜oes do GPS s˜ao dispon´ıveis a uma taxa menor do que a taxa de amostragem do sistema.

Como as leituras dos encoders s˜ao mapeadas como medidas das entradas do sistema, u(k), o ve-tor de observa¸c˜ao y(k), corrompido pela incerteza v(k), ´e restrito `a observa¸c˜ao do GPS

y(k) = h (x(k), v(k)) = x(k) + v(k). (5) O filtro de part´ıculas, no entanto, poderia ser estendido para considerar outros sensores, in-cluindo sensores de outros tipos, simplesmente considerando-os na defini¸c˜ao de h (x(k), v(k)).

Note que para outros tipos de sensores, o ma-peamento de x(k) e v(k) em y(k) pode ser n˜ao linear e que quando sensores redundantes forem usados, a dimens˜ao de y(k) pode ser maior do que a de x(k).

(3)

Como ´e o caso para muitas t´ecnicas de filtra-gem bayesiana, os algoritmos de filtro de part´ıcu-las podem ser divididos em dois est´agios, denomi-nados predi¸c˜ao e atualiza¸c˜ao. O funcionamento do filtro de part´ıculas ´e resumido a seguir. Uma des-cri¸c˜ao mais detalhada est´a dispon´ıvel em Thrun et al. (2005).

A cada instante de amostragem, os poss´ıveis valores do vetor de estado xi(k), i∈ [1, M], s˜ao

considerados, com base nas observa¸c˜oes anteriores do sistema. Cada vetor xi(k) ´e denominado uma

part´ıcula e M ´e o n´umero total de part´ıculas. A cren¸ca do estado belp(x(k)) ´e dada pelo conjunto

de todas as part´ıculas, ou seja:

belp(x(k)) ={x1(k), x2(k), . . . , xM(k)}. (6)

A cren¸ca do estado ´e uma aproxima¸c˜ao de uma fun¸c˜ao de densidade de probabilidade no seguinte sentido: regi˜oes do espa¸co de estados com um n´ u-mero relativamente grande de part´ıculas tem altos valores de densidade de probabilidade, enquanto regi˜oes com relativamente poucas part´ıculas repre-sentam baixos valores de densidade de probabili-dade.

A etapa de predi¸c˜ao do algoritmo calcula a cren¸ca a priori do estado no instante k + 1, belp(x(k + 1)), a partir da cren¸ca do estado no

instante k e do vetor de entradas do sistema. Para cada part´ıcula da cren¸ca do estado, uma nova par-t´ıcula ´e gerada conforme a fun¸c˜ao de transi¸c˜ao de estado do sistema (4), com os termos de incerteza obtidos de um gerador de n´umeros aleat´orios com distribui¸c˜ao apropriada, o que pode ser feito para qualquer distribui¸c˜ao. A cren¸ca a priori do estado ´e denotada por

belp(x(k + 1)) = {x1(k+1), x2(k+1), . . . , xM(k+1)},

(7) onde cada part´ıcula xi(k + 1), i∈ [1, M], ´e obtida

de

xi(k + 1) = fd(xi(k), u(k) + w1i(k)) + w2i(k).

(8) O conjunto de part´ıculas belp(x(k + 1)) ´e

ob-tido sem informa¸c˜ao da observa¸c˜ao do sistema em k + 1: ´e calculado apenas a partir da con-junto de part´ıculas belp(x(k)) e as entradas da

planta. Este conjunto de part´ıculas ´e, ent˜ao, atualizado com a informa¸c˜ao das observa¸c˜oes, obtendo-se a nova cren¸ca do estado no instante k + 1, belp(x(k + 1)). Isto ´e feito a partir do

chamado fator de importˆancia ιi(k + 1) de cada

part´ıcula xi(k + 1), dado por

ιi(k) = fy(y(k)|xi(k)) , com fy(y(k)|x(k)) = e(−12[y(k)−Cx(k)] T P[y(k)−Cx(k)]) p(2π)n|P| ,

onde P ´e a matriz de covariˆancia da incerteza e n ´e o n´umero de linhas de y(k).

A cren¸ca do estado belp(x(k + 1)) ´e obtida

atrav´es da sele¸c˜ao das part´ıculas, entre aquelas em belp(x(k + 1)), com uma probabilidade

pro-porcional ao seu fator de importˆancia (Thrun et al., 2005).

A atualiza¸c˜ao da cren¸ca requer que seja feita uma observa¸c˜ao. Neste artigo, o GPS ´e conside-rado ter um per´ıodo de amostragem maior do que o dos encoders incrementais. Como resultado, a etapa de atualiza¸c˜ao n˜ao ocorre a cada instante de amostragem, mas apenas quando as observa-¸c˜oes do GPS s˜ao obtidas.

3.2 Controle

Um resultado importante sobre o controle de robˆos m´oveis ´e que n˜ao ´e poss´ıvel estabilizar assintotica-mente o sistema em um ponto arbitr´ario atrav´es de uma lei de controle suave e invariante no tempo (Brockett, 1982). No entanto, apesar disto, o sis-tema ´e control´avel (Astolfi, 1994).

Considera-se, aqui, um mapeamento do es-pa¸co de estados para o eses-pa¸co de entradas pro-posto por Lages e Hemerly (1998), que permite a obten¸c˜ao de uma lei de controle assintoticamente est´avel. Se o mapeamento for representado por g : X → U, x ∈ X e u ∈ U, ent˜ao o sistema autˆonomo

˙x = f (x, g(x))

onde f (· , · ) ´e descrito por (1), ´e assintotica-mente est´avel na origem. No entanto, deseja-se estabilizar o robˆo em qualquer ponto xr, ou

seja, qualquer posi¸c˜ao e orienta¸c˜ao (xr1, xr2, xr3).

Isso pode ser feito pela mudan¸ca de coordenadas ¯

x(x, xr),obtida pela transforma¸c˜ao

¯

x=R(xr3) 0

0 1



(x− xr) (9)

onde R(xr3) ´e uma matriz de rota¸c˜ao 2-D , ou

seja, R(xr3) =  cos xr3 sen xr3 − sen xr3 cos xr3  .

Logo, se o sistema ˙¯x= f (¯x, g(¯x)) ´e est´avel em ¯

x= 0, ent˜ao ˙x = f (x, g(x)) ´e est´avel em x = xr.

Portanto, para estabilizar o sistema em qualquer ponto arbitr´ario xr, com base na lei de controle

g que leva o estado para a origem, ´e suficiente utilizar g(¯x) (Sørdalen, 1993).

Aqui, o resultado da estima¸c˜ao de estados ´e um conjunto de part´ıculas. Esta estimativa pode ter pontos agrupados em torno de regi˜oes distin-tas do espa¸co de estados, devido a cren¸cas mul-timodais. Como consequˆencia, nem estimadores baseados em m´edia quadr´atica, nem estimadores baseados em valor esperado produzem resultados apropriados e o princ´ıpio da equivalˆencia a certeza n˜ao pode ser aplicado. Prop˜oe-se, neste caso, ge-rar o sinal de controle a partir da cren¸ca atual do estado considerando o sinal de controle que seria

(4)

gerado para cada part´ıcula pertencente `a cren¸ca do estado, mapeando-se com isto a cren¸ca do es-tado para o espa¸co de entradas do sistema, cuja distribui¸c˜ao refletir´a os valores adequados para a entrada do sistema.

A cada instante de amostragem k, a cren¸ca belp(x(k)) representa os poss´ıveis valores para o

vetor de estado. Para cada part´ıcula xi(k), desta

cren¸ca, uma part´ıcula de controle ui(k) ´e obtida

por

ui(k) = g (¯xi(k)) ,

com ¯xi(k) computada por (9), resultando

belp(u(k)) ={u1(k), u2(k), . . . , uM(k)} (10)

onde g (¯xi(k)) ´e um mapeamento apropriado do

espa¸co de estados para o espa¸co de entradas. Para cada part´ıcula da cren¸ca do estado, ´e utilizada a seguinte transforma¸c˜ao de coordena-das (Lages e Hemerly, 1998):

e = q ¯ x2 1+ ¯x22 (11) ψ = atan2(¯x2, ¯x1) (12) α = ¯x3− ψ, (13)

que, com o sinal de controle ui(k) =

[ui1(k) ui2(k)] T ui1 =−γ1e cos α (14) ui2 =−γ2α− γ1cos α sen α α (α− hψ), (15) com h, γ1, γ2 > 0, faz (1) ser assintoticamente

est´avel (Lages e Hemerly, 1998). Consequente-mente, a cren¸ca de controle cont´em os sinais de controle que estabilizam em um ponto as part´ıcu-las da cren¸ca do estado.

O crit´erio para escolher um vetor de controle dentre as part´ıculas pertencentes `a belp(u(k)) ´e

selecionar a part´ıcula com o maior suporte local, ou seja, escolher a part´ıcula cujas vizinhas tam-b´em est˜ao contidas em belp(u(k)). A vizinhan¸ca

de cada part´ıcula ui(k) foi escolhida com uma

re-gi˜ao elipsoidalSi, centrada em ui(k), dada por

Si=  u(k) : (u1− ui1) 2 a2 1 +(u2− ui2) 2 a2 2 < 1  , onde a1 e a2s˜ao os raios da elipse.

3.3 Filtro de Kalman Estendido

Para avaliar o desempenho da estrat´egia de con-trole proposta, que usa um filtro de part´ıculas e uma nuvem de sinais de controle, ser´a feita uma compara¸c˜ao com a estrat´egia cl´assica de utilizar um filtro de Kalman estendido e calcular-se o con-trole utilizando-se o princ´ıpio da equivalˆencia `a certeza. Ressalte-se que em ambos os casos ser´a utilizado o mesmo mapeamento de estados para entradas apresentado na se¸c˜ao 3.2.

Os dois casos consideram aproxima¸c˜oes para gerar uma estimativa para o estado. O filtro de part´ıcula produz uma estimativa representada por um conjunto de valores poss´ıveis, as part´ıculas, que s˜ao uma aproxima¸c˜ao da distribui¸c˜ao de pro-babilidade conjunta dos estados. O filtro de Kal-man estendido produz uma aproxima¸c˜ao da dis-tribui¸c˜ao de probabilidade conjunta dos estados dada por uma gaussiana multivari´avel e considera uma aproxima¸c˜ao das fun¸c˜oes de transi¸c˜ao de es-tados e de observa¸c˜ao dadas pelo primeiro termo da expans˜ao em s´erie de Taylor das respectivas fun¸c˜oes.

A atualiza¸c˜ao da estimativa do estado feita pelo filtro de Kalman estendido ´e baseada no ga-nho de Kalman e na observa¸c˜ao. Como a cren¸ca ´e resumida por uma m´edia (ˆx(k)) e uma matriz de covariˆancia Q(k), as equa¸c˜oes de atualiza¸c˜ao podem ser escritas em fun¸c˜ao destas vari´aveis. As equa¸c˜oes do filtro tamb´em dependem do Jacobi-ano F(k) de fd(· ) F(k) = ∂fd(x(k), u(k)) ∂x(k) x(k)=ˆx(k) =     1 0 −T u1(k) sinc T u 2(k) 2  senx3(k) +T u22(k)  0 1 T u1(k) sinc  T u2(k) 2  cosx3(k) +T u22(k)  0 0 1     ; do jacobiano H(k) de h(· ), H(k) = ∂h(x(k), u(k)) ∂x(k) x(k)=ˆx(k) = I;

e das matrizes de covariˆancia Q(k) e R(k), relati-vas `as incertezas de fd(· ) e h( · ), respectivamente.

As etapas de atualiza¸c˜ao da estimativa do es-tado e predi¸c˜ao s˜ao computadas conforme as equa-¸c˜oes usuais do filtro de Kalman estendido.

4 Resultados de Simula¸c˜ao

O robˆo foi simulado atrav´es do modelo estoc´as-tico em tempo cont´ınuo dado por (3), integrado utilizando-se um algoritmo de Runge-Kutta de 4a ordem. O filtro de part´ıculas utilizou na sua

etapa de predi¸c˜ao o modelo estoc´astico do robˆo em tempo discreto, dado por (4). Os parˆametros das incertezas foram σt= 0, 005 e σD= 0, 1745rad/m.

A matriz de covariˆancia da observa¸c˜ao foi P = diag(σy1, σy2, σy2), com σy1 = σy2 = 0.1 m e σy3=

1◦. A velocidade m´axima das rodas ´e 0.471 m/s.

O per´ıodo de amostragem do controle ´e T = 50ms e o GPS fornece medidas (com incertezas) a cada 200 ms. Um total de 900 part´ıculas foram usadas para estima¸c˜ao de estados, sendo que na cren¸ca inicial todas foram espa¸cadas igualmente em uma ´

area de 1m2 centrada em x(0). Os parˆametros do

controlador foram γ1 = 0, 5, γ2 = 0, 5 rh = 1, 0.

Os raios do elipsoide utilizado para determinar a vizinhan¸ca do sinal de controle foram 0, 05 e 0, 2. A pose inicial foi x(0) =4 0 πTe a referˆencia foi ajustada em xr=1.0 3.0 −π/2

T

(5)

A cren¸ca do controle em k = 0 ´e mostrada na figura 1. Como as part´ıculas da cren¸ca inicial do estado est˜ao estruturadas em uma grade, a cren¸ca do controle resultante mant´em parte daquela es-trutura. 1.25 1.3 1.35 1.4 1.45 1.5 1.55 1.6 1.65 1.7 1.75 −2.3 −2.25 −2.2 −2.15 −2.1 −2.05 u1 (m/s) u2 (rad/s)

Figura 1: Cren¸ca do controle em k = 0. A cren¸ca do estado em k = 50 ´e mostrada na figura 2. A figura 3 mostra a sua proje¸c˜ao no plano X1× X2 com a orienta¸c˜ao omitida. A cren¸ca do

controle correspondente ´e mostrada na figura 4.

2.85 2.9 2.95 3 3.05 1.15 1.2 1.25 1.3 1.35 1.4 0.34 0.36 0.38 0.4 0.42 0.44 0.46 x3 x1 x2

Figura 2: Cren¸ca do estado em k = 50.

2.85 2.9 2.95 3 3.05 1.15 1.2 1.25 1.3 1.35 x1 (m) x2 (m)

Figura 3: Proje¸c˜ao da cren¸ca do estado em k = 50 no plano X1× X2.

A figura 5 mostra os sinais de controle em fun¸c˜ao do tempo. A trajet´oria do robˆo no plano ´e mostrada na figura 6, juntamente com a tra-jet´oria gerada pelo m´etodo utilizando filtro de

−0.64 −0.62 −0.6 −0.58 −0.56 −0.54 −0.52 −0.5 −0.65 −0.64 −0.63 −0.62 −0.61 −0.6 −0.59 −0.58 −0.57 −0.56 u1 (m/s) u2 (rad/s)

Figura 4: Cren¸ca do controle em k = 50.

0 200 400 600 800 1000 1200 1400 −1 −0.5 0 0.5 1 1.5 2 k u1 (m/s) 0 200 400 600 800 1000 1200 1400 −3 −2 −1 0 1 2 k u2 (rad/s)

Figura 5: Sinais de controle em fun¸c˜ao do tempo. Linha s´olida: m´etodo proposto. Linha pontilhada: EKF e equivalˆencia `a certeza.

Kalman estendido. A posi¸c˜ao final do robˆo ´e x(k) =1, 044 3, 090 −1, 571T.

O experimento foi repetido 50 vezes, como forma de verificar os efeitos estoc´asticos em re-gime. A m´edia e o desvio padr˜ao do estado no ´

ultimo instante de amostragem s˜ao mostrados na tabela 1. A tabela 2 mostra os resultados equiva-lentes utilizando o filtro de Kalman estendido e o princ´ıpio da equivalˆencia `a certeza. Nota-se que, embora os valores das m´edias sejam semelhantes para ambos os controladores, utilizando-se a estra-t´egia proposta neste artigo tem-se desvios padr˜ao bem menores, o que significa que o desempenho do controlador ´e bem mais consistente e robusto `

as incertezas presentes no sistema do que a estra-t´egia de utilizar EKF com um controlador baseado na equivalˆencia a certeza.

Tabela 1: Pose final m´edia e desvio padr˜ao com o m´etodo proposto.

M´edia Desvio padr˜ao x1 (m) 0, 9973 0, 0203

x2 (m) 3, 0027 0, 0139

(6)

0.5 1 1.5 2 2.5 3 3.5 4 0 0.5 1 1.5 2 2.5 3 3.5 x1 (m) x2 (m)

Figura 6: Trajet´oria do robˆo. Linha s´olida: m´e-todo proposto. Linha pontilhada: EKF e equiva-lˆencia `a certeza.

Tabela 2: Pose final m´edia e desvio padr˜ao com EKF e equivalˆencia `a certeza.

M´edia Desvio padr˜ao x1 (m) 1, 0538 0, 2750

x2 (m) 2, 9276 0, 2127

x3(rad) −1, 4310 0, 4977

5 Conclus˜oes

Um m´etodo para controlar um robˆo m´ovel com acionamento diferencial que pode acomodar in-certezas n˜ao gaussianas na transi¸c˜ao de estados e nos sensores foi proposto neste artigo e teve seu desempenho comparado com o enfoque cl´assico de utilizar um filtro de Kalman estendido e o princ´ı-pio da equivalˆencia `a certeza.

Foi utilizada uma estrat´egia e estima¸c˜ao de estados baseada em filtro de part´ıculas e a nu-vem de part´ıculas representando a cren¸ca do es-tado foi mapeada para o espa¸co de entradas atra-v´es da utiliza¸c˜ao de uma lei de controle n˜ao su-ave, resultando em uma distribui¸c˜ao de part´ıcu-las no espa¸co de entradas, representando a cren¸ca do controle. O sinal de controle foi ent˜ao obtido desta cren¸ca atrav´es de um m´etodo que consi-dera o suporte local para o sinal de controle com maior probabilidade. Embora os valores das m´e-dias dos erros sejam semelhantes para ambos os controladores, utilizando-se a estrat´egia proposta neste artigo tem-se desvios padr˜ao bem menores, o que significa que o desempenho do controlador ´e bem mais consistente e robusto `as incertezas pre-sentes no sistema do que a estrat´egia de utilizar EKF com um controlador baseado na equivalˆencia `

a certeza.

Agradecimentos

Os autores agradecem `a CAPES e `a FAPERGS pelo apoio financeiro.

Referˆencias

Anderson, B. D. O. e Moore, J. B. (1989). Op-timal Control: Linear Quadratic Methods, Prentice-Hall Information and System Scien-ces Series, Prentice-Hall, Englewood Cliffs, NJ, USA.

Astolfi, A. (1994). On the stabilization of nonholo-nomic systems, Proceedings of the 33rd IEEE American Conference on Decision and Con-trol, Piscataway, NJ, IEEE Press, Lake Bu-ena Vista, FL, pp. 3481–3486.

Baral, C., Kreinovich, V. e Trejo, R. (2000). Com-putational complexity of planning and appro-ximate planning in the presence of incom-pleteness, Artificial Intelligence 122(1): 241– 267.

Blanco, J.-L., Gonz´alez, J. e Fern´andez-Madrigal, J.-A. (2010). Optimal filtering for non-parametric observation models: Applications to localization and slam, International Jour-nal of Robotics Research 29(14): 1726–1742. Brockett, R. W. (1982). New Directions in Applied

Mathematics, Springer-Verlag, New York. Kaelbling, L. P., Cassandra, A. R. e Littman,

M. L. (1998). Planning and acting in parti-ally observable stochastic domains, Artificial Intelligence 101(1): 99–134.

Lages, W. F. (1998). Controle e Estima¸c˜ao de Posi¸c˜ao e Orienta¸c˜ao de Robˆos M´oveis, Tese de doutorado, Instituto Tecnol´ogico de Aero-n´autica, S˜ao Jos´e dos Campos, SP. Orienta-dor: Elder M. Hemerly.

Lages, W. F. e Hemerly, E. M. (1998). Smo-oth time-invariant control of wheeled mobile robots, Proceedings of The XIII Internatio-nal Conference on Systems Science, Techni-cal University of Wroc law, Wroc law, Poland. Littman, M. L., Cassandra, A. R. e Kaelbling, L. P. (1995). Efficient dynamic-programming updates in partially observable markov de-cision processes, Technical Report CS-95-19, Brown University, Providence, RI, USA. Rekleitis, I. M. (2004). A particle filter

tuto-rial for mobile robot localization, Technical Report TR-CIM-04-02, Centre for Intelligent Machines, McGill University, Montreal, Qu´e-bec, Canada.

Sørdalen, O. J. (1993). Feedback Control of Nonholonomic Mobile Robots, Thesis (dr. ing.), The Norwegian Institute of Technology, Trondheim, Norway.

Thrun, S., Burgard, W. e Fox, D. (2005). Probabi-listic Robotics, MIT Press, Cambridge, MA.

Referências

Documentos relacionados

Por último, temos o vídeo que está sendo exibido dentro do celular, que é segurado e comentado por alguém, e compartilhado e comentado no perfil de BolsoWoman no Twitter. No

Contudo, sendo um campo de pesquisa e de atuação muito específico e novo no Brasil, ainda existe uma série de dificuldades para a eleição de parâmetros de conservação

Os principais objectivos definidos foram a observação e realização dos procedimentos nas diferentes vertentes de atividade do cirurgião, aplicação correta da terminologia cirúrgica,

psicológicos, sociais e ambientais. Assim podemos observar que é de extrema importância a QV e a PS andarem juntas, pois não adianta ter uma meta de promoção de saúde se

Para disciplinar o processo de desenvolvimento, a Engenharia de Usabilidade, também conceituada e descrita neste capítulo, descreve os métodos estruturados, a

• Capítulo 3 - Mecânica Quântica Ordinária: Aplicações da Equação de Schrodinger - Neste capítulo analisaremos alguns exemplos de solução da equação de Schrödinger que

O estudo múltiplo de casos foi aplicado para identificar as semelhanças e dissemelhanças na forma como as empresas relacionam seus modelos de negócios e suas

Pesquisa – Nível Médio - Área Temática: Ciências Humanas; Ciências Sociais Aplicadas, Linguística, Letras e Artes; Multidisciplinar.. 1° Telhado Verde IFC Rio