• Nenhum resultado encontrado

Controle de fixação atentivo para uma cabeça robótica com visão binocular

N/A
N/A
Protected

Academic year: 2021

Share "Controle de fixação atentivo para uma cabeça robótica com visão binocular"

Copied!
94
0
0

Texto

(1)UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E INFORMÁTICA INDUSTRIAL. ANDRÉ FILIPE ROOS. CONTROLE DE FIXAÇÃO ATENTIVO PARA UMA CABEÇA ROBÓTICA COM VISÃO BINOCULAR. DISSERTAÇÃO. CURITIBA 2016.

(2) ANDRÉ FILIPE ROOS. CONTROLE DE FIXAÇÃO ATENTIVO PARA UMA CABEÇA ROBÓTICA COM VISÃO BINOCULAR. Dissertação apresentada ao Programa de Pós-graduação em Engenharia Elétrica e Informática Industrial da Universidade Tecnológica Federal do Paraná como requisito parcial para obtenção do grau de “Mestre em Ciências” – Área de Concentração: Engenharia de Computação. Orientador:. CURITIBA 2016. Prof. Dr. Hugo Vieira Neto.

(3) Dados Internacionais de Catalogação na Publicação. R781c 2016. Roos, André Filipe Controle de fixação atentivo para uma cabeça robótica com visão binocular / André Filipe Roos.-- 2016. 92 f. : il. ; 30 cm Texto em português, com resumo em inglês Disponível também via World Wide Web Dissertação (Mestrado) – Universidade Tecnológica Federal do Paraná. Programa de Pós-graduação em Engenharia Elétrica e Informática Industrial, Curitiba, 2016 Bibliografia: f. 84-87 1. Visão por computador. 2. Visão de robô. 3. Robôs – Sistemas de controle. 4. Robôs. 5. Modelagem (Computação). 6. Algoritmos computacionais. 7. Engenharia elétrica – Dissertações. I. Vieira Neto, Hugo. II. Universidade Tecnológica Federal do Paraná. Programa de Pós-graduação em Engenharia Elétrica e Informática Industrial. III. Título. CDD: Ed. 22 -- 621.3 Biblioteca Central da UTFPR, Câmpus Curitiba.

(4) A Folha de Aprovação assinada encontra-se na Coordenação do Curso (ou Programa)..

(5) Dedico este trabalho à memória de minha madrinha..

(6) AGRADECIMENTOS. Aos meus pais, Carlos Francisco Roos e Sonia Mara Gebur Roos, por acompanharem meus estudos desde a época em que eu mal sabia segurar um lápis e por fazerem tudo parecer mais fácil. À minha parceira dos dias bons e ruins, Thiela Belczak, pelo amor e paciência que tem demonstrado em meio a meu escasso tempo livre. Ao meu orientador, Hugo Vieira Neto, o pesquisador mais ético e competente que conheço. Aos amigos da EngeMOVI, em especial Ricardo Artigas Langer, pelas dicas que tanto colaboram com minha formação de Engenheiro, e Fernando de Assis, por sempre levantar meu astral. Aos amigos Eduardo Tondin e Andrea Dresch, pelo auxílio e por dividirem comigo as mesmas expectivas e desafios do mestrado. Ao pessoal do LAPIS, um grupo de pesquisa unido e solícito. Aos demais familiares e amigos, que fazem tudo valer a pena..

(7) “To attain knowledge, add things every day. To attain wisdom, remove things every day.” Lao Tzu.

(8) RESUMO. ROOS, André Filipe. CONTROLE DE FIXAÇÃO ATENTIVO PARA UMA CABEÇA ROBÓTICA COM VISÃO BINOCULAR. 92 f. Dissertação – Programa de Pós-graduação em Engenharia Elétrica e Informática Industrial, Universidade Tecnológica Federal do Paraná. Curitiba, 2016. A pesquisa em visão computacional ainda está distante de replicar a adaptabilidade e o desempenho do Sistema Visual Humano. Grande parte das técnicas consolidadas é válida apenas em cenas estáticas e condições restritivas. Cabeças robóticas representam um avanço em flexibilidade, pois carregam câmeras que podem ser movimentadas livremente para a exploração dos arredores. A observação artificial de um ambiente dinâmico exige a solução de pelo menos dois problemas: determinar quais informações perceptuais relevantes extrair dos sensores e como controlar seu movimento para mudar e manter a fixação de alvos com forma e movimento arbitrários. Neste trabalho, um sistema de controle de fixação binocular geral é proposto, e o subsistema responsável pela seleção de alvos e fixação de deslocamentos laterais é projetado, experimentado e avaliado em uma cabeça robótica com quatro graus de liberdade. O subsistema emprega um popular modelo de atenção visual de baixo nível para detectar o ponto mais saliente da cena e um controlador proporcional-integral gera um movimento conjunto das duas câmeras para centralizá-lo na imagem da câmera esquerda, assumida como dominante. O desenvolvimento do sistema envolveu primeiramente a modelagem física detalhada do mecanismo de pan e tilt das câmeras. Então, a estrutura linearizada obtida foi ajustada por mínimos quadrados aos dados experimentais de entrada-saída. Por fim, os ganhos do controlador foram sintonizados por otimização e ajuste manual. A implementação em C++ com a biblioteca OpenCV permitiu operação em tempo real a 30 Hz. Experimentos demonstram que o sistema é capaz de fixar alvos estáticos e salientes sem conhecimento prévio ou suposições fortes. Alvos em movimento harmônico são perseguidos naturalmente, embora com defasamento. Em cenas visualmente densas, onde múltiplos alvos em potencial competem pela fixação, o sistema pode apresentar um comportamento oscilatório, exigindo o ajuste fino dos pesos do algoritmo de atenção para operação suave. A adição de um controlador para o pescoço e de um controlador de vergência para a compensação de deslocamentos em profundidade do alvo são os próximos passos rumo a um observador artificial genérico. Palavras-chave: Cabeça Robótica. Controle de Fixação. Atenção Visual. Controle Atentivo..

(9) ABSTRACT. ROOS, André Filipe. ATTENTIVE GAZE CONTROL FOR A BINOCULAR ROBOT HEAD. 92 f. MSc Dissertation – Graduate Program in Electrical and Computer Engineering, Federal University of Technology - Paraná. Curitiba, 2016. Computer vision research is still far from replicating the adaptability and performance of the Human Visual System. Most of its consolidated techniques are valid only over static scenes and restrictive conditions. Robot heads represent an advance in flexibility by carrying cameras that can be freely moved to explore the surroundings. Artificial observation of dynamic environments requires the solution of at least two problems: to determine what is the relevant perceptual information to be extracted from the sensors and how to control their movement in order to shift and hold gaze on targets featuring arbitrary shapes and motions. In this work, a general binocular gaze control system is proposed, and the subsystem responsible for targeting and following lateral displacements is designed, tested and assessed in a four degreesof-freedom robot head. The subsystem employs a popular low-level visual attention model to detect the most salient point in the scene, and a proportional-integral controller generates a conjunctive movement of the cameras to center it in the left camera image, assumed to be dominant. The development started with a detailed physical modeling of the pan and tilt mechanism that drives the cameras. Then, the linearized structure obtained was fitted via least squares estimation to experimental input-output data. Finally, the controller gains were tuned by optimization and manual adjustment. The OpenCV-based implementation in C++ allowed real-time execution at 30 Hz. Experiments demonstrate that the system is capable of fixating salient and static targets without any prior knowledge or strong assumptions. Targets describing harmonic motion are naturally pursued, albeit with a phase shift. In cluttered scenes, where multiple potential targets compete for gaze, the system may present oscillatory behavior, requiring fine adjustment of the attention algorithm weights for smooth operation. The addition of a controller for the neck and a vergence controller to compensate for depth displacements are the next steps towards a generic artificial observer. Keywords: Robot Head. Gaze Control. Visual Attention. Attentive Control..

(10) LISTA DE FIGURAS. FIGURA 1 FIGURA 2 FIGURA 3 FIGURA 4 FIGURA 5 FIGURA 6 FIGURA 7 FIGURA 8 FIGURA 9 FIGURA 10 FIGURA 11 FIGURA 12 FIGURA 13 FIGURA 14 FIGURA 15 FIGURA 16 FIGURA 17 FIGURA 18 FIGURA 19 FIGURA 20 FIGURA 21 FIGURA 22 FIGURA 23 FIGURA 24 FIGURA 25 FIGURA 26 FIGURA 27 FIGURA 28 FIGURA 29 FIGURA 30 FIGURA 31 FIGURA 32 FIGURA 33 FIGURA 34 FIGURA 35 FIGURA 36. – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – –. Sumário dos mecanismos de fixação em primatas . . . . . . . . . . . . . . . . . . . . Interação dos mecanismos de fixação durante a observação de alvos . . . . Experimentos da Teoria da Integração de Características . . . . . . . . . . . . . . Evolução do robô Dexter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cadeia cinemática do robô Dexter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . O robô Dexter sob uma abordagem sistêmica . . . . . . . . . . . . . . . . . . . . . . . . Geometria da fixação de um ponto arbitrário . . . . . . . . . . . . . . . . . . . . . . . . . Sistema de controle de fixação binocular completo proposto . . . . . . . . . . . Arquitetura do sistema de controle de versão ocular proposto . . . . . . . . . . Modelo de atenção visual do mapeador de saliências . . . . . . . . . . . . . . . . . Implementação do mapeador de saliências . . . . . . . . . . . . . . . . . . . . . . . . . . . Interfaces de entrada e saída do robô Dexter . . . . . . . . . . . . . . . . . . . . . . . . . Sistema oculomotor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modelagem do sistema eletromecânico de uma junta . . . . . . . . . . . . . . . . . Diagramas de corpo livre do sistema oculomotor . . . . . . . . . . . . . . . . . . . . . Geometria da câmera pinhole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Efeito da rotação da câmera sobre um ponto fixo – frame do mundo . . . . Efeito da rotação da câmera sobre um ponto fixo – frame da câmera . . . . Relação entre rotação da câmera e posição no plano da imagem . . . . . . . Resultado da modelagem do sistema oculomotor . . . . . . . . . . . . . . . . . . . . . Arranjo experimental para identificação do sistema oculomotor . . . . . . . . Resultados do experimento preliminar de identificação . . . . . . . . . . . . . . . Resultados do experimento principal de identificação . . . . . . . . . . . . . . . . . Validação cruzada dos modelos identificados . . . . . . . . . . . . . . . . . . . . . . . . Resposta em frequência dos modelos identificados . . . . . . . . . . . . . . . . . . . Diagrama de blocos do sistema de controle de versão . . . . . . . . . . . . . . . . . Diagrama de blocos dos controladores PI . . . . . . . . . . . . . . . . . . . . . . . . . . . . Sintonia dos controladores PI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Imagens do experimento de fixação de um alvo estático . . . . . . . . . . . . . . . Resposta temporal do experimento de fixação de um alvo estático . . . . . . Imagens do experimento de fixação de um alvo móvel . . . . . . . . . . . . . . . . Resposta temporal do experimento de fixação de um alvo móvel . . . . . . . Imagens do experimento de fixação de um alvo indefinido . . . . . . . . . . . . Resposta temporal do experimento de fixação de um alvo indefinido . . . Diagrama de atividades do software de acionamento . . . . . . . . . . . . . . . . . . Diagrama esquemático da placa de junção . . . . . . . . . . . . . . . . . . . . . . . . . . .. 21 22 23 27 27 28 29 30 32 36 40 41 42 44 45 49 52 52 53 54 57 59 60 63 64 66 67 71 74 74 76 77 79 80 90 91.

(11) LISTA DE TABELAS. TABELA 1 TABELA 2 TABELA 3 TABELA 4 TABELA 5 TABELA 6 TABELA 7. – – – – – – –. Aderência dos modelos identificados aos dados . . . . . . . . . . . . . . . . . . . . . . Parâmetros de sintonia dos controladores PI . . . . . . . . . . . . . . . . . . . . . . . . . Parâmetros de desempenho e robustez dos controladores PI . . . . . . . . . . . Terminais da sintaxe do protocolo de comunicação . . . . . . . . . . . . . . . . . . . Comandos do protocolo de comunicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . Especificações técnicas dos servomotores . . . . . . . . . . . . . . . . . . . . . . . . . . . Limites virtuais de setpoint por junta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 63 70 72 88 89 92 92.

(12) LISTA DE SIGLAS. ASCII CC CCD DEP ETFE FFT iNVT LAPIS OpenCV PEM PI PID PRBS PWM R/C RVO SPA UTFPR ZOH. American Standard Code for Information Interchange Corrente Contínua Charged-Coupled Device Densidade Espectral de Potência Empirical Transfer Function Estimate Fast Fourier Transform iLab Neuromorphic Vision Toolkit Laboratório de Processamento de Imagens e Sinais Open Source Computer Vision Library Prediction Error Minimization Proporcional-Integral Proporcional-Integral-Derivativo Pseudo-Random Binary Sequence Pulse Width Modulation Radio Control Reflexo Vestíbulo-Ocular Spectral Analysis Universidade Tecnológica Federal do Paraná Zero-Order Hold.

(13) LISTA DE SÍMBOLOS. θn θl θr θt θc θv θp θp+ θp− e p σ I r g b I(σ) RG BY RG(σ) BY (σ) O(σ, φ) φ c s. I(c, s) RG(c, s) BY(c, s) O(c, s, φ) N (.) M m ¯ ¯ I C¯ ¯ O ⊕ wc wi wo S. ângulo da junta do pescoço ângulo da junta de pan esquerda ângulo da junta de pan direita ângulo das juntas de tilt esquerda e direita ângulo ciclópico ângulo de vergência ângulo de pan componente comum do ângulo de pan componente diferencial do ângulo de pan erro retinal (ex , ey ) ponto de interesse (px , py ) na imagem nível da pirâmide Gaussiana canal de intensidade canal vermelho da imagem de entrada canal verde da imagem de entrada canal azul da imagem de entrada pirâmide Gaussiana de intensidade canal de cor para a rivalidade vermelho-verde canal de cor para a rivalidade azul-amarelo pirâmide Gaussiana de cor para a rivalidade vermelho-verde pirâmide Gaussiana de cor para a rivalidade azul-amarelo pirâmide Gaussiana de orientação ângulo da característica de orientação nível de centro na pirâmide Gaussiana nível de periferia na pirâmide Gaussiana diferença entre escalas mapa de características de intensidade mapa de características de cor para a rivalidade vermelho-verde mapa de características de cor para a rivalidade azul-amarelo mapa de características de orientação operador de normalização máximo global média dos máximos locais mapa de conspicuidades de intensidade mapa de conspicuidades de cor mapa de conspicuidades de orientação adição entre escalas peso da característica cor no mapa de saliências peso da característica intensidade no mapa de saliências peso da característica orientação no mapa de saliências mapa de saliências.

(14) f (t) F (s) G(s) f (t) F (s) G(s) θd θ a Ge (s) Tm ia Kt eb Kb θm ea La Ra ev Kp Ki Kd N N1 N2 m J b T θ Ja ba Jm bm Ks g ` Gc (s) Oc R Zc o f. sinal de tempo contínuo transformada de Laplace de f (t) função de transferência sinal de tempo contínuo multicanal com componentes fi (t) transformada de Laplace de f (t) com componentes Fi (s) matriz de função de transferência com componentes Gij (t) deslocamentos angulares (θdp , θdt ) desejados para as juntas de pan e tilt deslocamento efetivo (θp , θt ) das juntas de pan e tilt posição inicial (ax , ay ) do ponto de interesse na imagem matriz de função de transferência do sistema eletromecânico, com componentes Gep (s) e Get (s) torque aplicado pelo motor (eixo do motor) corrente de armadura do motor constante de torque do motor força contraeletromotriz do motor constante de força contraeletromotriz deslocamento angular (eixo do motor) tensão de armadura do motor indutância da armadura do motor resistência da armadura do motor erro de posição angular convertido para tensão ganho proporcional do controlador PID (forma ideal) ganho integral do controlador PID (forma ideal) ganho derivativo do controlador PID (forma ideal) relação de transmissão número de dentes da engrenagem acoplada ao motor o número de dentes da engrenagem acoplada à carga massa momento de inércia da carga coeficiente de atrito viscoso da carga torque aplicado pelo motor (eixo da carga) deslocamento angular (eixo da carga) momento de inércia da armadura do motor coeficiente de atrito viscoso da armadura do motor momento de inércia equivalente (eixo do motor) coeficiente de atrito viscoso equivalente (eixo do motor) ganho do potenciômetro do servomotor aceleração da gravidade distância entre o eixo de rotação e o centro de gravidade do mecanismo de tilt matriz de função de transferência da câmera, com componentes Gcx (s) e Gcy (s) origem do frame c plano retinal eixo z do frame c ponto principal (ox , oy ) distância focal.

(15) c. P R T W H sx sy θhfov θvfov Kx Ky Go (s) np nz Td P C(z) U (z) Ts T (s) D(s) N (s) f [k] F (z) G(z) upi [k] up [k] ui [k] Kc Ti u[k] Tt φm ωc `p Tp mp kp. ponto P expresso no frame c rotação entre frames translação entre frames largura do sensor de imagem altura do sensor de imagem dimensão efetiva horizontal de um pixel dimensão efetiva vertical de um pixel campo de visão angular horizontal campo de visão angular vertical constante de proporcionalidade para o eixo x da câmera constante de proporcionalidade para o eixo y da câmera matriz de função de transferência do sistema oculomotor, com componentes Gop (s) e Got (s) número de polos da função de transferência número de zeros da função de transferência atraso de transporte período de clock do sinal PRBS matriz de função de transferência do controlador, com componentes Cp (z) e Ct (z) saída do controlador sem perturbação período de amostragem perturbação de saída na posição retinal do alvo perturbação de entrada na posição dos motores ruído sinal de tempo discreto transformada Z do sinal f [k] função de transferência G(s) discretizada ação proporcional-integral ação proporcional ação integral ganho do controlador (forma padrão) tempo integral saída saturada do controlador constante de tempo do algoritmo de anti-windup margem de fase frequência de cruzamento comprimento do pêndulo período do pêndulo massa do pêndulo constante elástica do pêndulo.

(16) SUMÁRIO. 1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 ESTRUTURA DA DISSERTAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 PARA ONDE OLHAR? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 O PROBLEMA DA FIXAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 ATENÇÃO VISUAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 SISTEMA PROPOSTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 A CABEÇA ROBÓTICA DEXTER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 SISTEMA COMPLETO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 ESCOPO DO TRABALHO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 ATENÇÃO VISUAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 ESCOLHA DO MODELO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 ALGORITMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 IMPLEMENTAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 MODELAGEM DO SISTEMA OCULOMOTOR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 VISÃO GERAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 SISTEMA ELETROMECÂNICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 Carga do Mecanismo de Pan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 Carga do Mecanismo de Tilt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 CÂMERA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.1 Formação de Imagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.2 Rotação da Câmera e Deslocamento na Imagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 SISTEMA OCULOMOTOR COMPLETO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 IDENTIFICAÇÃO DO SISTEMA OCULOMOTOR . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 ARRANJO EXPERIMENTAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 EXPERIMENTO PRELIMINAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3 EXPERIMENTO PRINCIPAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4 INSPEÇÃO E PREPARAÇÃO DOS DADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.5 ESTIMATIVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.6 VALIDAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 CONTROLE ATENTIVO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1 SISTEMA EM MALHA FECHADA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 LEI DE CONTROLE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 DECISÕES DE PROJETO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.4 SINTONIA DOS CONTROLADORES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.1 ALVO ESTÁTICO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2 ALVO MÓVEL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3 ALVO INDEFINIDO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 16 18 19 20 20 22 24 26 26 29 31 34 34 35 39 41 42 43 46 47 48 49 51 54 56 56 57 60 61 61 62 65 65 67 68 69 73 73 74 78 81.

(17) 9.1 TRABALHOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Apêndice A -- PROTOCOLO DE COMUNICAÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Apêndice B -- SOFTWARE DE ACIONAMENTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Apêndice C -- DIAGRAMA ESQUEMÁTICO DA PLACA DE JUNÇÃO . . . . . . . . . . . . Apêndice D -- DADOS TÉCNICOS DOS MOTORES E JUNTAS . . . . . . . . . . . . . . . . . . .. 83 84 88 90 91 92.

(18) 16. 1. INTRODUÇÃO. Grande parte das técnicas tradicionais em visão computacional serve exclusivamente à análise de imagens estáticas, em condições bem restritas. No entanto, vivemos em um ambiente complexo e dinâmico. Até as tarefas mais simples exigem do Sistema Visual Humano (SVH) uma série de sofisticadas atividades em paralelo para melhoria da qualidade perceptual. Durante uma observação, os músculos ciliares deformam o cristalino para ajustar o foco, as pupilas se adequam ao nível de iluminação e os olhos convergem e divergem rapidamente em um movimento coordenado com a cabeça. A sobrevivência em ambientes incertos só é possível porque a percepção visual humana é ativa, em vez de meramente passiva (BAJCSY, 1988). Somente no fim da década de 1980 surgiram os primeiros trabalhos com embasamento matemático propondo câmeras com movimento controlado inteligentemente, inaugurando o paradigma da visão ativa. Um sistema de visão ativa modifica intencionalmente parâmetros de seus sensores visuais para cumprir um objetivo, utilizando como retroalimentação informações extraídas dos próprios sensores (ALOIMONOS; WEISS; BANDYOPADHYAY, 1988; BAJCSY, 1988). Em geral, a retroalimentação vem tanto de dados brutos quanto de características visuais pós-processadas e a operação ocorre sobre uma sequência de imagens. A capacidade de observar o ambiente por múltiplos pontos de vista gera informações e restrições adicionais que podem converter um problema de visão subdeterminado e não-linear em um problema sobredeterminado e linear, com menor tempo de processamento e maior robustez a ruídos (ALOIMONOS; WEISS; BANDYOPADHYAY, 1988). Além disso, uma busca visual ativa tem maiores chances de sucesso, já que um objeto de interesse pode não estar a priori dentro do campo de visão (BALLARD, 1991). Características antropomórficas são valiosas fontes de inspiração na concepção de sistemas artificiais de visão ativa, dados os altos níveis de generalidade e desempenho atingidos pelo Sistema Visual Humano ao longo do processo evolutivo. Um exemplo é a foveação. A distribuição dos fotorreceptores na retina do olho humano varia entre uma área central de alta resolução próxima ao eixo óptico – a fóvea – e uma zona periférica de baixa resolução (PALMER, 1999). A fóvea é empregada na inspeção detalhada da região em observação.

(19) 17. e a periferia na detecção de novos alvos em potencial. Essa não-uniformidade permite um equilíbrio entre acuidade, amplitude de campo de visão e custo de processamento cerebral. A baixa resolução na periferia da retina é compensada por olhos com alta mobilidade que, combinados com movimentos da cabeça, podem direcionar a fóvea rapidamente para qualquer área de interesse do ambiente (YARBUS, 1967). A presença de dois olhos separados lateralmente confere uma série de vantagens adicionais, como redundância no caso de danos, aumento do campo de visão horizontal e estereopsia – a percepção de profundidade e estrutura tridimensional a partir da informação visual binocular (PALMER, 1999). O problema de manter um alvo espacial na fóvea, compensando seus movimentos ou os movimentos do próprio observador, é responsabilidade de um processo visual primário denominado controle de fixação1 .. Pode-se dividir esse processo em vários mecanismos. complementares compostos por combinações de movimentos oculares, sendo os mais expressivos a sacada, a perseguição suave e a vergência (ROBINSON, 1968). Outro processo visual de grande importância é a atenção visual, responsável por separar apenas o subconjunto mais relevante da informação sensorial para um processamento detalhado. A principal motivação para sua existência é a alta densidade da informação visual; nos primatas, por exemplo, estima-se que cerca de 108 a 109 bits de dados cheguem ao nervo óptico a cada segundo (ITTI; KOCH, 2001). Processar toda essa entrada massiva em tempo real seria uma tarefa enormemente custosa sem a presença de mecanismos de seleção. A relevância da região selecionada por atenção é determinada por duas componentes complementares. A atenção bottom-up é rápida, involuntária, em malha aberta, de baixo nível e baseada em características puramente visuais da cena. Nesse contexto, uma região é dita “saliente” quando parece destacar-se em relação à vizinhança para um observador (por exemplo, um ponto vermelho em meio a vários pontos verdes). Em contrapartida, a atenção top-down é lenta, voluntária, em malha fechada, de alto nível e baseada em fatores cognitivos como conhecimento, emoções, expectativas e metas. Um exemplo é a busca de uma pessoa específica em uma fotografia. Ambos os componentes podem operar em paralelo, mas a influência bottomup não é voluntariamente suprimível – uma região altamente saliente captura o foco de atenção independentemente da tarefa em execução (FRINTROP; ROME; CHRISTENSEN, 2010). Em suma, a atenção visual atua como um “gargalo” de informação, além de conectar atributos visuais de um objeto – como cor e forma – em uma unidade perceptual e participar como moduladora no processamento visual de baixo nível. Assim, sua presença em sistemas biológicos oferece vantagens importantes: primeiro, dada a capacidade de processamento 1. Em inglês, gaze control. O verbo to gaze pode ser traduzido como “olhar fixamente”, “fitar”, “fixar”..

(20) 18. limitada do cérebro, a redução de dados libera espaço para outras atividades simultâneas; segundo, possíveis elementos distratores no ambiente são suprimidos, aumentando a eficiência perceptual; terceiro, presas e predadores podem ser rapidamente detectados (ITTI, 2000). Embora não seja a única opção, a atenção visual é uma abordagem genérica e poderosa para guiar mudanças de fixação em sistemas de visão robótica. Outros detectores de região de interesse tendem a retornar muitas regiões similares e a se acoplar demasiadamente ao modelo do ambiente, exigindo constantes reimplementações (BACKER; MERTSCHING; BOLLMANN, 2001). A cooperação entre visão, atenção e controle de movimento possibilita o direcionamento constante dos sensores e do poder computacional às regiões mais salientes do campo de visão, construindo a coordenação necessária para a interação do agente com objetos do ambiente. Pretende-se, com este trabalho, dar início ao desenvolvimento de um sistema de visão ativa artificial genérico com estrutura e comportamento similares ao Sistema Visual Humano, atacando primeiramente a interação existente entre controle de fixação e atenção. A base experimental será uma cabeça robótica com visão binocular. O comportamento desejado é que uma de suas câmeras, assumida como dominante, aponte a todo instante para a região com maior saliência visual no ambiente, como um observador primitivo. A saliência será computada pelo algoritmo de Itti, Koch e Niebur (1998), um modelo de atenção bottom-up com plausibilidade biológica e grande popularidade, embora testado quase exclusivamente em cenas estáticas. O foco do trabalho não é a reprodução fiel dos movimentos oculares humanos; movimentos sacádicos e de perseguição suave serão fundidos em uma única estratégia de controle de posição em malha fechada e retinotópico, ou seja, inteiramente realizado no sistema de coordenadas da imagem. Os movimentos do pescoço e de vergência também não serão explorados a fundo, limitando as duas câmeras a um movimento conjunto (na mesma direção). O maior desafio do projeto está no fato de que a dinâmica da cabeça robótica deve ser compatível com a dinâmica dos eventos no ambiente observado. Por consequência, o processamento em tempo real se torna um importante requisito que restringe a complexidade dos algoritmos utilizados.. Outro problema é o atraso inerente de sistemas visuais. retroalimentados (CORKE; GOOD, 1996), que limita o desempenho atingível pelo controlador. 1.1. OBJETIVOS O objetivo geral desta dissertação consiste em projetar, sintonizar, experimentar e. avaliar um sistema de controle para direcionar a fixação de uma cabeça robótica empregando.

(21) 19. um modelo de atenção visual. Para o êxito total da pesquisa, os seguintes objetivos específicos devem ser atingidos: • Desenvolver e experimentar hardware e software para a alimentação, aquisição de imagens, acionamento e comunicação da cabeça robótica. • Implementar e experimentar o modelo de atenção visual de Itti, Koch e Niebur (1998). • Modelar e identificar a dinâmica do sistema oculomotor dominante da cabeça robótica. • Projetar e sintonizar um controlador atentivo para o movimento conjuntivo das câmeras. • Projetar e construir um ambiente de avaliação para o sistema. • Avaliar o sistema qualitativa e quantitativamente. 1.2. ESTRUTURA DA DISSERTAÇÃO Esta dissertação está dividida em 9 capítulos. O Capítulo 2 aprofunda a discussão. introdutória revisando controle de fixação, atenção visual e trabalhos relacionados.. No. Capítulo 3, apresenta-se a cabeça robótica Dexter, um possível sistema para seu controle binocular e o subsistema abordado no restante do estudo. O Capítulo 4 trata dos aspectos algorítmicos do modelo de atenção de Itti, Koch e Niebur (1998), as justificativas para sua escolha e os resultados de sua implementação em C++ com a biblioteca OpenCV. Como a cabeça robótica atua como uma planta em um sistema de controle, suas entradas e saídas precisam ser delimitadas e relacionadas. A construção de um modelo caixa cinza para os sistemas oculomotores é conduzida em duas partes. No Capítulo 5, em uma etapa teórica e dedutiva de modelagem, as características do sistema relevantes para o problema são definidas e um modelo com estrutura conhecida e parâmetros desconhecidos é deduzido a partir de princípios físicos. Então, no Capítulo 6, em uma etapa empírica e indutiva de identificação, os valores ótimos para os parâmetros da estrutura de modelo selecionada serão estimados, com base na medição dos sinais de entrada e saída reais. O Capítulo 7 é dedicado ao projeto e sintonia do controlador proporcional-integral que corrige o movimento das câmeras. Os experimentos finais para avaliação do desempenho do sistema são apresentados no Capítulo 8. O robô é submetido à observação de alvos simples estáticos, alvos simples em movimento, e cenas visualmente densas com múltiplos alvos em potencial. Por fim, no Capítulo 9, apresenta-se as conclusões e direções para trabalhos futuros..

(22) 20. 2. PARA ONDE OLHAR?. Enquanto em um braço robótico há uma preocupação especial com o planejamento de trajetórias para o alcance de pontos específicos, em uma cabeça robótica a questão principal consiste em como se obter a melhor visualização da cena (PAHLAVAN; EKLUNDH, 1992). Esse é o tópico abordado neste capítulo. Na Seção 2.1, enuncia-se o problema da fixação e os principais mecanismos de controle de fixação presentes nos primatas. Em seguida, na Seção 2.2, apresenta-se um breve histórico da pesquisa em Atenção Visual e seu papel na observação. Por fim, na Seção 2.3, revisa-se trabalhos correlatos com as áreas de Visão Ativa, Controle de Fixação e Atenção Visual. 2.1. O PROBLEMA DA FIXAÇÃO Cabeças robóticas são sistemas sensório-motores, ou seja, os comportamentos. sensoriais e motores se relacionam sinergicamente. Entretanto, como dados sensoriais sem interpretação e ações motoras livres têm pouca utilidade isoladamente, é necessária a existência de um ciclo de sensoriamento-percepção-controle-ação para a execução de tarefas complexas. A construção de um sistema sensório-motor artificial exige, portanto, a solução de duas questões: quais informações perceptuais relevantes extrair das imagens adquiridas e como utilizar essas informações para controlar seu movimento (BERNARDINO; SANTOS-VICTOR, 1998). Quando a tarefa específica é a observação do ambiente, essas duas questões evoluem para o problema da fixação, que consiste em como detectar e centralizar um objeto de interesse na região de maior acuidade visual, compensando movimentos dele e do próprio observador. O problema pode ser decomposto em dois: a manutenção da fixação e a mudança da fixação (COOMBS; BROWN, 1993). No sistema visual dos primatas há quatro mecanismos de fixação principais, conforme ilustrado resumidamente na Figura 1.. Sacadas são movimentos rápidos, descontínuos,. voluntários ou involuntários, com o objetivo de mudar abruptamente o ponto de fixação. Após.

(23) 21. um período de latência de aproximadamente 200 ms para cálculo da posição retinal do alvo (ROBINSON, 1968), os olhos são comandados em malha aberta até o destino. A entrada visual é inibida durante o movimento; quaisquer deslocamentos do alvo geram erros de posição que devem ser corrigidos com novas sacadas. Movimentos de perseguição suave são muito mais lentos e têm o objetivo de seguir continuamente estímulos móveis. A velocidade é corrigida em malha fechada para compensar o escorregamento retinal do alvo e, caso seja alto, microsacadas podem ser incluídas. Movimentos de vergência alteram o ângulo entre os eixos ópticos dos olhos de forma a interceptá-los em um alvo movendo-se em profundidade. Por fim, os movimentos oculares de reflexo vestíbulo-ocular (RVO) estabilizam a fixação durante movimentos da cabeça com a menor latência entre todos os mecanismos.. Alvo fixo. Vergência. Movimentos oculares em direções opostas para alinhamento das fóveas no mesmo alvo tridimensional.. Manutenção da fixação Alvo móvel. Mudança da fixação. Reflexo vestíbulo-ocular (RVO). Movimentos oculares no sentido oposto do movimento da cabeça para estabilização das imagens nas retinas.. Perseguição suave. Movimentos oculares contínuos e lentos para seguimento de objetos em movimento.. Sacada. Movimentos oculares rápidos e pré-computados para mudanças abruptas de fixação cobrindo ângulos visuais pequenos a muito grandes.. Figura 1 – Sumário dos mecanismos de fixação em primatas. Juntos, os quatro mecanismos permitem a fixação de um ponto arbitrário no espaço tridimensional, desde que alcançável. Fonte: Adaptado de Ballard (1991).. Os mecanismos sacádico, de perseguição suave e de vergência cooperam durante a fixação em resposta a excursões do alvo e mudanças na configuração da cena (Figura 2). Do ponto de vista geométrico, movimentos de vergência diferem dos demais porque são desconjugados/disjuntivos, ou seja, envolvem a convergência ou a divergência dos eixos ópticos. Nos outros mecanismos os olhos se deslocam na mesma direção, executando movimentos conjugados/conjuntivos denominados versões. Enquanto movimentos oculares são gerados com base em mudanças na porção observada da cena a cada momento, movimentos do pescoço permitem a manutenção dos ângulos horizontais dos olhos próximos da simetria e maior amplitude na exploração do ambiente (PAHLAVAN; EKLUNDH, 1992)..

(24) 22. Sacada para novo alvo. Olho esquerdo. Seguido por vergência Ângulo de vergência. Olho direito. Seguido por perseguição suave. Figura 2 – Interação dos mecanismos de fixação durante a observação de alvos. Deslocamentos laterais são capturados por perseguição suave, deslocamentos em profundidade por vergência e mudanças de alvo por sacadas. Fonte: Adaptado de Breazeal et al. (2001).. 2.2. ATENÇÃO VISUAL Pela maneira como direciona a fixação, a atenção é frequentemente comparada a um. holofote em uma sala escura. À medida que se move, o holofote ilumina apenas uma área limitada, da mesma maneira como centralizamos a fóvea em certas regiões para realçarmos a representação cortical de objetos nela inseridos (ITTI; KOCH, 2001). O processo de mudarmos o foco de atenção para um estímulo de interesse, quando associado com o movimento dos olhos, corpo ou cabeça, é conhecido como atenção aberta. É possível realizarmos também, sem movimento, julgamentos simples e limitados sobre estímulos situados na região periférica – o fenômeno da atenção encoberta1 . A pesquisa em atenção visual é conduzida ativamente há mais de 30 anos, resultando na formulação de diversos modelos sob as perspectivas da psicologia, da neurociência e da ciência da computação. A viabilização de modelos computacionais de atenção só ocorreu no fim da década de 80, com a popularização dos computadores (FRINTROP; ROME; CHRISTENSEN, 2010). O conceito logo gerou interesse nas áreas de visão computacional e robótica por prover novos meios de detectar regiões de interesse em imagens. A base empírica para a estrutura de quase todos os modelos advém da Teoria da Integração de Características de Treisman e Gelade (1980), um influente trabalho da psicofísica que estabeleceu quais características visuais são importantes e como elas se combinam para 1. Os termos originais em inglês para atenção aberta e encoberta são overt attention e covert attention, respectivamente..

(25) 23. direcionar a atenção humana durante a busca de um alvo entre elementos distratores. A teoria afirma que certas características primitivas – cor, intensidade e orientação – são registradas automaticamente e paralelamente ao longo do campo visual em uma fase pré-atentiva, e objetos são formados pela ligação dessas características em um estágio posterior, que requer atenção focada. Experimentos indicaram que, para distratores homogêneos, o tempo de reação em uma busca do tipo pop-out (encontrar um alvo que é definido por apenas uma característica) é constante, enquanto em buscas conjuntivas (encontrar um alvo que é definido por duas ou mais características) o tempo cresce com o número de elementos (Figura 3).. T T T T T T T T TT T T T TT T T T T T. T T X XT T T TT T X T T X X X X T T T T T. (a). (b). Figura 3 – Experimentos da Teoria da Integração de Características: (a) busca pop-out – alvo (tê vermelho) difere dos distratores (tês azuis) por uma única característica visual (efeito popout); e (b) busca conjuntiva – alvo (tê vermelho) difere dos distratores (tês azuis e xis vermelhos) por uma conjunção de características. Fonte: Adaptado de Frintrop, Rome e Christensen (2010).. Inspirados na Teoria da Integração de Características, Koch e Ullman (1985) propuseram a primeira arquitetura computacional biologicamente plausível de atenção visual. O modelo introduziu o conceito de mapa de saliência, um mapa topográfico bidimensional e escalar que codifica o nível de conspicuidade (ou saliência) em cada local da cena. A região mais saliente do mapa é selecionada por uma rede neural. O modelo de Koch e Ullman só foi implementado e validado posteriormente por Itti, Koch e Niebur (1998), um trabalho que serve de base até hoje para outros grupos de pesquisa e se tornou uma referência padrão para comparação (BORJI; ITTI, 2013). O algoritmo de Itti tem especial importância no presente trabalho porque foi escolhido para compor o controlador de atenção da cabeça robótica. Muitos modelos concorrentes foram também direta ou indiretamente influenciados por conceitos cognitivos e possuem como elemento central o mapa de saliência; o que os diferencia é a estratégia para computá-lo. Torralba (2003), por exemplo, propõe um modelo que combina probabilisticamente, pela regra de Bayes, a informação sensorial adquirida e conhecimento.

(26) 24. prévio sobre o contexto da cena para detectar objetos-alvo. Bruce e Tsotsos (2005) sugerem um modelo neuralmente plausível baseado no princípio de que a atenção maximiza a informação capturada de uma cena e utilizam uma medida do grau de informação para calcular a saliência em imagens. Hou e Zhang (2007) introduzem um modelo simples, processado no domínio da frequência e independente de conhecimento prévio que associa a saliência com singularidades estatísticas no espectro da imagem de entrada. 2.3. TRABALHOS RELACIONADOS Assim como no caso dos modelos computacionais de atenção, a construção e. experimentação de sistemas de visão ativa artificiais só foi viabilizada definitivamente com a popularização dos computadores, no fim da década de 80. Desde então, cabeças robóticas ganharam crescente popularidade no meio acadêmico, sobretudo no decorrer da década de 90. As cabeças Rochester (BROWN, 1988), KTH (PAHLAVAN; EKLUNDH, 1992), Harvard (FERRIER; CLARK, 1993), Yorick (SHARKEY et al., 1993) e Medusa (SANTOS-VICTOR; VAN TRIGT; SENTIEIRO, 1994) estão entre as mais conhecidas. A disponibilidade de sistemas binoculares de visão ativa motivou naturalmente uma ampla variedade de trabalhos voltados ao controle de fixação. Sendo o aparato experimental de todos sempre muito similar, salvo as peculiaridades mecânicas e eletrônicas de cada robô, as maiores diferenças estão na arquitetura de controle e nas técnicas empregadas para a manutenção e mudança da fixação. Coombs e Brown (1993) implementaram na cabeça Rochester um sistema para manter a fixação de um objeto móvel em uma cena visual densa por meio da cooperação entre componentes de perseguição suave e vergência. A componente de vergência ajusta o ângulo entre as câmeras de forma a zerar a disparidade estéreo do alvo para a perseguição, utilizando a técnica da filtragem cepstral (YESHURUN; SCHWARTZ, 1989). A componente de perseguição ajusta os ângulos verticais e horizontais das câmeras por meio de um filtro que detecta características com disparidade nula, mantendo o alvo foveado para a vergência. Bradshaw e colaboradores (1994) utilizaram a cabeça robótica de alto desempenho da Universidade de Oxford, Yorick, para propor um sistema de vigilância ativa em tempo real que detecta e segue objetos em cenas dinâmicas e não-estruturadas do cotidiano. O sistema emprega fluxo óptico para computar movimento na imagem de uma câmera e segmentar o alvo. Movimentos grosseiros em qualquer região da imagem geram sacadas, enquanto movimentos finos na região central geram perseguição suave. Em vez de cooperativos, os mecanismos de.

(27) 25. sacada e perseguição são independentes e comutados por uma máquina de estados. Bernardino e Santos-Victor (1999) desenvolveram um sofisticado sistema de rastreamento binocular para a cabeça Medusa, capaz de lidar com objetos de diferentes formas e movimentos. Uma cuidadosa formulação matemática da cinemática e dinâmica, com base no paradigma do controle servo visual (HUTCHINSON; HAGER; CORKE, 1996), permitiu expressar toda a dinâmica do sistema em coordenadas de imagem. Do ponto de vista perceptual, o trabalho foi um dos pioneiros na utilização da representação log-polar, que modela a distribuição não-uniforme da retina e gera ganhos significativos de desempenho na execução dos algoritmos. A questão de como selecionar o alvo e de como iniciar sua fixação fica em aberto, como em uma parcela considerável de outros trabalhos relacionados. Uma das primeiras tentativas de aliar atenção visual e visão ativa foi apresentada por Clark e Ferrier (1988) com a implementação de um sistema de controle de fixação atentivo para a cabeça robótica Harvard. O sistema se baseia no modelo de atenção de Koch e Ullman (1985) e no modelo de controle oculomotor humano de Robinson (1968) para controlar os três graus de liberdade mecânicos da cabeça, com subsistemas para vergência, perseguição suave e sacada. O grupo de Brunnström, Eklundh e Uhlin (1996) desenvolveu um trabalho similar com a cabeça robótica KTH, aplicando mecanismos de atenção visual e pistas binoculares para o reconhecimento de objetos em uma cena estática. Vijayakumar e colaboradores (2001) introduziram um controlador atentivo baseado apenas em fluxo óptico para guiar, em tempo real, a observação de um robô humanoide. Outros trabalhos correlatos são o módulo atentivo proposto por Backer, Mertsching e Bollmann (2001) para integrar o sistema NAVIS, o sistema de visão estéreo CeDAR detalhado por Dankers, Barnes e Zelinsky (2007) e o arcabouço completo para visão binocular ativa proposto por Aragón-Camarasa, Fattah e Siebert (2010). Como os modelos de atenção existentes são predominantemente espaciais e aplicados a imagens estáticas, um desafio atual é explorar cenas dinâmicas e a componente temporal da atenção, ou seja, efetuar a seleção com base na saliência atual e no conhecimento adquirido em instantes anteriores. Um trabalho representativo dessa linha de pesquisa é Itti, Dhavale e Pighin (2003), que estendeu o modelo de Itti, Koch e Niebur (1998) com as características de movimento e cintilação para implementar a animação automática de um avatar humano virtual realístico assistindo a vídeos variados. Contudo, modelos espaçotemporais de atenção ainda estão em fase de maturação e não são estritamente necessários em cenas dinâmicas. A maior contribuição desta dissertação está em testar uma alternativa pouco explorada em visão ativa: aplicar um modelo espacial estático de forma independente em cada quadro adquirido para o controle das câmeras..

(28) 26. 3. SISTEMA PROPOSTO. O controle de fixação binocular de um sistema artificial é um problema não trivial e extenso. Por isso, é vantajoso dividi-lo em partes menores e mais simples, com interfaces bem definidas. Este capítulo apresenta a proposta de um sistema de controle de fixação atentivo completo, do qual uma parte é tratada neste trabalho. A cabeça robótica Dexter, que atua como planta do sistema, é introduzida sob o ponto de vista do hardware na Seção 3.1. A arquitetura geral do sistema é construída na Seção 3.2, a partir de uma formulação geométrica da fixação. O subsistema que delimita o escopo da dissertação é abordado na Seção 3.3. 3.1. A CABEÇA ROBÓTICA DEXTER A cabeça robótica Dexter é uma plataforma de pesquisa em visão robótica. desenvolvida no Laboratório de Processamento de Imagens e Sinais (LAPIS) da Universidade Tecnológica Federal do Paraná (UTFPR). Em um futuro próximo, o projeto deve evoluir até a construção de um robô móvel autônomo cuja navegação é guiada exclusivamente por informações visuais, estendendo o trabalho proposto por Vieira Neto (2006). Seu primeiro protótipo, batizado de Number Five (Figura 4a), serviu a trabalhos de iniciação científica dedicados à operacionalização das câmeras e servomotores (FERNANDES; VIEIRA NETO; NUNES, 2008) e à localização visual de objetos empregando a Transformada Generalizada de Hough e controle proporcional (DIAS; VIEIRA NETO; NUNES, 2009). Um segundo protótipo (Figura 4b) foi construído para o aperfeiçoamento das câmeras e do projeto mecânico (NUNES; VIEIRA NETO, 2009). O presente trabalho constitui sua primeira aplicação como base experimental. No novo protótipo, a geometria da cabeça foi atualizada do modelo elevação comum ou Helmholtz para o modelo torreta independente ou Fick (MURRAY et al., 1992), em que cada câmera verge em torno de um eixo, sempre vertical, e se eleva em torno de um eixo horizontal exclusivo (Figura 5). A topologia escolhida permite total independência nos movimentos horizontais e verticais de cada câmera, restando ao software a responsabilidade de coordená-.

(29) 27. (a). (b). Figura 4 – Evolução do robô Dexter: (a) primeiro protótipo (Number Five); e (b) protótipo atual.. los.1 Com o movimento adicional do pescoço e um acoplamento virtual do movimento de tilt, reproduz-se quatro dos principais graus de liberdade mecânicos do Sistema Visual Humano. Desconsiderando limites de junta, é possível posicionar com redundância a intersecção dos eixos ópticos em qualquer ponto do ambiente circundante.. Tilt direita. Pescoço Tilt esquerda. Pan direita. Pan esquerda Figura 5 – Cadeia cinemática do robô Dexter. A cabeça possui cinco graus de liberdade mecânicos, mas o movimento de tilt das câmeras é acoplado por software para compatibilização com o Sistema Visual Humano.. A operacionalização da cabeça robótica para o início da pesquisa, até então composta apenas pela estrutura mecânica, servomotores e câmeras, exigiu a construção de uma base e 1. Alguns projetistas acoplam o movimento horizontal com um mecanismo de vergência simétrica (p. ex. Clark e Ferrier (1988)). Apesar da redução do número de motores e do peso com essa topologia, há maior complexidade no projeto mecânico e menor flexibilidade na estratégia de controle ocular (PAHLAVAN; EKLUNDH, 1992)..

(30) 28. módulos de alimentação e acionamento. Sob um ponto de vista sistêmico, o robô Dexter possui atualmente a organização esquematizada na Figura 6. DEXTER ACIONAMENTO Comandos de posicionamento (USB 2.0). Servo Pan Esq. (Hitec HS-965MG). Porta Serial. Servo Tilt Esq. (Futaba S3010). Caracteres Parser. Comando. Sinais PWM. Servo Pan Pescoço (Hitec HS-985MG). E/S. Gerador Setpoint Larguras de pulso. Servo Pan Dir. (Hitec HS-965MG) Servo Tilt Dir. (Futaba S3010). Gerador PWM. ALIMENTAÇÃO. VISÃO. ELETROMECÂNICA. Placa Junção. Arduino UNO R3. Módulo Pan SPT200F. Câmera Esquerda (IS DBK 21BF04-Z.H). Par estéreo de imagens digitais coloridas RGB 640 px × 480 px (IEEE1394a). Módulo Pan/Tilt GDP785A-BM. Módulo Pan SPT200F. Câmera Direita (IS DBK 21BF04-Z.H). 0 V = GND +5,0 V = 𝑉CC. Rede elétrica (127/220 Vac). Fonte ATX. Estímulos visuais do ambiente. +12,0 V -12,0 V +3,3 V. Figura 6 – O robô Dexter sob uma abordagem sistêmica. Quatro módulos internos cooperam para a aquisição de imagens do ambiente sob diferentes pontos de vista.. A estrutura mecânica se divide em dois módulos pan/tilt SPT200F para o movimento horizontal (pan) e vertical (tilt) das câmeras e um módulo pan GDP785A-BM para o movimento horizontal do conjunto completo2 . Os módulos mecânicos comportam servomotores analógicos de alto torque Hitec HS-985MG, Hitec HS-965MG3 e Futaba S30104 , acionados por um software embarcado em uma plataforma Arduino Uno R35 . Os comandos de posicionamento dos motores são recebidos via porta serial e obedecem a um protocolo de comunicação próprio. Uma fonte de alimentação padrão ATX adaptada energiza o conjunto, fornecendo até 18,0 A a 5,0 V. O sensoriamento visual do ambiente é realizado por duas câmeras digitais em cores Imaging Source DFK 21BF04-Z.H6 com interface de comunicação IEEE1394a (FireWire), sensor de imagem CCD de 640 px × 480 px e taxa de aquisição de até 60 Hz para quadros monocromáticos. As câmeras possibilitam a adição de pelo menos seis graus de liberdade ópticos ao sistema por meio do controle de zoom, foco e íris. No contexto deste trabalho, essas 2. https://www.servocity.com/kits/rotary-motion-kits/pan-tilt-kits. http://hitecrcd.com/products/servos. 4 http://www.futabarc.com/servos/analog.html. 5 https://www.arduino.cc/en/Main/ArduinoBoardUno. 6 https://www.theimagingsource.com/products/zoom-cameras/. 3.

(31) 29. funcionalidades são mantidas no modo automático e apenas o controle dos graus de liberdade mecânicos será objeto de estudo. Detalhes técnicos adicionais constam nos Apêndices A a D. 3.2. SISTEMA COMPLETO Geometricamente, a fixação de um ponto qualquer no espaço pelo robô Dexter assume. o aspecto da Figura 7. Ponto de fixação. 𝜃l. Ponto de fixação. 𝜃v 𝜃c 𝜃t 𝜃r. +. 𝜃n VISTA SUPERIOR. VISTA LATERAL. Figura 7 – Geometria da fixação de um ponto arbitrário. O ponto é definido inequivocamente com o vetor de ângulos de junta do mecanismo (θn , θl , θr , θt ). O ângulo ciclópico θc e de vergência θv são formados por consequência. Fonte: Adaptado de Bernardino e Santos-Victor (1999).. Os ângulos de junta θn , θl , θr , e θt definem completamente a configuração do mecanismo. O eixo que conecta a origem da cabeça com o ponto de fixação é denominado eixo ciclópico, e θc é o ângulo ciclópico dado por   tan θl + tan θr . θc = arctan 2. (1). Os eixos ópticos das duas câmeras se interceptam no chamado ponto de fixação, formando o ângulo de vergência θv dado por θv = θr − θl .. (2). Deseja-se que a cabeça seja capaz de selecionar e fixar alvos com deslocamentos laterais e em profundidade. Pode-se, portanto, decompor os movimentos oculares em duas classes complementares; deslocamentos laterais são compensados com movimentos conjuntivos das câmeras (versão), enquanto os deslocamentos em profundidade com movimentos.

(32) 30. disjuntivos (vergência). Dessa forma, embora cada junta tenha independência total do ponto de vista eletromecânico, os movimentos oculares se tornam acoplados logicamente por processos perceptuais cooperando em paralelo. O pescoço pode colaborar na fixação mantendo os ângulos das câmeras em faixas que maximizam a liberdade mecânica para movimentos posteriores. Com base nesses requisitos, propõe-se um sistema de controle de fixação binocular completo para o robô Dexter, esquematizado na Figura 8. Quadro esquerdo. COMPUTADOR Ponto de máxima saliência Atenção Visual. Correspondência Estéreo. DEXTER Sistema oculomotor dominante. CONTROLE. PERCEPÇÃO. Disparidade. 𝜃p+ Controlador de Versão. Controlador de Vergência. Servo Pan Esquerdo. 𝜃t. Câmera Esquerda. Servo Tilt Esquerdo. 𝜃p−. + +. Servo Pan Direito Servo Tilt Direito. Controlador do Pescoço. SENSORIAMENTO. AÇÃO. 𝜃n. Servo Pan Pescoço. Estímulos visuais do ambiente. Mecanismo Câmera Direita Sistema oculomotor não-dominante. Quadro direito. Figura 8 – Sistema de controle de fixação binocular completo proposto. A comunicação entre a cabeça robótica e um computador fecha um ciclo de percepção-controle-ação-sensoriamento para a seleção de alvos visuais e o acompanhamento de deslocamentos laterais e em profundidade. Os blocos em verde são desenvolvidos neste trabalho e os blocos em cinza são objeto de trabalhos futuros.. O sistema é composto por duas unidades físicas interligadas: um computador, responsável por processos de percepção e controle, e a cabeça robótica, responsável pela ação motora e sensoriamento visual estéreo. Para fins de modelagem, o mecanismo é dividido logicamente em um pescoço e dois sistemas oculomotores para o movimento pan e tilt de cada câmera. Controladores de versão e de vergência operam em paralelo para o posicionamento dos sistemas oculomotores. O ângulo de tilt θt é gerado pelo controlador de versão e aplicado igualmente nas duas câmeras. comum. θp+ ,. O ângulo de pan θp é decomposto em uma componente. gerada pelo controlador de versão, e uma componente diferencial θp− , gerada pelo. controlador de vergência. As componentes se distribuem entre os ângulos horizontais das câmeras da seguinte forma: θl = θp+. (3). θr = θp+ + θp− .. (4). e. O objetivo do controlador de versão é regular a direção de observação das câmeras.

(33) 31. com base na posição atual do alvo. Para tanto, ele depende de uma etapa perceptual de seleção do alvo guiada exclusivamente por pistas visuais monoculares e pré-categóricas. As pistas são monoculares porque derivam da imagem de apenas uma das câmeras, a esquerda; assume-se, portanto, um modelo de “dominância de olho esquerdo”. As pistas são précategóricas pois antecedem qualquer etapa de reconhecimento de objetos. Para que a fixação seja de fato genérica e rápida, é desejável que não dependa da identidade do alvo fixado e de uma estruturação excessiva do ambiente. Por esses motivos, a coordenada do alvo é obtida processando a informação sensorial com um modelo de atenção visual de baixo nível que retorna o ponto mais saliente da cena. O controlador de vergência não será objeto de estudo neste trabalho. Sua função é corrigir o ângulo de pan da câmera direita, não dominante, de modo a apontá-la para o mesmo alvo espacial selecionado pela câmera esquerda. É previsto, nesse caso, que as pistas visuais sejam binoculares. Uma medida popular para o erro de vergência é a disparidade binocular (TAYLOR; OLSON; MARTIN, 1994), que consiste na diferença entre as projeções do mesmo ponto tridimensional nas imagens de cada olho. A disparidade pode ser estimada pela distância entre picos de saliência, caso o modelo de atenção seja replicado na câmera direita, ou por técnicas como filtragem cepstral (YESHURUN; SCHWARTZ, 1989) e correlação de fase (KUGLIN; HINES, 1975). O controle do ângulo do pescoço também é reservado para implementações futuras. Há diversos modelos de coordenação cabeça-olho disponíveis, e alguns apresentam relações matemáticas relativamente simples com resultados satisfatórios (ITTI; DHAVALE; PIGHIN, 2003). 3.3. ESCOPO DO TRABALHO Do sistema completo de fixação proposto, somente o subsistema de controle do. movimento de versão por atenção será abordado. Para simplificação da notação, a componente comum de pan θp+ será simplesmente denotada por θp daqui em diante e a componente θp− será nula, de modo que θl = θr = θp .. (5). Inspirando-se no Sistema Visual Humano, a compensação de deslocamentos laterais pode ser atribuída a mecanismos sacádicos e de perseguição suave.. Isso implica uma. lógica de chaveamento entre dois modos ou, caso operem constantemente em paralelo, o desafio de corrigir erros conflitantes de posição e velocidade do alvo simultaneamente. Essas.

(34) 32. complicações, somadas ao fato de o comando nativo dos servomotores da cabeça ser em posição, motivaram a escolha de uma estratégia mais simples e direta que herda o controle em posição das sacadas e a topologia em malha fechada da perseguição suave. A arquitetura geral é apresentada na Figura 9. Perturbações. 𝒆 𝑥 𝒑 𝑦. Câmera dominante. Cena. CONTROLADOR DE VERSÃO. 0. 𝑒𝑦 +. −. 𝑒𝑥. 0 + −. 𝑝𝑦. Controlador PI (Tilt) Controlador PI (Pan). 𝜃dt. 𝜃t 𝜃t. 𝜃dp. Perturbações. 𝜃p. 𝑝𝑥. 𝜃p. Posição alvo. Quadro capturado. ATENÇÃO VISUAL. 𝒑 Detector de máximo. Mapa de saliências. Mapeador de saliências Ruído. Figura 9 – Arquitetura do sistema de controle de versão ocular proposto. As duas câmeras são movidas em conjunto na direção da região visualmente mais saliente no ambiente. Depois de centralizá-la na câmera esquerda, o sistema deve manter a fixação em meio a ruído, perturbações na posição do alvo e perturbações nos motores.. A premissa básica é de que há na cena um objeto de alta conspicuidade visual em relação aos arredores – o alvo. O objetivo do sistema é localizá-lo e fixá-lo em meio a perturbações na sua posição, perturbações na posição dos motores e ruído nas imagens capturadas. Trata-se portanto de um problema de regulação, pois a função primária do sistema é neutralizar o efeito de perturbações para manter a saída controlada em um valor de referência constante (OGATA, 2010). A regulação é cumprida mantendo o alvo centralizado na câmera esquerda, assumida como dominante porque sua imagem define o direcionamento das duas câmeras. Matematicamente, isso significa zerar o erro de posição e = (ex , ey ), que é a diferença em coordenadas retinais entre a posição de referência constante (0, 0), o centro da imagem, e a posição atual do alvo p = (px , py ) obtida por retroalimentação. Um controlador digital recebe o erro de posição e aplica leis de controle proporcionalintegral independentes para os movimentos de pan e tilt. A saída controlada é a posição angular.

Referências

Documentos relacionados

A pesquisa pode ser caracterizada como exploratória e experimental em uma primeira etapa (estudo piloto), na qual foram geradas hipóteses e um conjunto de observáveis, variáveis

Brônquios principais 1 Brônquios lobares 2 Brônquios segmentares 3 Brônquios subsegmentares 4 Pequenos brônquios 5-15 Brônquiolos terminais 16 Brônquiolos respiratórios

Local de realização da avaliação: Centro de Aperfeiçoamento dos Profissionais da Educação - EAPE , endereço : SGAS 907 - Brasília/DF. Estamos à disposição

1- A partir de observações e avaliações realizadas no segmento de transportes verificou-se a dificuldade de apropriação dos custos efetivos aos serviços

Para cada posição da janela móvel de dados, foram obtidas as estimativas das posições horizontais ̂ e ̂ das fontes, essas estimativas foram plotadas contra as coordenadas

Cursos Conteúdos Administração e Recursos Humanos 10 questões de conhecimentos gerais 15 questões de matemática 10 questões de português Direito 20 questões de

O governo federal até tem programas de incentivo à produção não convencional, como linha de crédito para produtores e uma lei para as prefeituras que

Para minimizar eficazmente estes riscos, o CMHP considerou que, além da proposta do titular da AIM para avaliar a FEVE antes de cada dose de mitoxantrona em doentes com esclerose