Uma interface para o controle de robôs móveis por intermédio de gestos

(1)

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA MECÂNICA

UMA INTERFACE PARA O CONTROLE DE ROBÔS MÓVEIS POR INTERMÉDIO DE GESTOS

Oto Emerson de Albuquerque

Orientador: Prof. Dr. Wallace Moreira Bessa

(2)

Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Engenharia Mecânica da UFRN como parte dos requisitos para a obtenção do título de Mestre em Engenharia Mecânica. Área de concentração: Engenharia Computacional. Orientador: Prof. Dr. Wallace Moreira Bessa

(3)

(4)

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA MECÂNICA

Oto Emerson de Albuquerque

Esta dissertação foi julgada para a obtenção do título de Mestre

em Engenharia Mecânica sendo aprovada em sua forma final

Prof. Dr. Wallace Moreira Bessa – UFRN Orientador

BANCA EXAMINADORA

Prof. Dr. Natanaeyfle Randemberg Gomes dos Santos – FMN

Prof. Dr. Luiz Guilherme Meira de Souza – UFRN

Prof. Dr. Angelo Roncalli Oliveira Guerra – UFRN

(5)

(6)

Agrade¸co primeiramente a Deus. Agrade¸co a minha esposa Jaciana e a toda a minha fam´ılia.

Agrade¸co ao meu Orientador Prof. Dr. Wallace Moreira Bessa e ao Coordenador do Curso de Pós Gradua¸cão de Engenharia Mecânica, Prof. Dr. Luiz Guilherme Meira de Souza por todo o tempo e ajuda dispensados a minha pessoa.

Agrade¸co aos meus amigos: Kayo, Caio, Jorge, Sandro e George, que ajudaram a tornar poss´ıvel a conclus˜ao desta disserta¸c˜ao.

(7)

(8)

O principal objetivo deste trabalho foi possibilitar o reconhecimento de gestos humanos através do desenvolvimento de um programa computacional. O programa criado capta os gestos executados pelo usuário por intermédio de uma câmera acoplada ao computador e envia para o robô o comando referente ao gesto. Foram interpretados no total cinco gestos feitos pela mão humana. O software (desenvolvido em C++) usou largamente os conceitos de visão computacional e da biblioteca de código aberto OpenCV que impactam diretamente na eficiência geral do controle de robôs móveis. Os conceitos de visão computacional levam em considera¸cão o uso de filtros para suavizar/borrar a imagem para redu¸cão de ru´ıdos, espa¸co de cores para melhor adequar o ambiente de trabalho do desenvolvedor além de informa¸cões úteis para a manipula¸cão de imagens digitais. A biblioteca OpenCV foi essencial na cria¸cão do projeto, pois, foi poss´ıvel o uso de várias fun¸cões/procedimentos para um controle completo de filtros, contornos de imagem, área de imagem, centro geométrico de contornos, troca de espa¸cos de cores, convex hull e convexity defect, além de todos os meios necessários para a caracteriza¸cão de features de imagens obtidas. Durante a evolu¸cão do software houve o aparecimento de vários problemas, como, falsos positivos (ru´ıdos), desempenho abaixo do esperado com a inser¸cão de vários filtros com tamanhos de máscaras superdimensionados, além de problemas decorrentes da escolha do espa¸co de cores para o tratamento dos tons de pele do ser humano. Porém, depois do desenvolvimento de sete versões do software de controle, foi poss´ıvel minimizar o aparecimento de falsos positivos devido a um melhor uso dos filtros aliados com um tamanho de máscara bem dimensionado (testado em tempo de execu¸cão) todos associados a uma lógica de programa¸cão que foi aperfei¸coada ao longo da constru¸cão das sete versões. Após todo o desenvolvimento se conseguiu um software que satisfez os requisitos estabelecidos. Depois da conclusão do software de controle, foi poss´ıvel observar que a eficiência geral dos diversos programas, destacando-se em especial os programas V com: 84,75%, VI com: 93,00% e VII com: 94,67% mostraram que o programa final apresentou um bom desempenho na interpreta¸cão dos gestos, provando que foi poss´ıvel o controle de robôs móveis através de gestos humanos sem a necessidade de acessórios externos, obtendo-se com isso, uma melhor mobilidade e redu¸cão de custos para se manter um sistema como este. O grande mérito do programa foi a capacidade de auxiliar na desmistifica¸cão do conjunto homem/máquina, pois, utiliza uma interface fácil e bastante intuitiva para controle de robôs móveis. Outra caracter´ıstica importante observada é que para controlar o robô móvel, não é necessário estar próximo do mesmo, visto que, para controlar o equipamento é necessário apenas receber o endere¸co que o Robotino passa ao programa via rede ou WI-FI.

(9)

The main objective of this work was to enable the recognition of human gestures through the development of a computer program. The program created captures the gestures executed by the user through a camera attached to the computer and sends it to the robot command referring to the gesture. They were interpreted in total five gestures made by human hand. The software (developed in C ++) widely used the computer vision concepts and open source library OpenCV that directly impact the overall efficiency of the control of mobile robots. The computer vision concepts take into account the use of filters to smooth/blur the image noise reduction, color space to better suit the developer’s desktop as well as useful information for manipulating digital images. The OpenCV library was essential in creating the project because it was possible to use various functions/procedures for complete control filters, image borders, image area, the geometric center of borders, exchange of color spaces, convex hull and convexity defect, plus all the necessary means for the characterization of imaged features. During the development of the software was the appearance of several problems, as false positives (noise), underperforming the insertion of various filters with sizes oversized masks, as well as problems arising from the choice of color space for processing human skin tones. However, after the development of seven versions of the control software, it was possible to minimize the occurrence of false positives due to a better use of filters combined with a well-dimensioned mask size (tested at run time) all associated with a programming logic that has been perfected over the construction of the seven versions. After all the development is managed software that met the established requirements. After the completion of the control software, it was observed that the overall effectiveness of the various programs, highlighting in particular the V programs: 84.75 %, with VI: 93.00 % and VII with: 94.67 % showed that the final program performed well in interpreting gestures, proving that it was possible the mobile robot control through human gestures without the need for external accessories to give it a better mobility and cost savings for maintain such a system. The great merit of the program was to assist capacity in demystifying the man set/machine therefore uses an easy and intuitive interface for control of mobile robots. Another important feature observed is that to control the mobile robot is not necessary to be close to the same, as to control the equipment is necessary to receive only the address that the Robotino passes to the program via network or Wi-Fi.

(10)

Figura 1 Exemplo de vis˜ao computacional (reconhecimento de pessoas) . . . 16

Figura 2 Robˆo autˆonomo - Asimo . . . 17

Figura 3 Robˆo autˆonomo - Robotino . . . 19

Figura 4 Imagem original (a) e sua representa¸c˜ao no espa¸co de cor RGB (b) e CMYK (c). . . 23

Figura 5 Figuras representativas da varredura da tela . . . 25

Figura 6 Lado esquerdo uma imagem com ru´ıdo, e na direita a mesma imagem ap´os filtragem . . . 26

Figura 7 Filtro Mediana . . . 27

Figura 8 Aplica¸c˜ao do filtro mediana (direita) sobre uma imagem original (es-querda) . . . 28

Figura 9 Filtro Gaussiano 2-D . . . 29

Figura 10 Dilata¸c˜ao morfol´ogica. (a) Imagem Original, (b) Imagem Dilatada, (c) Imagem Dilatada 2x . . . 29

Figura 11 Imagem morfol´ogica. (a) Imagem Original, (b) Imagem Erodizada, (c) Imagem Erodizada 2x . . . 30

Figura12 Limpeza de uma imagem ruidosa: (a) Image Original, (b) Dilata¸c˜ao dos conjuntos pretos . . . 30

Figura 13 Limpeza de uma imagem ruidosa: (a) Image Original, (b) Eros˜ao dos conjuntos pretos . . . 31

Figura 14 Representa¸c˜ao visual do convex hull do conjunto fechado. . . 32

(11)

contorno da m˜ao em rela¸c˜ao ao convex hull. . . 34

Figura 17 Algoritmo do programa de controle . . . 36

Figura 18 T´ecnicas usadas: convex hull (ponta dos dedos) e convex hull defect (vales) . . . 38

Figura 19 Imagem feita à uma distância de 9 cm da câmera / medi¸cão feita com uma trena de 5 m (professional uyustolls) . . . 39

Figura20 Imagem feita à uma distância de 31 cm da câmera / medi¸cão feita com uma trena de 5 m (professional uyustolls) . . . 40

Figura 21 Imagem (a) (67 cm de distância da câmera), Imagem (b) (240 cm de distância da câmera), Imagem (c) (250 cm de distância da câmera) / todas as medi¸cões foram feitas com uma trena de 5 m (professional uyustolls) . . . 40

Figura 22 Imagem bin´aria (a) e Imagem suavizada (b) . . . 41

Figura 23 Exemplo de utiliza¸c˜ao do Robotino SIM . . . 44

Figura 24 Janela ativa contendo a legenda de comandos . . . 45

Figura 25 Contorno de uma imagem . . . 46

Figura 26 Ponto vermelho central: COG com sua respectiva coordenada (x, y). . . 47

Figura 27 Visualiza¸c˜ao dos pontos interpretados: 0, 1 e 2 . . . 48

Figura 28 Visualiza¸c˜ao dos pontos interpretados: 3, 4 e 5 . . . 48

Figura 29 Robotino . . . 49

Figura 30 Roda Mecanum usada pelo Robotino . . . 49

Figura 31 Display do Robotino . . . 50

Figura 32 Ponto de acesso Wi-Fi . . . 50

Figura 33 Erros de interpreta¸c˜ao de imagens . . . 53

(12)

Figura 36 (a) Interpreta¸c˜ao correta da imagem. (b) Presen¸ca de falsos positivos

na imagem (pontos 1, 2 e 3) . . . 55

Figura 37 Parte do ombro ´e desprezada . . . 56

Figura 38 Programa despreza ´area menor que 5000 pixels . . . 56

Figura 39 Programa 1: Contorno da imagem captada pela cˆamera (imagem da esquerda) e imagem real captada (imagem da direita). . . 60

Figura 41 Programas 3 e 4: Contorno da imagem captada pela cˆamera (imagem da esquerda), imagem negativa ´util da imagem (centro) e imagem real captada (imagem da direita). . . 61

Figura 43 Gestos mostrados para a cˆamera / gesto 0 . . . 63

Figura 49 Kinect utilizado no Xbox One . . . 69

(13)

Tabela1 Informa¸c˜oes sobre a fonte de ilumina¸c˜ao artificial . . . 44

(14)

3CCD – Sistema de imagens usa três separadores do tipo CCD Android – Sistema operacional móvel desenvolvido pela Google API – Aplicativo de interface de programa¸cão

BMP – Bitmap

BSD – Licen¸ca de c´odigo aberto do tipo Berkeley Software Distribution

C – Linguagem de Programa¸c˜ao

C# – Linguagem de programa¸cão orientada a objetos criada pela Microsoft C++ – Evolu¸cão da Linguagem de programa¸cão baseada em C

CCD – Charged Coupled Device

CMOS – Complementary Metal Oxide Semiconductor

CMYK – Sistema de cores formado por Ciano, Magenta, Amarelo e Preto

COG – Center of gravity

CRT – Tubo de raios cat´odicos

HSI – Sistema de cores que adiciona intensidade HSL – Sistema de cores que adiciona luminosidade

HSV – Sistema de cores formadas pelas componentes hue, saturation e value IEEE – Institute of Electrical and Electronics Engineers

IHC – Itera¸c˜ao Homem-Computador

I/O – Entrada e Sa´ıda

iOS – Sistema operacional m´ovel desenvolvido pela Apple

IP – Internet Protocol

JPEG – Joint Photographic Experts Group

LCD – Liquid Crystal Display

Linux – Sistema operacional Open Source desenvolvido por Linus Torvalds Mac – Computador pessoal desenvolvido pela Apple

Open Source – C´odigo aberto

OpenCV – Biblioteca de Vis˜ao Computacional (Open Source)

PC – Personal computer

PID – Proportional Integrator-Differentiator

Plasma – TV que gera imagens de uma g´as (plasma) preenchido com Xenˆonio e Neon

QVGA – Quarter VGA

RGB – Red, Green and Blue (Vermelho, verde e azul) Robotino SIM – Simulador virtual do robotino

(15)

UFRN – Universidade Federal do Rio Grande do Norte

USB – Universal Serial Bus

VDC – Tens˜ao M´edia

VGA – Video Graphics Array

WEP – Wired Equivalent Privacy

WIFI – Wireless Fidelity

WPA-PSK – WiFi Protected Access, Pre-Shared Key

(16)

1 INTRODU ¸C ˜AO . . . 16

1.1 Apresenta¸c˜ao do Trabalho . . . 16

1.2 Objetivos . . . 20

1.2.1 Geral . . . 20

1.2.2 Espec´ıficos . . . 20

1.3 Estrutura da Disserta¸c˜ao . . . 20

2 REVIS ˜AO BIBLIOGR ´AFICA . . . 22

2.1 Reconhecimento dos contornos de uma imagem . . . 23

2.2 ´Area do contorno . . . 25

2.2.1 F´ormula de Green . . . 25

2.3 Filtros . . . 26

2.3.1 Filtro Mediana (Median blur) . . . 27

2.3.2 Filtro Gaussiano (Gaussian blur) . . . 28

2.3.3 Filtros de Dilata¸c˜ao e Eros˜ao . . . 29

2.3.3.1 Dilata¸c˜ao . . . 30

2.3.3.2 Eros˜ao. . . 31

2.4 Convex Hull . . . 31

2.5 Convexity Defect (defeitos de convexidade) . . . 33

2.6 Trabalhos Semelhantes . . . 34

3 MATERIAIS E M´ETODOS . . . 36

3.1 Biblioteca OpenCV . . . 37

3.2 M´etodos Aplicados no Desenvolvimento do Programa . . . 39

3.2.1 Manipula¸c˜ao da Imagem . . . 39

3.2.1.1 Determina¸cão da Distância da Câmera . . . 39

3.2.1.2 Imagem Negativa. . . 40

3.2.2 Centro Geom´etrico (COG) . . . 42

3.3 Sistema de Controle por Gestos . . . 43

3.4 Inicializa¸c˜ao do robˆo . . . 43

3.5 Fun¸cões, Headers e Classe Utilizadas para Inicializa¸cão do Robô . . . 43

3.6 Elabora¸c˜ao do Programa de Controle . . . 44

3.7 Robotino . . . 48

(17)

4.2 Reconhecimento de comandos semelhantes . . . 54

4.3 ´Area M´ınima da Imagem. . . 55

4.4 Problemas Enfrentados Durante o Desenvolvimento do Programa de Controle e Suas Respectivas Solu¸c˜oes . . . 56

4.5 Desempenho das Vers˜oes do Software de Reconhecimento de Co-mandos . . . 59

4.5.1 Programa 1 . . . 59

4.5.2 Programa 2 . . . 60

4.5.3 Programas 3 e 4 . . . 61

4.5.4 Programa 5 . . . 61

4.5.5 Programas 6 e 7 . . . 62

4.5.6 Evolu¸c˜ao da Interpreta¸c˜ao dos Comandos . . . 62

5 CONSIDERA ¸C ˜OES FINAIS . . . 67

5.1 Conclus˜oes. . . 67

5.2 Sugest˜oes para Trabalhos Futuros . . . 68

REFERˆENCIAS . . . 70

APˆENDICE . . . 75

(18)

1 INTRODU ¸C ˜AO

1.1 Apresenta¸c˜ao do Trabalho

Visão computacional é responsável pela forma como um computador enxerga o meio à sua volta, extraindo informa¸cões significativas a partir de imagens capturadas por câ-meras de v´ıdeo, sensores, scanners, entre outros dispositivos.

Estas informa¸cões permitem reconhecer, manipular e pensar sobre os objetos que compõem uma imagem (BALLARD; BROWN, 1982). Na figura (1), pode-se ter uma ideia da interpreta¸cão de informa¸cões desejadas (pessoas) na imagem. Exemplos de aplica¸cões incluem o controle de processos (como robôs industriais ou ve´ıculos autônomos), deteçcão de eventos, organiza¸cão de informa¸cão, modelagem de objetos ou ambientes e intera¸cão (atrelado a união homem-computador).

Figura 1 - Exemplo de vis˜ao computacional (reconhecimento de pessoas)

Fonte: (LINUX MAGAZINE ONLINE,2015)

Tem-se lan¸cado mão de várias áreas do conhecimento com o intuito de cumprir tais objetivos, como por exemplo: Inteligência Artificial, Engenharia Elétrica, Engenharia Mecânica e Informática. Porém, mesmo com todo o avan¸co que já se alcan¸cou em tais ciências, o homem ainda não obteve êxito em criar uma máquina que tenha todas as habilidades f´ısicas e cognitivas encontradas em um ser humano.

(19)

Figura 2 - Robˆo autˆonomo - Asimo

Fonte: (HONDA,2015)

Entre as habilidades mencionadas, à visão de robôs (mais especificamente a visão computacional), tem sido alvo de várias pesquisas e estudos na área de computa¸cão (CRO-WLEY et al., 1994). Partindo-se de um conhecimento de como funciona a visão humana, pesquisadores tem buscado desenvolver mecanismos que possibilitem que esta habilidade seja poss´ıvel a robôs, de modo que a percep¸cão tridimensional de objetos em um ambiente por parte de um robô e a associa¸cão destes objetos a um conhecimento prévio sobre tais, seja realizada com sucesso (ORLANDINI,2012).

Levando-se em considera¸cão todas as informa¸cões mencionadas anteriormente, optou-se pelo desenvolvimento de um software de visão computacional com foco no reco-nhecimento de comandos, utilizando-se para isso uma linguagem de programa¸cão (Visual Studio C++ 2013), além da biblioteca open source OpenCV (versão 2.4.10). A fun¸cão do software será a de reconhecer comandos feitos diante de uma webcam ou câmera ex-terna acoplada em um computador, para controlar um robô móvel – Robotino (FESTO, 2014). O software vai atuar como uma espécie de controle remoto feito exclusivamente pelo reconhecimento da ponta dos dedos da mão humana.

Este trabalho traz contribui¸cões importantes, uma vez que pretende-se facilitar o uso de robôs móveis por intermédio de gestos da mão humanos, sem a utiliza¸cão de acessórios extras, como por exemplo: joystick e óculos de realidade virtual acoplados com luvas contendo sensores.

(20)

Ainda nesta linha, Iba (IBA,1999) aborda algo parecido, pois para o controle do robô, foram necessários o armazenamento em uma matriz de forma offline de 5000 amostras representativas de gestos da mão, para a partir da´ı analisar os gestos feitos pelo usuário, comparar com a matriz previamente armazenada e só então comandar o robô.

Dentre os artigos dispon´ıveis, o trabalho de Kaura (KAURA, 2013) é o que mais se aproxima da abordagem aqui apresentada. Kaura (KAURA, 2013) utiliza programa¸cão em C++ e fun¸cões da biblioteca OpenCV para controlar um robô móvel (Arduino), en-tretanto, utiliza para isso apenas quatro gestos (reconhecendo a partir de dois até cinco dedos) para controle do robô, além da intercepta¸cão da palma da mão para estabelecer as dire¸cões direita/esquerda/trás.

Existem também na indústria diversos trabalhos voltados para o reconhecimento de gestos. A própria Volkswagen já anunciou que irá lan¸car um dos seus carros (Golf R Touch Concept) no mercado europeu (já no ano de 2016) com sistema de controle por gestos, que faz o uso de uma câmera 3D instalada no teto do carro, para controlar as funcionalidades do sistema sem o uso de uma tela (IG, 2015).

A Audi apresentou um conceito que utiliza um display na frente do motorista, outro na frente do passageiro e ainda um terceiro entre os dois, que pode ser visto pelas duas pessoas nos bancos da frente. Apesar desta ideia em si não ser particularmente revolucio-nária, a transferência de informa¸cões de uma tela para a outra é. O passageiro pode acessar as informa¸cões sobre um restaurante em sua própria tela e depois pode passá-las por con-trole gestual para o display central, fornecendo ao condutor as instru¸cões de navega¸cão. A tecnologia apresentada ainda está em fase de desenvolvimento e não há informa¸cões sobre uma poss´ıvel data para sua implementa¸cão nos ve´ıculos da marca (FUTURELAB,2015a).

A Mercedes-Benz apresentou um experimento chamado Dynamic & Intuitive Control Experience (DICE), ou Experiência de Controle Dinâmico e Intuitivo, utiliza uma série de sensores de proximidade para detectar os movimentos dos bra¸cos e mãos, que controlam tudo, desde música, navega¸cão e funcionalidades sociais, a um display, que compreende o pára-brisa inteiro, ainda sem data para lan¸camento (FUTURELAB, 2015b).

Nos últimos anos, há grande interesse em pesquisas voltadas para automa¸cão de pro-cessos por meio de sistemas robóticos, com intuito de promover o aumento da qualidade dos produtos e a otimiza¸cão do tempo. Esses sistemas, em sua maioria, utilizam técnicas de inteligência artificial (IA) empregadas na constru¸cão dos algoritmos propostos para so-lucionar os problemas. Por isso, sistemas autônomos de navega¸cão robótica que permitem a tomada de decisão com base em informa¸cões extra´ıdas do ambiente, que proporcionam a coopera¸cão de agentes ou possuem visão computacional, têm sido largamente explora-dos em pesquisas nas áreas de automa¸cão, robótica e IA, o que gera muitas propostas de aplica¸cões em vários segmentos (ARA ÚJO; LIBRANTZ, 2006).

(21)

com Muir (MUIR, 1988) o mesmo define um robô móvel como: um robô capaz de se locomover sobre uma superf´ıcie somente através da atua¸cão de rodas montadas no robô e em contato com a superf´ıcie (VICTORINO,1998). As rodas permitem um deslocamento relativo entre o seu eixo e a superf´ıcie sobre a qual se espera ter um único ponto de contato com rolamento puro.

Um robô móvel usualmente é equipado com sensores (visão, infravermelho, sonar, tato, toque, sistemas de navega¸cão inercial, etc.) que permite a percep¸cão do meio am-biente, total ou parcialmente desconhecido, e é dotado de capacidade de decisão, que lhe permite cumprir uma tarefa sem interven¸cão humana. Quando tais sensores estão dispo-n´ıveis no robô, pode-se fazer uso da intera¸cão do robô com o ambiente, fazendo-o perceber e construir o modelo do ambiente no qual o movimento se desenvolve e depois decidir as a¸cões a serem tomadas para a realiza¸cão da tarefa (J ÁCOBO,2001). Abaixo pode-se ver o robô móvel (Robotino) alvo de estudos neste trabalho, figura (3).

Figura 3 - Robˆo autˆonomo - Robotino

O uso de gestos é uma forma comum e umas das mais utilizadas para a comunica¸cão entre humanos. Com a busca por meios mais eficazes de comunica¸cão entre homem/má-quina, o estudo do reconhecimento de gestos da mão através de câmeras ganhou muita aten¸cão por se tratar do desenvolvimento de uma forma mais interativa e natural de promover essa comunica¸cão.

Levando-se em considera¸cão a facilidade de utiliza¸cão pelo usuário, interatividade e o avan¸co da tecnologia de reconhecimento de gestos, pois atualmente essa linha de pesquisa se mostra muito dinâmica e interessante, surgiu a ideia de se implementar uma aplica¸cão capaz de reconhecer gestos, proporcionando assim um método mais natural de intera¸cão humano-computador.

Uma das possibilidades da aplica¸cão do sistema de reconhecimento de comandos é o reconhecimento da ponta dos dedos de uma mão para acionar um robô móvel, que nesse caso particular será o Robotino.

(22)

dispositivos eletrˆonicos.

1.2 Objetivos

1.2.1 Geral

Desenvolver rotinas de visão computacional com foco no reconhecimento de ges-tos humanos, utilizando algumas linguagens de computa¸cão cient´ıfica, além da biblioteca OpenCV que impactam diretamente na eficiência geral do controle de robôs móveis.

1.2.2 Espec´ıficos

1. Desenvolver um software para controlar os movimentos de um robˆo m´ovel;

2. Reconhecimento de imagens captadas pela webcam ou cˆamera externa;

3. Teste de todas as versões desenvolvidas para verifica¸cão da eficiência e confiabi-lidade do software em questão;

4. Controlar a interface por meio da interpreta¸c˜ao de gestos da m˜ao humana;

5. Testar a funcionalidade do software com rela¸cão ao controle do robô móvel (Ro-botino) que será utilizado.

1.3 Estrutura da Disserta¸c˜ao

A estrutura do trabalho ficou dividida da seguinte forma:

1. Introdu¸c˜ao:

• A primeira parte do trabalho compreende uma ideia geral sobre visão com-putacional, sistemas artificias, robôs móveis, motiva¸cões para a elabora¸cão do trabalho e sua utilidade futura, além dos objetivos pretendidos com esse trabalho.

2. Revis˜ao Bibliogr´afica:

(23)

3. Materiais e m´etodos:

• Aborda as caracter´ısticas gerais do projeto, dando ênfase à biblioteca OpenCV, manipula¸cão da imagem, centro geométrico, além de informa¸cões mais detalhadas sobre o robô móvel (Robotino) utilizado no desenvolvi-mento do software.

4. Sistema de controle por gestos

• São vistas neste cap´ıtulo informa¸cões sobre a inicializa¸cão do robô, a elabo-ra¸cão do software de reconhecimento de comandos e os testes experimentais que foram necessários para o desenvolvimento do trabalho.

5. An´alise e discuss˜ao dos resultados:

• Neste cap´ıtulo foram abordados os erros de interpreta¸cão de imagens, o reco-nhecimento dos comandos semelhantes, área m´ınima da imagem, problemas e solu¸cões enfrentados durante o desenvolvimento do software, desempenho das várias versões desenvolvidas e finalmente a evolu¸cão da interpreta¸cão dos comandos reconhecidos.

6. Considera¸c˜oes finais:

(24)

2 REVIS ˜AO BIBLIOGR ´AFICA

Para a aquisi¸cão de dados das imagens foram necessárias a incorpora¸cão de algumas técnicas de visão computacional e espa¸co de cores que levam em considera¸cão a forma na qual os dados são fornecidos e por consequência, interpretados e passados para o programa de computa¸cão e assim termos controle efetivo e refinado das informa¸cões, diminuindo assim a solicita¸cão computacional exigida na coleta dos dados.

Espa¸co de cores (também sistema de cores ou espectro de cores) é um modelo abs-trato matemático para formalizar a descri¸cão de cores através de tuplas de números, tipicamente formadas por três ou quatro elementos. São normalmente tridimensionais, mas também podem ser quadrimensionais.

Os espa¸cos de cores RGB (sistema de cores aditivas formado pelas iniciais das cores em inglês Red, Green e Blue, que significa em português, respectivamente, Vermelho, Verde e Azul), CMYK (padrão de cores subtrativas, formado pelos pigmentos primários Cyan (Ciano), Magenta (Magenta) e Yellow (Amarelo) e ainda, o blacK (Preto)) e YCbCr (sistema de cores onde o Y representa a luminância (criado pela soma do vermelho, azul e verde), Cb que representa a componente de croma da diferen¸ca de azul e Cr que representa a componente de croma da diferen¸ca de vermelho) são os mais frequentemente utilizados (MAGAZINE, PC., 2016;POYNTON,2012).

Um Espa¸co de Cor pode ser visto como um sistema definido por uma base represen-tativa dos componentes, de acordo com a defini¸cão do espa¸co considerado. A representa¸cão de qualquer cor pode então ser feita à custa da combina¸cão desses componentes.

O modelo de espa¸co de cores RGB é provavelmente o mais usado entre os modelos de cores, especialmente para dados de 8 bits. A teoria do espa¸co de RGB (vermelho-verde-azul), de Thomas Young (YOUNG; KELLAND,1845), é baseada no princ´ıpio de que diversos efeitos cromáticos são obtidos pela proje¸cão da luz branca através dos filtros vermelho, verde e azul e pela superposi¸cão de c´ırculos nas cores projetadas, figura (4)b.

O espa¸co CMYK ´e o sistema complementar ao RGB, onde a ausˆencia das compo-nentes resulta no branco:

• A medida que v˜ao sendo adicionadas, na sua intensidade m´axima, chega-se ao` preto.

Este modelo baseia-se na absor¸c˜ao de luz com o objetivo de se conseguir uma boa impress˜ao no papel:

• Este sistema ´e utilizado nas impressoras;

• Teoricamente estas trˆes cores se misturam para produzirem o preto.

(25)

Figura 4 - Imagem original (a) e sua representa¸c˜ao no espa¸co de cor RGB (b) e CMYK (c)

Fonte adaptada: (TECMUNDO,2009)

O sistema YCbCr não é um espa¸co de cor absoluta, mas sim, é uma forma de codifica¸cão de informa¸cões RGB. A cor real exibida depende das cores reais RGB primárias usadas para exibir o sinal. Portanto, um valor expresso comoY CbCré previs´ıvel se as cores

prim´arias padr˜ao RGB forem utilizadas (POYNTON, 2012).

2.1 Reconhecimento dos contornos de uma imagem

Um contorno é um agrupamento de pixels que representa uma curva fechada em uma imagem. Uma vez que uma imagem é dividida em componentes conectados, é frequen-temente usual computar estat´ısticas para cada área (BRADSKI; KAEHLER, 2012). Todas essas informa¸cões podem ser utilizadas de forma a encontrar uma área de interesse em uma imagem.

Essas estat´ısticas incluem, conforme indicado em (SZELISKI,2010):

• Area do componente conectado - n´´ umero total de pixels do contorno;

• Per´ımetro - medida de comprimento de um contorno;

(26)

ou forma rasterizada. Os momentos de um contorno s˜ao definidos da mesma forma, mas calculado usando a f´ormula de Green (GLASNER, KARL, 2014).

O algoritmos usados para a extra¸c˜ao de contornos, inclusive utilizado pelo pr´oprio OpenCV, foi o algoritmo desenvolvido pelos Japoneses Satoshi Suzuki e Keiichi Abe, (SUZUKI et al., 1985).

Inicialmente, o algoritmo analisa uma imagem binária de entrada por intermédio de uma varredura e interrompe a mesma quando um pixel que satisfa¸ca a exigência é encontrada.

A varredura da imagem binária é feita come¸cando-se pelo canto inferior esquerdo até o canto superior direito da tela. O algoritmo varre todas as linhas de todas as colunas da tela procurando por informa¸cões relevantes (pontos brancos), visto que, todas as in-forma¸cões não relevantes (fundo da imagem) está setada na cor preta. Tomando-se uma coordenada qualquer A(x,y) na tela, o algoritmo analisa o próprio ponto A(x,y) e seus vizinhos B(x+1,y) e C(x-1, y) e procura por informa¸cões relevantes (pontos brancos). O modo como o algoritmo varre a imagem pode ser visto passo-a-passo abaixo:

• Caso 1: se o algoritmo encontra um ponto relevante em uma coordenada qual-quer A(x,y) e n˜ao encontra nenhum ponto relevante nas coordenadas vizinhas B(x+1,y) e C(x-1, y), o algoritmo identifica que encontrou um contorno e arma-zena a coordenada do ponto A(x,y) em um vetor de pontos.

• Caso 2: se o algoritmo encontra um ponto relevante em uma coordenada A(x,y) e no seu vizinho posterior B(x+1,y) e n˜ao encontra um ponto relevante em seu vizinho anterior C(x-1,y), o algoritmo identifica que encontrou um contorno e armazena a coordenada do ponto A(x,y) em um vetor de pontos.

• Caso 3: se o algoritmo encontra um ponto relevante em uma coordenada qualquer A(x,y), B(x+1,y) e C(x-1,y) o algoritmo identifica que está dentro do per´ımetro da imagem, portanto, a coordenada do ponto A(x,y) não é armazenada.

• Caso 4: se o algoritmo encontra um ponto relevante em uma coordenada qualquer A(x,y) e em seu vizinho anterior C(x-1,y) e n˜ao encontra nada relevante no seu vizinho posterior B(x+1,y) o algoritmo identifica que encontrou um contorno e armazena a coordenada do ponto A(x,y) em um vetor de pontos.

• Caso 5: se o algoritmo não encontra um ponto relevante em uma coordenada qualquer A(x,y), B(x+1,y) e C(x-1,y) o algoritmo identifica que está fora do pe-r´ımetro da imagem, portanto, a coordenada do ponto A(x,y) não é armazenada.

(27)

Figura 5 - Figuras representativas da varredura da tela

2.2 Area do contorno´

A fun¸cão computacional da área do contorno utilizada neste trabalho leva em con-sidera¸cão a fórmula de Green, equa¸cão (2.3). Assim, a área retorna um número de pixels diferente de zero.

2.2.1 F´ormula de Green

Seja u uma fun¸cão tal que −→∇2_u _{= 0, ou seja,}_u _{é a solu¸cão da equa¸cão de Laplace.}

Diz-se então que ué harmônica. Sejam u ev duas fun¸cões definidas em uma regiãoR, e seja Σ a superf´ıcie (eventualmente composta de várias partes conexas) que delimita essa região. Apliquemos o teorema do divergente à fun¸cãou−→∇v. Temos, preliminarmente, que:

div(u−→∇v) = u−→∇2v+−→∇u−→∇v (2.1)

Logo,

Z

div(u−→∇v)dV =

Z

u−→∇2vdV +

Z ₋_→

∇u.−→∇vdV =

Z

Σ

(28)

onde a igualdade entre a primeira e a ´ultima integrais constitui o teorema do divergente. Rearranjando, temos:

Z ₋_→

∇u.−→∇vdV =−

Z

u−→∇2_vdV ₊ Z

Σ

u−→∇v.−→n dS (2.3)

Esta equa¸cão é denominada primeira fórmula de Green. Considere agora a fun¸cãou−→∇v−

v−→∇u, e apliquemos a ela o teorema do divergente. Temos:

Z

dV div(u−→∇v −v−→∇u) =

Z

dv(u−→∇2_v₋_v−→_∇2_u_{) =} Z

dS(u−→∇v−v−→∇u).−→n (2.4)

Logo,

Z

dv(u−→∇2v−v−→∇2u) =

Z

dS(u−→∇v−v−→∇u).−→n (2.5)

Esta igualdade ´e denominada segunda f´ormula de Green (FLEMING H., 2013).

2.3 Filtros

Filtros são processos que tem por finalidade salientar determinados aspectos em imagens digitais ou reduzir ru´ıdos. Os processos de visão computacional, muitas vezes, necessitam de uma etapa de pré-processamento envolvendo o processamento de imagens. As imagens de onde queremos extrair alguma informa¸cão em alguns casos precisam ser convertidas para um determinado formato ou tamanho, e precisam ainda ser filtradas para remover ru´ıdos provenientes do processo de aquisi¸cão da imagem. Esses ru´ıdos podem ter sido introduzidos na imagem durante o processo de aquisi¸cão da imagem, devido a limita¸cões de hardware, no processo de quantiza¸cão e digitaliza¸cão, pelo excesso de compressão da imagem, problemas na transmissão entre outros.

Os filtros, figura (6), são as ferramentas básicas para remover ru´ıdos de imagens, neste caso, o ru´ıdo é aquele que aparece no processo de aquisi¸cão da imagem.

Figura 6 - Lado esquerdo uma imagem com ru´ıdo, e na direita a mesma imagem ap´os filtragem

(29)

Os filtros podem ser espaciais (filtros que atuam diretamente na imagem) ou de frequência, onde a imagem é inicialmente transformada para o dom´ınio de frequência usando da transformada de Fourier (geralmente através da transformada de Fourier dis-creta) e então é filtrada neste dom´ınio e em seguida a imagem filtrada é transformada de volta para o dom´ınio de espa¸co.

No desenvolvimento do programa, por exemplo, foram usados os filtros: Mediana, Gaussiano, Eros˜ao e Dilata¸c˜ao.

2.3.1 Filtro Mediana (Median blur)

Filtro mediana ´e uma transforma¸c˜ao bastante comum, e utilizado principalmente para suavizar ru´ıdos do tipo impulsivo em sinais e imagens digitais.

A principal utilidade do filtro de mediana é diminuir o ru´ıdo na imagem, principal-mente quando ele é formado por pequenos pontos (também conhecido como salt and peper, ou sal e pimenta), o filtro Mediana suaviza a imagem sem contudo diminuir sua resolu¸cão. Mas ele também é útil para tornar bordas mais n´ıtidas em algumas situa¸cões (IMAGESURVEY,2010).

Tukey (TUKEY,1977) foi um dos primeiros que sugeriu o uso de filtros de mediana para a suaviza¸c˜ao do sinal. Rabiner, Samgur, Schmidt (RABINER et al., 1975) e Jayant (JAYANT, 1976), aplicaram filtros medianas no processamento da fala, Pratt (PRATT, 1975) e Frieden (FRIEDEN, 1976) aplicaram-no ao processamento de imagem.

O filtro de mediana ´e um filtro de vizinhan¸ca onde o valor de um pixel ´e substitu´ıdo

pela mediana dos pixels da sua vizinhan¸ca,f =

N + 1 2

(HUANG et al., 1979).

No caso de dados ordenados de amostras de tamanho N, se N for ´ımpar, a mediana será o elemento central (N+1)₂ . Se N for par, a mediana será o resultado da média simples entre os elementos N

2 e

N

2 + 1.

Para cada vizinhan¸ca, ordena os pixels em ordem crescente de intensidade e escolhe como sa´ıda o valor mediano - aquele que est´a no centro da sequˆencia, figura (7).

Figura 7 - Filtro Mediana

(30)

Figura 8 - Aplica¸c˜ao do filtro mediana (direita) sobre uma imagem original (esquerda)

Esta opera¸c˜ao de filtragem pode ser escrita matematicamente como:

g(i, j) =median(f(i+k, j+l)h(k, l))

ondef é a imagem da fonte, g é a imagem filtrada, e hé a uniformemente ponderada do núcleo mediano de filtragem. Este passo foi necessário para reduzir o ru´ıdo da imagem e o o número de pontos de convexidade indesejados. A fun¸cão OpenCV correspondente é

<medianBlur>(DU; TO, 2011).

2.3.2 Filtro Gaussiano (Gaussian blur)

O Filtro Gaussiano ´e um filtro capaz de reduzir o n´ıvel de ru´ıdo de um sinal de entrada, a fim de diminuir a distor¸c˜ao numa imagem.

A forma dos filtros Gaussianos em 2-D, figura (9) ´e dada pela seguinte express˜ao:

H(u, v) =e−D22(σ2u,v)

(31)

Figura 9 - Filtro Gaussiano 2-D

Fonte: (BACKS, ANDR´E,2010)

Os filtros Gaussianos são muito úteis também em Biologia Computacional e Vi-são, pois no processo de visão algumas células têm forma de resposta aproximadamente Gaussiana.

O filtro Gaussiano suaviza (smoothing, blur) a imagem, quase da mesma forma que o filtro de média mean filter). O resultado será tão mais suave quanto maior o valor de sigma, σ, desvio padrão (standard deviation) da Gaussiana usada. Desvios padrões maiores também fazem com que a máscara (convolution kernel) deva ser maior para uma representa¸cão adequada.

2.3.3 Filtros de Dilata¸c˜ao e Eros˜ao

As transforma¸cões morfológicas básicas são as de dilata¸cão, figura (10), e erosão, figura (11) e que surgem numa vasta variedade de contextos, tais como a remo¸cão de ru´ıdo, isolando elementos individuais, e juntando elementos d´ıspares em uma imagem (BRADSKI; KAEHLER,2012).

Figura 10 - Dilata¸c˜ao morfol´ogica. (a) Imagem Original, (b) Imagem Dilatada, (c) Imagem Di-latada 2x

(32)

Figura 11 - Imagem morfol´ogica. (a) Imagem Original, (b) Imagem Erodizada, (c) Imagem Ero-dizada 2x

Fonte: (BRADSKI; KAEHLER,2012)

2.3.3.1 Dilata¸c˜ao

De acordo com Serra (SERRA, 1983), a opera¸cão de dilata¸cão binária δ pode ser mostrada como a dilata¸cão de uma imagemf pelo elemento estruturanteB que pode ser representada como:

δB(f) = {x∈f :Bx∩f 6=∅} (2.6)

ondeBx representa o elemento estruturanteB transladado na posi¸c˜ao x.

Segundo a equa¸c˜ao (2.6), o elemento estruturante Bx, posicionado e centrado em

cada pixelxdef desliza na imagemf e verifica uma poss´ıvel interse¸cão com a vizinhan¸ca dex. Caso seja verdadeiro, o ponto central na imagem resultado será considerado um pixel relevante e será marcado como tal. Caso contrário, ele será considerado como irrelevante e será apagado (FACON, J., 2011). A figura (12) mostra uma representa¸cão do filtro de dilata¸cão.

Figura 12 - Limpeza de uma imagem ruidosa: (a) Image Original, (b) Dilata¸c˜ao dos conjuntos

pretos

(33)

2.3.3.2 Eros˜ao

De acordo com Serra (SERRA, 1983), a opera¸cão de erosão binária E pode ser mos-trada como a erosão de uma imagemf pelo elemento estruturanteB que pode ser repre-sentada como:

EB₍_f_{) =} _{_x_∈_E _:_B

x ⊂f} (2.7)

ondeBx representa o elemento estruturanteB transladado na posi¸c˜ao x.

Segundo a equa¸c˜ao (2.7) deve-se deslizar o elemento estruturanteB sobre a imagem

f e para cada pixel x verificar a configura¸cão de sua vizinhan¸ca em rela¸cão à estrutura

do elemento estruturante B. Por ser bin´arios, a imagem f e o elemento estruturante B

cont´em dois tipos de informa¸c˜ao, o fundo e os pixels relevantes.

O significado da equa¸c˜ao (2.7) ´e que o elemento estruturante Bx, posicionado e

centrado no pixel x de f, tenta aparelhar-se com a vizinhan¸ca de x. Entende-se que cada pixel relevante deBx deve encontrar-se na mesma posi¸c˜ao na vizinhan¸ca dex. Caso

seja verificado, o pixel x na imagem erodida será considerado um pixel relevante e será preservado. Caso contrário, ele será considerado como irrelevante e será apagado (FACON, J., 2011). A figura (13) mostra uma representa¸cão do filtro de erosão.

Figura 13 - Limpeza de uma imagem ruidosa: (a) Image Original, (b) Eros˜ao dos conjuntos

pretos

Fonte adaptada: (FACON, J.,2011)

2.4 Convex Hull

(34)

Figura 14 - Representa¸c˜ao visual do convex hull do conjunto fechado.

Fonte adaptada: (KUKURUKU,2014)

O algoritmo utilizado na opera¸cão convex hull objetiva gerar o menor pol´ıgono que englobe um determinado conjunto de pontos. Opera somente com uma única camada de entrada por vez, cujo tipo de geometria poderá ser de qualquer tipo.

Em matemática, o convex hull ou envoltório convexo de um conjunto de pontos no plano euclidiano ou espa¸co euclidiano é o menor conjunto convexo que contém os pontos. Por exemplo, quando X é um subconjunto limitado do plano, o convex hull, figura (15), pode ser visualizado como uma configura¸cão formada por uma faixa de borracha esticada em torno de X (BERG et al., 2000).

Figura 15 - Convex hull de um conjunto finito: analogia com uma tira el´astica (atilho).

Fonte: (CODEPROJECT,2008)

Formalmente, o convex hull pode ser definido como a interseçcão de todos os con-juntos convexos que contém X ou como o conjunto de todas as combina¸cões convexas de pontos em X . De acordo com a última defini¸cão, convex hulls podem ser expandidos a partir de espa¸cos euclidianos para os espa¸cos vetoriais reais arbitrários; além disso eles podem também ser generalizados para matróides orientados (KNUTH et al.,1992).

Um matr´oide ´e um par ordenado M = (S, I) que satisfaz as propriedades:

• S ´e um conjunto finito e n˜ao vazio;

(35)

independente deS, tal que se B ∈I e A⊆B ent˜ao A ∈I;

– Dizemos queI ´e heredit´aria se satisfaz esta propriedade;

– Note que o conjunto vazio (∅) ´e obrigatoriamente um membro deI.

• Se A ∈ I, B ∈I, e |A| < |B|, ent˜ao existe algum elemento x ∈ B−A tal que

A∪ {x} ∈I.

– Dizemos queM satisfaz a propriedade de troca (CAMPONOGARA, E.,2014).

O convex hull de um conjunto finito de pontoSé o conjunto de todas as combina¸cões convexas de seus pontos. Em uma combina¸cão convexa,xi de cada ponto deSé atribu´ıdo

um peso ou coeficiente αi de tal maneira que os coeficientes s˜ao todos n˜ao-negativos e

resumidos a um, e estes pesos são utilizados para calcular uma média ponderada dos pontos. Para cada escolha de coeficientes, a combina¸cão resultante é convexa de um ponto no convex hull, e todo o convex hull pode ser formado por escolha de coeficientes de todas as maneiras poss´ıveis. Expressando isso como uma única fórmula, o convex hull é o conjunto (BERG et al.,2000; KNUTH et al., 1992; CHAZELLE, 1993):

λi >0∀ i e n

X

i=1

λi = 1 (2.8)

Um conjunto solu¸c˜ao limitada de um sistema finito de desigualdades lineares pode ser escrito matematicamente da seguinte forma:

P =P(A, b) :=

x∈Rd

aT_i x6bi for 16i6m

(2.9)

Onde A ∈ Rm×d

´e uma matriz real com linhas aT

i e b ∈ Rm ´e um vetor real com

entradasb_i, (HENK et al.,2004).

2.5 Convexity Defect (defeitos de convexidade)

Outra modo útil de compreender a forma de um objeto ou contorno é calcular o convex hull para o objeto e, em seguida, calcular o convexity defect (vales encontrados em uma dada imagem) (HOMMA; TAKENAKA,1985). As formas de diversos objetos complexos são bem caracterizados por esses vales.

(36)

Figura 16 - Imagem representativa do convex hull que é linha escura do contorno em volta da mão e as regiões quadriculadas (A-H) são o convexity defect no contorno da mão em rela¸cão ao convex hull.

Fonte: (SAPACHAN, 2015)

A biblioteca OpenCV possui implementado tanto as fun¸c˜oes deconvex hull()quanto a de convexity defect().

Existe no OpenCV três métodos relacionados ao convex hull e convexity defect. O primeiro simplesmente verifica o hull do contorno que já foi identificado, e o segundo permite verificar se o contorno identificado já é convexo. O terceiro avalia o convexity defect em um contorno na qual o convex hull é identificado (BRADSKI; KAEHLER, 2012).

2.6 Trabalhos Semelhantes

O trabalho desenvolvido por Waldherr (WALDHERR,2000), foi um importante ponto de estudo, pois o mesmo usa uma interface computacional para controlar um robô móvel, sendo que a interface fica instalada no próprio robô.

O robô reconhece alguns gestos pré estabelecidos e executa as fun¸cões referentes ao gesto. Dois métodos foram combinados para se conseguir uma melhor resposta do reconhecimento dos gestos. Sendo o primeiro a cria¸cão de um banco de dados com gestos pré gravados e o segundo utiliza uma abordagem com a utiliza¸cão de redes neurais.

Após o reconhecimento do gesto o robô segue o usuário e executa fun¸cões pré esta-belecidas. A finalidade do robô que foi testado era o de limpeza.

(37)

matriz offline (gerada anteriormente) ao processamento dos gestos. A grande vantagem desse método é a velocidade de execu¸cão e tempo de resposta pelo robô móvel, porém, um fator que pode prejudicar essa abordagem é que, se houver algum gesto (mesmo que semelhante) que não sido armazenado previamente na matriz o robô simplesmente não executa nem uma fun¸cão pois desconhece o gesto que foi exibido.

O trabalho de Kaura (KAURA, 2013), foi o que mais se aproximou da abordagem utilizada neste trabalho, visto que, utiliza programa¸cão em C++, bibliotecas do OpenCV, captura as imagens dos gestos, processa as mesmas em tempo de execu¸cão, gera um comando para o robô referente ao gesto interpretado e finalmente manda o robô (Arduino) para um local especificado pelo gesto.

(38)

3 MATERIAIS E M´ETODOS

Este cap´ıtulo aborda as caracter´ısticas gerais das principais ferramentas utilizadas no software de controle e pelo robˆo m´ovel Robotino (equipamento alvo da pesquisa deste trabalho).

O software de controle pode ser visualizado no algoritmo abaixo, figura (17), e leva em considera¸cão todos os passos necessários para o controle final do robô, que abrange a capta¸cão da imagem, inicializa¸cão do robô, processamento, interpreta¸cões de erros e comandos finais para que o robô móvel execute as informa¸cões impostas pelo usuário.

Figura 17 - Algoritmo do programa de controle

Primeiramente o programa verifica se a câmera está presente (câmera do laptop, webcam ou câmera externa). Caso negativo, o software apresenta uma mensagem de erro e sai do programa. Caso positivo, inicializa o robô.

Após a inicializa¸cão do robô o software capta a imagem da câmera, aplica os filtros mediana e Gaussiano (ambas as fun¸cões do OpenCV) e converte o espa¸co de cor RGB (default) para o espa¸co YCbCr (fun¸cão do OpenCV), gera a imagem binária (uma das fun¸cões utilizadas foi a split() - OpenCV) correspondente à imagem captada, aplica os ´

(39)

(fun¸c˜ao do OpenCV) da mesma.

Depois da aquisi¸cão do contorno é feito o cálculo da área da imagem e verifica-se se a imagem recebida é maior ou igual a 5000 pixels. Caso negativo, o programa volta a procurar o contorno da imagem. Caso positivo, o programa inicia a procura pelas pontas do dedos da mão humana.

Encontrando-se a ponta ou as pontas dos dedos da mão o software manda a infor-ma¸cão correspondente para o robô móvel. O ciclo se repete até que a tecla <ESC> seja pressionada, quando finalmente o programa é finalizado.

3.1 Biblioteca OpenCV

OpenCV é uma biblioteca para o desenvolvimento de aplicativos na área de visão computacional. Através dela, é poss´ıvel fazer a análise, interpreta¸cão e processamento de imagens em tempo real (BRADSKI; KAEHLER, 2012).

Originalmente, desenvolvida pela Intel, em 2000, é uma biblioteca multiplataforma, totalmente livre ao uso acadêmico e comercial, para o desenvolvimento de aplicativos na área de Visão computacional, bastando seguir o modelo de licen¸ca BSD Intel. O OpenCV possui módulos de Processamento de Imagens e Video I/O, Estrutura de dados, Álgebra Linear, GUI (Interface Gráfica do Usuário) Básica com sistema de janelas independentes, Controle de mouse e teclado, além de mais de 350 algoritmos de Visão computacional como: filtros de imagem, calibra¸cão de câmera, reconhecimento de objetos, análise estru-tural e outros. O seu processamento é em tempo real de imagens.

No inicio do projeto, os objetivos foram definidos como:

a) Avan¸car a pesquisa em visão computacional por prover não apenas código aberto mas otimizado para tarefas básicas de visão, de modo que o código pudesse ser prontamente lido e transfer´ıvel;

b) Avan¸car aplica¸cões baseadas em visão computacional por fazer código portável e otimizado dispon´ıvel de gra¸ca, com uma licen¸ca que não requer que a aplica¸cão seja de código aberto.

A versão 1.0 foi lan¸cada no final do ano de 2006 e foi desenvolvida nas linguagens de programa¸cão C e C++. Atualmente (primeiro trimestre de 2015) a biblioteca está na versão 2.4.10 (estável) e 3.0 (beta), e dá suporte também para desenvolvedores Linux, Mac, Android e iOS que desejem utilizá-la em seus projetos. Possuindo mais de 500 fun¸cões que podem ser aplicadas nas áreas de Intera¸cão Homem-Computador (IHC), identifica¸cão de objetos, reconhecimento de face, rastreamento, reconhecimento de movimentos, dentre outras.

(40)

manipula¸cão de imagens e que, assim, contribui para aumentar também a confiabilidade nas aplica¸cões desenvolvidas.

A biblioteca OpenCV possui recursos que auxiliam o desenvolvimento de softwares paro o reconhecimento de imagens analisadas. Para isto é necessário o uso de fun¸cões e técnicas de espa¸cos de cores (filtros) para que a análise seja efetuada (OPENCV,2014). É poss´ıvel usar, como exemplo, uma mão humana, figura (18). Caso seja inserido dentro do sistema que o padrão a ser reconhecido por ele será uma mão aberta, o sistema procurará na imagem os contornos que sejam similares a picos (ponta dos dedos - convex hull) e vales (região inferior entre os dedos - convex hull defects). Ao se mostrar para a câmera uma mão aberta, as fun¸cões entrarão em a¸cão procurando pelos pontos válidos, e o sistema passará a executar os procedimentos estipulados para o reconhecimento deste padrão. No momento em que a mão for fechada, ela deixará de ser reconhecida (inexistência de picos e vales), e o sistema passará acusar a falta de padrões na imagem. É por isto que se deve prever a maior parte das poss´ıveis posi¸cões e gestos da mão, para que ela continue sendo reconhecida como uma mão mesmo após sofrer, perante o sistema, modifica¸cões de formato durante a movimenta¸cão.

Figura 18 - T´ecnicas usadas: convex hull (ponta dos dedos) e convex hull defect (vales)

Fonte: (HAMLYNKINECT,2015)

Várias fun¸cões do OpenCV foram utilizadas no desenvolvimento do software de controle. Dentre elas se destacam as fun¸cões:

1. medianBlur(), GaussianBlur(), dilate() e erode() – utilizadas para a inicializa¸c˜ao dos diversos filtros usados no programa;

2. cvtcolor() e split() – utilizadas para trocar o espa¸co de cores RGB em YCbYr e separar as componentes do novo espa¸co de cor para se conseguir um melhor controle das vari´aveis;

(41)

4. convexHull() e ConvexityDefects() – utilizadas para auxiliar no reconhecimento dos picos e vales de uma imagem, possibilitando assim que as pontas dos dedos da m˜ao humana fossem identificadas.

3.2 M´etodos Aplicados no Desenvolvimento do Programa

Nesta se¸cão serão mostrados os métodos e conceitos que foram utilizados para o desenvolvimento do software.

3.2.1 Manipula¸c˜ao da Imagem

Não foi necessária a calibra¸cão da câmera, visto que, os parâmetros intr´ınsecos e extr´ınsecosdefault das câmeras convencionais (webcam e câmera do laptop) não influen-ciavam na correta capta¸cão da imagem.

3.2.1.1 Determina¸cão da Distância da Câmera

O usuário deve estar posicionado entre 10 à 60 cm de distância da câmera. Isso é importante pois foi constatado que, se o usuário ficar muito longe da câmera (além de 60 cm de distância) as imagens ficam distorcidas uma vez que os filtros aplicados sobre a imagem tem como uma das caracter´ısticas a de borrar a imagem captada.

Se o usuário ficar à menos de 10 cm da câmera a imagem fica muito grande e portanto de dif´ıcil interpreta¸cão por parte do software, figura (19).

Figura 19 - Imagem feita à uma distância de 9 cm da câmera / medi¸cão feita com uma trena de 5 m (professional uyustolls)

(42)

Figura 20 - Imagem feita à uma distância de 31 cm da câmera / medi¸cão feita com uma trena de 5 m (professional uyustolls)

A figura (21), mostra como se comportam as imagens que foram obtidas al´em do

range de 60 cm.

Figura 21 - Imagem (a) (67 cm de distância da câmera), Imagem (b) (240 cm de distância da

câmera), Imagem (c) (250 cm de distância da câmera) / todas as medi¸cões foram feitas com uma trena de 5 m (professional uyustolls)

Tanto a distância m´ınima de 10 cm quanto a distância máxima de 60 cm foram determinados através de testes práticos em tempo de execu¸cão.

3.2.1.2 Imagem Negativa

(43)

Figura 22 - Imagem bin´aria (a) e Imagem suavizada (b)

• Utilizou-se o procedimento de autoria do desenvolvedor (skinExtract()) que aplica na imagem recebida os filtros Mediana (máscara - 17x17), Gaussiano (máscara - 25x25) e converte o espa¸co de cor RGB (espa¸codefault de entrada) em YCbCr (fun¸cão OpenCV utilizada para conversão - cvtColor());

• Uma vez que o novo espa¸co de cor est´a setado para YCbCr (matriz multi canais), separa-se o espa¸co nas suas matrizes individuais de cores (Cb e Cr) para um controle mais preciso da imagem rec´em adquirida;

• Através da varredura da matriz recém separada por intermédio de um la¸cofor(), e pela verifica¸cão do conteúdo das componentes Cb e Cr (la¸co condicionalif()), consegue-se verificar se Cb e Cr estão dentro do intervalo 100 ≤ Cb ≤ 127 e 138≤Cr≤170 respectivamente. Caso o resultado da compara¸cão (para aquela coordenada analisada) seja verdadeiro a coordenada de pixel da tela recebe o valor 255 (pixel branco) caso contrário recebe o valor 0 (pixel preto) para se conseguir com isso a constru¸cão de uma imagem binária.

• Finalizando o procedimento (skinExtract()), aplica-se os filtros Dilata¸cão e Ero-são (máscara - 5x5) para a suaviza¸cão final da imagem, figura (22)b.

Os filtros Mediana e Gaussiano foram utilizados para borrar parcialmente a imagem e com isso se conseguir uma minimiza¸c˜ao de falsos positivos.

Os filtros Dilata¸cão e Erosão tiveram como objetivo reduzir ainda mais os falsos positivos, visto que, atuam depois da aplica¸cão dos filtros Mediana e Gaussiano.

Para os filtros em questão foi necessário fazer alguns testes práticos (em tempo de execu¸cão) para se determinar qual seriam os tamanhos de máscaras mais adequados para se conseguir o melhor resultado entre desempenho computacional e identifica¸cão da imagem pelo programa.

(44)

(matriz) de 17x17.

Já para o filtro Gaussiano foi utilizada a mesma estratégia utilizada no filtro Medi-ana, e após os testes das máscaras: 3x3, 5x5, 7x7, 12x12, 15x15, 17x17, 20x20, 25x25 e 28x28, escolheu-se a máscara de 25x25.

Para o filtro Dilata¸cão e Erosão, testou-se as máscaras: 3x3, 5x5, 7x7, 12x12, 15x15, 17x17 e 20x20, escolhendo-se assim a máscara de 5x5.

Matrizes acima de 3x3 borram e melhoram um pouco a imagem e matrizes acima de 10x10, borram, melhoram e destacam a imagem como um todo, por´em, impactam diretamente na velocidade de execu¸c˜ao do programa, deixando o sistema mais lento.

Em contraste com o RGB, o espa¸co YCbCr ´e luma independente, resultando em uma melhor performance (KUKHAREV; NOWOSIELSKI, 2004).

A principio utilizou-se o intervalo 80≤Cb≤120 e 133≤Cr≤173, como ponto de partida (BASILIO, 2011). Porém, após vários teste em tempo de execu¸cão, optou-se pela utiliza¸cão dos intervalos 100 ≤ Cb ≤ 127 e 138 ≤ Cr ≤ 170 (engloba o range dos tons de pele do tipo caucasiano), pois os mesmos resultaram em menos falsos positivos para o reconhecimento de imagens.

3.2.2 Centro Geom´etrico (COG)

O centro geom´etrico ´e um importante conceito pois serve para se conseguir localizar o centro de uma imagem captada.

No caso de uma imagem processada os momentos que formam o COG,M oments::

m_ji s˜ao computados como:

mji =

X

x,y

(array(x, y).xj.yi) (3.1)

O momento central, M oments::mu_ji s˜ao computados como:

mu_ji =X

x,y

(array(x, y).(x−x)j_.₍_y₋_y₎i₎ _(3.2)

Onde (x, y) ´e o centro geom´etrico:

x= m10

m00

, y= m01

m00

(3.3)

Os momentos centrais normalizados, M oments::nu_ij s˜ao computados como:

nuji =

muji m 1+j 2+1 00 (3.4)

(45)

n˜ao s˜ao armazenados.

Os momentos de um contorno são definidos do mesmo modo mas são computados usando-se a fórmula de Green, (RILEY et al.,2006).

Observa-se também que desde que os momentos de contorno são calculados usando a fórmula de Green, pode-se obter resultados aparentemente estranhos para contornos com auto-interse¸cões, por exemplo, uma área de zeros (M₀₀) para contornos em forma de borboleta.

3.3 Sistema de Controle por Gestos

Atualmente há televisores que podem ser controlados por gestos, smartphones, com-putadores e robôs. Os video games estão cada dia mais voltados aos comandos com a utiliza¸cão do próprio corpo como controlador e essa tendência deve se espalhar para todos os outros ramos da tecnologia (HAMANN, R., 2014).

Dessa forma, pode-se constatar que os estudos de reconhecimento de gestos e con-troles sem o aux´ılio de equipamentos externos como: joysticks e capacetes de realidade virtual estão sendo cada vez mais desenvolvidos e apontam para uma realidade concreta para a utiliza¸cão por todas as pessoas nos próximos anos.

A seguir, pode-se contatar o desenvolvimento do programa (passo-a-passo) que será mostrado nas próximas se¸cões.

3.4 Inicializa¸c˜ao do robˆo

Durante o inicio da execu¸cão do programa o primeiro ponto a ser tratado é a existên-cia de uma câmera de v´ıdeo. Caso a mesma seja localizada, o programa trata de iniexistên-cializar as API’s do Robotino. Inicializa¸cão essa que leva em considera¸cão o IP do robô que é pas-sado ao programa pelo roteador do próprio Robotino. Após isso o Robotino estará pronto para receber e executar a qualquer comando enviado ao mesmo.

3.5 Fun¸cões, Headers e Classe Utilizadas para Inicializa¸cão do Robô

Para a utiliza¸c˜ao correta do Robotino fez-se uso de algumas rotinas (C++) para controle completo do robˆo, destacando-se para isso:

• O tratamento de erros de inicializa¸c˜ao;

• A inicializa¸c˜ao propriamente dita;

• Inicializa¸c˜ao dos atuadores;

• Controle individual dos motores de todas as rodas do robˆo;

(46)

3.6 Elabora¸c˜ao do Programa de Controle

Para o desenvolvimento de técnicas de controle de gestos (visão computacional) usou-se a biblioteca OpenCV 2.4.10 para facilitar a integra¸cão entre C++ (visual Studio C++) e a API 1.1 do Robotino.

O desenvolvimento do software e seus respectivos testes foram feitos em uma sala cujas dimens˜oes eram de 3,90 m x 2,85 m, com uma fonte de ilumina¸c˜ao artificial cujos dados podem ser visualizados na tabela (1).

Tabela 1 - Informa¸c˜oes sobre a fonte de ilumina¸c˜ao artificial

Lˆampada Fluorecente - OSRAM

Potˆencia Nominal 23,0 W

Tens˜ao Nominal 220 V .. 240 V

Corrente Nominal 0,23 A

Fluxo Luminoso 1280 lm

Temperatura da Cor 6500 K

Tonalidade da Luz 865

Tonalidade de Acordo com EM 12464-1 Daylight ´Indice de Reprodu¸c˜ao de Cor Ra 80

Fonte: (OSRAM,2015)

O software também pode testar as rea¸cões do robô utilizando-se para isso o simulador virtual do Robotino, figura (23), que pode ser baixado direto do site da Festo (Robotino SIM) para verificar se o robô responderia adequadamente aos comandos, sem que o mesmo esteja presente fisicamente. Isto é muito importante, pois, nem sempre é poss´ıvel ter o robô a disposi¸cão durante todo o tempo de testes. O IP utilizado para os testes foi o endere¸co local 127.0.0.1:8080.

Figura 23 - Exemplo de utiliza¸c˜ao do Robotino SIM

(47)

impor-tantes para que o robˆo respondesse de forma adequada aos gestos apresentados.

Inicialmente é passado para o programa o endere¸co IP default (172.26.201.1) pas-sado pelo roteador do Robotino. Caso o usuário queira passar outro endere¸co IP para o programa basta apenas inserir o mesmo na linha de execu¸cão, por exemplo, nome pro-grama.exe [IP] <enter>.

Após a passagem do endere¸co o programa checa se a câmera foi devidamente inici-alizada, caso negativo, apresenta uma mensagem de erro e sai do programa. Se a câmera tiver sido devidamente inicializada o programa executa uma rotina para inicializar o robô, usando-se para isso a API 1.1 do Robotino. Após a checagem da inicializa¸cão do robô o programa apresenta uma tela contendo uma legenda onde constam todos comandos com-preendidos pelo robô para servir de orienta¸cão ao usuário, como pode ser visto na figura (24).

Figura 24 - Janela ativa contendo a legenda de comandos

Continuando-se com a execu¸c˜ao do software, se utiliza o procedimento de autoria do desenvolvedorskinExtract()), que aplica na imagem recebida os filtros Mediana e Gaussi-ano, converte-se o espa¸co de cor RGB em YCbCr e gera-se uma imagem bin´aria.

Finalizando-se o procedimento, aplica-se os filtros Dilata¸cão e Erosão para a redu-¸cão de falsos positivos (uma vez que a imagem já recebeu dois filtros anteriormente) e suaviza¸cão final da imagem, figura (22)b.

(48)

Figura 25 - Contorno de uma imagem

Após a passagem da fun¸cão de contorno, verifica-se se o tamanho do contorno é diferente de zero, caso verdadeiro o programa segue normalmente, caso falso o programa volta ao in´ıcio e procura por uma nova imagem.

Uma vez que é constatado que o tamanho do contorno é diferente de zero, se utiliza um la¸co for() para varrer o vetor de pontos que contém o contorno armazenado para se calcular a área total do contorno através da fun¸cão do OpenCV contourArea(). Isso é importante pois através de testes experimentais (em tempo de execu¸cão) viu-se que com uma área total de imagem de no m´ınimo 5000 pixels se consegue reduzir falsos positivos e a carga computacional, visto que, todas as áreas menores que 5000 pixels são desprezadas pelo software. Outro ponto percebido foi que, mesmo com uma imagem maior que 5000 pixels se a mesma ficar muito longe da câmera (além de 60 cm de distância) as imagens ficavam distorcidas, figura (21).

Após a constata¸cão que a área do contorno é maior que 5000 pixels se utiliza o pro-cedimento on trackbar() (de autoria do desenvolvedor) para desenhar na tela o contorno encontrado e prosseguir-se com a execu¸cão normal do programa.

(49)

Figura 26 - Ponto vermelho central: COG com sua respectiva coordenada (x, y).

A seguir, tem-se o chamamento da fun¸cão Dist Focagem() (de autoria do desenvol-vedor) que usa as informa¸cões vindas da fun¸cão de contorno findContours() e da fun¸cão

C COG()juntamente com as fun¸c˜oes do OpenCVconvexHull() econvexityDefects() para o reconhecimento das pontas dos dedos na imagem.

A fun¸cão em questão, utiliza um la¸co for() para vasculhar inteiramente o vetor de dados retornado pela fun¸cão de contorno e aplica em cada itera¸cão as fun¸cões do

convexHull() e convexityDefects() para guardar as informa¸cões referentes ao contorno e desenhar na tela as informa¸cões advindas da fun¸cão convex hull. Uma vez que as informa-¸cões foram armazenadas nos respectivos vetores pontos do convex hull e convexity defect é utilizado mais um la¸cofor() para encontrar a média de pontos de cada massa de dados do convexity defect (para cada itera¸cão o vetor do convexity defect armazena o ponto inicial o ponto final e o ponto mais distante do convex hull dentro do convexity defect) para a partir da´ı, selecionar um único ponto por itera¸cão.

Novamente é utilizado mais um la¸co for() que abrange o cálculo da distância entre os pontos encontrados e o centro do contorno e verifica-se através de um la¸co condicional

if() se os pontos encontrados est˜ao situados na parte superior, laterais e abaixo do centro geom´etrico do contorno.

Uma vez que essas informa¸cões são conhecidas, pode-se determinar se os pontos podem ser considerados como ponta dos dedos ou não. Caso se determine que o ponto encontrado é válido (ponta do dedo), se tra¸ca um circulo representativo e uma linha unindo o centro geométrico da imagem ao ponto recém descoberto.

(50)

Figura 27 - Visualiza¸c˜ao dos pontos interpretados: 0, 1 e 2

Figura 28 - Visualiza¸c˜ao dos pontos interpretados: 3, 4 e 5

O programa fica em execu¸cão até que o usuário pressione a tecla <ESC>, quando finalmente o programa é encerrado.

3.7 Robotino

O Robotino (figura29) é um sistema robótico totalmente funcional, de alta qualidade móvel, com uma unidade omnidirecional composta por três rodas Mecanum (figura 30), todas as quais são individualmente controláveis, dispostas em um ângulo de 120◦

(51)

Figura 29 - Robotino

Fonte: (FESTO,2015b)

Figura 30 - Roda Mecanum usada pelo Robotino

Fonte: (FESTO,2015c)

O Robotino pode ser programado com o auxilio do software Robotino View ou lin-guagem de programa¸cão em um PC via rede wireless. Tanto O Robotino View (Apenas para o sistema operacional Windows) quanto a programa¸cão feita por linguagens com-putacionais (C, C++, Java, .Net) são capaz de transmitir sinais para o controlador do motor, assim como, mostrar, trocar e avaliar valores dos sensores.

(52)

Figura 31 - Display do Robotino

Fonte: (FESTO,2015b)

O Robotino possui um ponto de acesso via Wi-Fi, figura (32), que pode ser fixado diretamente na carca¸ca do robˆo para que o mesmo seja controlado por uma rede sem fio.

Figura 32 - Ponto de acesso Wi-Fi

O Robotino pode ser usado para o treinamento de pessoal, treinamento esse que abrange as seguintes ´areas:

a) Mecˆanica

– Constru¸cão mecânica de um sistema de robô móvel.

b) El´etrica

(53)

– Fia¸c˜ao correta de componentes el´etricos.

c) Sensores

– Controle de trajet´oria guiado por sensores.

– Controle de trajetória anti colisão com sensores de distância.

– Controle de trajet´oria via processamento de imagem conseguido por inter-m´edio de fotos de uma webcam.

d) Sistemas de controle por experiˆencia.

– Controle de unidades omnidirecionais.

e) Uso de interface de comunica¸c˜ao.

– Rede sem fio (WI-FI).

f) Comissionamento

– Comissionamento de um sistema de robˆo m´ovel.

O Robotino é equipado com nove (9) sensores infravermelhos de medi¸cão de distân-cias que são montados no chassis do robô em um ângulo entre eles de 40◦

. O Robotino pode escanear todas as ´areas ao redor de objetos com esses sensores. Cada um dos sensores podem ser consultados individualmente atrav´es da placa de circuitos I/O.

Dessa forma os obstáculos podem ser evitados e distâncias seguras podem ser man-tidas. Os sensores são capazes de medi¸cões precisas para uma distância relativa de 4 a 30 cm. A conexão com os sensores é especialmente simples, incluindo apenas um sinal de sa´ıda analógica e fonte de alimenta¸cão. A eletrônica implantada nos sensores pode determinar a distância e permitir que o mesmo seja lido como um sinal analógico.

A velocidade real de cada motor individual é medida em RPM pelo encoder peri-odicamente. Se a velocidade real do motor se desviar do ponto de ajuste (setado pelo usuário/programador), o programador pode usar o software Robotino View para configu-rar os parâmetros do controlador PID, e dessa forma resolver o problema.

O sensor anti-colisão, está instalado sob uma tira de borracha, que está fixado em torno da circunferência do chassi. Uma câmara de comuta¸cão está localizada dentro de um perfil de plástico.