Rede neural convolucional aplicada à visão computacional para detecção de incêndio

(1)

DAELN - DEPARTAMENTO ACADˆ

EMICO DE ELETR ˆ

ONICA

CURSO DE ENGENHARIA ELETR ˆ

ONICA

ANDR´

E LUIZ BERTONI

DIEGO VIEIRA DE SOUZA FEDER

REDE NEURAL CONVOLUCIONAL APLICADA `

A VIS ˜

AO

COMPUTACIONAL PARA DETEC ¸

C ˜

AO DE INCˆ

ENDIO

TRABALHO DE CONCLUS˜

AO DE CURSO

CURITIBA

2018

(2)

DIEGO VIEIRA DE SOUZA FEDER

REDE NEURAL CONVOLUCIONAL APLICADA `

A VIS ˜

AO

COMPUTACIONAL PARA DETEC ¸

C ˜

AO DE INCˆ

ENDIO

Trabalho de Conclusão de Curso apresentado ao Curso de Engenharia Eletrônica da Universidade Tecnológica Federal do Paraná, como requisito parcial para a obten¸cão do t´ıtulo de Bacharel.

Orientador: Prof. Daniel Rossato de Oliveira

Universidade Tecnol´ogica Federal do Paran´a

CURITIBA

2018

(3)

ANDRÉ LUIZ BERTONI DIEGO VIEIRA DE SOUZA FEDER

REDE NEURAL CONVOLUCIONAL APLICADA À VISÃO

COMPUTACIONAL PARA DETECÇÃO DE INCÊNDIO

Este Trabalho de Conclusão de Curso de Graduação foi apresentado como requisito parcial para obtenção do título de Engenheiro Eletrônico, do curso de Engenharia Eletrônica do Departamento Acadêmico de Eletrônica (DAELN) outorgado pela Universidade Tecnológica Federal do Paraná (UTFPR). Os alunos foram arguidos pela Banca Examinadora composta pelos professores abaixo assinados. Após deliberação, a Banca Examinadora considerou o trabalho aprovado.

Curitiba, 07 de dezembro de 2018.

____________________________________ Prof. Dr. Robinson Vida Noronha

Coordenador de Curso Engenharia Eletrônica

____________________________________ Profª. Drª. Carmen Caroline Rasera

Responsável pelos Trabalhos de Conclusão de Curso de Engenharia Eletrônica do DAELN

BANCA EXAMINADORA

______________________________________ Prof. Me. Daniel Rossato de Oliveira

Universidade Tecnológica Federal do Paraná Orientador

_____________________________________ Prof. Dr. Robinson Vida Noronha

Universidade Tecnológica Federal do Paraná

_____________________________________ Prof. Me. Luiz Fernando Copetti

Universidade Tecnológica Federal do Paraná

(4)

Agradecemos `as nossas fam´ılias e amigos por todo amor e apoio incondicional fornecido, at´e nos momentos de maior dificuldade.

Agradecemos a todos os professores que nos ensinaram durante essa trajet´oria e guiaram nossos aprendizados para a conclus˜ao dessa etapa.

Agradecemos também a Universidade Tecnológica Federal do Paraná, seu corpo docente, dire¸cão e administra¸cão por toda a estrutura providenciada ao longo desse per´ıodo.

(5)

(6)

BERTONI, André L.; FEDER, Diego V. de S.;. Rede Neural Convolucional Aplicada à Visão Computacional para Deteçcão de Incêndio. 2018. 80 f. Trabalho de Conclusão de Curso – Curso de Engenharia Eletrônica, Universidade Tecnológica Federal do Paraná. Curitiba, 2018. Para este projeto foi desenvolvido um sistema de alerta de incêndio que utiliza: uma câmera, um Raspberry Pi, um sistema de visão computacional e um aplicativo android.

Utilizamos o Raspberry Pi como bloco principal. É ele que está conectado diretamente à câmera e processa a imagem recebida com um algoritmo inteligente.

O algoritmo do sistema consiste em três partes: filtragem de cores, deteçcão de movimento e auto-aprendizagem. Avaliando assim se existe um princ´ıpio de incêndio occorendo.

O aplicativo android foi desenvolvido com uma interface user-friendly, e tem como fun¸cões enviar avisos ao usuário e garantir acesso à câmera do sistema em tempo real.

Palavras-chave: Seguran¸ca, Alarme, Incˆendio, Vis˜ao Computacional, Processamento de Ima-gens, Android

(7)

BERTONI, André L.; FEDER, Diego V. de S.;. Convolutional Neural Network Based Fire Detection through Computer Vision. 2018. 80 f. Trabalho de Conclusão de Curso – Curso de Engenharia Eletrônica, Universidade Tecnológica Federal do Paraná. Curitiba, 2018.

In this project, we developed a fire alarm system consisting in: a camera, a Raspberry Pi, a computer vision system and an android application.

The Raspberry Pi is considered the leading piece. It is connected directly to a digital camera that processes the received image with an intelligent algorithm.

The system algorithm consists of three parts: color filtering, motion detection and self-learning. Evaluating then, if there is a fire principle occurring.

The Android application was developed with a user-friendly interface, with the duty to send warnings to the user and provide access to the system camera in real time.

(8)

Figura 1 – Diagrama funcional da utiliza¸c˜ao de um sistema embarcado. . . 14

Figura 2 – Funcionamento b´asico de uma cˆamera digital. . . 15

Figura 3 – Esquemático informa¸cão e decisão. . . 16

Figura 4 – Representa¸c˜ao entrada e sa´ıda - rede neural artificial. . . 18

Figura 5 – Pilha de software - TensorFlow. . . 20

Figura 6 – Representa¸c˜ao de um modelo LeNet. . . 21

Figura 7 – Ambiente de Desenvolvimento Android Studio. . . 22

Figura 8 – A pilha de software do Android. . . 23

Figura 9 – Ciclo de vida da atividade. . . 25

Figura 10 – Representa¸c˜ao de comunica¸c˜ao por sockets entre servidor e cliente. . . 26

Figura 11 – Raspberry Pi 3. . . 28

Figura 12 – Cˆamera USB (Logitech C270) utilizada. . . 29

Figura 13 – Busca google imagens - velas acesas. . . 31

Figura 14 – C´odigo para salvar as URLs das imagens exibidas. . . 31

Figura 15 – Estrutura dos diret´orios contendo as imagens do dataset. . . 32

Figura 16 – C´odigo Python para download das imagens. . . 32

Figura 17 – Código responsável pela verifica¸cão da integridade das imagens baixadas. . 33

Figura 18 – Download das imagens pelo terminal Anaconda. . . 33

Figura 19 – Código responsável pela constru¸cão do classificador de imagens Keras. . . . 34

Figura 20 – Bibliotecas utilizadas no arquivo train network.py. . . 35

Figura 21 – C´odigo respons´avel pela entrada dos argumentos. . . 35

Figura 22 – Código de inicializa¸cão das variáveis de treinamento, listas e diretórios. . . 36

Figura 23 – C´odigo para pr´e-processamento das imagens. . . 36

Figura 24 – Estrutura do diret´orio do dataset. . . 37

Figura 25 – C´odigo para alterar escala das imagens e criar splits. . . 37

Figura 26 – Cria¸c˜ao de dados atrav´es da ImageDataGenerator(). . . 38

Figura 27 – C´odigo para inicializar, treinar e salvar modelo de rede. . . 38

Figura 28 – Rede neural com 26 epochs e precis˜ao de 96,45%. . . 39

Figura 29 – Treinamento de redes neurais - precis˜ao e perdas. . . 39

Figura 30 – Diferentes estados do aplicativo TCC - Fire Alarm. . . 40

Figura 31 – Notifica¸c˜ao gerada pela troca ao estado DANGER! . . . 41

Figura 32 – Notifica¸c˜ao gerada pela troca ao estado WARNING. . . 41

Figura 33 – Visualiza¸c˜ao da CameraActivity. . . 42

Figura 34 – Fluxograma simplificado da MainActivity. . . 42

(9)

berry Pi. . . 44

Figura 37 – Comandos utilizados para instala¸c˜ao das bibliotecas HDF5 e h5py no Rasp-berry Pi. . . 44

Figura 38 – Comandos utilizados para instala¸c˜ao das bibliotecas HDF5 e h5py no Rasp-berry Pi. . . 44

Figura 39 – Comandos utilizados para importar as bibliotecas j´a compiladas no Raspberry Pi. . . 45

Figura 40 – Declara e importa o modelo de rede neural a ser utilizado pelo Raspberry Pi. 45 Figura 41 – Código de inicializa¸cão e parametriza¸cão do sistema de deteçcão de incêndio. 45 Figura 42 – Código de carregamento do modelo de rede e inicializa¸cão da câmera. . . . 46

Figura 43 – C´odigo de captura de frames da stream de v´ıdeo. . . 46

Figura 44 – C´odigo para pr´e-processamento e envio dos frames para a rede neural. . . . 47

Figura 45 – C´odigo de classifica¸c˜ao das imagens. . . 47

Figura 46 – C´odigo de acionamento do alarme. . . 47

Figura 47 – Reinicializa¸c˜ao da contagem de frames consecutivos. . . 47

Figura 48 – Constru¸c˜ao do frame para exibi¸c˜ao na tela. . . 48

Figura 49 – Detec¸c˜ao de fogo na imagem com 93,88% de confian¸ca. . . 48

Figura 50 – C´odigo respons´avel pelo envio de novos eventos. . . 49

Figura 51 – Código responsável pela visualiza¸cão do v´ıdeo. . . 50

Figura 52 – Fluxograma do funcionamento do c´odigo. . . 50

Figura 53 – Captura de tela durante teste da rede neural. . . 51

Figura 56 – Teste em luminosidade, luz - antes do treinamento. . . 53

Figura 57 – Teste em luminosidade, luz - ap´os devido treinamento. . . 54

Figura 58 – Captura de tela durante teste de tempo real. . . 55

(10)

API Application Program Interface

ART Android Runtime

CNN Convolutional Neural Network

DNN Deep Neural Network

FPS Frames Per Second

HAL Hardware Abstraction Layer

ID Identification

IP Internet Protocol

RAM Random Access Memory

RGB Red Green Blue

SMS Short Message Service SSD Single Shot Detector

SSH Secure Shell

TCP Transmission Control Protocol

UI User Interface

USB Universal Serial Bus Wi-Fi Wireless Fidelity

(11)

1 – INTRODU ¸C ÃO . . . 11 1.1 OBJETIVOS . . . 12 1.1.1 Objetivo geral . . . 12 1.1.2 Objetivos espec´ıficos . . . 12 1.2 JUSTIFICATIVA . . . 12 2 – FUNDAMENTA¸C ÃO TE ÓRICA . . . 14 2.1 SISTEMAS EMBARCADOS . . . 14 2.2 CÂMERAS DE VÍDEO . . . 15 2.3 VISÃO COMPUTACIONAL . . . 15 2.3.1 Aquisi¸cão de imagens . . . 16 2.3.2 Processamento de imagem . . . 16

2.3.3 An´alise e compreens˜ao de imagens . . . 16

2.3.4 OpenCV . . . 17

2.4 APRENDIZAGEM DE M´AQUINA . . . 17

2.4.1 M´etodos de aprendizagem de m´aquina . . . 17

2.4.2 Redes neurais artificiais . . . 17

2.4.3 Deep Learning . . . 19 2.4.4 TensorFlow . . . 19 2.4.5 Keras . . . 20 2.4.6 LeNet . . . 21 2.5 SISTEMA ANDROID . . . 21 2.5.1 Android Studio . . . 21 2.5.2 Arquitetura Android . . . 22 2.5.3 Atividades . . . 24 2.5.4 Android Manifest . . . 25 2.6 SOCKETS . . . 26

3 – PROCEDIMENTOS METODOL ´OGICOS . . . 28

3.1 RASPBERRY PI . . . 28

3.2 CˆAMERA USB . . . 29

3.3 REDE NEURAL CONVOLUCIONAL . . . 30

3.3.1 Criando um dataset . . . 30

3.3.2 Modelando a rede neural . . . 33

3.3.3 Treinando a rede neural . . . 34

(12)

3.6 ALGORITMOS E C ´ODIGOS . . . 43

3.6.1 Implementa¸c˜ao no Raspberry Pi . . . 43

3.6.2 Inicializa¸c˜ao do sistema . . . 44

3.6.3 Obten¸cão do frame da câmera e classifica¸cão das imagens . . . 46

3.6.4 Envio de evento e recebimento de notifica¸c˜ao . . . 48

3.6.5 Transmiss˜ao e visualiza¸c˜ao de v´ıdeo . . . 49

3.6.6 Fluxograma do funcionamento geral do sistema . . . 50

4 – APRESENTA¸C ˜AO E AN ´ALISE DE RESULTADOS . . . 51

4.1 AN´ALISE E RESULTADOS DA REDE NEURAL . . . 51

4.2 AN´ALISE E RESULTADOS DO SISTEMA EM TEMPO REAL . . . 54

5 – CONCLUS ˜AO . . . 56

Referˆencias . . . 57

Apˆ

endices

58

APˆENDICE A – C´odigo para download das imagens do dataset . . . 59

APˆENDICE B – C´odigo da arquitetura da rede LeNet . . . 61

APˆENDICE C – C´odigo para treinamento da rede neural . . . 62

APˆENDICE D–C´odigo para teste da rede neural . . . 65

APÊNDICE E – Código de deteçcão de incêndio no sistema embarcado . . . . 67

APˆENDICE F – C´odigo das activities do aplicativo Android . . . 70

APˆENDICE G – C´odigo dos layouts do aplicativo Android . . . 76

APÊNDICE H–Código do Android Manifest . . . 79 APÊNDICE I – Código para comunica¸cão do Raspberry Pi ao aplicativo Android 80

(13)

1 INTRODU ¸C ˜AO

O homem sempre teve fasc´ınio pelo fogo e durante milhares de anos foi aprimorando as técnicas de dom´ınio e controle da igni¸cão. Esse dom´ınio do fogo permitiu grande avan¸co da sociedade: com um melhor preparo de alimentos, prote¸cão contra o frio, ilumina¸cão, rápida locomo¸cão, etc. No entanto, o risco atrelado ao fogo é alto, e muitos dos incêndios marcados em nossa história originou grande perda de vidas e propriedades. Além disso, devido aos impactos sociais, ambientais e econômicos que um incêndio pode causar, as seguradoras e os equipamentos de seguran¸ca impõe um alto custo no mercado.

De acordo com a Secretaria Nacional de Seguran¸ca Pública (Senasp) do Ministério da Justi¸ca, o Brasil tem uma média anual de 267 mil incêndios (incluindo ocorrências florestais e residenciais). Outros dados confirmam que em 2011 o Brasil alcan¸cou a posica¸cão de terceiro lugar no ranking mundial de mortes por incêndio ou exposi¸cão a fuma¸ca. Esta constata¸cão se baseou no cruzamento de dados informados pelo Sistema Único de Saúde (SUS) com uma pesquisa realizada pela Geneva Association (SPRINKLER, 2015).

Esse quadro, ainda existente em nosso pa´ıs, é resultado da falta de informa¸cão e da não utiliza¸cão de equipamentos de seguran¸ca. Muitas empresas ainda consideram incêndios como uma questão de sorte ou azar. E poucos são os que se preparam e se importam com os cinco princ´ıpios de seguran¸ca básica (preven¸cão, prote¸cão, combate, meios de escape, gerenciamento).

Recentemente foi poss´ıvel atentar a expressividade de um incêndio pelo importuno acontecimento na cidade de Paradise - California. Situada a nordeste do Vale do Sacramento, já é constatado como o maior incêndio florestal da história do estado, estima-se que um total de 13.000 casas foram destru´ıdas e os preju´ızos das propriedades podem se aproximar de 4 bilhões de dólares. O que traz a tona a importância e o cuidado que deve ser levado diante desses desastres.

Com o objetivo de implementar medidas de prote¸cão e combate ao incêndio, este projeto visa desenvolver uma solu¸cão fidedigna, barata e eficaz. Este documento inicia apontando o aspecto geral do sistema em questão e salientando os requisitos do projeto. Posteriormente indica a metodologia adotada, especificando cada ferramenta utilizada no desenvolvimento. Por fim, informa todo o processo de implementa¸cão de hardware, software, da implanta¸cão do sistema em detalhes e traz uma análise de resultados juntamente à conclusão do trabalho.

(14)

1.1 OBJETIVOS 1.1.1 Objetivo geral

O objetivo geral deste projeto é desenvolver um sistema protecional residencial, com foco na deteçcão de incêndio através de processamento de imagens utilizando uma rede neural convolucional, uma câmera e um aplicativo móvel para notifica¸cão e visualiza¸cão do estado de risco existente.

Para o funcionamento do sistema, exige-se uma placa de desenvolvimento Raspberry Pi, uma cˆamera USB e um smartphone hospedado com o sistema operacional Android. 1.1.2 Objetivos espec´ıficos

´

E preciso garantir que os requisitos sejam precisos, comprometendo que `as expectativas de resultado final sejam atendidas. A seguir s˜ao listados todos os objetivos espec´ıficos do projeto:

• Aprendizagem de máquina: Será implementado um algoritmo inteligente para treinamento do sistema. Será utilizado uma Rede Neural Convolucional (CNN) para identificar fogo em v´ıdeos;

• Comunica¸cão: O aplicativo será dinâmico. Ele irá interagir com o usuário instantaneamente de acordo com as entradas que recebe. Deve-se utilizar sockets para a comunica¸cão cliente-servidor entre o raspberry pi e o smartphone.

• Notifica¸cão: O usuário deve receber notifica¸cões sempre que um evento acontecer. Portanto, o aplicativo deve continuar sua execu¸cão em segundo plano, sem sofrer interrup¸cões.

• Visualiza¸cão: O usuário poderá acessar o sistema sempre que ligado e com conexão à internet. A conexão deve permitir a visualiza¸cão da câmera em tempo real, útil para averiguar a condi¸cão do sistema.

• Usabilidade: A aplica¸cão deve ser fácil de usar e intuitiva. O aplicativo deve ter uma interface amigável, simples e clara.

• Desempenho: O software embarcado no raspberry pi não pode sobrecarregar o sistema mesmo que processe uma alta quantidade de dados (v´ıdeo) em tempo real. O sistema deve responder rapidamente às solicita¸cões do usuário.

• Memória: O aplicativo não deve ocupar muito espa¸co, se adequando aos critérios do Android.

1.2 JUSTIFICATIVA

Tanto em propriedades comerciais quanto residenciais, a importância de se ter um sistema de alarme ou de atua¸cão e combate a incêndios não pode ser subestimada. Esses

(15)

sistemas salvam vidas e n˜ao pode haver incentivo maior do que garantir que as pessoas que entram em um pr´edio, seja comercial ou residencial, estejam totalmente protegidas.

Com a popularidade gradual da instala¸cão de sistemas de vigilância visual e sistemas protecionais nas últimas décadas, a deteçcão incêndio tornou-se uma questão muito importante, pois está intimamente relacionada a seguran¸ca e a propriedade das pessoas. Atualmente, as técnicas de deteçcão de chama usadas com mais frequência são geralmente baseadas em amostragem de part´ıculas, amostragem de temperatura e testes de transparência de ar, além dos tradicionais detectores de chamas ultravioleta e infravermelho (ARRUE; DIOS, 2000).

No entanto, a maioria desses detectores sofre de alguns problemas graves. Eles exigem uma proximidade com a chama. Além disso, nem sempre são confiáveis, porque boa parte deles não detectam a própria combustão, ao invés disso, detectam os subprodutos da combustão, que podem ser produzidos de outras maneiras. Portanto, eles geralmente resultam em uma maior incidência de alarmes falsos. No sistema em apre¸co a deteçcão é feita atráves do reconhecimento visual do fogo, permitindo um tempo de resposta menor e mais fidedigno.

(16)

2 FUNDAMENTA¸C ˜AO TE ´ORICA

Este cap´ıtulo tem como finalidade explicar os princ´ıpios teóricos e técnicos que foram utilizados ao desenvolver o projeto. Para tal, foram julgados como necessários os seguintes temas: Sistemas embarcados (Se¸cão 2.1), Câmeras de v´ıdeo (Se¸cão 2.2), Visão computacional (Se¸cão 2.3), Aprendizagem de máquina (Se¸cão 2.4), Sistema Android (Se¸cão 2.5), Sockets (Se¸cão 2.6).

2.1 SISTEMAS EMBARCADOS

Um sistema embarcado pode ser definido como um sistema computacional com um propósito de aplica¸cão único, ao contrário de um computador pessoal convencional, o qual pode ser chamado de sistema computacional de propósito generalizado. O sistema embarcado normalmente fará parte de outro sistema maior, servindo como uma espécie de “cérebro” do equipamento em questão, atuando como controlador de eventos com sensores e atuadores e das interfaces com sistemas externos e com usuários. Exemplos de equipamentos que utilizam sistemas embarcados: ve´ıculos, equipamentos médicos, equipamentos agr´ıcolas, equipamentos militares, etc (RENAUX, 2016). Na figura 1 é poss´ıvel observar um diagrama funcional de um sistema embarcado.

Figura 1 – Diagrama funcional da utiliza¸c˜ao de um sistema embarcado.

(17)

2.2 CˆAMERAS DE V´IDEO

Uma câmera de v´ıdeo digital é um dispositivo que captura informa¸cões de imagem de ambientes ao vivo, codificando-as em dados que podem ser decodificados ou transcodificados em m´ıdia visual eletrônica. Uma câmera digital t´ıpica consiste em uma lente, sensor de imagem, m´ıdia de armazenamento e vários outros recursos que também podem ser encontrados em outras câmeras (como abertura escalonável, filtros e flash)(TECHOPEDIA, 2018) .

Uma câmera digital usa uma variedade de fotossensores para registrar o padrão de entrada de luz. Cada sensor retorna uma corrente elétrica quando é atingido pela luz recebida. Como a quantidade de corrente que é retornada varia com a quantidade de luz, os circuitos eletrônicos da câmera digital podem combinar os diferentes n´ıveis de corrente em um padrão composto de dados que representa a luz recebida - em outras palavras, uma imagem na forma de um arquivo binário. A figura 2 ilustra isso.

Figura 2 – Funcionamento b´asico de uma cˆamera digital.

Fonte: Website Dummies - How Does a Digital Camera Work (2018)

2.3 VIS˜AO COMPUTACIONAL

Utilizamos nossos olhos e cérebro para ver e interpretar visualmente o mundo ao nosso redor. O objetivo da visão computacional é dar essa capacidade de ver a uma máquina. A visão computacional extrai e analisa automaticamente informa¸cões úteis de uma imagem ou sequência de imagens. Um computador também pode ver coisas que não podemos, com vários canais de percep¸cão, o que significa que as máquinas têm mais recursos visuais do que nós

(18)

(SZELISKI, 2010). Devido a esse poder de ver sobre-humano, existe um grande potencial para que a vis˜ao computacional tenha um impacto profundo em nossas vidas (REED, 2017).

A visão computacional emula a visão humana usando imagens digitais através de três componentes principais de processamento, executados um após o outro, vide figura 3:

1. Aquisi¸c˜ao de imagem; 2. Processamento de imagem;

3. An´alise e compreens˜ao de imagens;

Como nossa compreensão visual humana do mundo é refletida em nossa capacidade de tomar decisões através do que vemos, fornecer tal entendimento visual aos computadores é o princ´ıpal objetivo da visão computacional.

Figura 3 – Esquemático informa¸cão e decisão.

Fonte: Autoria pr´opria (2018)

2.3.1 Aquisi¸c˜ao de imagens

A aquisi¸cão de imagens é o processo de traduzir o mundo analógico ao nosso redor em dados binários compostos de zeros e uns, interpretados como imagens digitais. Na maioria das vezes, os dados brutos adquiridos nessa etapa precisam ser pós-processados para serem mais eficientes.

2.3.2 Processamento de imagem

O segundo componente da visão computacional é o processamento de imagens de baixo n´ıvel. Algoritmos são aplicados aos dados binários adquiridos na primeira etapa para inferir informa¸cões de baixo n´ıvel em partes da imagem. Esse tipo de informa¸cão é caracterizado por bordas de imagem, recursos de ponto ou segmentos, por exemplo. Eles são todos os elementos geométricos básicos que constroem objetos em imagens. Essa segunda etapa geralmente envolve algoritmos e técnicas avan¸cadas de matemática aplicada (TARTU, 2015).

2.3.3 An´alise e compreens˜ao de imagens

A última etapa do pipeline de visão computacional é a análise dos dados, que permitirá a tomada de decisão. Algoritmos de alto n´ıvel são aplicados, usando os dados da imagem e as

(19)

informa¸c˜oes de baixo n´ıvel calculadas nas etapas anteriores. 2.3.4 OpenCV

OpenCV é uma biblioteca open-source multiplataforma que inclui centenas de algorit-mos de visão computacional, com interfaces para C, C++, Python e Java. A biblioteca possui uma estrutura modular, contendo módulos espec´ıficos para processamento digital de imagens, processamento de v´ıdeos, deteçcão de objetos, etc.

2.4 APRENDIZAGEM DE M´AQUINA

A aprendizagem de máquina (machine learning ) é apenas uma das muitas ramifica¸cões do estudo da inteligência artificial. É um termo genérico que se referencia a qualquer algoritmo que permita identificar padrões em dados fornecidos, construir modelos e fazer predi¸cões sem estar explicitamente programado para tal. Essas caracter´ısticas são de extrema importância em cenários onde as tarefas a serem executadas não são claras ou não haja uma rela¸cão de entrada e sa´ıda tão concisa. Algoritmos de aprendizagem de máquina se sobressaem em ambientes que variam com o tempo e que requerem readapta¸cão constante. Atualmente o aprendizado de máquina está presente em diversas áreas e aplica¸cões, dentre elas o reconhecimento de voz, a visão computacional, predi¸cões financeiras e aux´ılio nos diagnósticos médicos (BISHOP, 2006). 2.4.1 Métodos de aprendizagem de máquina

Os algoritmos de aprendizado de máquina geralmente são classificados como supervi-sionados ou não supervisionados.

Algoritmos de aprendizado de máquina supervisionados podem aplicar o que foi aprendido no passado a novos dados usando exemplos rotulados para prever eventos futuros. A partir da análise de um conjunto de dados de treinamento conhecido, o algoritmo de aprendizado produz uma fun¸cão inferida para fazer previsões sobre os valores de sa´ıda. O sistema é capaz interpretar qualquer nova entrada após treinamento suficiente. O algoritmo de aprendizado também pode comparar sua sa´ıda com a sa´ıda correta e planejada e encontrar erros para modificar o modelo de acordo. Em contraste, os algoritmos de aprendizado de máquina não supervisionados são usados quando as informa¸cões utilizadas para treinamento não são classificadas nem rotuladas. A aprendizagem não supervisionada estuda como os sistemas podem inferir uma fun¸cão para descrever uma estrutura oculta a partir de dados não rotulados. O sistema não calcula a sa´ıda correta, mas explora os dados e pode extrair inferências de conjuntos de dados para descrever estruturas ocultas de dados não rotulados.

2.4.2 Redes neurais artificiais

As redes neurais artificiais são uma das principais ferramentas utilizadas no aprendizado de máquinas. Como a parte“neural”de seu nome sugere, eles são sistemas inspirados no cérebro

(20)

que se destinam a replicar a maneira como os humanos aprendem. As redes neurais consistem em camadas de entrada e sa´ıda, bem como (na maioria dos casos) uma camada oculta que consiste em unidades que transformam a entrada em algo que a camada de sa´ıda pode usar. Eles são excelentes ferramentas para encontrar padrões que são muito complexos ou numerosos para um programador humano extrair e ensinar a máquina a reconhecer.

Embora as redes neurais (também chamadas “perceptrons”) existam desde os anos 1940, é somente nas últimas décadas que elas se tornaram uma parte importante da inteligência artificial. Isso se deve à chegada de uma técnica chamada ”retropropaga¸cão”, que permite que as redes ajustem suas camadas ocultas de neurônios em situa¸cões em que o resultado não corresponde ao que o criador espera - como uma rede projetada para reconhecer cães, que identifica erroneamente um gato, por exemplo.

Outro avan¸co importante tem sido a chegada de redes neurais de aprendizagem pro-funda (deep learning neural networks), nas quais diferentes camadas de uma rede multicamada extraem diferentes caracter´ısticas at´e que ela possa reconhecer o que est´a procurando.

Para uma ideia básica de como uma rede neural de aprendizagem profunda aprende, imagine uma linha de fábrica. Depois que as matérias-primas (o conjunto de dados) são inseridas, elas são passadas pela esteira transportadora, com cada parada ou camada subsequente extraindo um conjunto diferente de recursos de alto n´ıvel. Se a rede se destina a reconhecer um objeto, a primeira camada pode analisar o brilho de seus pixels.

Figura 4 – Representa¸c˜ao entrada e sa´ıda - rede neural artificial.

Fonte: Google imagens (2018)

A pr´oxima camada poderia identificar quaisquer arestas na imagem, com base em linhas de pixels semelhantes. Depois disso, outra camada pode reconhecer texturas e formas, e assim por diante. Quando a quarta ou quinta camada for atingida, a rede de aprendizagem

(21)

profunda ter´a criado detectores de recursos complexos. Ele pode descobrir que certos elementos da imagem (como um par de olhos, um nariz e uma boca) s˜ao comumente encontrados juntos.

Feito isso, os pesquisadores que treinaram a rede podem fornecer rótulos para a sa´ıda e, em seguida, usar a retropropaga¸cão para corrigir os erros cometidos. Depois de um tempo, a rede pode realizar suas próprias tarefas de classifica¸cão sem precisar de humanos para ajudar todas as vezes.

2.4.3 Deep Learning

O Deep Learning, também conhecido como aprendizado hierárquico, é uma das partes do aprendizado de máquina e tem como objetivo aprender diferentes representa¸cões dos dados de forma a facilitar a extra¸cão de informa¸cões em sistemas classificadores e preditores (BENGIO, 2014). É composto por algoritmos de alto n´ıvel de abstra¸cão e multiplas transforma¸cões não-lineares.

As redes neurais que aplicam o conceito de Deep Learning são denominadas Deep Neu-ral Networks (DNN).A estrutura básica das DNNs é similar às redes tradicionais, diferenciando-se apenas pelo número de camadas. Um maior número de camadas resulta em uma representa¸cão mais complexa e abstrata dos dados e consequentemente uma “profundidade” maior da rede. Não há um consenso sobre o quão profundo um modelo precisa ser para ser qualificado como ”deep”. Contudo, o Deep Learning pode ser seguramente definido como o estudo de modelos que envolvem uma grande composi¸cão de fun¸cões ou conceitos aprendidos comparado ao aprendizado de máquina tradicional (GOODFELLOW; BENGIO; COURVILLE, 2017).

´

E tudo sobre escala. À medida que constru´ımos redes neurais maiores e as treinamos com mais e mais dados, seu desempenho continua a aumentar. Isso geralmente é diferente de outras técnicas de aprendizado de máquina que atingem um platô no desempenho.

2.4.4 TensorFlow

TensorFlow é uma biblioteca de software de código aberto para computa¸cão numérica de alto desempenho. Sua arquitetura flex´ıvel permite a fácil implanta¸cão de computa¸cão em várias plataformas (CPUs, GPUs, TPUs) e de desktops a clusters de servidores para dispositivos móveis e periféricos. Originalmente desenvolvido por pesquisadores e engenheiros da equipe do Google Brain na organiza¸cão de IA do Google, ele oferece um forte suporte para aprendizado de máquina e aprendizado profundo, e o núcleo flex´ıvel de computa¸cão numérica é usado em muitos outros dom´ınios cient´ıficos. O mecanismo de execu¸cão distribu´ıdo do TensorFlow abstrai os muitos dispositivos suportados e fornece um núcleo de alto desempenho implementado em C ++ para a plataforma TensorFlow.

Em alto n´ıvel, TensorFlow é uma biblioteca Python que permite aos usuários ex-pressarem computa¸cão arbitrária como um gráfico de fluxos de dados. Os nós neste gráfico representam opera¸cões matemáticas, enquanto as arestas representam dados comunicados de um nó para outro. Os dados no TensorFlow são representados como tensores, que são matrizes

(22)

Figura 5 – Pilha de software - TensorFlow.

Fonte: TensorFlow (2018)

multidimensionais. Embora essa estrutura para pensar sobre computa¸c˜ao seja valiosa em muitos campos diferentes, TensorFlow ´e usado principalmente para o aprendizado profundo (deep learning) em pesquisa e desenvolvimento.

2.4.5 Keras

Keras é uma API de redes neurais de alto n´ıvel, escrita em Python e capaz de rodar em cima do TensorFlow, CNTK ou Theano. Foi desenvolvida para tornar a implementa¸cão de modelos de deep learning o mais rápido e fácil poss´ıvel para pesquisa e desenvolvimento. Compat´ıvel com Python 2.7 ou 3.5, pode ser executada perfeitamente em GPUs e CPUs, considerando as estruturas subjacentes.

Keras foi desenvolvida por Fran¸cois Chollet, um engenheiro do Google, usando quatro princ´ıpios orientadores:

• Modularidade: Um modelo pode ser entendido como uma sequência ou um gráfico sozinho. Todas as preocupa¸cões de um modelo de deep learning são componentes discretos que podem ser combinados de maneiras arbitrárias.

• Minimalismo: A biblioteca fornece apenas o suficiente para alcan¸car um resultado, sem frescuras e maximizando a legibilidade.

• Extensibilidade: Novos componentes s˜ao intencionalmente f´aceis de adicionar e usar dentro da estrutura, destinados a pesquisadores para testar e explorar novas ideias. • Python: Nenhum arquivo de modelo separado com formatos de arquivo personalizados.

(23)

2.4.6 LeNet

O LeNet foi uma das primeiras redes neurais convolucionais que ajudaram a impulsionar o campo do Aprendizado Profundo. Este trabalho pioneiro de Yann LeCun foi denominado LeNet5 após muitas itera¸cões anteriores bem sucedidas desde o ano de 1988 . Naquela época, a arquitetura LeNet era usada principalmente para tarefas de reconhecimento de caracteres, como leitura de CEPs, d´ıgitos, etc.

A arquitetura LeNet é simples e pequena (em termos de memória ocupada), ela pode até mesmo rodar puramente em uma CPU, tornando-a uma ótima arquitetura para aplica¸cões envolvendo CNNs e sistemas embarcados (LECUN, 1998).

Camadas esparsas e convolucionais e pool máximo são o cora¸cão da fam´ılia de modelos LeNet. Embora os detalhes exatos do modelo variem muito, a figura 6 mostra uma representa¸cão gráfica de um modelo LeNet.

Figura 6 – Representa¸c˜ao de um modelo LeNet.

Fonte: Google imagens (2018)

2.5 SISTEMA ANDROID

O Android é o sistema operacional móvel mais popular do mundo, utilizado em bilhões de dispositivos, de telefones a relógios, tablets, TVs, ve´ıculos e muito mais. É uma plataforma completa, de código aberto, envolve uma rica interface visual, diversas aplica¸cões pré-instaladas e um ambiente de desenvolvimento poderoso que está sempre se atualizando.

Foi desenvolvido pela Open Handset Alliance (OHA), por empresas como Google, HTC, LG, Motorola, Samsung, Sony Ericsson, Toshiba e muitas outras, que tiveram por objetivo padronizar uma plataforma de c´odigo aberto e livre para celulares, para atender as necessidades do mercado atual (LECHETTA, 2010).

2.5.1 Android Studio

O Android Studio ´e um ambiente de desenvolvimento disponibilizado gratuitamente pelo Google para desenvolvedores Android. Baseado no IntelliJ IDEA, foi feito para incentivar a

(24)

cria¸cão de aplicativos da mais alta qualidade. Ele oferece ferramentas personalizadas, incluindo ferramentas avan¸cadas de edi¸cão, depura¸cão, teste e cria¸cão de perfis de código. Com ele qualquer um pode construir aplicativos para celulares, tablets, smartwatches, etc. A figura 7 apresenta a interface do Android Studio:

Figura 7 – Ambiente de Desenvolvimento Android Studio.

Uma das peculiaridades mais interessantes do Android Studio é a execu¸cão instantânea. Quando clicado em “Executar” ou “Depurar”, o recurso envia altera¸cões de código ao aplicativo em execu¸cão e as entrega sem reiniciar ou recriar o aplicativo.

Também conta com um editor de código inteligente que auxilia o desenvolvedor a escrever um código melhor, trabalhar mais rápido e ser mais produtivo. Este, oferece preenchimento automático de código e análise de erros antes da compila¸cão.

2.5.2 Arquitetura Android

O Android é uma pilha de software baseada em Linux. A arquitetura é dividida em seis camadas: núcleo (kernel) Linux, camada de abstra¸cão de hardware (HAL), Android Runtime (ART), bibliotecas nativas C/C++, framework da API JAVA e a camada de aplica¸cões. A figura 8, a seguir, apresenta os principais componentes para cada camada:

A camada mais baixa da arquitetura, Linux kernel, é responsável por gerenciar os processos, threads, arquivos, diretórios e drivers dos dispositivos. É a funda¸cão da plataforma. Ela permite que o Android aproveite dos recursos de seguran¸ca existentes em Linux e que os fabricantes dos dispositivos desenvolvam drivers de hardware para um núcleo já conhecido.

(25)

Figura 8 – A pilha de software do Android.

Fonte: Android Developers (2018)

A HAL consiste em módulos de biblioteca, que servem de interface para certos componentes de hardware, como o módulo de câmera, modulo bluetooth, o acelerômetro, etc. A HAL também fornece interfaces que expõem as capacidades de hardware para a estrutura da API Java. Quando a API faz uma chamada para acessar o hardware do dispositivo, o sistema Android carrega o módulo da biblioteca para este componente de hardware.

Toda e qualquer aplica¸c˜ao em Android roda dentro de seu pr´oprio processo, isto ´

e, no contexto da sua instância de máquina virtual, no caso o Android Runtime. O ART é projetado para que os dispositivos possam suportar múltiplas máquinas virtuais eficientemente. Ele executa arquivos com extensão .dex - um tipo de Java bytecode otimizado para o Android.

(26)

Alguns dos recursos principais de ART são: Compila¸cão AOT (Ahead-Of-Time) e JIT (Just-In-Time), coleta de lixo (Garbage Collector) otimizada, melhor suporte em depura¸cão e vasta capacidade de definir watchpoints.

Vários componentes e servi¸cos do sistema Android, como ART e HAL, são imple-mentados em código nativo e exigem bibliotecas nativas programadas em C e C++. Algumas dessas bibliotecas são descritas a seguir:

• Surface manager – gerencia o display

• Media Framework – biblioteca de m´ıdia para reprodu¸c˜ao de ´audio e v´ıdeo • SQLite – fornece suporte a banco de dados

• OpenGL | ES – bibliotecas gr´aficas para gr´aficos 2D e 3D

• FreeType – fornece suporte a opera¸c˜oes relacionadas a fontes de texto • SGL – bibliotecas gr´aficas

• WebKit – navegador da Web integrado e seguran¸ca da Internet • SSL – fornece seguran¸ca na Internet e no navegador da Web

• libc – ssuporte para servi¸cos espec´ıficos do Android, como propriedades do sistema O Android também contém um conjunto de bibliotecas que fornecem a maioria das funcionalidades da linguagem de programa¸cão Java, inclusive alguns recursos da linguagem Java 8.

O framework da API JAVA fornece classes empregadas para criar os aplicativos. Ele também fornece uma abstra¸cão genérica para acesso ao hardware e gerencia a interface do usuário e os recursos do aplicativo. A camada de aplica¸cão é o local dos aplicativos executados sobre o sistema operacional. Nesta camada está localizada uma lista de aplica¸cões padrões como cliente de e-mail, programa de SMS, calendário, mapas, navegador, gerenciador de contato e qualquer aplicativo de terceiros.

2.5.3 Atividades

Atividade ou Activity é um componente de aplicativo que fornece uma tela com a qual os usuários podem interagir para fazer algo, como discar um número no telefone, tirar uma foto, enviar um e-mail ou ver um mapa. Cada atividade recebe uma janela que exibe a interface do usuário. Geralmente a janela preenche toda a tela, mas pode ser que seja menor que a tela e ainda flutuar sobre outras janelas (ANDROID, 2018).

Geralmente um aplicativo é composto por várias atividades que se relacionam. Uma dessas atividades é especificada como ”principal”(main) e é apresentada ao usuário ao iniciar o aplicativo. Uma atividade pode inicializar e executar outra atividade para executar diferentes a¸cões. Quando isto acontece o sistema conserva a atividade em uma ”pilha de retorno”. Esta pilha de retorno segue o mecanismo básico de pilhas LIFO (Last In First Out). Assim, quando o usuário terminar a atividade atual e apertar o botão Voltar, ela sairá da pilha (sendo destru´ıda) e a atividade anterior será retomada.

(27)

Figura 9 – Ciclo de vida da atividade.

Fonte: Android Developers (2018)

Quando uma atividade é interrompida devido ao in´ıcio de uma nova atividade, ela é notificada acerca dessa altera¸cão de estado por meio de métodos de retorno de chamada do ciclo de vida da atividade. Cada retorno de chamada oferece uma oportunidade de executar trabalhos espec´ıficos adequados a essa altera¸cão de estado. Por exemplo: quando interrompida, a atividade deve liberar todos os objetos grandes, como conexões com a rede ou com um banco de dados. Quando a atividade for retomada, será poss´ıvel readquirir os recursos necessários e retomar as a¸cões interrompidas. Essas transi¸cões de estado são parte do ciclo de vida da atividade apresentado na figura 9.

2.5.4 Android Manifest

O AndroidManifest.xml é um arquivo de existência obrigatória no qual são acopladas as configura¸cões gerais da aplica¸cão e dos componentes utilizados por ela. É neste arquivo que

(28)

são definidos os nomes das activities, o modo de orienta¸cão da tela, como os componentes que fazem parte da aplica¸cão interagem entre si e como eles são declarados. Este arquivo lista também as permissões para utilizar recursos como GPS, acelerômetro, acesso a internet, ativamento de notifica¸cões e, por fim, define a hierarquia das activities.

2.6 SOCKETS

A conexão por sockets tem origem em 1980, quando a ARPA (Advanced Research Pro-jects Agency, Agência de Projetos de Pesquisa Avan¸cados), órgão do governo norte americano, forneceu recursos financeiros para que a Universidade da Califórnia Berkeley oferecesse uma implementa¸cão UNIX do pacote de protocolos TCP/IP. O que foi desenvolvido ficou conhecido então como interface de sockets de Berkeley.

Sockets são estruturas que habilitam que dois ou mais aplicativos do tipo cliente/ser-vidor, que estão em rede, se conectem entre si. Um computador é chamado servidor (ele abre um socket e presta aten¸cão às conexões), o outro computador denomina-se cliente (ele chama o socket servidor para iniciar a conexão). Vide figura 10:

Figura 10 – Representa¸c˜ao de comunica¸c˜ao por sockets entre servidor e cliente.

Utilizar sockets de internet é a maneira mais comum de executar a comunica¸cão de rede entre servidor e cliente. Para conseguir fazer uma conexão cliente-servidor, o servidor terá que conter um socket com uma porta dedicada para receber conexões. É necessário ter conhecimento do número de IP ou HOST do computador e o número de porta do aplicativo ao qual se quer realizar a conexão. O endere¸co IP identifica uma máquina espec´ıfica na Internet e o número de porta é uma maneira de diferenciar os processos que estão sendo executados no mesmo computador. Tipicamente o comportamento do servidor é ficar em um loop aguardando novas conexões para atender as solicita¸cões de clientes.

(29)

Os segmentos TCP são encapsulados e enviados em pacotes de dados. Uma forma de melhor visualizar o funcionamento de socket TCP seria compará-lo a uma liga¸cão telefônica onde alguém faz uma liga¸cão para outra pessoa e quando esta atende, é criado um canal de comunica¸cão entre os dois falantes.

(30)

3 PROCEDIMENTOS METODOL ´OGICOS

Este cap´ıtulo tem como finalidade descrever a metodologia e os procedimentos ado-tados na confeçcão deste projeto, bem como também realizar uma consolida¸cão de todos os métodos aqui utilizados e apresentar o funcionamento do sistema como um todo. Para tal, os procedimentos metodológicos foram divididos da seguinte forma: Raspberry Pi (Se¸cão 3.1); Câmera USB (Se¸cão 3.2); Criando um dataset, treinando e implantando a rede neural no sistema embarcado (Se¸cão 3.3); Desenvolvimento do aplicativo Android (Se¸cão 3.4); Estabelecendo modelo cliente e servidor (Se¸cão 3.5); Algoritmos e Códigos (Se¸cão 3.6).

3.1 RASPBERRY PI

O sistema embarcado selecionado para realizar o projeto foi o Raspberry Pi 3, conforme figura 11. Essa sele¸c˜ao se d´a por diversos motivos:

• Sistema com alto poder de processamento; • Boa rela¸c˜ao custo x benef´ıcio;

• Versatilidade;

• Facilidade de implementa¸c˜ao.

Figura 11 – Raspberry Pi 3.

Fonte: Magpi (2016)

A Raspberry Pi 3 possui 1 microprocessador ARM Cortex A53 de 1,2 GHz com 4 núcleos e um microprocessador de v´ıdeo no mesmo chip, da fabricante Broadcom, uma memória RAM de 1 GB, além da conectividade 802.11n Wi-Fi. Foi instalado na placa o sistema operacional Raspbian.

(31)

Por comodidade, todo o acesso da Raspberry no projeto é feito por Secure Shell (SSH), de forma a possibilitar o acesso remoto à placa e não necessitando de conexões f´ısicas nela como de um monitor, além de periféricos como teclado e mouse. Isso torna a utiliza¸cão da placa muito prática, pois é poss´ıvel realizar toda a sua programa¸cão através da rede. A placa foi conectada à rede através da interface de rede wireless. Um dos softwares desenvolvidos no projeto para a Raspberry foi programado na linguagem Python e outro em Java.

3.2 CˆAMERA USB

Uma câmera USB consiste em basicamente uma câmera de v´ıdeo digital que transmite todo seu fluxo de dados de v´ıdeo através de sua interface USB. Este tipo de câmera foi escolhida pela sua facilidade de transmissão de dados para qualquer dispositivo, inclusive para o escolhido sistema embarcado. Na figura 12 observa-se a câmera do projeto.

Figura 12 – Cˆamera USB (Logitech C270) utilizada.

Fonte: Logitech (2018)

A câmera, da fabricante Logitech, modelo C270, foi escolhida pelo fato de já ser possu´ıda por um dos membros da equipe. A câmera contém conexão USB 2.0 de alta velocidade e filma em resolu¸cão 1280 x 960 pixels, podendo alcan¸car um frame rate de até 30 FPS em uma configura¸cão inferior (640 x 480).

(32)

3.3 REDE NEURAL CONVOLUCIONAL

Redes neurais convolucionais (CNNs) são a atual arquitetura de modelo de última gera¸cão para tarefas de classifica¸cão de imagens. As CNNs aplicam uma série de filtros aos dados de pixel brutos de uma imagem para extrair e aprender recursos de n´ıvel mais alto, que o modelo pode usar para classifica¸cão. CNNs contém três componentes:

Camadas convolucionais, que aplicam um n´umero especificado de filtros de convolu¸c˜ao `

a imagem. Para cada sub-região, a camada executa um conjunto de opera¸cões matemáticas para produzir um único valor no mapa de recursos de sa´ıda. Camadas convolucionais então tipicamente aplicam uma fun¸cão de ativa¸cão ReLU na sa´ıda para introduzir não-linearidades no modelo.

Agrupamento de camadas, que reduz a resolu¸cão dos dados da imagem extra´ıdos pelas camadas convolucionais para reduzir a dimensionalidade do mapa de recursos para diminuir o tempo de processamento. Um algoritmo de pooling comumente usado é o pool máximo, que extrai sub-regiões do mapa de recursos (por exemplo, blocos de 2x2 pixels), mantém seu valor máximo e descarta todos os outros valores.

Camadas densas (totalmente conectadas), que realizam a classifica¸cão nas caracte-r´ısticas extra´ıdas pelas camadas convolucionais e diminu´ıdas pelas camadas de agrupamento. Em uma camada densa, todos os nós da camada são conectados a todos os nós da camada anterior.

Normalmente, uma CNN é composta de uma pilha de módulos convolucionais que executam a extra¸cão de recursos. Cada módulo consiste em uma camada convolucional seguida por uma camada de pooling. O último módulo convolucional é seguido por uma ou mais camadas densas que executam a classifica¸cão. A camada densa final em uma CNN contém um único nó para cada classe alvo no modelo (todas as classes poss´ıveis que o modelo pode prever), com uma fun¸cão de ativa¸cão softmax para gerar um valor entre 0 e 1 para cada nó (a soma de todos esses valores softmax são iguais a 1). Podemos interpretar os valores softmax para uma determinada imagem como medidas relativas de como é provável que a imagem caia em cada classe alvo.

3.3.1 Criando um dataset

Sem dados de treinamento suficientes, os modelos de machine e deep learning não podem aprender os padrões subjacentes e discriminativos necessários para criar classifica¸cões robustas. Algoritmos de deep learning, especialmente Redes Neurais Convolucionais (CNN), necessitam de uma grande quantidade de dados para se tornarem viáveis.

Para este projeto, foi montado um dataset de 500 imagens contendo fogo, as quais serviram de exemplo positivo e, outras 500 imagens aleat´orias as quais n˜ao continham fogo, consideradas exemplos negativos, permitindo a rede diferenciar ambientes com fogo de ambientes sem fogo. Posteriormente ainda utilizamos um dataset contendo outras 100 imagens, com e

(33)

sem fogo, para aferir a acertividade da rede neural.

Para evitar a necessidade de selecionar e realizar o download de imagem por imagem, utilizou-se o Google Imagens como repositório, e uma combina¸cão de JavaScript e Python para a realiza¸cão do download e verifica¸cão das imagens.

Para encontrar imagens de exemplo positivo inserimos, no Google Imagens, termos de consulta que arremetem a fogo, tais como “casa em chamas” e “incˆendio”. Na figura 13 pode-se observar as imagens encontradas ao se inserir o termo de pesquisa “velas queimando” no Google Imagens.

Figura 13 – Busca google imagens - velas acesas.

Fonte: Google Imagens (2018)

Selecionado os termos de pesquisa, foi utilizado um c´odigo em JavaScript para reunir as URLs das imagens exibidas pelo Google Imagens e salv´a-las em um arquivo texto.

Figura 14 – C´odigo para salvar as URLs das imagens exibidas.

Foi utilizado um programa em Python para o download, a partir das URLs salvas no arquivo texto, de todas as imagens exibidas pelo Google Imagens ap´os a inser¸c˜ao dos termos

(34)

de pesquisa citados anteriormente. O código foi desenvolvido de maneira a salvar a primeira imagem com o nome 00000000.jpg e, seguindo este template, incrementar o nome das próximas imagens. Ter as imagens nomeadas em sequência simplifica o processo de treinamento da rede neural. Se algum erro for encontrado durante a execu¸cão, a exce¸cão será tratada e uma mensagem será impressa no terminal.

Figura 15 – Estrutura dos diret´orios contendo as imagens do dataset.

Figura 16 – C´odigo Python para download das imagens.

Não obstante, ao finalizar o download das imagens, o programa testa cada uma das imagens com um comando da biblioteca OpenCV. Caso haja alguma falha durante esta execu¸cão, o programa irá deletar a imagem, de maneira a expurgar imagens corrompidas do dataset.

(35)

Figura 17 – Código responsável pela verifica¸cão da integridade das imagens baixadas.

Figura 18 – Download das imagens pelo terminal Anaconda.

3.3.2 Modelando a rede neural

Para a constru¸cão do nosso modelo de rede neural utilizamos do modelo sequêncial do Keras, visto que a API sequencial permite criar modelos camada por camada para a maioria dos problemas. É limitado porque não permite criar modelos que compartilhem camadas ou tenham várias entradas ou sa´ıdas, porém não é um fator limitante para este projeto, visto que não necessitamos de múltiplas sa´ıdas e entradas. Assim, modelamos a rede neural da seguinte maneira:

• Camada Convolucional # 1: Aplica 20 filtros 5x5 (extraindo sub-regiões de 5x5 pixels), com fun¸cão de ativa¸cão ReLU.

• Camada de Pooling # 1: Executa o pool máximo com um filtro 2x2 e stride de 2 (o que especifica que as regiões agrupadas não se sobrepõem).

• Camada Convolucional # 2: Aplica 50 filtros 5x5, com fun¸cão de ativa¸cão ReLU. • Camada de Pooling # 2: Novamente, realiza o pool máximo com um filtro 2x2 e um

(36)

passo de 2.

• Camada Densa # 1: 500 neurˆonios.

• Camada Densa # 2 (Camada de Logits): 2 neurˆonios, um para cada classe alvo, ‘fogo’ e ‘n˜ao fogo’.

Os métodos utilizados na cria¸cão dos três tipos de layers necessários para a nossa rede neural foram os seguintes:

• conv2d () - Constrói uma camada convolucional bidimensional. Obtém o número de filtros, o tamanho do kernel do filtro, o preenchimento e a fun¸cão de ativa¸cão como argumentos.

• max pooling2d () - Constr´oi uma camada de pool bidimensional usando o algoritmo de pool m´aximo. Leva o tamanho do filtro de pool e stride como argumentos.

• dense() - Constrói uma camada densa. Leva número de neurônios e fun¸cão de ativa¸cão como argumentos.

Cada um desses métodos aceita um tensor como entrada e retorna um tensor transfor-mado como sa´ıda, de maneira que basta pegar a sa´ıda do método de cria¸cão de uma camada e fornecê-la como entrada para outra.

Figura 19 – Código responsável pela constru¸cão do classificador de imagens Keras.

3.3.3 Treinando a rede neural

Keras é uma poderosa biblioteca Python fácil de usar para desenvolvimento e avalia¸cão de modelos de aprendizagem profunda. Ele envolve a eficiente biblioteca de computa¸cão numérica TensorFlow e nos permite definir e treinar modelos de redes neurais em algumas linhas curtas de código. E através desta combina¸cão de Keras e TensorFlow que criamos o arquivo train network.py para carregar, definir, compilar e avaliar nosso modelo de rede neural.

(37)

Figura 20 – Bibliotecas utilizadas no arquivo train network.py.

Na figura 21 observamos dois argumentos de linha de comando obrigatórios, -dataset e -model, bem como um caminho opcional para nosso gráfico de precisão / perda, -plot.

Figura 21 – C´odigo respons´avel pela entrada dos argumentos.

A op¸cão -dataset deve apontar para o diretório que contém as imagens nas quais estaremos treinando nosso classificador de imagens (ou seja, as imagens ”Santa”e ”Não Santa”) enquanto a op¸cão -model controla onde salvaremos nosso classificador de imagem serializado depois de ter sido treinado.

Na figura 22 definimos algumas vari´aveis de treinamento, inicializamos listas e reunimos caminhos para imagens.

Quantidade de epochs, taxa de aprendizagem, tamanho do batch e itera¸cões são determinadas de acordo com o algoritmo de otimiza¸cão iterativo gradiente descendente. Onde batch é a quantidade de pacotes de imagens utilizadas no treinamento da rede neural, neste caso, nosso total de imagens será divido em 32 batches. Já a variável epoch determina quantas vezes nosso dataset irá passar pela rede neural, ou seja, neste caso, iremos passar todos os 32 batches pela rede neural 25 vezes. A taxa de aprendizado inicial determina a velocidade com que os pesos do gradiente descendente mudam, tentando eviar uma sobrecorre¸cão em cada itera¸cão da rede neural durante o treinamento. Todos os parâmetros aqui citados são conhecidos como hiper-parâmetros, portanto seus valores são definidos através de testes e ajustes finos.

(38)

Figura 22 – Código de inicializa¸cão das variáveis de treinamento, listas e diretórios.

Em seguida, conforme ilustrado na figura 23, realizamos o pr´e-processamento das imagens.

Figura 23 – C´odigo para pr´e-processamento das imagens.

O loop da figura 23 simplesmente carrega e redimensiona cada imagem para 28x28 pixels fixos (as dimens˜oes espaciais necess´arias para o LeNet) e acrescenta o array de imagem `

a lista de dados, seguido pela extra¸c˜ao do r´otulo de classe do imagePath.

Podemos executar essa extra¸cão de rótulo de classe pois a estrutura de diretórios do conjunto de dados é organizada da seguinte maneira:

Portanto, de um exemplo de imagePath: • images/fire/00000042.jpg

Depois de extrair o r´otulo, o resultado ser´a: • fire

A organiza¸c˜ao de conjuntos de dados de imagens de aprendizado profundo dessa maneira nos permite organizar eficientemente nosso conjunto de dados e analisar r´otulos de classe sem a necessidade de usar um arquivo de ´ındice/pesquisa separado.

(39)

Figura 24 – Estrutura do diret´orio do dataset.

Em seguida, nós pré-processamos nossos dados de entrada alterando a escala dos pontos de dados de [0, 255] (os valores RGB m´ınimo e máximo da imagem) para o intervalo [0, 1]. Realizamos uma divisão de treinamento/teste nos dados usando 75% das imagens para treinamento e 25% para testes. Essa é uma divisão t´ıpica para essa quantidade de dados. Também convertemos rótulos em vetores usando uma codifica¸cão simples.

Figura 25 – C´odigo para alterar escala das imagens e criar splits.

Posteriormente, executamos alguns aumentos de dados, permitindo gerar dados de treinamento adicionais e transformando aleatoriamente as imagens de entrada usando os parˆametros abaixo.

Keras fornece a classe ImageDataGenerator, a qual define a configura¸cão para pre-para¸cão e aumento de dados de imagem. Em vez de executar as opera¸cões em todo o seu conjunto de dados de imagem na memória, a API foi projetada para ser iterada pelo processo de ajuste do modelo de aprendizado profundo, criando dados de imagem aumentados just-in-time. Isso reduz a sobrecarga de memória, mas adiciona algum custo de tempo adicional durante o

(40)

Figura 26 – Cria¸c˜ao de dados atrav´es da ImageDataGenerator().

treinamento do modelo.

Essencialmente, a ImageDataGenerator cria um objeto gerador de imagens que executa rota¸cões aleatórias, espelhamento, inversões, desvios e varia¸cões em nosso conjunto de dados de imagens. Isso nos permite alcan¸car bons resultados mesmo com um conjunto de dados menor.

A LeNet foi a arquitetura selecionada, dentre diversos fatores, principalmente por ser pequena, possibilitando o treinamento da mesma em um computador com uma GPU simples e em um curto espa¸co de tempo, ao passo que arquiteturas mais complexas necessitam de computadores com GPUs de ´ultima gera¸c˜ao e, ainda sim, levam dias para serem treinadas.

Constru´ımos nosso modelo LeNet com o otimizador Adam. Como esse é um problema de classifica¸cão de duas classes, optamos pela entropia cruzada binária como nossa fun¸cão de perda.

Figura 27 – C´odigo para inicializar, treinar e salvar modelo de rede.

O treinamento da rede é iniciado quando chamamos model.fit generator, fornecendo nosso objeto de aumento de dados, dados de treinamento, teste e o número de epochs pelos quais queremos treinar. Em sequência, salvamos o modelo em disco, para depois utilizarmos nosso classificador de imagens sem a necessidade de reconstruir o modelo.

Utilizando-se do terminal de comando Anaconda, executamos o c´odigo train network.py afim de inicializar, treinar e compilar nosso modelo de rede neural.

(41)

A rede treinou por 25 epochs e obtivemos 96,45% de precis˜ao nos testes e baixa perda de treinamento, vide figuras 28 e 29.

Figura 28 – Rede neural com 26 epochs e precis˜ao de 96,45%.

Figura 29 – Treinamento de redes neurais - precis˜ao e perdas.

(42)

3.4 APLICATIVO ANDROID

O aplicativo foi desenvolvido nas linguages Java e XML, ambas linguagens oficiais do ambiente de desenvolvimento Android Studio. Utiliza-se a linguagem XML para construir o layout da activity, ou seja, a interface do usuário. OJava geralmente é utiliizado para desenvolver as fun¸cões da aplica¸cão, mas detém liberdade e pode ser empregado para alterar os elementos da interface já que as linguagens trabalham em conjunto e estão interligadas.

Para o aplicativo existem duas fun¸cões de grande importância: avisar o usuário sobre um poss´ıvel perigo e providenciar acesso direto à visualiza¸cão da câmera digital. A visualiza¸cão da câmera é disponibilizada em tempo real para que o usuário possa confirmar a veracidade de um poss´ıvel incêndio ou evento. Para que o usuário interaja com o sistema, receba a notifica¸cão ou acesse a imagem da câmera, é necessário que o celular tenha conectividade com a internet. As duas grandes fun¸cões mencionadas acima foram desenvolvidas separadamente em duas activities:

• MainActivty • CameraActivity

A MainActivity é responsável por alertar o usuário sobre qualquer mudan¸ca que aconte¸ca no estado do sistema. Para este projeto existem três estados de seguran¸ca (NORMAL, WARNING, DANGER!) alteráveis à efeito da interpreta¸cão e do resultado obtido pela rede neural.

Figura 30 – Diferentes estados do aplicativo TCC - Fire Alarm.

O estado NORMAL é essencialmente o modo ocioso da aplica¸cão. Resultado de uma mudan¸ca caso não haja mais perigo ou risco de fogo, ou aparente na inicializa¸cão do aplicativo quando, até o momento, nada foi exposto ao sistema.

Dissemelhante, o estado DANGER! é ativado logo após o algoritmo de interpreta¸cão verificar alguma chama ou luz muito forte. Neste caso uma notifica¸cão com prioridade alta é gerada e enviada ao dispositivo Android. O estado do sistema é alterado imediatamente para uma cor chamativa, também com o intuito de induzir o usuário que um problema real está em

(43)

questão. O sistema continua notificando o usuário até que algum contato com o aplicativo seja realizado. A figura31 representa a mensagem de notifica¸cão deste estado.

Figura 31 – Notifica¸c˜ao gerada pela troca ao estado DANGER!

De maneira análoga, o estado WARNING, também troca a cor e o texto da barra de ”status” e gera uma notifica¸cão, mas para entrar neste caso a o algoritmo de rede neural tem que estar indeciso se o que está sendo interpretado é realmente um incêndio. Essa notifica¸cão, enviada do aplicativo ao smartphone, tem o intuito de criar um acesso rápido à tela CameraActivity, vide figura 32. Assim, o usuário tem agilidade para verificar se realmente existe um problema em evidência ou se uma má interpreta¸cão do algoritmo ou um alarme falso foi concebido. Clicar em cima desta notifica¸cão abre diretamente a tela de visualiza¸cão da câmera.

Figura 32 – Notifica¸c˜ao gerada pela troca ao estado WARNING.

Outra maneira de acessar a visualiza¸cão da câmera é clicando no botão ”View Camera”, que, coloca a MainActivity em segundo plano (na pilha de atividades) e impõe a CameraActivity em evidência. Esta atividade tem a fun¸cão de apresentar o conteúdo da câmera digital em tempo real. Para isso, dispõe de uma lógica de acesso a uma página internet, onde o conteúdo da câmera está sendo transmitido.

O v´ıdeo é transmitido do Raspberry Pi. No Android utilizamos a engine WebKit, que fornece um conjunto de classes com a finalidade de exibir o conteúdo de uma página na internet. Basicamente, a classe WebView possibilita re-criar todo o conteúdo de um site para o modelo de visualiza¸cao do aplicativo, vide figura 33.

O fluxograma 34 explica de maneira mais simplificada como a MainActivity é executada, qual a sua lógica de programa¸cão e quais são os seus principais processos e métodos utilizados. As notifica¸cões enviadas para o usuário são criadas no aplicativo logo após a solicita¸cão do cliente ser interpretada. Isto será explicado em detalhes no item 3.5.

(44)

Figura 33 – Visualiza¸c˜ao da CameraActivity.

Figura 34 – Fluxograma simplificado da MainActivity.

(45)

3.5 MODELO CLIENTE-SERVIDOR

Para a comunica¸c˜ao entre as duas partes, foi utilizado o modelo cliente-servidor. O Raspberry Pi executa a aplica¸c˜ao de cliente, enquanto o aplicativo Android o outro. Para isto foi utilizado as classes Socket e ServerSocket do pacote java.net.

A classe Socket implementa a parte do cliente e é utilizada para se conectar a um host remoto. De outra parte, um objeto da classe ServerSocket aguarda a chegada de solicita¸cões pela rede. Na utiliza¸cão destas classes e, de modo que é necessário enviar e receber mensagens com exatidão, utiliza-se as estruturas de InputStreams e OutputStreams, obtido através dos métodos Socket.getInputStream() e Socket.getOutputStream().

Como a aplica¸cão de cliente foi desenvolvida em Java e o software de deteçcão de fogo em Pyhton, foi necessário realizar chamadas de sistema que, no caso, invocam uma solicita¸cão do Raspberry pi para o servidor sempre que um evento ou perigo é detectado. O servidor está hospedado em uma thread que é instanciada no in´ıcio da atividade principal do aplicativo Fire Alarm e fica ativa esperando um contato da parte do cliente. Desse modo ocorre a comunica¸cão entre as duas partes e como consequência o estado do sistema é notificado ao usuário.

3.6 ALGORITMOS E C ´ODIGOS

Nesta se¸cão serão explicados com mais detalhes os algoritmos e códigos utilizados para a constru¸cão totalitária deste sistema de deteçcão e alarme de incêndio.

3.6.1 Implementa¸c˜ao no Raspberry Pi

o Raspberry Pi não é adequado para treinar uma rede neural. No entanto, ele pode ser usado para implantar uma rede neural depois de já ter sido treinada, desde que o modelo possa caber em um espa¸co de memória pequeno e compat´ıvel com o Raspberry Pi.

Já que não há uma distribui¸cão oficial do TensorFlow para Raspberry Pi, decidimos utilizar os binários pré-compilados criados por Sam Abrahams

Figura 35 – Comandos utilizados para instala¸c˜ao do TensorFlow no Raspberry Pi.

Uma vez que o TensorFlow se encontra instalado e compilado, instalamos o HDF5 e o h5py, bibliotecas que nos permitirã carregar nosso modelo pré-treinado a partir do cartão SD:

Para finalizar, instalamos o Keras, Imutils e Scipy, necess´arias para a executa¸c˜ao deste projeto:

(46)

Figura 36 – Comandos utilizados para instala¸c˜ao das bibliotecas HDF5 e h5py no Raspberry Pi.

Para testar se o ambiente estava corretamente configurado e com todas as bibliotecas compiladas, executamos os seguintes comandos no Raspberry Pi:

3.6.2 Inicializa¸c˜ao do sistema

Com o sistema configurado, criamos o programa fire detector.py, o qual irá rodar no Raspberry Pi e será responsável por carregar a rede neural (.model) e realizar toda a

(47)

comunica¸cão com o sistema embarcado, obtendo os frames da camêra, alimentando a rede neural com as imagens obtidas e mantendo o pipeline de comunica¸cão com o servidor Android ativo, o informando de eventuais eventos detectados pelo sistema.

Figura 39 – Comandos utilizados para importar as bibliotecas j´a compiladas no Raspberry Pi.

Figura 40 – Declara e importa o modelo de rede neural a ser utilizado pelo Raspberry Pi.

Também inicializamos os parâmetros usados para deteçcão, que incluem TOTAL CONSEC e TOTAL THRESH. Esses dois valores representam o número de quadros que contêm fogo e o limite no qual enviaremos uma notifica¸cão de alarme de incêndio ao servidor. A última inicializa¸cão, booleana, é FIRE = False. Utilizamos a variável FIRE posteriormente no script como um sinalizador de status para ajudar na lógica de deteçcão.

Figura 41 – Código de inicializa¸cão e parametriza¸cão do sistema de deteçcão de incêndio.

(48)

Em sequˆencia, carregamos o modelo da rede neural no Raspberry e inicializamos a cˆamera.

Figura 42 – Código de carregamento do modelo de rede e inicializa¸cão da câmera.

3.6.3 Obten¸cão do frame da câmera e classifica¸cão das imagens

Realizada a inicializa¸cão da câmera através da fun¸cão VideoStream da biblioteca Imutils, utilizamos a fun¸cão vs.read para capturar frame por frame do stream de v´ıdeo.

Figura 43 – C´odigo de captura de frames da stream de v´ıdeo.

Pré-processamos cada frame antes de enviá-los através do nosso modelo de rede neural, portanto, em seguida, redimensionamos o quadro para width = 400, mantendo a propor¸cão, e preparamos a imagem para envio a rede. A partir da´ı, chamamos model.predict com nossa imagem como argumento. Isso envia a imagem através da rede neural, retornando um tuple contendo probabilidades de classe, sendo elas Fire e noFire. O sistema é inicializado com o label No Fire e probalidade noFire, evitando o envio de um alarme falso durante a inicializa¸cão do sistema.

Em sequência, o código verifica se existe fogo na imagem comparando a probabilidade de Fire (fogo na imagem) com a probabilidade de noFire (sem sinais de fogo na imagem). Se a probabilidade de existir fogo for maior que a de não exisitir fogo no frame, o label e a probabilidade (proba) são atualizados para Fire e a variável TOTAL CONSEC é incrementada de maneira a nos possibilitar contar quantos frames consecutivos acusaram a existência de fogo.

Verificada a existência de fogo em uma quantidade suficiente de frames consecutivos, o alarme de incêndio é acionado.

(49)

Figura 44 – C´odigo para pr´e-processamento e envio dos frames para a rede neural.

Figura 45 – C´odigo de classifica¸c˜ao das imagens.

Figura 46 – C´odigo de acionamento do alarme.

Caso contrário, (FIRE é TRUE ou TOTAL THRESH não é atendido), zeramos TOTAL CONSEC para zero e FIRE para False.

Figura 47 – Reinicializa¸c˜ao da contagem de frames consecutivos.

Por fim, exibimos os frames em nossa tela. Utilizando o cv2.putText do OpenCV, podemos escrever o rótulo na parte superior do quadro antes de exibir a imagem na tela, assim o valor de probabilidade é anexado ao rótulo contendo ”Fire”ou ”Not Fire”, como exemplificado na figura 49, em que a rede neural indica a existência de fogo na lareira com 93,88% de confian¸ca.

(50)

Figura 48 – Constru¸c˜ao do frame para exibi¸c˜ao na tela.

Figura 49 – Detec¸c˜ao de fogo na imagem com 93,88% de confian¸ca.

3.6.4 Envio de evento e recebimento de notifica¸c˜ao

Toda vez que o sistema identifica uma mudan¸ca de estado, seja esta com um risco maior ou menor de seguran¸ca o usuário é notificado. Para que o usuário seja notificado, o Raspberry Pi cria um Socket que é associado ao aplicativo Android pelo IP destino (Ex: 192.168.100.52) e então envia um fluxo de dados, exibido em detalhes na figura 50.

A MainActivity é responsável por interpretar essas mensagens e notificar o usuário. Para isto, uma thread fica ativa com a fun¸cão de servidor esperando qualquer requisi¸cão do cliente. Quando uma requisi¸cão é interpretada pelo aplciativo Android o estado do layout é alterado e o sistema entra em atua¸cão. O aparelho então come¸ca a vibrar e bipar com o intuito de chamar a aten¸cão do usuário. E o sistema só entra em repouso após outra intera¸cão do usuário, consentindo que a notifica¸cão foi recebida e que está ciente da altera¸cão do estado de perigo.