• Nenhum resultado encontrado

Tempo de inferência para cada seguimento de vídeo

O modelo de predição foi embarcado em um Raspberry Pi 4 com as seguintes con-figurações: 8GB de memória RAM, processador BCM2711B0 da Broadcom, quad-core Cortex-A72 comclockde 1,5GHz, e com sistema operacional Raspberry Pi OS de 64-bit baseado em Debian 11 (Bullseye). Foi realizado ainda um overclocking para 1,8GHz, conseguindo obter tempo médio de 3,99 segundos para cada previsão, como mostra a

Fi-Capítulo 4. Resultados 36

(a) Acurácia por quantidades de passos. (b) Perda por quantidades de passos.

Figura 14 – Resultados treinamento por quantidade de passos da arquitetura Transfor-mers.

Fonte: Autoria própria.

gura 21. Esses resultados são condizentes com o esperado, ou seja, quando ocorrer uma possível ação suspeita, o sistema conseguira ter um tempo de resposta de 5 segundos, em que muitas vezes a ação criminosa nem é observado. Com esse sistema é possível classificar a ação suspeita e com base no segmento de vídeo de 4 segundos e que se a classificação leva 5 segundos, é possível terminar de analisar um bloco e ter a CPU livre para receber o próximo, assim tomar as devidas providências para conter a ação alertada.

Além disso, criou-se uma versão doscriptde predição que utilizathreads, com intuito de a imagem visualizada não ficar esperando o resultado da predição, melhorando assim a experiência do usuário. Somado a isso, quando utilizamos esta abordagem podemos utilizar todo o poder computacional proporcionado peloRaspberry Pi 4, como pode ser observado na Figura 22, que utiliza os 4 núcleos disponíveis no processador, ao contrário do que é mostrado na Figura 23, em que apenas utiliza um núcleo por vez em execução.

Porém quando utilizamos essa abordagem de realizar a predição usando threads, o tempoclocké aumentado, como mostra Figura 24, atingindo uma média de 14,29 segun-dos. É importante ressaltar que esse tempo éclock, ou seja o tempo real que o processo está em execução no processador. Quando analisamos o tempo de execução real, atingi-mos uma média de 30 segundos, esse aumento de tempo de execução é devido ao consumo geral deCentral Process Unit (CPU), que foi aumentado, devido àsthreadscriadas. Mas, aproximadamente a cada 20 segundos uma nova tarefa é lançada no sistema operacional, e a tarefa lançada a aproximadamente 30 segundos foi finalizada, permitindo comparar esse processo como umpipeline como mostrado na Figura??, ou seja em geral é mais eficiente nessa abordagem, além de utilizar toda capacidade do dispositivo, não deixando poder de processamento ocioso.

Capítulo 4. Resultados 37

Figura 15 – Acurácia e perda por épocas da arquitetura Transformers. Onde se percebe que as curvas de aprendizado e validação tem comportamento semelhante e próximas logo caracterizando como rede generalista

Fonte: Autoria própria.

Figura 16 – Resultado do treinamento da arquiteturaTransformers. Onde essa é saída do treinamento utilizando o TensorFlow e atingimos uma acurácia de 90.18%

para dados de validação

Fonte: Autoria própria.

Capítulo 4. Resultados 38

Figura 17 – Matriz de Confusão da arquiteturaTransformers.

Fonte: Autoria própria.

(a) Acurácia por quantidades de passos. (b) Perda por quantidades de passos.

Figura 18 – Resultados treinamento por quantidade de passos da arquitetura da aplicação.

Fonte: Autoria própria.

Capítulo 4. Resultados 39

Figura 19 – Acurácia e perda por épocas da arquitetura da aplicação. Onde atingimos acima de 90% de acurácia para dados de validação e 100% para dados de treinamento. Além doCross Entropytender a zero em ambos os casos

Fonte: Autoria própria.

Capítulo 4. Resultados 40

Figura 20 – Matriz de confusão da arquitetura da aplicação. Onde temos apenas um caso de Falso Negativo a qual não é desejado

Fonte: Autoria própria.

Capítulo 4. Resultados 41

Figura 21 – Tempo de execução serial. Onde o tempo de Clock é tempo que processo re-almente está em execução no núcleo do processador, desconsiderando tempo de espera e entrada e saída, e tempo relógio, é tempo real de quando iniciar a predição até terminar

Fonte: Autoria própria.

Capítulo 4. Resultados 42

Figura 22 – Uso dos núcleos para predição usandothreads. Onde utilizamos o Software Htop, que verifica a utilização dos recursos do processos no CPU, é impor-tante notar que o sistema está utilizando acima de 90% de todos os núcleos disponíveis, como também cada processo de predição está sendo alocado em todos os núcleos de forma paralela

Fonte: Autoria própria.

Capítulo 4. Resultados 43

Figura 23 – Uso dos núcleos para predição usando programação serial. Onde o processo é todo alocado em apenas um núcleo, logo não utilizando todo recurso com-putacional disponível

Fonte: Autoria própria.

Capítulo 4. Resultados 44

Figura 24 – Tempo de execução programação distribuída. Onde o tempo de Clock está em média de 15 segundos, e tempo de relógio está em média 37 segundos

Fonte: Autoria própria.

Capítulo 4. Resultados 45

Figura 25 – Pipeline em Processadores. Onde sem utilização da paralelização o tempo para executar quatro inferências de 20 segundos, usando paralelização, as mesmas quatro inferências o tempo é de 15 segundos

Fonte: Autoria própria.

Capítulo 5 Conclusão

Este trabalho teve como principal objetivo implementar arquiteturas deDeep Learning que conseguissem classificar segmentos de vídeos, tendo desempenho para embarcar a rede neural em sistemasIoT e realizar a predição em tempo hábil.

Foram inicialmente propostas duas arquiteturas e avaliados seus desempenhos para essa aplicação, e também foi criado um conjunto de dados, para classificação de ação suspeitas e não suspeitas, com objetivo de treinar a rede para essa aplicação final.

As etapas de treinamento e inferência foram validadas por meio de uma base de da-dos comum e de mesmo poder computacional para ambas as redes. Em seguida, foram analisados os resultados deacurácia, perda e matriz de confusão, assim como o tempo de execução do sistema embarcado noRaspberry Pi 4, para validar a aplicação em sistema embarcados. Os resultados mostraram que os valores encontrados na função de perda fo-ram consideravelmente baixos, que a taxa de acerto apresentada pelo classificador atingiu 90% de acertos e que o tempo de execução demonstrou sua viabilidade de aplicação.

Com isso, esse sistema pode viabilizar o monitoramento e alertar ações suspeitas, com custo baixo de implementação, sendo viável em microempresas e empresas de pequeno porte, assim evitando custo altos com mão de obra de profissionais de segurança para monitoramento das câmeras.

Deste modo, foi alcançado o objetivo de implementar arquiteturas de análise de vídeo viável para embarcar em sistemas de poder computacional baixo, realizando a classifi-cação do vídeo na borda da rede. Visando o aumento da base de dados construída para classificar ações suspeitas, é possível realizar avanços em trabalhos futuros, considerando a implementação deAPIpara coletar imagens nas nuvens de câmeras de segurança usando Digital Video Recorder (DVR), e notificação de alertas de ações suspeitas em tempo real para construção de produto viável mínimo.

47

Referências

BENGIO, Y.; SIMARD, P.; FRASCONI, P. Learning long-term dependencies with gradient descent is difficult.IEEE transactions on neural networks, IEEE, v. 5, n. 2, p.

157–166, 1994.

CHOLLET, F.Deep Learning with Python. 2rd. ed. USA: MANNING, 2021. ISBN 9781617296864.

DAVID, R.; DUKE, J.; JAIN, A.; REDDI, V. J.; JEFFRIES, N.; LI, J.; KREEGER, N.;

NAPPIER, I.; NATRAJ, M.; WANG, T. et al. Tensorflow lite micro: Embedded machine learning for tinyml systems.Proceedings of Machine Learning and Systems, v. 3, p.

800–811, 2021.

DRUCKER, H.; BURGES, C.; KAUFMAN, L.; SMOLA, A.; VAPNIK, V. Advances in neural information processing systems.NIPS 1996, v. 155, 1997.

GAL-ON, M.; MANNOR, S. Learning from multiple outlooks.CoRR, abs/1005.0027, 2010. Disponível em: <http://arxiv.org/abs/1005.0027>.

GOODFELLOW, I.; POUGET-ABADIE, J.; MIRZA, M.; XU, B.; WARDE-FARLEY, D.; OZAIR, S.; COURVILLE, A.; BENGIO, Y. Advances in neural information processing systems.Curran Associates, Inc, v. 27, p. 2672–2680, 2014.

GóIS, A. C. Reconhecimento facial ajudou a prender mais de 200 na Bahia. 2021. Disponível em: <https://www.tecmundo.com.br/seguranca/

227023-reconhecimento-facial-ajudou-prender-200-bahia.htm\#:~{}:

text=Um\%20sistema\%20de\%20reconhecimento\%20facial,100\%20c\%C3\

%A2meras\%20distribu\%C3\%ADdas\%20por\%20Salvado>.

LAWRENCE, S.; GILES, C. L.; TSOI, A. C.; BACK, A. D. Face recognition: A convolutional neural-network approach.IEEE transactions on neural networks, IEEE, v. 8, n. 1, p. 98–113, 1997.

LECUN Y., B. Y. . H. G. D. l. Deep learning. In:nature. [S.l.: s.n.], 2015. p. 436–444.

NETO, A. F. d. R. Tese (Doutorado em Ciência da Computação) - Centro de Ciências Exatas e da Terra, Edge-distributed stream processing for video analytics in smart city applications. Natal: [s.n.], 2021. Disponível em:

<https://repositorio.ufrn.br/handle/123456789/32743>.

PASCANU, R.; MIKOLOV, T.; BENGIO, Y. International conference on machine learning. Journal of Machine Learning Research, 2013.

Referências 48

PAUL, S.Video Classification with a CNN-RNN Architecture. 2021. Disponível em:

<https://keras.io/examples/vision/video_classification/>.

. Video Classification with Transformers. 2021. Disponível em: <https:

//keras.io/examples/vision/video_transformers/#building-the-transformerbased-model>.

RYU, J.; YANG, M.-H.; LIM, J. Dft-based transformation invariant pooling layer for visual classification. In: Proceedings of the European Conference on Computer Vision (ECCV). [S.l.: s.n.], 2018.

SIMONYAN, K.; ZISSERMAN, A.; BENGIO, Y.; LECUN, Y. 3rd international conference on learning representations.ICLR, San Diego, 2015.

SRIVASTAVA, N.; HINTON, G.; KRIZHEVSKY, A.; SUTSKEVER, I.; SALAKHUT-DINOV, R. Dropout: a simple way to prevent neural networks from overfitting.The journal of machine learning research, JMLR. org, v. 15, n. 1, p. 1929–1958, 2014.

SUTSKEVER, I.; VINYALS, O.; LE, Q. Proc. advances in neural information processing systems 27. 2014.

VASWANI, A.; SHAZEER, N.; PARMAR, N.; USZKOREIT, J.; JONES, L.; GOMEZ, A. N.; KAISER, L.; POLOSUKHIN, I.Attention Is All You Need. 2017.

VINíCIUS.Machine learning de séries temporais – LSTM. 2018. Disponível em:

<https://www.monolitonimbus.com.br/machine-learning-de-series-temporais-lstm/>.

VISION, C. F. R. I. C.UCF101 - Action Recognition Data Set. 2013. Disponível em:

<https://www.crcv.ucf.edu/data/UCF101.php#Results_on_UCF101>.

WEISS K., K. T. . W. D. A survey of transfer learning. In: Journal of Big Data. [S.l.:

s.n.], 2016. p. 9.

WITTEN, I. H.; FRANK, E. Data mining: practical machine learning tools and techniques with java implementations.Acm Sigmod Record, ACM New York, NY, USA, v. 31, n. 1, p. 76–77, 2002.

Documentos relacionados