Tempo de inferência para cada seguimento de vídeo

O modelo de predição foi embarcado em um Raspberry Pi 4 com as seguintes con-figurações: 8GB de memória RAM, processador BCM2711B0 da Broadcom, quad-core Cortex-A72 comclockde 1,5GHz, e com sistema operacional Raspberry Pi OS de 64-bit baseado em Debian 11 (Bullseye). Foi realizado ainda um overclocking para 1,8GHz, conseguindo obter tempo médio de 3,99 segundos para cada previsão, como mostra a

Fi-Capítulo 4. Resultados 36

(a) Acurácia por quantidades de passos. (b) Perda por quantidades de passos.

Figura 14 – Resultados treinamento por quantidade de passos da arquitetura Transfor-mers.

Fonte: Autoria própria.

gura 21. Esses resultados são condizentes com o esperado, ou seja, quando ocorrer uma possível ação suspeita, o sistema conseguira ter um tempo de resposta de 5 segundos, em que muitas vezes a ação criminosa nem é observado. Com esse sistema é possível classificar a ação suspeita e com base no segmento de vídeo de 4 segundos e que se a classificação leva 5 segundos, é possível terminar de analisar um bloco e ter a CPU livre para receber o próximo, assim tomar as devidas providências para conter a ação alertada.

Além disso, criou-se uma versão doscriptde predição que utilizathreads, com intuito de a imagem visualizada não ficar esperando o resultado da predição, melhorando assim a experiência do usuário. Somado a isso, quando utilizamos esta abordagem podemos utilizar todo o poder computacional proporcionado peloRaspberry Pi 4, como pode ser observado na Figura 22, que utiliza os 4 núcleos disponíveis no processador, ao contrário do que é mostrado na Figura 23, em que apenas utiliza um núcleo por vez em execução.

Porém quando utilizamos essa abordagem de realizar a predição usando threads, o tempoclocké aumentado, como mostra Figura 24, atingindo uma média de 14,29 segun-dos. É importante ressaltar que esse tempo éclock, ou seja o tempo real que o processo está em execução no processador. Quando analisamos o tempo de execução real, atingi-mos uma média de 30 segundos, esse aumento de tempo de execução é devido ao consumo geral deCentral Process Unit (CPU), que foi aumentado, devido àsthreadscriadas. Mas, aproximadamente a cada 20 segundos uma nova tarefa é lançada no sistema operacional, e a tarefa lançada a aproximadamente 30 segundos foi finalizada, permitindo comparar esse processo como umpipeline como mostrado na Figura??, ou seja em geral é mais eficiente nessa abordagem, além de utilizar toda capacidade do dispositivo, não deixando poder de processamento ocioso.

Capítulo 4. Resultados 37

Figura 15 – Acurácia e perda por épocas da arquitetura Transformers. Onde se percebe que as curvas de aprendizado e validação tem comportamento semelhante e próximas logo caracterizando como rede generalista

Fonte: Autoria própria.

Figura 16 – Resultado do treinamento da arquiteturaTransformers. Onde essa é saída do treinamento utilizando o TensorFlow e atingimos uma acurácia de 90.18%

para dados de validação

Fonte: Autoria própria.

Capítulo 4. Resultados 38

Figura 17 – Matriz de Confusão da arquiteturaTransformers.

Fonte: Autoria própria.

(a) Acurácia por quantidades de passos. (b) Perda por quantidades de passos.

Figura 18 – Resultados treinamento por quantidade de passos da arquitetura da aplicação.

Fonte: Autoria própria.

Capítulo 4. Resultados 39

Figura 19 – Acurácia e perda por épocas da arquitetura da aplicação. Onde atingimos acima de 90% de acurácia para dados de validação e 100% para dados de treinamento. Além doCross Entropytender a zero em ambos os casos

Fonte: Autoria própria.

Capítulo 4. Resultados 40

Figura 20 – Matriz de confusão da arquitetura da aplicação. Onde temos apenas um caso de Falso Negativo a qual não é desejado

Fonte: Autoria própria.

Capítulo 4. Resultados 41

Figura 21 – Tempo de execução serial. Onde o tempo de Clock é tempo que processo re-almente está em execução no núcleo do processador, desconsiderando tempo de espera e entrada e saída, e tempo relógio, é tempo real de quando iniciar a predição até terminar

Fonte: Autoria própria.

Capítulo 4. Resultados 42

Figura 22 – Uso dos núcleos para predição usandothreads. Onde utilizamos o Software Htop, que verifica a utilização dos recursos do processos no CPU, é impor-tante notar que o sistema está utilizando acima de 90% de todos os núcleos disponíveis, como também cada processo de predição está sendo alocado em todos os núcleos de forma paralela

Fonte: Autoria própria.

Capítulo 4. Resultados 43

Figura 23 – Uso dos núcleos para predição usando programação serial. Onde o processo é todo alocado em apenas um núcleo, logo não utilizando todo recurso com-putacional disponível

Fonte: Autoria própria.

Capítulo 4. Resultados 44

Figura 24 – Tempo de execução programação distribuída. Onde o tempo de Clock está em média de 15 segundos, e tempo de relógio está em média 37 segundos

Fonte: Autoria própria.

Capítulo 4. Resultados 45

Figura 25 – Pipeline em Processadores. Onde sem utilização da paralelização o tempo para executar quatro inferências de 20 segundos, usando paralelização, as mesmas quatro inferências o tempo é de 15 segundos

Fonte: Autoria própria.

Capítulo 5 Conclusão

Este trabalho teve como principal objetivo implementar arquiteturas deDeep Learning que conseguissem classificar segmentos de vídeos, tendo desempenho para embarcar a rede neural em sistemasIoT e realizar a predição em tempo hábil.

Foram inicialmente propostas duas arquiteturas e avaliados seus desempenhos para essa aplicação, e também foi criado um conjunto de dados, para classificação de ação suspeitas e não suspeitas, com objetivo de treinar a rede para essa aplicação final.

As etapas de treinamento e inferência foram validadas por meio de uma base de da-dos comum e de mesmo poder computacional para ambas as redes. Em seguida, foram analisados os resultados deacurácia, perda e matriz de confusão, assim como o tempo de execução do sistema embarcado noRaspberry Pi 4, para validar a aplicação em sistema embarcados. Os resultados mostraram que os valores encontrados na função de perda fo-ram consideravelmente baixos, que a taxa de acerto apresentada pelo classificador atingiu 90% de acertos e que o tempo de execução demonstrou sua viabilidade de aplicação.

Com isso, esse sistema pode viabilizar o monitoramento e alertar ações suspeitas, com custo baixo de implementação, sendo viável em microempresas e empresas de pequeno porte, assim evitando custo altos com mão de obra de profissionais de segurança para monitoramento das câmeras.

Deste modo, foi alcançado o objetivo de implementar arquiteturas de análise de vídeo viável para embarcar em sistemas de poder computacional baixo, realizando a classifi-cação do vídeo na borda da rede. Visando o aumento da base de dados construída para classificar ações suspeitas, é possível realizar avanços em trabalhos futuros, considerando a implementação deAPIpara coletar imagens nas nuvens de câmeras de segurança usando Digital Video Recorder (DVR), e notificação de alertas de ações suspeitas em tempo real para construção de produto viável mínimo.

Referências

BENGIO, Y.; SIMARD, P.; FRASCONI, P. Learning long-term dependencies with gradient descent is difficult.IEEE transactions on neural networks, IEEE, v. 5, n. 2, p.

157–166, 1994.

CHOLLET, F.Deep Learning with Python. 2rd. ed. USA: MANNING, 2021. ISBN 9781617296864.

DAVID, R.; DUKE, J.; JAIN, A.; REDDI, V. J.; JEFFRIES, N.; LI, J.; KREEGER, N.;

NAPPIER, I.; NATRAJ, M.; WANG, T. et al. Tensorflow lite micro: Embedded machine learning for tinyml systems.Proceedings of Machine Learning and Systems, v. 3, p.

800–811, 2021.

DRUCKER, H.; BURGES, C.; KAUFMAN, L.; SMOLA, A.; VAPNIK, V. Advances in neural information processing systems.NIPS 1996, v. 155, 1997.

GAL-ON, M.; MANNOR, S. Learning from multiple outlooks.CoRR, abs/1005.0027, 2010. Disponível em: <http://arxiv.org/abs/1005.0027>.

GOODFELLOW, I.; POUGET-ABADIE, J.; MIRZA, M.; XU, B.; WARDE-FARLEY, D.; OZAIR, S.; COURVILLE, A.; BENGIO, Y. Advances in neural information processing systems.Curran Associates, Inc, v. 27, p. 2672–2680, 2014.

GóIS, A. C. Reconhecimento facial ajudou a prender mais de 200 na Bahia. 2021. Disponível em: <https://www.tecmundo.com.br/seguranca/

227023-reconhecimento-facial-ajudou-prender-200-bahia.htm\#:~{}:

text=Um\%20sistema\%20de\%20reconhecimento\%20facial,100\%20c\%C3\

%A2meras\%20distribu\%C3\%ADdas\%20por\%20Salvado>.

LAWRENCE, S.; GILES, C. L.; TSOI, A. C.; BACK, A. D. Face recognition: A convolutional neural-network approach.IEEE transactions on neural networks, IEEE, v. 8, n. 1, p. 98–113, 1997.

LECUN Y., B. Y. . H. G. D. l. Deep learning. In:nature. [S.l.: s.n.], 2015. p. 436–444.

NETO, A. F. d. R. Tese (Doutorado em Ciência da Computação) - Centro de Ciências Exatas e da Terra, Edge-distributed stream processing for video analytics in smart city applications. Natal: [s.n.], 2021. Disponível em:

<https://repositorio.ufrn.br/handle/123456789/32743>.

PASCANU, R.; MIKOLOV, T.; BENGIO, Y. International conference on machine learning. Journal of Machine Learning Research, 2013.

Referências 48

PAUL, S.Video Classification with a CNN-RNN Architecture. 2021. Disponível em:

<https://keras.io/examples/vision/video_classification/>.

. Video Classification with Transformers. 2021. Disponível em: <https:

//keras.io/examples/vision/video_transformers/#building-the-transformerbased-model>.

RYU, J.; YANG, M.-H.; LIM, J. Dft-based transformation invariant pooling layer for visual classification. In: Proceedings of the European Conference on Computer Vision (ECCV). [S.l.: s.n.], 2018.

SIMONYAN, K.; ZISSERMAN, A.; BENGIO, Y.; LECUN, Y. 3rd international conference on learning representations.ICLR, San Diego, 2015.

SRIVASTAVA, N.; HINTON, G.; KRIZHEVSKY, A.; SUTSKEVER, I.; SALAKHUT-DINOV, R. Dropout: a simple way to prevent neural networks from overfitting.The journal of machine learning research, JMLR. org, v. 15, n. 1, p. 1929–1958, 2014.

SUTSKEVER, I.; VINYALS, O.; LE, Q. Proc. advances in neural information processing systems 27. 2014.

VASWANI, A.; SHAZEER, N.; PARMAR, N.; USZKOREIT, J.; JONES, L.; GOMEZ, A. N.; KAISER, L.; POLOSUKHIN, I.Attention Is All You Need. 2017.

VINíCIUS.Machine learning de séries temporais – LSTM. 2018. Disponível em:

<https://www.monolitonimbus.com.br/machine-learning-de-series-temporais-lstm/>.

VISION, C. F. R. I. C.UCF101 - Action Recognition Data Set. 2013. Disponível em:

<https://www.crcv.ucf.edu/data/UCF101.php#Results_on_UCF101>.

WEISS K., K. T. . W. D. A survey of transfer learning. In: Journal of Big Data. [S.l.:

s.n.], 2016. p. 9.

WITTEN, I. H.; FRANK, E. Data mining: practical machine learning tools and techniques with java implementations.Acm Sigmod Record, ACM New York, NY, USA, v. 31, n. 1, p. 76–77, 2002.

No documento Proposta de implementação de análise de vídeo com séries temporais (páginas 35-48)