Metodologia proposta no Sistema MVTS - DESCRIÇÃO DE FUNCIONAMENTO DO SISTEMA BASE MVTS

3.1 DESCRIÇÃO DE FUNCIONAMENTO DO SISTEMA BASE MVTS

3.1.1 Metodologia proposta no Sistema MVTS

Considerando que uma das premissas do projeto era a confiabilidade no processo de inspeção, teve-se a necessidade de utilizar algoritmos complexos na hora de avaliação da rede. Infelizmente, muitos desses métodos não são tão rápidos quanto a velocidade de aquisição do veículo ou precisam de dados futuros para a correta conclusão de análises. Sendo assim, como pode se observar na Figura 3.2, optou-se pela ideia de propor uma arquitetura de sistema dividido em duas etapas, a primeira de aquisição e processamento em tempo real, e a segunda como uma etapa de pós-processamento, que acontece assim que percurso de inspeção é concluído.

Por outro lado, a primeira etapa também pode ser dividida em duas subetapas: a subetapa de aquisição e a subetapa de processamento. Sendo que na subetapa de aquisição, o veí- culo faz o registro da rede colocando etiquetas geo-localizada; seguidamente, na de processamento, a imagem é processada para a procura de postes, sendo que se a detecção for positi- va, a imagem geo-localizada é armazenada.

Por outro lado, na segunda etapa, a off-line, o algoritmo proposto neste trabalho avalia todos os registros armazenados com o fim de escolher amostras que aparecerão no relatório final, resultado do descarte e fusão de informação de diferentes aquisições.

Figura 3.2 - Arquitetura do sistema usado no MVTS

3.1.1.1 Aquisição das imagens

Como se apresenta na Figura 3.3(IANO et al., 2018), para o funcionamento do sistema foi desenhada uma base mecânica com a capacidade de suportar 4 módulos de aquisição, cada um deles composto por uma câmera de espetro visível (RGB) e uma câmera termográfica. Adicionalmente, para dar mobilidade ao sistema e facilitar o processo de instalação e setup, cada módulo foi instalado sobre um Pantilt com dois graus de liberdade.

(a)

(b) (c)

Figura 3.3 – Base mecânica de veículo MVTS. (a) Arranjo de câmeras instaladas no teto do veículo, (B) Módulo de aquisição ótica-térmica, (c) Sistema Pantilt com 2 graus de liberdade

Um vez montando o sistema, calibradas as câmeras, e configurada a antena GPS, o ve- ículo tem a capacidade de registrar 8 par de fotos por segundo em cada módulo, o que gera 32 fotos por segundo considerando os 4 módulos, onde cada um é etiquetado com a data exata da captura (milisegundos) e as coordenadas geográficas para ser processadas na sua totalidade no

após do registro. Como é apresentado na Figura 3.4, a sobreposição das duas imagens não é perfeita, sendo esse um problema a ser corrigido numa etapa seguinte.

(a) (b)

(c)

Figura 3.4 – Aquisição de imagens no veículo MVTS. (a) Aquisição de câmera no espetro visível, (b) Aquisição de câmera no espetro infravermelho, (c) Sobreposição de imagens RGB-IR

3.1.1.1.1 Câmera Térmica

No caso da eleição da câmera térmica, foram ponderados uma série de requisitos do projeto de inspeção termográfica como comprimento de onda correto, intervalo de temperatu- ra de medição, acurácia de medição suficiente, e resolução mínima para a distância entre o dispositivo e o objeto. Foi assim que a Família AXXX da marca FLIR foi considerada por

cumprir com alguns dos requisitos como capacidade de detecção em cumprimentos de onda de 7-14𝜇𝑚 (LWIR), intervalos de medição de -20 até 150 graus, e acurácia de + −⁄ 2 graus.

Finalmente, em relação à lente e resolução escolhida, foi usada uma calculadora forne- cida pela FLIR, onde se considerou que o menor objeto detectado em 12 metros teria um ta- manho mínimo de 2cm. Foi assim que decidiu-se utilizar câmeras 640x480 pixels e lentes de 25 graus, os quais asseguram, para uma distância de 12 metros, um campo de visão de 5 x 4 metros e a capacidade de detecção de pontos quentes maiores de 8mm. (Figura 3.5)

3.1.1.1.2 Câmera RGB

Para o caso da câmera RGB, por se tratar de um sensor de luz no espectro visível, se sabe que a exposição da imagem depende principalmente de três valores, apertura de diafrag- ma, velocidade de obturação, e ganho eletrônico no sensor (ISO). Sabendo isso, foi conside- rado o uso de um sensor grande com a capacidade de suportar ISOs altos sem gerar ruído na imagem. Procurando no mercado se achou a câmera DALSA C1920, com resolução de 1936x1216 pixel e um sensor de 1 1.2⁄ polegadas. Acerca da lente, e procurando obter um campo de visão parecido à câmera térmica, foi eleita uma distância focal de 25mm

Figura 3.6 - Calculadora de lente RGB(1STVISION, 2018)

3.1.1.2 Processamento da imagem

Uma processo crítico no desenvolvimento do projeto, tanto na etapa online quanto na etapa de pós processamento, foi a de detecção de objetos na imagem adquirida, motivo pelo qual foram testadas um conjunto técnicas que, até esse momento, eram considerados como os métodos com mais confiabilidade nas tarefas de detecção.

O motivo da sua importância, na etapa online, foi seu peso na decisão de armazenamento ou não de um registro do sistema. Assim, após ter adquirido e etiquetado o par de imagens, se na procura de existência de elemento de interesse (Poste) o resultado era afirmativo, o par de imagens era gravado; ao contrário, se o resultado era negativo, o par de imagens era automaticamente descartado. Cabe ressaltar que esta medida foi tomada por motivos de hardware visto que o fato de armazenar todos os registros no dia para depois submetê-los a pós-processamento foi descartado pela quantidade de capacidade de armazenamento necessá- rio.

Um detalhe importante é mencionar que todos os testes foram feitos num computador Intel Core i7, com 16 GB de memória RAM, GPU GTX1080 e usando o sistema operacional Linux Ubuntu 16.04.

3.1.1.2.1 Reconhecimento de objetos com descritores

Os primeiros testes na etapa da detecção de objetos foram mediante o uso de técnicas de descrição de caraterísticas, as quais são amplamente usadas na área pelos já mencionados ótimos resultados que apresentam e que já foram detalhadas no capítulo anterior.

Assim, as caraterísticas procuradas na imagem foram cantos, bordas e manchas; as quais são caraterizadas por um número determinado de bit, dependendo da técnica específica usada. Na Figura 3.7, pode se observar graficamente como foram extraídas as caraterísticas usando SIFT, SURF, FAST, ORB e BRISK.

(a) (b) (c) (d) (e)

Figura 3.7 - Extração de caraterísticas, (a) SIFT, (b) SURF, (c) FAST, (d) ORB, e (e) BRISK

Na Tabela 3.1 e Tabela 3.2, podem ser conferidos os resultados dos testes iniciais(MAZONI, 2018), tanto em confiabilidade quanto em tempo de processamento, usan- do um dataset de 1440 amostras onde a metade era ‘Poste’ e a outra metade ‘Não-Poste’. De-

las se pode inferir que a melhor performance foi atingida pelo método FAST-SIFT com 96.42% e seguido pelo método FAST-BRISK com uma confiabilidade de 95%. Enquanto a tempo de processamento, o método mais rápido foi BRISK-BRISK com um tempo de processamento de 30ms por imagem, performance igualmente atingida pelo método SURF-SIFT.

Em conclusão, e considerando confiabilidade e tempo de processamento, destes testes acabou-se concluindo que, entre os métodos baseados em descrição de caraterísticas, era o baseado em FAST-SIFT, com uma confiabilidade de 96,42% e um tempo de processamento de 70ms por imagem.

Tabela 3.1 - Resultados dos algoritmos baseados em descrição de caraterísticas

DESCRIÇÃO

SIFT SURF BRISK ORB

DET EÇ ÃO HARRIS 94,33% 88,33% 82,25% 90,5% FAST 96,42% 94,5% 95,00% 91,33% SIFT 90,33% 84,92% 85,92% 88,83% SURF 93,66% 93,83% 87,58% 82,33% ORB 88,66% 90,16% 84,16% 86,91% BRISK 94,25% 88,92% 85,33% 81,92%

Tabela 3.2 - Tempo meio de processamento de cada imagem

DESCRIÇÃO

SIFT SURF BRISK ORB

DET EÇ ÃO HARRIS 0,13ms 0,10ms 0,22ms 0,18ms FAST 0,07ms 0,14ms 0,16ms 0,05ms SIFT 0,12ms 0,016ms 0,03ms 0,14ms SURF 0,03ms 0,18ms 0,11ms 0,05ms ORB 0,05ms 0,11ms 0,05ms 0,16ms BRISK 0,14ms 0,07ms 0,03ms 0,05ms

3.1.1.2.2 Reconhecimento de objetos usando aprendizado profundo

Após os testes apresentados na subetapa anterior, procedeu-se testar técnicas baseadas em aprendizado profundo, que desde o ano 2012, são consideradas imbatíveis nas tarefas de detecção. As redes escolhidas para os testes, foram AlexNet e VGG16, que são redes de clas- sificação de objetos, e posteriormente YOLO, que foi desenhada para tarefas de detecção de objetos.

Para os testes, o Dataset gerado consistiu em 1700 imagens de postes e 1700 imagens que não representam postes. Essas imagens foram separadas em 3 grupos, sendo 60% para treinamento, 20% para validação e 20% para teste. Onde as imagens de treinamento e valida- ção foram usadas para treinar a rede e obter todos os parâmetros da CNN, e as de teste para verificar se a rede está bem treinada. Assim, utilizando o método de transferência de conhe- cimento (Transfer Learning), foi possível usar as redes AlexNet e VGG16 para a classificação de postes. O processo de treinamento foi realizado em 50 épocas e com uma taxa de aprendizado de 0,001.

Após os testes, já com os resultados de treinamento e validação, conseguiu-se se con- cluir alguns fatos importantes. Em relação à rede VGG16, como é apresentado na Figura 3.8, o valor de precisão atingido foi de 98,5%; e em relação à rede AlexNet, como é apresentado na Figura 3.9, o valor de precisão atingido foi de 98,8%. Enquanto a velocidade de processamento, VGG16 precisou de 75ms por imagem, enquanto AlexNet precisou de só 5ms por imagem, sendo que esse é o tempo desde que a imagem é enviada à placa gráfica para realizar os cálculos e fornecer o resultado da classificação.

Figura 3.9 – Curva Acurácia por época usando AlexNet

Embora os algoritmos testados apresentassem taxas de confiabilidade ótimas, o problema com a implementação deles é que, para usá-los, é necessário usar um algoritmo de janela deslizante e assim executar a tarefa de classificação em cada janela proposta. Por exemplo, se houvesse 100 janelas possíveis, o tempo para localizar o poste usando o AlexNet seria de 500 milissegundos, o que equivale a duas imagens por segundo.

Isto apresentou um desafio para o sistema MVTS, devido ao veículo de inspeção ter que manter uma velocidade constante pelo percurso definido sem atrapalhar o trânsito dos outros veículos, considerando que as horas de inspeção são diurnas. Foi assim que decidiu-se testar a rede de detecção de objeto YOLO, uma solução inovadora que prometia altas taxas de processamento, sem deixar de ser confiável. Como já foi mencionado, a rede segue uma filo- sofia de procura One Shot, o que significa que não é necessário fazer o método de janela des- lizante pela imagem para conseguir a detecção do objeto ao contrário do uso de descritores mencionados anteriormente ou das redes de classificação já testadas, radicando aí o motivo da sua velocidade(SAKMANN, 2017). Como pode se observar na Figura 3.10(REDMON; FARHADI, 2017), teoricamente YOLO obteve um ótimo resultado em relação às outras redes de aprendizado profundo nos testes feitos pelo autor usando o Dataset MSCOCO.

Figura 3.10 - Benchmark de teste da rede YOLO em relação de outras redes de aprendizado profundo.

Para o treinamento foram usadas as 1700 imagens de postes registrados do Dataset anterior- mente mencionado da Figura 3.11(IANO et al., 2018), sendo cada uma delas de 2Mpx (1936x1216). Neste sentido, por se tratar de uma tarefa de detecção, as imagens tiveram que ser etiquetadas usando como ferramenta o aplicativo Euclid (SUNDARESON, 2017).

Figura 3.11 - Exemplo de postes registrados para o funcionamento da rede.

Assim, o parâmetro IOU representa a interseção sobre a união da janela gerada pelo algoritmo YOLO e a janela delimitada no momento de etiquetado (Ground True). Na Figura 3.12, foi obtida uma precisão de 96,76% usando um redimensionamento para o treinamento de 480x480 e um redimensionamento para inferência de 448x448 (nesse tamanho, foi o valor máximo de IOU obtido). Usando essa combinação, o tempo de processamento usando o algoritmo YOLO é de aproximadamente 27 milissegundos, o que equivale a 37 imagens por segundo. A vantagem de usar esse método é que o resultado detecta todos os objetos em uma única etapa da rede convolucional.

Finalmente, se concluiu que o melhor método para a camada de detecção do sistema verificação seria a rede YOLO, que com seu 96.76% de confiabilidade quase atingiu o 98.8% do AlexNet, sendo incomparavelmente mais rápido. Em adição, YOLO também demostrou ser mais rápido e confiável que o método SIFT em quanto a confiabilidade e velocidade de processamento segundo a Tabela 3.1 e Tabela 3.2

(a) (b)

4 PROPOSTA DE MÉTODO DE DESCARTE

No documento Proposta de um método de pós-processamento e descarte de imagens para um sistema de manutenção termográfica de redes de distribuição elétrica (páginas 40-52)