Processamento de imagem - Anotac¸˜ao de imagem

3.2 Anotac¸˜ao de imagem

4.1.2 Processamento de imagem

Nesta seção, o objetivo é descrever o processo de detecção de objetos e pessoas em uma imagem utilizando as ferramentas descritas a seguir. A Figura 4.3 ilustra os passos do processamento de imagem.

4.1.2.1 Detecc¸˜ao de pessoas e objetos usando a YOLO

A YOLO2 (veja mais detalhes sobre a YOLO na seção 2.2.1.1) é uma CNN capaz de detectar pessoas, ve´ıculos, animais, aparelhos eletrônicos e outros objetos. Cada detecção possui uma localização na imagem (bounding box) e um rótulo que descreve o que foi detectado.

Para avaliar a aplicabilidade da CNN YOLO neste trabalho, todas as imagens do córpus da Folha Internacional (veja seção 5.1.1) foram submetidas à YOLO e as sa´ıdas foram analisadas

4.1 Arquitetura do LinkPICS 62 Figura 4.2: Elementos extra´ıdos da not´ıcia de jornal: (1) t´ıtulo da not´ıcia, (2) texto da not´ıcia, (3) imagem associada ao texto e (4) legenda da imagem.

Figura 4.3: Etapa de processamento da imagem do alinhador LinkPICS.

pessoas. Essa precisão é de suma importância para o trabalho proposto, devido ao córpus conter muitas not´ıcias relacionadas a pessoas.

Na detecção de objetos os resultados foram satisfatórios. As categorias de objetos “bici- cleta”, “avião” e “carro” foram detectadas com uma precisão superior a 90%. A Figura 4.4 traz um exemplo com a detecção de bicicletas e pessoas utilizando a YOLO. Uma caracter´ıstica da YOLO é a detecção de múltiplos objetos em uma mesma imagem. Note que a YOLO conseguiu detectar tanto as bicicletas, como as pessoas que estavam utilizando-as.

No LinkPICS, a sa´ıda da YOLO ´e a bounding box para cada pessoa detectada e a bouding

boxe o r´otulo associado para cada objeto.

Figura 4.4: Exemplo de aplicação da YOLO na detecção de bicicletas e pessoas.

Embora a detecção de objetos realizada pela YOLO seja muito boa, ela não é perfeita. Por exemplo, a Figura 4.5 contém várias pessoas e também um objeto “tocha ol´ımpica”. A YOLO detectou todas as pessoas da foto, entretanto, a tocha foi detectada e identificada como “taco de baseball”. Podemos notar que as caracter´ısticas de um taco de baseball são realmente semelhantes às caracter´ısticas de uma tocha ol´ımpica. Esse erro de classificação de objetos não diminuiu a força da utilização da YOLO, pois, a partir de outras técnicas detalhadas na seção 4.1.2.3, é poss´ıvel a troca do rótulo “taco de baseball” pelo rótulo “tocha ol´ımpica”.

4.1.2.2 Detecc¸˜ao de pessoas e Reconhecimento Facial

A partir das detecções de pessoas da YOLO, foi aplicada a técnica de detecção e reconhecimento de faces. A ferramenta utilizada para essa tarefa é um módulo da biblioteca de

4.1 Arquitetura do LinkPICS 64 Figura 4.5: Exemplo de aplicação do YOLO. Nessa imagem o objeto “tocha ol´ımp´ıca” foi detectado com o rótulo “taco de baseball”.

aprendizado de m´aquina DLIB3 que obteve uma precis˜ao de 99,38% no conjunto de dados

LFW-labeled faces in the wild(HUANG et al., 2007).

A Figura 4.6 explica o funcionamento da DLIB. O primeiro passo é a detecção de faces da imagem. Em seguida, são extra´ıdas as caracter´ısticas faciais (vetor com 128 posições) de cada face. Essas caracter´ısticas são comparadas com as caracter´ısticas faciais extra´ıdas das imagens do banco LFW utilizando a distância euclidiana. Caso alguma face semelhante seja encontrada no banco (neste caso considera-se semelhante uma comparação que resulte em uma distância menor ou igual a 0,6), a face objeto da consulta é atribu´ıda à pessoa semelhante do banco LFW.

4.1.2.3 Detecc¸˜ao de objetos

Como a YOLO detecta somente 80 classes de objetos, optou-se também pela utilização de outras três CNNs para a detecção dos objetos presentes na imagem. As redes Extraction, DarkNet e DenseNet foram treinadas com base nas imagens da ImageNet (veja seção 2.2.3) e são capazes de classificar uma imagem em 1000 classes. A caracter´ıstica principal dessas redes é analisar a imagem e gerar a probabilidade de cada classe estar presente na imagem. As redes utilizadas nesse trabalho estão descritas a seguir:

• Extraction – Essa CNN foi desenvolvida a partir do modelo GoogleNet (SZEGEDY et al., 2015) e obteve a precis˜ao de 72,5% TOP-1 e de 90,8% TOP-5 no conjunto de dados da

Figura 4.6: Funcionamento da biblioteca DLIB para reconhecimento facial.

ImageNet4.

• Darknet19 448x448– Modificação da CNN Extraction que obteve uma precisão de de 76,4% TOP-1 e 93,5% TOP-5 no conjunto de dados da ImageNet5.

• DenseNet 448x4486 – Rede proposta por (HUANG et al., 2016) que, segundo aqueles au- tores, obteve uma precis˜ao de 77% TOP-1 e 93,7% TOP-5 no conjunto de dados da Ima- geNet.

Devido `a caracter´ıstica das redes de analisar e classificar uma imagem inteira, optou-se por aplic´a-las somente nos objetos (ou seja, nas bouding boxes de objetos) detectados pela YOLO. Por exemplo, as redes foram aplicadas no objeto “taco de baseball” da Figura 4.5 e obtiveram os seguintes resultados:

• TOP 5-Darknet : torch (tocha), pole (bast˜ao), whistle (apito), spray (spray), plunger (ˆembolo)

• TOP 5-Extraction: torch (tocha), whistle (apito), band-Aid (curativo adesivo), candle (vela), maillot (maiˆo)

4_{Dispon´ıvel em: http://pjreddie.com/darknet/imagenet/.} 5_{Dispon´ıvel em: http://pjreddie.com/darknet/imagenet/.} 6_{Dispon´ıvel em: http://pjreddie.com/darknet/imagenet/.}

4.1 Arquitetura do LinkPICS 66

• TOP 5-DENSENET: torch (tocha), pole (bast˜ao), spray (spray), whistle (apito), candle (vela)

Todas as redes conseguiram detectar a presença de um objeto “tocha” (torch). Isso favore- ceu a ideia de combinar os resultados da YOLO com os resultados das CNNs, aumentando a probabilidade de uma detecção de objetos mais confiável.

No LinkPICS, as três redes foram aplicadas em cada detecção de objeto da YOLO gerando cada uma, 5 palavras como poss´ıveis rótulos de objetos dentro imagem. As 15 palavras foram, então, combinadas com o rótulo fornecido pela YOLO formando uma lista com até 16 rótulos.7

No documento UNIVERSIDADE FEDERAL DE S ˜ (páginas 77-82)