3.2 Anotac¸˜ao de imagem
4.1.2 Processamento de imagem
Nesta sec¸˜ao, o objetivo ´e descrever o processo de detecc¸˜ao de objetos e pessoas em uma imagem utilizando as ferramentas descritas a seguir. A Figura 4.3 ilustra os passos do proces- samento de imagem.
4.1.2.1 Detecc¸˜ao de pessoas e objetos usando a YOLO
A YOLO2 (veja mais detalhes sobre a YOLO na sec¸˜ao 2.2.1.1) ´e uma CNN capaz de de- tectar pessoas, ve´ıculos, animais, aparelhos eletrˆonicos e outros objetos. Cada detecc¸˜ao possui uma localizac¸˜ao na imagem (bounding box) e um r´otulo que descreve o que foi detectado.
Para avaliar a aplicabilidade da CNN YOLO neste trabalho, todas as imagens do c´orpus da Folha Internacional (veja sec¸˜ao 5.1.1) foram submetidas `a YOLO e as sa´ıdas foram analisadas
4.1 Arquitetura do LinkPICS 62 Figura 4.2: Elementos extra´ıdos da not´ıcia de jornal: (1) t´ıtulo da not´ıcia, (2) texto da not´ıcia, (3) imagem associada ao texto e (4) legenda da imagem.
Figura 4.3: Etapa de processamento da imagem do alinhador LinkPICS.
pessoas. Essa precis˜ao ´e de suma importˆancia para o trabalho proposto, devido ao c´orpus conter muitas not´ıcias relacionadas a pessoas.
Na detecc¸˜ao de objetos os resultados foram satisfat´orios. As categorias de objetos “bici- cleta”, “avi˜ao” e “carro” foram detectadas com uma precis˜ao superior a 90%. A Figura 4.4 traz um exemplo com a detecc¸˜ao de bicicletas e pessoas utilizando a YOLO. Uma caracter´ıstica da YOLO ´e a detecc¸˜ao de m´ultiplos objetos em uma mesma imagem. Note que a YOLO conseguiu detectar tanto as bicicletas, como as pessoas que estavam utilizando-as.
No LinkPICS, a sa´ıda da YOLO ´e a bounding box para cada pessoa detectada e a bouding
boxe o r´otulo associado para cada objeto.
Figura 4.4: Exemplo de aplicac¸˜ao da YOLO na detecc¸˜ao de bicicletas e pessoas.
Embora a detecc¸˜ao de objetos realizada pela YOLO seja muito boa, ela n˜ao ´e perfeita. Por exemplo, a Figura 4.5 cont´em v´arias pessoas e tamb´em um objeto “tocha ol´ımpica”. A YOLO detectou todas as pessoas da foto, entretanto, a tocha foi detectada e identificada como “taco de baseball”. Podemos notar que as caracter´ısticas de um taco de baseball s˜ao realmente semelhantes `as caracter´ısticas de uma tocha ol´ımpica. Esse erro de classificac¸˜ao de objetos n˜ao diminuiu a forc¸a da utilizac¸˜ao da YOLO, pois, a partir de outras t´ecnicas detalhadas na sec¸˜ao 4.1.2.3, ´e poss´ıvel a troca do r´otulo “taco de baseball” pelo r´otulo “tocha ol´ımpica”.
4.1.2.2 Detecc¸˜ao de pessoas e Reconhecimento Facial
A partir das detecc¸˜oes de pessoas da YOLO, foi aplicada a t´ecnica de detecc¸˜ao e reco- nhecimento de faces. A ferramenta utilizada para essa tarefa ´e um m´odulo da biblioteca de
4.1 Arquitetura do LinkPICS 64 Figura 4.5: Exemplo de aplicac¸˜ao do YOLO. Nessa imagem o objeto “tocha ol´ımp´ıca” foi detectado com o r´otulo “taco de baseball”.
aprendizado de m´aquina DLIB3 que obteve uma precis˜ao de 99,38% no conjunto de dados
LFW-labeled faces in the wild(HUANG et al., 2007).
A Figura 4.6 explica o funcionamento da DLIB. O primeiro passo ´e a detecc¸˜ao de faces da imagem. Em seguida, s˜ao extra´ıdas as caracter´ısticas faciais (vetor com 128 posic¸˜oes) de cada face. Essas caracter´ısticas s˜ao comparadas com as caracter´ısticas faciais extra´ıdas das imagens do banco LFW utilizando a distˆancia euclidiana. Caso alguma face semelhante seja encontrada no banco (neste caso considera-se semelhante uma comparac¸˜ao que resulte em uma distˆancia menor ou igual a 0,6), a face objeto da consulta ´e atribu´ıda `a pessoa semelhante do banco LFW.
4.1.2.3 Detecc¸˜ao de objetos
Como a YOLO detecta somente 80 classes de objetos, optou-se tamb´em pela utilizac¸˜ao de outras trˆes CNNs para a detecc¸˜ao dos objetos presentes na imagem. As redes Extraction, DarkNet e DenseNet foram treinadas com base nas imagens da ImageNet (veja sec¸˜ao 2.2.3) e s˜ao capazes de classificar uma imagem em 1000 classes. A caracter´ıstica principal dessas redes ´e analisar a imagem e gerar a probabilidade de cada classe estar presente na imagem. As redes utilizadas nesse trabalho est˜ao descritas a seguir:
• Extraction – Essa CNN foi desenvolvida a partir do modelo GoogleNet (SZEGEDY et al., 2015) e obteve a precis˜ao de 72,5% TOP-1 e de 90,8% TOP-5 no conjunto de dados da
Figura 4.6: Funcionamento da biblioteca DLIB para reconhecimento facial.
ImageNet4.
• Darknet19 448x448– Modificac¸˜ao da CNN Extraction que obteve uma precis˜ao de de 76,4% TOP-1 e 93,5% TOP-5 no conjunto de dados da ImageNet5.
• DenseNet 448x4486 – Rede proposta por (HUANG et al., 2016) que, segundo aqueles au- tores, obteve uma precis˜ao de 77% TOP-1 e 93,7% TOP-5 no conjunto de dados da Ima- geNet.
Devido `a caracter´ıstica das redes de analisar e classificar uma imagem inteira, optou-se por aplic´a-las somente nos objetos (ou seja, nas bouding boxes de objetos) detectados pela YOLO. Por exemplo, as redes foram aplicadas no objeto “taco de baseball” da Figura 4.5 e obtiveram os seguintes resultados:
• TOP 5-Darknet : torch (tocha), pole (bast˜ao), whistle (apito), spray (spray), plunger (ˆembolo)
• TOP 5-Extraction: torch (tocha), whistle (apito), band-Aid (curativo adesivo), candle (vela), maillot (maiˆo)
4Dispon´ıvel em: http://pjreddie.com/darknet/imagenet/. 5Dispon´ıvel em: http://pjreddie.com/darknet/imagenet/. 6Dispon´ıvel em: http://pjreddie.com/darknet/imagenet/.
4.1 Arquitetura do LinkPICS 66
• TOP 5-DENSENET: torch (tocha), pole (bast˜ao), spray (spray), whistle (apito), candle (vela)
Todas as redes conseguiram detectar a presenc¸a de um objeto “tocha” (torch). Isso favore- ceu a ideia de combinar os resultados da YOLO com os resultados das CNNs, aumentando a probabilidade de uma detecc¸˜ao de objetos mais confi´avel.
No LinkPICS, as trˆes redes foram aplicadas em cada detecc¸˜ao de objeto da YOLO gerando cada uma, 5 palavras como poss´ıveis r´otulos de objetos dentro imagem. As 15 palavras foram, ent˜ao, combinadas com o r´otulo fornecido pela YOLO formando uma lista com at´e 16 r´otulos.7