Anotador automático de placas de publicidade em vídeos esportivos

(1)

Universidade de São Paulo

Instituto de Matemática e Estatística Curso de Ciência da Computação

Ricardo Augusto Fernandes

Anotador automático de placas de publicidade em vídeos

esportivos

São Paulo 2011

(2)

Anotador automático de placas de publicidade em vídeos

esportivos

Monograa apresentada ao Curso de Ciência da Computação da USP, como requisito para a obtenção parcial do grau de BACHAREL em Ciência da Computação.

Orientador: Professor Dr. Roberto Marcondes Cesar Jr. Universidade de São Paulo

São Paulo 2011

(3)

Aos meus pais Del e Zé Carlos e ao meu irmão Cadu

(4)

semânticos neles presentes. A anotação de placas de publicidade em vídeos esportivos tem o objetivo de levantar estatísticas, sendo feita geralmente de modo manual, assistindo-se ao vídeo e registrando-se as aparições das logomarcas presentes. Um anotador automático tem por objetivo automatizar tal trabalho, apoiado nas técnicas de Visão Computacional e Aprendizagem de Máquina. Nessa monograa, motivada por um estágio realizado pelo aluno no IBOPE Media em 2010, pretende-se estudar e implementar técnicas para resolver esse problema, de maneira a analisar a viabilidade de um sistema com base no estado da arte da área e da tecnologia atual.

Palavras-chaves: anotação de vídeo, reconhecimento, detecção, logomarcas, descritores de imagem, SURF

(5)

Agradecimentos

Gostaria de agradecer a meus pais, meus primeiros e maiores professores. Aos amigos, professores da vida, dentre os quais incluo meu irmão. Àqueles que foram meus alunos e no dia-a-dia zeram-se meus professores. Finalmente, agradeço a todos os pro-fessores que tive em sala de aula, a todos os propro-fessores da Universidade e em especial ao Professor Roberto que pacientemente orientou esse trabalho.

(6)

Lista de Figuras 5

1 Introdução 6

2 Revisão Bibliográca 8

3 Método Implementado 10

3.1 Descrição das Imagens . . . 10

3.1.1 Speeded-Up Robust Features (SURF) . . . 11

3.2 Correspondência de Descritores . . . 14

3.3 Casamentos . . . 15

3.4 Exclusão de quadros de longa distância . . . 15

3.5 Criação de Máscara . . . 16

4 Resultados 18

5 Conclusão 24

6 Avaliação Subjetiva 26

(7)

Lista de Figuras

1.1 Transmissão esportiva com diversas placas de publicidade . . . 6

3.1 Da esquerda para direita: Derivadas de segunda ordem de uma Gaussiana, ∂2_G ∂y2 e ∂2_G ∂x∂y, discretizadas, e suas respectivas aproximações utilizadas [7] . 12 3.2 Integral da Imagem [7] . . . 13

3.3 Haar Wavelets d/dx e d/dy [7] . . . 14

3.4 Máscara criada para um quadro do vídeo . . . 16

3.5 Plotagem em 2D das dimensões Matiz (Hue) e Saturação (Saturation) de um Histograma de região do vídeo . . . 17

4.1 Logo Coca-Cola . . . 18

4.2 Logo Coca-Cola parcial . . . 19

4.3 Logo Coca-Cola em cores invertidas . . . 19

4.4 Logo Coca-Cola em orientação invertida . . . 20

4.5 Logo Makita em tomada de longa distância . . . 20

4.6 Logo da Copa Santander Libertadores . . . 21

4.7 Logo da Copa Santander Libertadores apresentando falso positivo . . . 21

4.8 Quadro do vídeo contendo a placa da Copa Santander Libertadores . . . . 22

4.9 Máscara correspondente ao quadro na gura 4.8 . . . 22

(8)

1 Introdução

A anotação de textos, imagens ou vídeos consiste em associar descrições a eles de modo a facilitar a busca e o acesso. Tais descrições são chamadas metadados. No caso de imagens e vídeos, a extração de metadados pode ultrapassar autor e data, avançar até as características de cor, textura e forma e chegar até mesmo ao nível semântico, descrevendo emoções, sentimentos e relações entre elementos. Em especial, a anotação de vídeos pode ser feita com o intuito de contagem de um determinado elemento na sequência do vídeo, para ns estatísticos. É o caso da anotação de placas publicitárias de vídeos esportivos (Veja a gura 1.1 ).

Figura 1.1: Transmissão esportiva com diversas placas de publicidade

Em eventos esportivos de grande porte, é comum se encontrar placas de publicidade. Essa publicidade tem como primeiro alvo o torcedor presente no evento. Entretanto muito mais do que esses milhares de torcedores, busca atingir os telespectadores, contados em milhões. Dessa forma, existe a demanda dos anunciantes em determinar quanto vale essa exposição. Uma maneira de responder a esse questionamento dá-se por meio de argumentos estatísticos, baseados, por exemplo, na contagem do número de aparições de uma marca na transmissão de um evento. Contudo, o processo de anotação é geralmente

(9)

1 Introdução 7 manual, assistindo-se ao vídeo e registrando-se as aparições, o que é demorado e custoso, criando assim motivação para se automatizar o processo de contagem. De fato, esse trabalho de TCC foi motivado por um estágio realizado pelo aluno no IBOPE Media, onde se foi levantado o interesse por tal problema.

Assim, dada uma logomarca e um vídeo de um evento esportivo, busca-se ter um aplica-tivo que possa retornar se a logomarca aparece nesse vídeo, em que momentos e com qual duração, entre tantas outras informações possíveis de serem extraídas, preferencialmente em tempo real.

Para isso, as pesquisas já realizadas fazem uso principalmente de técnicas de Visão Computacional para extração de características fotométricas e geométricas das imagens a serem comparadas e de técnicas de Aprendizagem de Máquina para comparação e classi-cação. Entre os principais problemas enfrentados podemos destacar as possíveis oclusões das placas publicitárias, seus diferentes posicionamentos, além do alto custo de processa-mento dos métodos atuais.

(10)

2 Revisão Bibliográca

O reconhecimento de um objeto em uma imagem é objeto de estudo da Visão Computa-cional. O reconhecimento de guras em duas dimensões é um subproblema, sendo como os trabalhos estudados aqui abordam o problema em relação às placas de publicidade. Tal qual nos problemas mais amplos, as placas podem encontrar-se em diferentes posições, diferentes tamanhos, diferentes luminosidades e parcialmente oclusas. No reconhecimento em vídeo, a busca deve ser feita quadro-a-quadro.

A metodologia consiste em extrair um conjunto de características da imagem da placa-modelo e vericar se alguma subimagem dos quadros do vídeo apresenta conjunto se-melhante. As características de comparação variam de trabalho para trabalho, o mesmo acontecendo com o método de classicação, que decide se os conjuntos comparados corres-pondem a mesma placa ou não. Aqui, a Visão Computacional se apóia na Aprendizagem de Máquina.

O artigo de Bagdanov et al [1] baseia-se no uso de descritores SIFT, características invariantes na imagem em relação à escala e rotação. Assim, o algoritmo SIFT gera um conjunto de descritores, onde cada descritor está associado a algum ponto da imagem. De posse de dois conjuntos de descritores, a comparação é feita a partir de cada descritor, comparando-se a distância normalizada até os dois vizinhos mais próximos no quadro e no modelo. A comparação é baseada na razão entre essas distâncias, que não devem exceder um determinado limiar para que as imagens sejam consideradas da mesma placa.

O artigo de Ballan et al [2] desenvolve o trabalho acima modicando o método de classicação com o uso de Support Vector Machines (SVM). As SVM'S são ferramentas de Aprendizagem de Máquina para classicação supervisionada que determinam o limiar de decisão com base em um conjunto de treinamento. O trabalho conclui que sua introdução aumentou o retorno com perda desprezível de precisão. Além disso, aponta melhor retorno em uma SVM genérica do que SVM'S especícas no caso de busca de múltiplas logomarcas.

(11)

2 Revisão Bibliográca 9 Em Watve e Sural [3], um trabalho especíco sobre vídeos de futebol, as estratégias são totalmente diferentes das já citadas. A região de interesse é dividida em oito janelas. Usa-se características estatísticas como média e variância nos aspectos de cor e brilho como base de comparação, formando-se um vetor de 32 dimensões. A classicação é baseada na distância Euclidiana entre os dois vetores. Porém, o pré-processamento reduz a região de análise excluindo-se grama. A exclusão da grama é feita por Hue Slicing. Depois, buscam-se linhas paralelas na imagem que representam a borda superior e inferior das placas. Para tanto, é feito uso do Detector de Bordas Sobel, no qual se binariza a imagem e da Transformação de Hough, para se encontrar retas paralelas. Se o quadro não as possui, é descartado, o que acelera o processamento. Cada par de paralelas forma uma região de interesse. Os resultados variam muito com relação à luminosidade e logomarca.

O texto de Ishimura [4] usa o descritor GLOH, também de alta invariância. Analoga-mente ao uso dos descritores SIFT, utilizados em Bagdanov et al, é necessário comparar os descritores dos dois conjuntos. A comparação é feita utilizando-se o método KNN. O método é aplicado a vídeos de Fórmula 1.

Todos os trabalhos citam problemas como blurring (borramento) e baixa qualidade dos vídeos.

(12)

3 Método Implementado

Para se fazer a implementação, decidiu-se utilizar a biblioteca open source de visão computacional OpenCV, utilizando-se a Linguagem C/C++. A OpenCV provê funções básicas de manipulação de imagem e vídeo, processamento de imagens, aprendizagem de máquina, entre outras. É otimizada no uso da linguagem C/C++ para aplicações em tempo real.

Os primeiros testes preocuparam-se em disponibilizar a visualização da imagem-objeto, a ser localizada, e do vídeo a ser anotado. Desse modo, a versão preliminar exibe em um única janela tanto a imagem quanto os quadros do vídeo, de modo a facilitar a visualização dos pareamentos entre as duas imagens.

Embora sejam exibidas as imagens coloridas, é necessário fazer a conversão das imagens a serem descritas para escala de cinza, por exigência do algoritmo utilizado na descrição das mesmas.

Inicialmente, por meio do método que será apresentado a seguir, se faz a descrição da imagem-objeto. Em seguida, se inicia a iteração nos quadros do vídeo, que são descritos buscando-se o casamento entre eles a a imagem descrita no início. A cada quadro do vídeo, a interface mostra as correspondências existentes entre Descritores da imagem-objeto e do quadro por meio de linhas coloridas. Caso seja identicado um casamento entre as duas imagens, ocorre um pausa no quadro identicado e é necessária a digitação de uma tecla qualquer para a sequência da iteração.

3.1 Descrição das Imagens

Dentro os quatro trabalhos que buscaram detecção de placas de publicidade em vídeo, três deles se basearam em algoritmos que descrevem a imagem através de pontos especícos e das características da vizinhança desses pontos, chamados Pontos de Interesse ou Pontos-chave. A única exceção foi o trabalho de Watve e Sural [3].

(13)

3.1 Descrição das Imagens 11 No algoritmo Scale Invariant Features Transform (SIFT) apresentado em Lowe [5], a seleção do ponto de interesse, baseia-se na função detectora de arestas DoG (Dierence of Gaussians). Descreve-se então o a vizinhança desse ponto através dos vetores-gradiente associados a ela.

Já Gradient Location and Orientation Histogram (GLOH) [6], é uma extensão de SIFT feita aplicando-se Principal Components Analysis (PCA) para se poder reduzir o número de caracteríscas nas descrições dos pontos, com ganho de performance e sem perda e precisão.

Outro algoritmo inspirado em [5] foi o Speeded-Up Robust Features (SURF) de Bay et al [7], no qual SURF é descrito como mais robusto e veloz do que sua inspiração. Além disso, é implementado na função cvExtractSurf() da biblioteca OpenCV. Desse modo, na linha dos trabalhos descritos, esse foi o algoritmo utilizado para descrição das imagens.

3.1.1 Speeded-Up Robust Features (SURF)

Extração de Pontos de Interesse (Descritores)

O algoritmo SURF é um método que descreve imagens através de Pontos de Interesse, Pontos-chave ou Descritores encontrados por meio do cálculo dos determinantes H das Matrizes Hessianas da imagem. Seja f(x,y) uma função de duas variáveis, o determi-nante H(f(x,y)) é denido como:

H(f (x, y)) = ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ∂2_{f (x, y)} ∂x2 ∂2_{f (x, y)} ∂x∂y ∂2_{f (x, y)} ∂y∂x ∂2_{f (x, y)} ∂y2 ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯

Os Pontos de Interesse são denidos onde o Determinante é máximo local. Esses con-ceitos são transportados para o algoritmo ao se considerar a imagem analisada como uma função I(x,y) da intensidade dos pixels e são aplicados através da convolução da imagem com uma máscara apropriada (Veja gura 3.1):

(14)

Figura 3.1: Da esquerda para direita: Derivadas de segunda ordem de uma Gaussiana,

∂2_G

∂y2 e

∂2_G

∂x∂y, discretizadas, e suas respectivas aproximações utilizadas [7]

A convolução entre uma imagem I e uma máscara M pode ser denida como abaixo:

(I ∗ M)(x, y) = ∞ X m=−∞ ∞ X n=−∞ M(m, n)I(x + m, y + n)

Ou seja, a convolução no pixel (x,y) será dada pela soma dos pixels de sua vizinhança, com os pesos dados a partir da máscara utilizada, sendo o pixel central da máscara o peso do pixel (x,y) da imagem.

Para que se evite os problemas que poderiam ser causados por ruídos na imagem, não se faz a convolução com máscaras que simplesmente calculem as derivadas de segunda ordem. Antes disso, é necessário suavizar a imagem por meio da convolução com uma Gaussiana. Desse modo, as máscaras aplicadas são aproximações das derivadas de segunda ordem da função de suavização.

Para se analisar imagens em diferentes níveis de resolução, a estratégia usual é construir uma Pirâmide de Imagens à partir da imagem analisada. Uma Pirâmide de Imagens é uma sequência na qual cada imagem subsequente tem um nível de resolução menor do que a anterior. Uma maneira de gerar os novos níveis é construindo-se uma Pirâmide, na qual o nível imediatamente acima e gerado à partir da convolução com uma máscara que reita uma distribuição Gaussiana. Porém, nota-se que é um processo de grande custo computacional.

A estratégia utilizada para se reduzir o custo foi fazer uso da representação da imagem introduzida por Viola e Jones [10], chamada Integral de Imagem.

(15)

3.1 Descrição das Imagens 13 A Integral de Imagem pode ser denida por:

II(x, y) = x X i=0 y X j=0 I(i, j)

A gura 3.2 mostra como, após calculada a Integral da Imagem, é possível achar a área de qualquer região retangular à partir de três operações. Além disso, mostra que em uma única passada pode-se calcular a Integral da Imagem II(x,y) à partir das seguintes recorrências:

s(x, y) = s(x, y − 1) + I(x, y)

II(x, y) = II(x − 1, y) + s(x, y)

Figura 3.2: Integral da Imagem [7]

Devido ao cálculo da Integral da Imagem, não é mais necessário que se passe pelos diferentes níveis subsequentes da Pirâmide de Imagens, pois o cálculo envolve apenas alguns pixel em cada nível. Não sendo necessário passar por níveis cada vez menores na escala da pirâmide, a estratégia do algoritmo para fazer a análise multi-escala é ir aumentando a tamanho das máscaras aplicadas 3.1 o que é feito em tempo constante.

(16)

Descrição dos Pontos de Interesse

A descrição dos Pontos de Interesse é feita, primeiramente, determinando-se uma ori-entação em torno do ponto a ser descrito. A oriori-entação é determinada pela região de sua vizinhança que congregue, em torno de um ângulo de 30o_{, o maior número de pontos}

descritores vizinhos.

Posteriormente, determina-se uma região quadrada na vizinhança do Ponto de Inte-resse, subdividida em 16 subregiões, com tamanho proporcional à variância da Gaussiana utilizada. Cada subregião, contribui com 4 descritores, Dx, Dy, |Dx| e |Dy|, totalizando 64 Descritores: Dx =P25_i=1dxi, Dy = P₂₅ i=1dyi, |Dx| = P₂₅ i=1|dxi| e |Dy| = P₂₅ i=1|dyi|

dxi e dyi são cada uma das 25 derivadas em x e y, extraídas de 25 pontos igualmente

distribuídos dentro de cada subregião, a partir da convolução com máscaras chamadas de Haar Wavelets (Ver a gura 3.3 ).

Figura 3.3: Haar Wavelets d/dx e d/dy [7]

3.2 Correspondência de Descritores

Os Descritores são vetores de 64 dimensões. Para se achar as correspondências, calculou-se a soma do quadrado das diferenças entre cada uma das subregiões correspondentes entre cada vetor da imagem-objeto e do quadro do vídeo.

(17)

3.3 Casamentos 15

Distancia =

16

X

i=1

(Dxobj_i −Dximg_i )2+(Dyobj_i −Dy_iimg)2+(|Dx|obj_i −|Dx|img_i )2+(|Dy|obj_i −|Dy|img_i )2

Dessa forma, as correspondências são feitas a partir das menores distâncias. Simboli-camente, traçou-se linhas entre os pontos-chave correspondentes.

3.3 Casamentos

A correspondência entre descritores da imagem-objeto e de um quadro do vídeo é ana-lisada de modo a se armar se há ou não casamento entre as imagens. Os dois métodos, abaixo,foram aplicados até o momento.

No primeiro, para cada par que há correspondência, verica-se se os três vizinhos mais próximos são os mesmos e na mesma ordem na imagem-objeto e no quadro do vídeo. Se há o casamento da sequência de vizinhos em um grande número de pares, considera-se que há também o casamento das imagens. No segundo, verica-se a soma das distâncias entre todos os pares, ponderados pela mediana das distâncias. Caso a diferença entre as distâncias seja proporcionalmente pequena, considera-se também um casamento das imagens.

3.4 Exclusão de quadros de longa distância

O trabalho de Watve e Sural [3] trata especicamente de vídeos de futebol. O método aplicado trata de formas diferentes as tomadas de longa e curta distâncias. Para isso, faz uso do índice de "Porcentagem de grama"no quadro. Vídeos com alta "Porcentagem de grama"indicam tomadas distantes, onde a maior parte do quadro é ocupado pelo campo de jogo. O índice é calculado à partir da porcentagem de pixels de cor verde (faixa de Π/3 à 5Π/6 no espaço de cores HSV) e são considerados quadros de longa distância aqueles que possuem mais de 70%.

Percebendo a baixa taxa de correspondência com quadros à longa distância, decidiu-se trabalhar inicialmente com um recorte do problema voltado a quadros de curta distância,

(18)

difícil. Para isso, implementou-se um código auxiliar com o método descrito acima e que devolve apenas os quadros de interesse à partir de um vídeo de entrada.

3.5 Criação de Máscara

Ainda se baseando em Watve e Sural [3], foi desenvolvido o cálculo de uma Máscara, como na gura 3.4 , passada como parâmetro à função cvExtractSurf(). Essa Máscara é utilizada para denir em quais regiões devem ser ou não procurados os Pontos de Interesse, sendo estes procurados apenas nas regiões onde a máscara apresenta mais de 50 porcento de pixels não nulos. Abaixo, cada região analisada corresponde a uma janela de 20 x 20. A máscara, utilizada inicialmente para se diminuir o tempo de processamente, colaborou para a diminuição dos falsos positivos.

Figura 3.4: Máscara criada para um quadro do vídeo

Para se chegar à máscara, foi utilizado o critério de proximidade de distribuição de cor entre a placa e a região analisada. Assim, convertendo-se as duas imagens para o espaço de cor HSV, através de funções cvCreateHist() e cvCompareHist() da biblioteca OpenCV

(19)

3.5 Criação de Máscara 17 facilmente calculam-se os histogramas das distribuições das duas imagens e a proximidade entre eles.

Figura 3.5: Plotagem em 2D das dimensões Matiz (Hue) e Saturação (Saturation) de um Histograma de região do vídeo

(20)

4 Resultados

Os primeiros testes foram feitos ainda sem sem qualquer implementação de critério de casamentos entre as imagens. Buscava-se apenas vericar as correspondências entre os pontos-chave. A expectativa foi atendida em grande parte ao se usar objetos grandes em imagens com tomadas feitas a pequenas distâncias. A gura 4.1 demonstra a cor-respondência entre os Pontos de Interesse mesmo havendo mudança de perspectiva na placa.

(21)

4 Resultados 19

Figura 4.2: Logo Coca-Cola parcial

Podemos perceber também que o algoritmo é resistente à oclusão da placa causada pela trave. O teste demonstrado na gura 4.2 demonstra o mesmo, além de demonstrar resistência a variação de escala.

Figura 4.3: Logo Coca-Cola em cores invertidas

A gura 4.3 mostra que o algoritmo não suporta inversões de cores, como pode-se perceber nas baixas correspondências entre o objeto e a placa no vídeo. Porém, na gura 4.4 percebe-se que alterações em orientação são bem assimiladas.

(22)

Figura 4.4: Logo Coca-Cola em orientação invertida

Ainda na gura 4.4 percebe-se que a mudança na escala do objeto causa uma redução das correspondências, em virtude da diminuição dos Pontos-chave.

Figura 4.5: Logo Makita em tomada de longa distância

Como citado anteriormente, as tomadas de longa distância levam à diminuição da placa, que por sua vez, tal qual no exemplo anterior, diminuem o número de Pontos de Interesse. Esse caso aparece na gura 4.5. Mesmo utilizando-se de objeto recortado do vídeo, não são localizadas muitas correspondências.

(23)

4 Resultados 21

Figura 4.6: Logo da Copa Santander Libertadores

Trabalhando apenas com tomadas de curta distância, começou-se a testar os métodos de vericação de casamentos entre as imagens. A vericação da correspondência entre os vizinhos mais próximos apresenta eciência em relação aos verdadeiros positivos, como na gura 4.6, porém apresentando um grande número de falsos positivos, como o da gura 4.7. O método que compara as distâncias relativas entre os pontos-chave das duas imagens parece mostrar certa eciência em evitá-los.

(24)

respectiva máscara e a localização dos Pontos de Interesse apenas nas áreas onde a máscara permite.

Figura 4.8: Quadro do vídeo contendo a placa da Copa Santander Libertadores

(25)

4 Resultados 23 A utilização da máscara, ao reduzir a área de procura de Pontos de Interesse, inseriu no método desenvolvido a utilização da informação até então ignorada no projeto, já que o algoritimo SURF trabalha com imagens em escala de cinza: cor. A introdução da nova variável se mostrou eciente em evitar falsos positivos.

(26)

5 Conclusão

A presente monograa se propôs a estudar e implementar técnicas para se desenvolver um anotador automático de placas de publicidade em vídeos esportivos, baseado no estado da arte de Visão Computacional. A anotação dos vídeos citados tem ns estatíscos e é de grande interesse do mercado publicitário, pois dene uma métrica para se denir o retorno do investimento feito pelos anunciantes. O interesse na automatização surge à partir do grande custo da mão-de-obra envolvida nesse trabalho, feito até 2010 de modo manual em instituições como o IBOPE, local do estágio motivador do estudo, feito pelo aluno no ano citado.

A revisão bibliográca feita levou à trabalhos desenvolvidos nos últimos quatro anos, que trataram justamente sobre o tema da presente monograa. A maior parte deles utiliza técnicas, que como é citada em Ballan et al [2], foram as mais utilizadas pelos recentes trabalhos de reconhecimento de logomarcas, baseadas em Descritores de Pontos de Interesse. Os trabalhos estudados zeram uso dos descritores SIFT [5] e GLOH [6].

Enquanto a descrição dos quadros é feita de modos semelhantes nos diferentes artigos, a classicação em cada um deles foi abordada de diferentes formas, utilizando desde algoritmos baseados nas Distância Euclidiana entre os Descritores até o uso de Support Vector Machines (SVM), o que levou a diferentes estudos na fase inicial do projeto.

O desenvolvimento da implementação se deu com o estudo da biblioteca OpenCV [9] principalmente à partir de Bradsky e Kaehler [8]. Nele se desenvolveu o uso da biblioteca por meio de suas funções de manipulação de vídeo e imagem e processamento de imagens. Finalmente, decidiu-se também pelo uso do algoritmo SURF, um descritor de imagens baseado em Pontos de Interesse e inspirado no descritor SIFT, que possui implementação na OpenCV.

O algoritmo SURF (Speeded-Up Robust Features) [7] descreve a imagem baseado em Pontos de Interesse. Estes são calculados a partir dos determinantes máximos locais das

(27)

5 Conclusão 25 matrizes Hessianas dos pontos da imagem. Esse cálculo é feito em um espaço-escala criado à partir da formação de uma Pirâmide de Imagens, de modo que a localização dos Pontos de Interesse seja feita em diversas resoluções. No entanto, para que tudo isso atinja a performance desejada, o uso da representação inserida pelo trabalho de Viola e Jones [10], a Integral da Imagem, foi fundamental.

Os Descritores dos Pontos de Interesse são construídos descrevendo-se sua vizinhança, utilizando-se para isso máscaras Haar Wavelets, que calculam as derivadas da região e a partir delas forma-se um Descritor de 64 dimensões.

Determina-se a partir das distâncias no espaço 64-dimensional, entre os Descritores da placa procurada e do quadro do vídeo, os pares correspondentes. O limiar de proximidade é dado pela norma do vetor da placa. De modo a se conrmar o casamento entre os pares, busca-se correspondências não só entre um par mas também entre os pares vizinhos mais próximos.

Buscando-se eliminar os falsos positivos, constrói-se uma máscara na qual se limita a área de busca dos Pontos de Interesse por meio do algoritmo SURF. Essa máscara é contruída baseada na proximidade de cor entre a região analisada e placa procurada. A proximidade é calculada através dos histogramas de cor das regiões em questão e se mostra capaz de melhorar os resultados do método.

A monograa aqui apresentada, baseada no estudo dos mais recentes trabalhos da área, apresentou um método que se mostra capaz de efetuar o reconhecimento de placas de publicidade em vídeos esportivos de forma robusta a pequenas variações de escala, rotação, oclusão e mudanças de perspectiva. No entanto, não se mostra eciente nas tomadas de longa distância, nas quais as placas se apresentam em pequenas dimensões. Mostra-se viável a continuidade do estudo de modo a resolver esse problema, para então se iniciar estudos mais conclusivos em relação à precisão e cobertura do algoritmo.

(28)

6 Avaliação Subjetiva

O interesse na área de Visão Computacional teve início cursando-se primeiramente Processamento de Imagens e depois Computação Gráca, disciplinas correlacionadas. A primeira foi especialmente importante na parte prática, apesar de nela se ter utilizado a Linguagem Java. No entanto, não se havia cursado a disciplina de Visão Computacional o que fez com que o Trabalho de Formatura Supervisionado tenha sido uma oportunidade para a introdução na área.

Talvez esse tenha sido o motivo da grande diculdade na leitura dos trabalhos da re-visão bibliográca que lidavam com muitos conceitos até então desconhecidos, em especial quando eles descreviam os trabalhos anteriores nos quais havia um sem número de algo-ritmos.

Recuperação de Informação foi outra disciplina que deu base ao trabalho feito, em especial sobre conceito e métodos de Classicação, o que fez com que a compreensão destas seções dos trabalhos lidos tenha se dado de forma mais fácil.

O estudo do algoritmo SURF deu base para compreensão não só dele próprio mas também de outros algoritmos baseados em Descritores de Pontos de Interesse, como o próprio algoritmo SIFT. Esse estudo foi de certa forma especial quando se teve que buscar outros trabalhos para se entender como o uso da Integral da Imagem se integrava as Pirâmides de Imagem utilizadas, de modo a aumentar a performance do algoritmo. E claro, fez uso das aulas de Cálculo ainda do primeiro ano.

Disciplinas como as citadas diferenciam o curso feito do daqueles de muitas outras Universidades e justicam a necessidade das disciplinas de base. E também podem pro-porcionar exemplos interessantes de aplicações ao ensino de Matemática no ensino médio.

(29)

Referências Bibliográcas

[1] Bagdanov,A. D., Ballan, L., Bertini, M., and Del Bimbo, A., Trademark matching and retrieval in sports video databases, in Proc. of MIR, Augsburg, Germany, 2007 [2] Ballan, L., Bertini, M., Del Bimbo, A., Jain, A., Automatic trademark detection

and recognition in sport videos, in Multimedia and Expo, 2008 IEEE International Conference on.

[3] Watve, A., Sural, S., Soccer Video Processing for the detection of ad- vertisement billboards, in Pattern Recognition Letters archive,Volume 29 , Issue 7 (May 2008) Elsevier

[4] Ishimura, N., Recognizing Multiple Billboard Advertisements in Videos

[5] Lowe, D., Distinctive Image Features from Scale-Invariant Keypoints, (January, 2004) [6] Mikolajczyk, K., Schmid, C., A performance evaluation of local descriptors

[7] Bay, H., Ess,a. , Tuytelaars, T., Speeded-Up Robust Features (SURF) [8] Bradsky, G., Kaehler,A., Learning OpenCV, O'Reilly, 2008, First Edition [9] OpenCV, http://opencv.willowgarage.com/documentation/index.html

[10] Viola, P., Jones, M., Robust Real-time Object Detection, Second International Work-shop Statistical and Computational Theories of Vision, Vancouver, Canada, 2001

Anotador automático de placas de publicidade em vídeos esportivos

Anotador automático de placas de publicidade em vídeos

esportivos

Anotador automático de placas de publicidade em vídeos

esportivos

Agradecimentos

Lista de Figuras

1 Introdução

2 Revisão Bibliográca

3 Método Implementado

3.1 Descrição das Imagens

3.1.1 Speeded-Up Robust Features (SURF)

3.2 Correspondência de Descritores

3.3 Casamentos

3.4 Exclusão de quadros de longa distância

3.5 Criação de Máscara

4 Resultados

5 Conclusão

6 Avaliação Subjetiva

Referências Bibliográcas

2 Revisão Bibliográca

Referências Bibliográcas