Sumarização automática de vídeos de futebol baseada em ritmo visual

(1)

COMPUTAÇÃO

Nielsen Cassiano Simões

Sumarização Automática de Vídeos de Futebol Baseada

em Ritmo Visual

CAMPINAS

2018

(2)

Sumarização Automática de Vídeos de Futebol Baseada em

Ritmo Visual

Tese apresentada ao Instituto de Computação da Universidade Estadual de Campinas como parte dos requisitos para a obtenção do título de Doutor em Ciência da Computação.

Orientador: Prof. Dr. André Santanchè

Coorientador: Prof. Dr. Neucimar Jerônimo Leite (in memorian)

Este exemplar corresponde à versão nal da Tese defendida por Nielsen Cassiano Simões e orientada pelo Prof. Dr. André Santanchè.

CAMPINAS

2018

(3)

Ficha catalográfica

Universidade Estadual de Campinas

Biblioteca do Instituto de Matemática, Estatística e Computação Científica Márcia Pillon D'Aloia - CRB 8/5180

Simões, Nielsen Cassiano,

Si45s SimSumarização automática de vídeos de futebol baseada em ritmo visual / Nielsen Cassiano Simões. – Campinas, SP : [s.n.], 2018.

SimOrientador: André Santanchè.

SimCoorientador: Neucimar Jerônimo Leite.

SimTese (doutorado) – Universidade Estadual de Campinas, Instituto de Computação.

Sim1. Sumarização automática. 2. Vídeo digital. 3. Futebol. 4. Ritmo visual. I. Santanchè, André, 1968-. II. Leite, Neucimar Jerônimo, 1961-2016. III. Universidade Estadual de Campinas. Instituto de Computação. IV. Título.

Informações para Biblioteca Digital

Título em outro idioma: Automatic soccer video summarization based on visual rhythm Palavras-chave em inglês:

Automatic summarization Digital video

Soccer Visual rhythm

Área de concentração: Ciência da Computação Titulação: Doutor em Ciência da Computação Banca examinadora:

André Santanchè [Orientador] Jefersson Alex dos Santos Fábio Augusto Faria

Ricardo Machado Leite de Barros Hélio Pedrini

Data de defesa: 15-08-2018

Programa de Pós-Graduação: Ciência da Computação

(4)

COMPUTAÇÃO

Nielsen Cassiano Simões

Sumarização Automática de Vídeos de Futebol Baseada em

Ritmo Visual

Banca Examinadora:

• Prof. Dr. André Santanchè IC / UNICAMP

• Prof. Dr. Jefersson Alex dos Santos Dep. de Ciência da Computação / UFMG • Prof. Dr. Fábio Augusto Faria

Universidade Federal de São Paulo

• Prof. Dr. Ricardo Machado Leite de Barros FEF / UNICAMP

• Prof. Dr. Hélio Pedrini IC / UNICAMP

A ata da defesa com as respectivas assinaturas dos membros da banca encontra-se no SIGA/Sistema de Fluxo de Dissertação/Tese e na Secretaria do Programa da Unidade

(5)

Antes de tudo, agradecer a Deus pelo dom da vida e por me guiar em todos os dias de minha vida;

Ao meu orientador, prof. André, pelo seu incentivo, dedicação, dicas, ensinamento e pelo grande amigo que é;

Ao meu coorientador, prof. Neucimar, que deixou saudades ao partir, mas que me fez acreditar que eu sempre podia ir além, pelos ensinamentos e o constante incentivo cultural, e por me introduzir ao francês, a Paris e a França;

Agradeço à minha esposa Priscila, meus lhos Frederico e Vítor, pela compreensão da minha ausência quando necessária, pelo amor e carinho nos momentos juntos;

Agradeço aos meus pais, que sempre me incentivaram nos estudos e investiram em minha educação com o melhor que podiam, pelo que sou hoje e pelo o que posso fazer meus lhos serem no futuro;

Agradeço a meu irmão, Nemer, e minha quase irmã, Nilceia, porque sempre acredi-taram em mim, e meu amigo Raimundo Cláudio, compartilhando conhecimento e sofri-mento, mas sempre incentivando um ao outro;

À Profa. Cláudia, pela sua dedicação com seus orientando, que desde o meu mestrado me mostrou como é importante compartilhar conhecimentos, os desaos e a pujança;

Aos companheiros e ex-companheiros de LIS, que sempre compartilharam conhecimen-tos, permitindo excelentes debates, sempre incentivando uns aos outros e sempre dando uma pausa para o café;

Aos amigos que z no IC, a todos os professores com quem tive o prazer de estudar e conversar, aos funcionários dedicados que, direta ou indiretamente contribuíram com este trabalho;

À CAPES e CPNq, pelo apoio nanceiro e por acreditarem no Instituto de Computa-ção, na Unicamp e na pesquisa acadêmica.

(6)

Apesar da crescente importância da sumarização de vídeos frente a crescente quantidade de vídeos disponíveis, o processo manual de sumarização é custoso e lento. Este trabalho apresenta framework para sumarização automática de vídeos de futebol baseados no pa-drão brasileiro de transmissão, i.e., em vez de se basear em logos e replays que enfatizam os eventos relevantes um padrão comum nas transmissões dos EUA e Europa ele ana-lisa a dinâmica da transmissão. Diferentemente dos trabalhos relacionados, a abordagem deste trabalho representa explicitamente o conhecimento necessário para customizar o fra-mework para um domínio especíco, permitindo futuras expansões até mesmo para outros esportes. Ele explora o ritmo visual como uma estratégia chave para a detecção automá-tica de eventos, sendo também adequado para ser customizado por esta abordagem de parametrização explícita. Além disso, ele também faz uso de key-frames como alternativa para reduzir a quantidade de dados a serem analisados. Utilizando o conceito de dinâmica do padrão brasileiro para a transmissão de vídeos de futebol, realizou-se uma validação com usuários. Os resultados obtidos foram satisfatórios, em que 62% consideraram os resumos automáticos relevantes em relação aos segmentos de vídeo originais.

(7)

Despite the increasing importance of video summarization versus the increasing number of videos available, the manual summarization process is costly and time-consuming. This work presents a framework for automatic summarizing soccer videos based on the Brazi-lian standard transmission, i.e., instead of relying on logos and replays that emphasizes relevant events a common standard in the USA and European transmissions it analyzes the transmission dynamics. Dierent from related work, this approach explicitly repre-sents the knowledge necessary to customize the framework to a specic domain, enabling future expansions even for other sports. It exploits the visual rhythm as a key strategy to automatically detect events, being also suitable to be customized by this explicit para-metrization approach. Moreover, it also uses key-frames as an alternative to reduce the amount of data to be analyzed. Using the concept of dynamics of the Brazilian patterns for the transmission of soccer videos, a validation was performed with users. The results were satisfactory, in which 62% of the users considered the automatic summaries relevant compared to the original video segments.

(8)

2.1 Estrutura de um vídeo digital: a) física e b) lógica. . . 17

2.2 Principais processos da análise de vídeo digital [75]. . . 18

2.3 Exemplo da geração da imagem de ritmo visual utilizando uma linha ver-tical central de cada quadro de um vídeo. . . 21

2.4 Imagem de ritmo visual de um segmento de vídeo de futebol televisivo. . . 21

2.5 Imagens de Ritmo Visual de um segmento de comercial utilizando: a) co-luna central dos quadros, b) histograma e c) histograma acumulado (fonte: Simões [75]) . . . 23

2.6 Curva zig-zag (a) como função de transformação para o Ritmo Visual (b) (Fonte: Valio et al. [87]). . . 24

2.7 Utilização de DVEs entre segmentos de replay em um vídeo [9]. . . 27

2.8 Algoritmo para detecção de eventos apresentado por Li et al. [53, 54]. . . . 29

2.9 Framework baseado em HMM para detecção de eventos [96]. . . 30

2.10 Visão geral do sistema de análise estrutural de vídeos de esportes [43]. . . . 30

2.11 Estrutura de um jogo de tênis [43]. . . 31

2.12 Hierarquia do conteúdo de vídeos televisivos de tênis [43]. . . 31

2.13 Sistema para detecção de eventos em futebol [23]. . . 32

2.14 Modelo hierárquico para sumarização de vídeos de esporte baseado em play e break Tjondronegoro et al. [83]. . . 33

3.1 Framework para sumarização de vídeos de esporte televisivos. . . 37

4.1 Exemplo dos quatro tipos de visão utilizados em um jogo de futebol. . . . 44

4.2 Dinâmica para eventos em jogos de futebol no padrão europeu e americano. Os segmentos de A a I identicam a sequência de diferentes tipos de visão entre duas visões longas. . . 45

4.3 Dinâmica para eventos em jogos de futebol no Brasil. Os segmentos de A a I identicam a sequência de diferentes tipos de visão entre duas visões longas. . . 45

4.4 Tarefas para o processo de seleção de tomadas em jogos de futebol. . . 46

4.5 Subamostragem do espaço HSV para a redução de cor [77]. . . 48

4.6 Exemplos da aplicação da redução de cor para jogos de futebol. . . 49

4.7 Imagem de ritmo visual utilizando a coluna central de cada quadro para um segmento de vídeo de futebol televisivo. . . 49

4.8 Imagens MVR e MRVR de seis segmentos de vídeo: a) quadro original; b) resultado da redução de cor; c) coluna resultante da moda de cada linha de (b); d) imagens MVR e e) MRVR de cada seguimento. . . 51

(9)

relativa às tomadas de falhas de transmissão. . . 53 4.10 Relação entre tipos de visão e as respectivas imagens IM V R e IM RV R. . . . 53

4.11 Diagrama para anotação semântica da classe relativa à quantidade de gra-mado da imagem IM V R. As setas tracejadas representam situações

even-tuais de conclusão fraca. . . 56 4.12 Gráco das funções de pertinência: a) µ(A), b) µ(B), c) µ(C) e d) µ(D). . 63 5.1 Resultado da aplicação da redução de cor para a detecção do gramado. . . 66 5.2 Exemplo da extração de key-frames para um segmento de vídeo de futebol

utilizando: a) a proposta deste trabalho [77], b) o programa IBM Marvel Lite [78]. . . 67 5.3 Relação das demais informações fornecidas pelos usuários: a) gênero, b)

faixa etária, c) frequência que assiste a jogos de futebol e d) interesse por jogos. . . 69 5.4 Escala psicométrica de nove pontos utilizada para aferir a impressão do

usuário. . . 70 5.5 Histograma das respostas para o resumo dinâmico. . . 71 5.6 Respostas agrupadas para o resumo dinâmico em baixa, média e alta

re-presentatividade. . . 72 5.7 Histogramas das respostas para os resumos estáticos. . . 72 5.8 Respostas agrupadas para os resumos estáticos em baixa, média e alta

re-presentatividade: storyboards a) abordagem deste trabalho e b) abordagem de Almeida et al. [4] . . . 73 A.1 Página Inicial para registro na Avaliação de Resumo de Segmentos de Vídeo. 88 A.2 Instruções gerais para a realização da avaliação. . . 89 A.3 Página de preenchimento das informações pessoais para identicação e

clas-sicação do grupo de usuários avaliados. . . 90 A.4 Apresentação do segmento de vídeo selecionado para o usuário. . . 91 A.5 Apresentação do resumo dinâmico relativo ao segmento de vídeo

anterior-mente selecionado. . . 92 A.6 Apresentação dos resumos estáticos relativos ao segmento de vídeo

apre-sentado. . . 93 A.7 Página de agradecimento pela participação na pesquisa. . . 94

(10)

2.1 Nomeclatura e transformações utilizadas pelos principais trabalhos

relaci-onados à imagem representiva do vídeo. . . 25

2.2 Síntese dos principais framewroks e aplicações para sumarização de vídeos de esportes. . . 36

4.1 Especicação geral do perl de domínio para jogos de futebol. . . 46

4.2 Tabela Verdade para o conjunto de variáveis fuzzy. . . 62

5.1 Resultado da classicação para a anotação semântica [77]. . . 66

(11)

1 Introdução 13

2 Fundamentos e Trabalhos Relacionados 16

2.1 Fundamentos da análise de vídeo digital . . . 16

2.1.1 Métricas de dissimilaridade . . . 18

2.1.2 Ritmo Visual . . . 19

2.2 Detecção de eventos em vídeos de esportes . . . 25

2.2.1 Detecção de replays e eventos especícos . . . 26

2.2.2 Sumarização baseada em eventos . . . 28

3 Um Framework para sumarização de vídeos 37 3.1 Detecção de tomadas . . . 37

3.2 Especicação da natureza do vídeo . . . 38

3.3 Seleção de tomadas . . . 39 3.4 Seleção de key-frames . . . 39 3.5 Análise intraframe . . . 40 3.6 Análise de áudio . . . 40 3.7 Classicação semântica . . . 41 3.8 Resumo do vídeo . . . 41 3.9 Aplicações . . . 41

4 Sumarização de jogos de futebol 43 4.1 Semântica de um jogo de futebol . . . 43

4.2 Seleção de tomadas de jogos de futebol . . . 46

4.2.1 Redução de cor . . . 47

4.2.2 Imagem representativa para jogos de futebol . . . 49

4.2.3 Extração de características . . . 52 4.2.4 Anotação semântica . . . 55 4.2.5 Seleção de segmentos . . . 56 4.3 Extração de key-frames . . . 57 4.4 Análise intra-frame . . . 58 4.5 Classicação de Semântica . . . 60 4.6 Sumarização . . . 63 5 Resultados e Discussão 65 5.1 Análises empíricas e validações . . . 65

5.2 Validação da sumarização . . . 68

5.3 Experimento com usuários . . . 70

(12)

(13)

Capítulo 1

Introdução

É comum encontrarmos conteúdo multimídia digital em diversas páginas web. O ofere-cimento de vídeo digital pela Internet cresceu principalmente em virtude da redução dos custos tanto de acesso à Internet quanto dos dispositivos de aquisição e armazenamento de vídeo. Páginas como MSN Vídeo [57], The Open Video Project [36], PubsTV [71], Yahoo! Video [97], Youtube [100] e muitas outras, oferecem uma grande variedade de vídeos di-gitais que, em alguns casos, estão categorizados por assunto ou conteúdo. Além dessas bibliotecas de vídeos, outras estão sendo construídas para o armazenamento de conteúdo audiovisual em conjunto com documentos digitalizados, permitindo o acesso instantâneo a seus usuários.

Com esses diferentes portais de vídeos, conteúdos que anteriormente eram exclusivos para exibição na televisão, hoje também podem ser assistidos no computador, tablet e smartphones. Tanto a TV aberta quanto a paga oferecem diversas opções para permitir acesso ao conteúdo transmitido em seus programas televisivos.

Apesar da grande quantidade de vídeos disponíveis na Internet, a pesquisa por um conteúdo especíco no formato visual está diretamente ligada à semântica relacionada ao vídeo, anotada de forma automática ou manual antes da sua publicação. Desta forma, a análise de vídeos torna-se necessária tanto para permitir a indexação e recuperação de vídeos em grandes bibliotecas digitais [35], como também para aplicações de televisão digital [19]. Apesar da importância da semântica, trabalhos voltados à detecção de eventos e sumarização usualmente não a tratam de forma explícita e sistemática.

Os vídeos digitais podem ser classicados conforme seu gênero, tais como: documen-tários, lmes, animações, telejornais, esportes, comerciais, etc. Dentre esses diferentes tipos de vídeo, existe um grande interesse em vídeos de esporte, especialmente aqueles provenientes de transmissão televisiva, denominados vídeo de difusão (broadcast videos). Know The Fans, um projeto do grupo PERFORM, especializado em mídia esportiva, arma em [56] que 96% dos brasileiros fãs por esporte usam a TV para acompanhar seu esporte preferido. Muito próximo disso, 81% dos fãs por esporte no brasil o acompanham pela Internet e 64% acompanham no local (estádio, ginásio, etc . . . ).

O interesse de usuários por esportes tem aumentado ano após ano. Em 2014, Know The Fans divulgou em The Global Sports Media Consumption Report [56] que no Brasil exitem aproximadamente 58 milhões de adultos fãs de algum esporte, sendo que o Futebol possui 66% de seguidores, enquanto 43% seguem Voleibol e 39% Fórmula 1. Note que um

(14)

usuário pode acompanhar mais de uma modalidade esportiva.

Mas não são apenas as transmissões ao vivo as responsáveis pelo interesse dos teles-pectadores brasileiros. Muitos programas esportivos são disponibilizados em repositórios e necessitam de informações resumidas das partidas transmitidas. Além disso, essas in-formações são fundamentais para o armazenamento organizado em formato digital, bem como sua indexação, possibilitando a recuperação rápida quando necessária. Em geral, essas informações são, atualmente, obtidas por meio de anotações manuais dos vídeos [43]. Os portais de notícias esportivos também oferecem os principais segmentos de vídeos rela-cionados a uma partida esportiva (como os gols de uma partida de futebol). Essa grande demanda por informações esportivas tem transformado os sites especializados em prove-dores de conteúdo de vídeo, tais como GlobEsporte.com [28] e UOL Esportes [25]. Este conteúdo busca, sobretudo, aumentar a experiência do usuário nos eventos especícos de cada esporte.

Vídeos esportivos possuem uma estrutura bem denida de seu conteúdo, se compa-rados a vídeos de telejornal, documentários ou lmes [1, 89]. Cada esporte possui suas regras que permitem denir quando uma equipe se sagra vitoriosa em uma partida. As ações de um ou mais jogadores para permitir que sua equipe vença uma partida, ou para evitar que ela perca, são classicadas como um evento daquela modalidade esportiva. A transmissão de cada um desses eventos comumente é acompanhada por efeitos especícos de edição no vídeo, que produz o que se chama de dinâmica de transmissão. Os efeitos e a dinâmica seguem alguns padrões de edição de vídeo denidos para aquela modali-dade esportiva. Essa dinâmica é produzida a partir de diferentes segmentos de vídeo (provenientes de diferentes câmeras), sua duração e a sequência em que são exibidos.

Existem esportes nos quais estes eventos são raros, tal como o futebol. Entretanto, em outras modalidades os principais eventos são mais frequentes, como basquete e volei-bol. A maioria dos fãs buscam um resumo com os principais eventos ocorridos em uma transmissão esportiva. Torna-se, então, uma alternativa relevante a recuperação desses eventos, auxiliando também diversos tipos de aplicações de vídeo digital. No Brasil, ví-deos de futebol despertam maior interesse devido à larga escala em que são transmitidos. Em geral, no máximo 60% de um vídeo de futebol representa bola em jogo [92] (alguma atividade das equipes).

A análise manual de um vídeo digital requer atenção e muito tempo de trabalho. Por consequência, a ocorrência de incoerências é bastante comum nessa tarefa. Uma vez que a quantidade de vídeos digitais manipulados nas diversas aplicações cresce a cada dia, e que o tempo gasto por um operador para analisar um vídeo é diretamente proporcional à duração deste, é desejável utilizar ferramentas de análise automática que permitam tornar este trabalho mais eciente. O objetivo de se utilizar ferramentas de análise automática de vídeo é tornar este trabalho mais eciente, reduzindo essas incoerências.

Este trabalho tem como objetivo geral realizar a sumarização automática de vídeo de futebol televisivos com base na dinâmica de transmissão no padrão brasileiro. Há diferenças entre essas dinâmicas para os padrões utilizados no Brasil e na Europa ou Estados Unidos, discutidos no Capítulo 3. Resumidamente, a dinâmica internacional é direcionada à ocorrência de replays entre logos, e a brasileira não. Em geral, a maioria dos trabalhos exploram a dinâmica internacional, a começar pela detecção de replays entre

(15)

logos.

Para atingir esse objetivo, foi necessário denir um framework para sumarização de vídeos de esporte televisivos e uma modelagem especíca para a dinâmica de câmera do padrão de transmissão brasileiro. Como a sumarização de vídeos de esporte também requer que sistemas se baseiem em um conhecimento de domínio, que varia de acordo com a natureza do esporte, o framework proposto também considera a parametrização desse conhecimento de domínio.

A representação desse conhecimento e a forma como ele afeta a sumarização não é explícita nos trabalhos analisados. Em alguns deles, esse conhecimento está embutido na codicação dos processos de reconhecimento e naqueles baseados em aprendizagem de máquina, este conhecimento precisa ser aprendido a partir de treinamento.

Percebe-se a importância, nesse trabalho, de se realizar uma caracterização explícita do conhecimento de domínio e do modo como ele atua na construção do sumário. Isso permite que o sistema seja renado, customizado para diferenças de contexto e estendido para outros esportes.

Como parte desse processo, também foi estudada e generalizada a estratégia para a seleção de tomadas, que se baseia na construção de imagens representativas a partir de vídeos pelo ritmo visual. Essa generalização permite a adaptação e/ou extensão de processos envolvendo o ritmo visual.

Como será apresentado no Capítulo 5, a partir de uma avaliação dos resultados, os sumários produzidos pela abordagem proposta neste trabalho foram considerados repre-sentativos, demonstrando a relevância do método.

O restante deste trabalho está dividido da forma: o Capítulo 2 apresenta uma revisão das técnicas para a detecção de eventos em vídeos de esporte; no Capítulo 3 é proposto um framework para sumarização de vídeos esportivos televisivos; o Capítulo 4 apresenta a aplicação do framework para sumarização de vídeos de futebol televisivos; os resultados são apresentados e discutidos no Capítulo 5; o Capítulo 6 discute as conclusões deste trabalho e apresenta algumas propostas para trabalhos futuros.

(16)

Capítulo 2

Fundamentos e Trabalhos Relacionados

Neste capítulo serão apresentados os principais trabalhos correlatos com o tema desta tese e os principais conceitos base para este trabalho. A Seção 2.1 dedica-se em explanar os fundamentos relacionados ao processo de análise de vídeo digital e suas aplicações. A Seção 2.2 apresenta trabalhos relacionados à detecção de eventos em esporte.

2.1 Fundamentos da análise de vídeo digital

Um vídeo digital pode ser denido como uma sequência de imagens (Denição 2.1) no tempo, sendo cada imagem denominada quadro (Denição 2.2). Neste trabalho, será utilizado o termo segmento de vídeo (Denição 2.3) para diferenciar do conceito semântico de vídeo que será apresentado mais adiante.

Denição 2.1 (Imagem Digital): Seja Im uma imagem digital de largura W e altura H. Sejam x ∈ [0, W − 1] e y ∈ [0, H − 1], respectivamente, a linha e a coluna de um pixel dessa imagem. Logo, Im(x, y) representa a cor da imagem no ponto (x, y).

Denição 2.2 (Quadro): Um quadro (frame) é uma imagem de um segmento de vídeo. Seja ft o quadro f do instante t de um segmento de vídeo digital,

denido como ft(x, y) = Im(x, y), em que x ∈ [0, W − 1] e y ∈ [0, H − 1].

Denição 2.3 (Segmento de Vídeo): Um segmento de vídeo V S é toda e qualquer sequência de quadros no tempo, da forma V S = (f0, f1, . . . , fK−1), cujo

tamanho é K. Um segmento está relacionado com o conceito físico de uma sequên-cia de quadros.

Durante o processo de produção, diversos segmentos de vídeo são utilizados para a composição do vídeo nal. Cada um desses segmentos é denominado tomada

(17)

(De-nição 2.4), as quais, quando agrupadas de acordo com suas características grácas ou semânticas, constituem uma cena (Denição 2.5). Dessa forma, o conceito de vídeo di-gital deste trabalho está associado à composição semântica do vídeo, i.e., a um conjunto de segmentos semanticamente relacionados, conforme Denição 2.6.

Denição 2.4 (Tomada): Uma tomada é um segmento de vídeo registrado por uma câmera por um intervalo de tempo sem interrupção. Uma tomada S é denida como: S = (f0, . . . , fK−1) como uma sequência de K quadros consecutivos.

Denição 2.5 (Cena): Uma cena é uma sequência de tomadas cujas caracte-rísticas grácas e semânticas estão relacionadas. Portanto, uma cena C é denida como C = (S0, S1, . . . , SL−1).

Denição 2.6 (Vídeo Digital): Neste trabalho, um vídeo digital é denido como uma sequência de L segmentos, da forma V = (V S0, V S1, . . . , V SL−1), cujo

tamanho N = PL−1

i=0 Ki, em que Ki é o número de quadros do segmento V Si.

A Figura 2.1 ilustra os conceitos físico e lógico de vídeo digital. A denição de seg-mento de vídeo está associada ao conceito físico (Figura 2.1a), que neste trabalho será denominado segmento de vídeo. O conceito lógico está relacionado (Figura 2.1b) está relacionado à denição de vídeo digital.

a) b)

Figura 2.1: Estrutura de um vídeo digital: a) física e b) lógica.

A análise de vídeo digital pode ser expressada por um conjunto de processos principais ilustrados pela Figura 2.2. Em geral, esta análise inicia-se predominantemente pela seg-mentação do vídeo em tomadas, principal conceito associado ao agrupamento de quadros originados de uma mesma câmera. Isso se deve ao fato de se esperar que cada quadro de uma tomada seja similar a seus vizinhos, já que representa uma continuidade no tempo.

(18)

Figura 2.2: Principais processos da análise de vídeo digital [75].

Observa-se na Figura 2.2 que a análise de um vídeo digital também pode considerar processos baseados em informações de áudio, além daqueles relacionados às informações visuais.

O processo de criação de vídeos, também conhecido como edição de vídeos, procura agrupar tomadas em sequência, criando uma transição abrupta denominada corte. Entre-tanto, também é possível criar efeitos digitais entre as transições, misturando uma certa quantidade de quadros de uma tomada com outra imediatamente subsequente. Essas transições são denominadas graduais e podem ser do tipo wipes, fades ou dissolves [75].

Em alguns casos, a segmentação de um vídeo digital pode não estar necessariamente associada a uma tomada especíca, mas a um agrupamento mais renado denido, em sua maioria, por alguma métrica de dissimilaridade. Nesses casos, o segmento obtido é denido como GoF Group of Frames (Denição 2.7), utilizado como menor agrupamento do vídeo, de forma que este passa a ser considerado como uma sequência de GoFs [26].

Denição 2.7 (Group of Frames (GoF)): Um group of frames (GoF) é uma sequência de quadros consecutivos cuja similaridade é alta, i.e., podem ser considerados semelhantes. Logo, um GoF é denido da forma GoF = (f0, . . . , fK−1)|Dist(fi, fj) ≤ , i 6= j, em que Dist representa uma função de

distância (dissimilaridade) entre dois quadros quaisquer fi e fj do GoF .

A segmentação de vídeo pode ser realizada, basicamente, por meio de duas técnicas: utilização de métricas de dissimilaridade ou de uma imagem representativa do vídeo. A Seção 2.1.1 apresenta trabalhos baseados em diferentes métricas de dissimilaridade. A Seção 2.1.2 concentra-se nos trabalhos baseados na geração de imagens representativas do vídeo denominadas imagens de Ritmo Visual. O contexto de segmentação de vídeo está relacionado a vídeos que sofreram edição, em que transições foram inseridas. Existe um tipo particular de vídeo que são produzidos por uma única câmera continuamente, sem interrupção, semelhantes a vídeos de monitoramento ou vigilância.

2.1.1 Métricas de dissimilaridade

Os primeiros trabalhos de segmentação de vídeo digital estão associados a detecção de tomadas [86, 103] e eram utilizados principalmente para indexação, navegação e busca de vídeos em banco de dados multimídia [12, 13, 49]. Uma vez que as transições entre

(19)

tomadas podem ser abruptas (cortes) ou graduais (fades, dissolves e wipes) [75, 58], quanto mais elaborada for a produção do vídeo, mais tipos diferentes de transições são utilizadas [58].

Detectar tomadas passou a ser, então, a tarefa de detectar transições em vídeos. Dessa forma, explorando a relação de semelhança entre os quadros de uma mesma tomada, diver-sos trabalhos procuravam identicar as principais métricas de dissimilaridade apropriadas para cada tipo particular de vídeo. Primeiramente, a técnica de comparação pixel a pixel por pares (pixel-wise comparision) concentrava-se em identicar as ocorrências de cor-tes [103, 68], explorando o somatório da diferença absoluta de cada pixel do quadros ft−1

e ft para o instante t, tanto para níveis de cinza quando colorida. O resultado desse

somatório era então comparado a um limiar que denia se havia ou não dissimilaridade entre os quadros. Quanto mais alto o somatório, maior era a dissimilaridade.

Entretanto, observou-se que o desempenho dos algoritmos era reduzido quando vídeos possuíam tomadas que apresentavam movimentos internos de objetos. São considerados movimentos internos de objetos quando objetos grandes se deslocam rapidamente no interior de alguns quadros, ou quando vários objetos se movimentavam rapidamente e simultaneamente, gerando uma dissimilaridade maior entre os quadros. Como alternativa, foram utilizadas métricas de dissimilaridade baseadas no histograma dos quadros [12, 69, 59, 104]. O uso de histograma permite comparar a variação da frequência das cores entre os quadros, em vez de comparar a variação das cores em cada pixel. Histogramas entre quadros consecutivos eram comparados (ou pela diferença absoluta, diferença relativa ou por testes estatísticos teste do χ2_{) para determinar a dissimilaridade entre os quadros,}

identicando transições abruptas nos vídeos.

Posteriormente, começaram a surgir trabalhos com métricas de dissimilaridades capa-zes de detectar transições graduais (fades, dissolves e wipes) com mais precisão [91, 49] que as métricas de comparação pixel a pixel. Estes trabalhos utilizam uma pequena janela deslizante em que era realizada um análise da variação da dissimilaridade. O somatório da dissimilaridade calculada para cada quadro da janela deslizante era comparado com um limiar que denia quando uma transição gradual ocorria.

2.1.2 Ritmo Visual

A análise quadro a quadro de um segmento de vídeo pode ser substituída pela análise de uma imagem representativa em que os principais eventos temporais possam ser preser-vados. Essa imagem representativa passou a ser chamada de Ritmo Visual, e representa uma subamostragem do espaço 2D + t para o espaço D + t.

A ideia de utilizar imagens representativas surgiu, primeiramente, quando Akutsu and Tonomura [2] procuravam detectar movimentos de câmera [75]. Os autores modelaram o vídeo como um volume no domínio 2D + t e procuravam denir o padrão de projeção que o movimento de câmera desejado causava nos planos espaciais x − y ao longo do tempo. Denominando o método de vídeo por tomograa, os autores deniram duas imagens re-presentativas do vídeo, imagens raio-x e raio-y do vídeo, resultantes de uma projeção do volume 2D + t para, respectivamente, os planos x − t e y − t. Cada tipo de movimento de câmera gerava um padrão de textura especíco nessas imagens. A análise do

(20)

compor-tamento da câmera no vídeo ao longo do tempo passou a ser a análise da variação da textura, e.g., mudanças abruptas no vídeo passam a ser mudanças abruptas na textura.

Joly and Kim [40] posteriormente, deniram outros tipos de projeções para movi-mentos de câmera, enquanto Lee et al. [50] realizaram a análise da textura das imagens representativas por meio de outras técnicas de detecção de padrões de texturas.

Entretanto, foram Ngo et al. [61] que denominaram a imagem representativa como space-teporal slice e a utilizaram para identicar transições graduais [60, 61, 62] e, posteriormente, efeitos de movimentos de câmera [63]. Paralelamente, Chung et al. [14] consideraram o uso de características espaço-temporais para segmentação de vídeo de-nindo a imagem representativa como imagem de Ritmo Visual (Visual Rhythm Image), mesmo termo adotado por Kim et al. [44] para detecção de tomadas em vídeo.

O termo Ritmo Visual será adotado neste trabalho para caracterizar este uso de imagem representativa para a análise de vídeo. Conforme será detalhado a seguir, di-versos trabalhos têm adotado este princípio com diferentes estratégias de projeção para diferentes propósitos. Por essa razão, este trabalho envolveu o levantamento e a análise de trabalhos relacionados a Ritmo Visual, bem como a proposição de uma generalização [77], apresentada na Denição 2.9. Essa generalização é a base para a construção de um meca-nismo exível de extração de Ritmo Visual, apresentado em seções subsequentes. Antes, porém, serão apresentadas as diferentes abordagens para a construção de diferentes tipos de imagens de Ritmos Visual.

De forma geral, a imagem de Ritmo Visual (Denição 2.8) é o resultado de uma transformação do domínio espacial do segmento 2D + t para D + t. Representa a retirada de um conjunto de pixels de cada quadro do vídeo denido por uma função linear que é agrupado consecutivamente em cada coluna da imagem de Ritmo Visual. Esta subamostragem espacial permite transformar o problema de processamento de vídeo em um problema de processamento de imagem, de forma que as características temporais sejam preservadas. Em contraste com as técnicas de comparação quadro a quadro, o Ritmo Visual permite realizar a mesma tarefa utilizando técnicas de processamento de imagens de forma mais eciente.

Denição 2.8 (Ritmo Visual): Seja ft(x, y) o valor da cor do pixel (x, y)

de um quadro f no instante t de um vídeo digital de N quadros. Sejam H e W , respectivamente, a altura e largura dos quadros desse vídeo. A imagem de Ritmo Visual IV R é o resultado da seguinte transformação:

IV R(t, z) = ft(rx× z + a, ry× z + b),

em que z ∈ [0, HV R− 1] e t ∈ [0, N − 1]; HV R e N são, respectivamente, a altura

a largura da imagem de ritmo visual; as constantes rx e ry representam a

suba-mostragem dos pixels, enquanto as constantes a e b, respectivamente, representam uma translação dentro de cada quadro. O valor de HV R depende de como ft é

(21)

A escolha dos parâmetros constantes na Denição 2.8 especicam como a subamos-tragem do domínio espacial de cada quadro do segmento de vídeo será realizada. Para realizar uma subamostragem em que cada coluna da imagem de Ritmo Visual seja com-posta pela linha central vertical de cada respectivo quadro, considera-se os valores de rx = 0, ry = 1, a = W₂ , b = 0 e HV R = H. A Figura 2.3 ilustra a subamostragem por

meio de uma linha vertical central de cada quadro de um vídeo. Já para amostrar a linha central horizontal, deve-se considerar rx = 1, ry = 0, a = 0, b = H₂ e HV R = W. Se

for amostrada a linha diagonal principal, então deve-se considerar rx = _HH

V R, ry = W HV R, a = 0, b = 0 e HV R= √ H2_{+ W}2 [14, 33, 44].

Figura 2.3: Exemplo da geração da imagem de ritmo visual utilizando uma linha vertical central de cada quadro de um vídeo.

A utilização de informações locais dos quadros apenas informações dos pixels é sensível a movimentos de objetos internos nos quadros, dicultando a detecção de toma-das. Essa sensibilidade pode ser percebida na Figura 2.4, que ilustra a imagem de Ritmo Visual decorrente da linha central de cada quadro de um vídeo de futebol televisivo (vídeo de futebol de difusão) vídeos que foram produzidos para transmissão por meio de um canal de televisão ou pela internet. Note que quadros semelhantes, mesmo provenientes de diferentes câmeras, possuem linhas centrais equivalentes para diferentes quadros. Mesmo especicando outras funções lineares, a imagem de Ritmo Visual acaba não reetindo as transições para vídeos que possuam essa característica.

Figura 2.4: Imagem de ritmo visual de um segmento de vídeo de futebol televisivo. Para vídeos em que tomadas diferentes possuam quadros similares, ou ainda quando há movimentos internos de objetos no vídeo a movimentação de um jogador no interior

(22)

do quadro, por exemplo a utilização do Ritmo Visual conforme a Denição 2.8 gera vari-ações que dicultam a detecção de transições. Entretanto, é possível utilizar informvari-ações globais do quadro para minimizar os efeitos de movimentos internos de objetos. Seguindo esse raciocínio, Guimarães [32] propôs a utilização do histograma de cada quadro no lugar da amostragem espacial, resultando no Ritmo Visual por Histograma. Neste caso, cada coluna da imagem de Ritmo Visual por Histograma é formada pelo histograma do quadro correspondente, sendo a sua altura HV R igual à quantidade de bins do histograma.

A movimentação de objetos no interior do quadro não provoca grandes variações no seu histograma, uma vez que a distribuição de cores tende a se manter constante. Guimarães [32] utilizou essa abordagem para detectar transições em vídeos de comerciais.

Utilizando esse mesmo raciocínio, Simões [75] considerou uma imagem cujas colunas eram compostas pelo histograma acumulado de cada quadro, resultando no Ritmo Visual por Histograma Acumulado. Dessa forma, foi possível detectar transições além de iden-ticar ocorrência de ashs nos segmentos de vídeo por meio do padrão da saturação do histograma acumulado na imagem de ritmo visual proposta. A Figura 2.5 ilustra a utili-zação do Rimo Visual coluna central, Ritmo Visual por Histograma e por Histograma Acumulado para um mesmo segmento de vídeo de comercial [75].

A primeira denição de Ritmo Visual está associada a uma subamostragem espacial em que informações locais são sucientes para preservar eventos temporais no vídeo, se-jam movimentos de câmera ou transições entre tomadas. Entretanto, surgiram novas denições de Ritmo Visual considerando aspectos globais do quadro, tal como histograma e histograma acumulado. Uma vez que há diferentes propostas para a geração de ima-gens de Ritmo Visual, este trabalho propõe em [77] uma denição geral, apresentada na Denição 2.9, para generalizar a Denição 2.8 original, de forma a englobar os diferentes tipos de Ritmo Visual apresentados.

Denição 2.9 (Ritmo Visual Geral): Seja ft o quadro f no tempo t de

um vídeo digital de N quadros. A imagem de Ritmo Visual Geral IGV R é

o resultado da aplicação de uma transformação

τ

em cada quadro do vídeo, da forma:

IGV R(t, z) =

τ

(ft, z) ,

em que z ∈ [0, L−1] (L é denido pela função de transformação

τ

) e t ∈ [0, N −1].

A partir da Denição 2.9, pode-se agora especicar diferentes transformações do vídeo aplicadas a cada quadro. Se for considerada a função de transformação

τ

V R = ft(rx ×

z + a, ry× z + b), teremos o equivalente à Denição 2.8. Já se

τ

=H(ft)for aplicada, em

que H(ft) representa o histograma do quadro ft do vídeo, obtêm-se o Ritmo Visual por

Histograma proposto por Guimarães [32], enquanto a transformação

τ

=_Hac(ft), sendo

Hac(ft)o histograma acumulado do quadro ft, dene-se o equivalente proposto por Simões

[75]. A generalização do Ritmo Visual visa permitir a aplicação de qualquer função de transformação nos quadros, independente de estar associada ao domínio espacial ou não. Mais recentemente, novas imagens de Ritmo Visual foram denidas e aplicadas para

(23)

Figura 2.5: Imagens de Ritmo Visual de um segmento de comercial utilizando: a) coluna central dos quadros, b) histograma e c) histograma acumulado (fonte: Simões [75])

(24)

diferentes propósitos. Valio et al. [87] realizaram a detecção de texto em vídeos por meio da imagem de Ritmo Visual utilizando uma curva zig-zag sobre uma subdivisão de cada quadro em 5 x 5 blocos (Figura 2.6), o que mostrou mais eciência em relação a técnicas aplicadas quadro a quadro.

Figura 2.6: Curva zig-zag (a) como função de transformação para o Ritmo Visual (b) (Fonte: Valio et al. [87]).

da Silva Pinto et al. [17] propuseram duas imagens de Ritmo Visual baseadas na linha central e coluna central da transformada de Fourier para cada quadro do vídeo. Dessa forma, foram capazes de identicar falsicação de rostos utilizando vídeos em um sistema de biometria. Almeida et al. [3] e dos Santos et al. [21] utilizaram o Rimto Visual por meio de uma transformação linear denida sobre ROI region of interest, e.g., região de interesse, em uma sequência de imagens aéreas (série temporal) para estimar alterações nos eventos fenológicos de plantas.

Rodrigues [73] considerou uma série temporal de grafos, obtida por meio da análise do posicionamento dos jogadores no campo de futebol. Cada jogador é denido como um vértice, e cada aresta um uxo possível de se efetuar um passe. A sequência é en-tão submetida a uma função de transformação do Ritmo Visual, criando a imagem de Ritmo Visual por Grafo (Graph Visual Rhythm). A proposta de seu trabalho é estudar o desempenho de uma equipe de futebol considerando as estratégias de ataque e defesa.

É possível observar que, para cada Ritmo Visual proposto, existe uma função de trans-formação especíca, possibilitando ampliar as aplicações dessa técnica. A Denição 2.9 [77] generaliza o conceito do Ritmo Visual de forma a atender exatamente a cada uma dessas funções de transformação. A Tabela 2.1 resume a nomenclatura utilizada pelos principais trabalhos que consideram o uso de imagem representativa, o tipo de transfor-mação proposta e a relação espacial envolvida. Note que a maioria dos trabalhos utiliza uma transformação direta sobre os quadros do vídeo, ou sobre um processamento desses (histogramas e transformada de Fourier). Mesmo para os trabalhos [3, 21, 73] em que são considerados sequências temporais de imagens ou de grafos, ainda assim a generalização proposta permite denir a função de transformação

τ

especíca.

Mais adiante, na Seção 4.2.2 deste trabalho, serão propostas duas novas transformações de Ritmo Visual especícas para jogos de futebol televisivos.

(25)

Tabela 2.1: Nomeclatura e transformações utilizadas pelos principais trabalhos relaciona-dos à imagem representiva do vídeo.

Autores _{Transformação espacial}Tipo de Relação Nomenclatura Akutsu and Tonomura [2]

Joly and Kim [40] linear local imagens raio-x e raio-y Lee et al. [50]

Ngo et al. [61, 60, 62] linear local space-teporal slice Chung et al. [14]

Kim et al. [44] linear local imagem de Ritmo Visual Guimarães et al. [33]

Guimarães [32] não-linear global Ritmo Visual do Histograma Simões [75] não-linear global Ritmo Visual do Hist. Acumulado Valio et al. [87] linear local Ritmo Visual (curva zig-zag) da Silva Pinto et al. [17] não-linear global Ritmo Visual sobre Fourier Almeida et al. [3] _linear _local _{Ritmo Visual sobre ROI} dos Santos et al. [21]

Rodrigues [73] linear local Ritmo Visual por Grafo

2.2 Detecção de eventos em vídeos de esportes

Com o objetivo de melhorar a competitividade, a tecnologia tem se inserido em dife-rentes modalidades esportivas como, por exemplo, a avaliação de desempenho por meio de vídeos [52, 27, 73]. Essa análise é denominada análise de esporte (sport analysis), despertando o interesse multidisciplinar de várias áreas do desporto, da computação e da medicina. Entretanto, esses trabalhos normalmente fazem uso de câmeras xas (ou monitoramento), cujos vídeos utilizados não sofrem edição. Esses vídeos são geralmente combinados para permitir a análise de uma equipe e/ou de jogadores individuais, pro-curando identicar pontos que podem ser aprimorados para se obter um desempenho melhor [73].

Cada modalidade esportiva possui suas regras e motivação, gerando diferentes eventos de interesse para seus espectadores. No basquete, por exemplo, um evento de interesse é quando uma equipe consegue marcar pontos ao se converter uma cesta, quando um defensor consegue efetuar um bloqueio ao arremesso, ou um arremesso de longa distância. Já no futebol, o principal evento e objetivo para uma equipe é o gol [18]. Por outro lado, diferentes eventos, como faltas próximas ao gol, escanteios e cobranças de pênaltis, também são relevantes para a maioria dos fãs, pois demonstram o quão ofensiva pode ter sido sua equipe. Kijak et al. [43] classica os esportes em dois tipos: time-constrained sports esportes com tempo restrito e score-constrained sports esportes com pontuação restrita. O primeiro está limitado a uma duração, dividido em período de mesma duração, em que cada período os eventos são imprevisíveis e seguem um uxo indeterminado. É o caso do futebol, futebol americano e basquete, mas não se limita a somente estes. Já scored-constrained sports possuem estrutura hierárquica bem denida, contendo certas unidades de pontuação. Tênis é um exemplo desse tipo de esporte, em que um jogo pode ser dividido em sets, games e pontos Kijak et al. [43]. Beisebol e voleibol são outros exemplos desse tipo de esporte.

(26)

passou a ser a principal tarefa para sumarizar vídeos para os espectadores, já que, na maioria das modalidades, o tempo total de uma transmissão, seja de uma partida, seja de uma corrida, costuma ser de longa duração. É esperado que este sumário contenha os principais eventos relacionados a uma determinada modalidade esportiva, do ponto de vista do espectador.

As próximas seções apresentam as principais abordagens para sumarização de vídeos de esportes com ênfase em segmentos de vídeo por difusão. Os primeiros sumários eram basicamente obtidos por detecção de replays, cujos trabalhos são discutidos na Seção 2.2.1. Na sequência, a Seção 2.2.2 apresenta os principais trabalhos relacionados a sumarização de vídeos baseadas em eventos (highlights).

2.2.1 Detecção de replays e eventos especícos

A transmissão de uma modalidade esportiva requer a utilização de múltiplas câmeras para conseguir dar diferentes pontos de vista ao espectador. A seleção de qual câmera será transmitida ao vivo, i.e., durante o registro do evento, provoca a edição do vídeo nal: vídeo de difusão (broadcast video), utilizado para consulta futura ou para progra-mas esportivos. É nesse contexto que entra a denição de replay, que signica reexibir um segmento de vídeo já transmitido ou exibir um segmento temporalmente anterior (trecho não transmitido ao vivo) capturado por outra câmera. Utilizar replay auxilia na compre-ensão dos eventos de uma modalidade esportiva. Em um jogo de futebol, por exemplo, o evento mais importe (o gol) pode não ter sido observado por um espectador, que o verá no replay permitindo a compreensão do evento. Nas corridas de Fórmula 1, ultrapassagens podem ocorrer simultaneamente em diferentes pontos da pista, sendo que apenas uma dessas ocorrências pode ter sido transmitida ao vivo. Além disso, são raros os momentos em que a corrida encontra-se parada, por exemplo, uma interrupção para nova largada ou a entrada de um safety-car na pista. Logo, os replays tornam-se imprescindíveis para descrever importantes ultrapassagens ou brigas por posições na corrida e acabam sendo utilizados frequentemente.

A identicação de replays começou a ser proposta por Kobla et al. [45] quando procu-ravam identicar segmentos de vídeos relacionados a esporte, contribuindo para o processo de classicação, indexação e recuperação de segmentos em bancos de dados multimídia. A técnica apresentada utilizava como base a ocorrência de replays em slow motion, i.e., replays de eventos cujos quadros são replicados para causar a redução aparente da taxa de quadros por segundo. A sequência exibida por um replay em slow motion é exibida com lentidão em relação à taxa de gravação do evento original[45]. Os autores realizavam a detecção diretamente no padrão MPEG, considerando as informações dos macroblocks cada quadro é divido em blocos de tamanhos quadrados xos de 16x16, 8x8 ou 4x4, a quantidade de bits utilizados na codicação de um quadro e as informações do ow vectors vetores com estimativa de movimento dos pixels em relação aos quadros anteriores fornecidas pela codicação, o que permitia distinguir a ocorrência de quadros repetidos na sequência e detectar os replays em slow-motion. Posteriormente, [46] aprimoraram a classicação de vídeos de esporte explorando a identicação de padrões de texto in-formações do esporte são exibidas durante a transmissão, bem característicos em vídeos

(27)

esportivos.

Já Babaguchi et al. [9] procuram associar as tomadas de replay com os segmentos ao vivo de um vídeo utilizando cor predominante procurando similaridade entre os quadros do replay com os anteriores. Um vídeo de transmissão é dividido principalmente em cenas ao vivo e cenas de replay. Para tanto, são considerados dois padrões de exibição de replays: uma sequência de vídeo com o texto REPLAY exibido durante o replay; e o uso de efeitos de vídeo nas transições entre os segmentos ao vivo e os de replay, conhecidos como DVEs (Digital Vídeo Eects) em que, muitas vezes, utilizam algum padrão de wipe. A Figura 2.7 ilustra a ocorrência de um replay entre DVEs, caracterizada pela exibição do par DVE-IN e DVE-OUT.

Figura 2.7: Utilização de DVEs entre segmentos de replay em um vídeo [9]. Pan et al. [65] também consideraram a ocorrência de DVEs entre um segmento de replay em slow-motion, aprimorando o trabalho de Kobla et al. [46] e produzindo como resultado um sumário do vídeo baseado em uma coletânea de replays em slow-motion. Entretanto, os autores também utilizam análise de histograma para diferenciar dos seg-mentos em slow-motion que podem ocorrem em comerciais. Posteriormente, Pan et al. [66] utilizaram a detecção de replays de [65] para encontrar Logo Transitions, um tipo es-pecial de DVE em que uma imagem de logo de um canal de televisão, de uma competição ou de um programa esportivo é utilizada no efeito de transição. Até hoje, Logo Transitions continuam sendo utilizadas em transmissões esportivas na Europa e nos Estados Unidos. Wang et al. [89] propõem um modelo em que o vídeo é dividido em duas partes: a parte visual, de vídeo (imagens) e a parte de áudio. Cada segmento passa pelos processos de extração de características e classicação utilizando Support Vector Machine SVM, que no nal são agrupadas novamente. A classicação SVM é utilizada para associar aos segmentos de vídeo e áudio em um conjunto xo de classes. Nos segmentos de vídeo, a classicação associa cada segmento a ângulos de visão da câmera, replay e se há registro da torcida. No segmento de áudio, a classicação é realizada identicando as classes de áudio: entusiasmo, discurso do comentarista, apito e silêncio. Ao nal, uma nova classicação utilizando Hidden Markov Model HMM é realizada para denir a ocorrência de um evento.

Deve-se observar que, para a maioria das modalidades esportivas em que a transmissão do evento é local considerando uma determinada região geopolítica ou um país, existem dois padrões de transmissão de replays. A maior parte dos países utiliza o modelo de transmissão americano e/ou europeu, em que os segmentos de replays são exibidos em sequência entre DVEs contendo uma logomarca (Logo Transitions). Entretanto, o Brasil adotou uma dinâmica diferente e os segmentos de replays não são destacados e nem exibidos entre logos. Em geral, replays são apresentados sem a utilização de DVEs, e

(28)

muito raramente em slow-motion, cabendo ao espectador identicar se o segmento trata-se de um replay ou não.

2.2.2 Sumarização baseada em eventos

A sumarização de vídeos parte dos trabalhos apresentados na seção anterior, uma vez que o vídeo produzido com a coletânea dos eventos detectados já servia como um sumário do vídeo esportivo. Babaguchi et al. [10] denominaram o sumário do vídeo como video abstract, e propuseram um mapeamento da dinâmica de transmissão para identicar a ocorrência de um evento a partir da ligação, apontada na subseção anterior, que envolve segmentos de replay com os segmentos ao vivo do jogo. A vericação da detecção do evento faz uso de estatísticas extraídas de páginas especializadas em esportes, comparando com os eventos selecionados.

Resumidamente, a sumarização de vídeos baseada em eventos pode ser dividida em dois grupos: aqueles que utilizam conhecimento de domínio e aqueles que consideram a dinâmica televisiva.

Vídeos de esporte são considerados vídeos baseados em regras [42] (ruled-based videos), e as tomadas de vídeo podem ser agrupadas em tomadas de sequências de jogo e paradas de jogo [51, 92]. Quando se conhece a modalidade esportiva, pode-se denir uma semântica de como essas paradas de jogo ocorrem. Como exemplo, em um jogo de tênis, sequências de jogo são sempre acompanhadas por silêncio dos torcedores. Já dinâmica está associada a um padrão na transmissão da modalidade esportiva, ou seja, utilização de replays, padrão de transições, duração e ângulo de visão das tomadas.

Considerando o conhecimento de domínio, Li and Sezan [51] modelam um vídeo de difusão esportivo como um conjunto de sequências de jogo (play sequences ou plesmente play) intercaladas entre sequências de não-jogo (non-play sequences ou sim-plesmente non-play). O que os autores chamam de sequência, este trabalho dene como segmento de vídeo. Logo, Plays estão associadas a um segmento em que alguma ação importante do jogo está em andamento e non-plays a qualquer outro segmento. Time-constrained sports possuem a característica de segmentos de plays e non-plays. Do ponto de vista do espectador, o interesse estaria associado os segmentos de jogo e não aos breaks. Os autores deniram o início de um play considerando um padrão especíco para tomadas de vídeo de beisebol, futebol americano e sumô. Em [52], os autores parametrizaram o conhecimento de domínio para um sistema baseado em regras, que especica o padrão de tomadas, as características visuais, a ocorrência de replays e a classicação do sinal de áudio, introduzido por Rui et al. [74] para vídeos de esporte televisivos. Em [53, 54], os autores estenderam esse modelo para jogos de futebol, explorando a ocorrência de replays e padrões de enquadramento da câmera close-ups, em que utiliza-se uma aproximação da câmera para o objeto da cena. A Figura 2.8 apresenta a arquitetura nal do framework apresentado por Li et al. [53].

Note que o framework da Figura 2.8 considera a realização de três detecções: detecção de segmentos de replay e detecção de close-ups, utilizando apenas informações visuais; e a detecção de pontos de euforia do locutor apenas com informações de áudio. Essas três de-tecções utilizam o conceito de conhecimento de domínio associado à modalidade esportiva

(29)

Figura 2.8: Algoritmo para detecção de eventos apresentado por Li et al. [53, 54]. do vídeo analisado. Coldefy and Bouthemy [16] também apresentaram uma sumarização considerando informações de áudio e vídeo para futebol. Entretanto, a detecção de euforia é baseada em Pitch detection, enquanto a análise de vídeo considera apenas a detecção de cor predominante no modelo RGB.

Assfalg et al. [7] identicaram eventos automaticamente utilizando Hidden Markov Model (HMM) com o objetivo de realizar anotação semântica nos eventos de jogos de fute-bol. Utilizando o mesmo conceito de (play e break sequences), Xie et al. [92] e Xie et al. [93] deniram um grupo de regras de domínio para jogos de futebol, analisados por meio de um conjunto de HMMs, cuja classicação entre plays e breaks é realizada por meio de um algoritmo de programação dinâmica. Tanto [51] quanto [92] utilizaram HMM para clas-sicar plays baseado em características visuais ou informações de movimentos do padrão MPEG [93]. A quantidade de movimento dos pixels na codicação do MPEG é maior para segmentos de sequência de jogo do que segmentos de parada de jogo, já que replays são utilizados. os autores propuseram a extração de diversas características visuais base-adas principalmente no ângulo de visão da câmera, no posicionamento dos jogadores, e no movimento da bola em campo.

Semelhantemente, Xu et al. [96] apresentaram um framework de análise semântica, baseado em multiníveis de HMM, para detecção de eventos em vídeos de esportes te-levisivos, mais especicamente para basquete e voleibol. O framework é ilustrado pela Figura 2.9.

Nesse caso, a análise semântica é realizada de baixo para cima (bottom-up). A primeira camada gera as hipóteses sobre quais seriam os eventos básicos a partir de características extraídas do vídeo características de baixo nível. As camadas superiores elevam o nível semântico dos eventos candidatos, agregando-os em novos candidatos. São adicionadas restrições semânticas de forma a realizar uma ltragem das características relevantes que devem ser consideradas. Cada camada superior avalia a semântica conforme a complexi-dade do evento da modalicomplexi-dade esportiva analisada. A última camada, composta apenas por um HMM, determina o reconhecimento nal do evento. O conhecimento de domínio foi utilizado para modelar os eventos para cada modalidade esportiva, denindo quais ca-racterísticas visuais deveriam ser extraídas e quais informações semânticas deveriam ser consideradas. A modelagem apresentada para eventos de basquete utilizou apenas duas camadas, enquanto para voleibol foram necessárias três camadas [96].

(30)

Figura 2.9: Framework baseado em HMM para detecção de eventos [96].

Kijak et al. [43] propõem um sistema de análise estrutural de vídeos de esportes utili-zando HMMs ilustrado na Figura 2.10. Os autores consideraram como conhecimento de domínio a estrutura de um jogo de tênis e que a ocorrência de replays faz parte do padrão televisivo para este tipo de vídeo.

Figura 2.10: Visão geral do sistema de análise estrutural de vídeos de esportes [43]. Após a detecção de transições entre tomadas é realizada a extração das características visuais por meio de um key-frame, denido a partir do início de cada tomada. A Fi-gura 2.11 apresenta o conceito da estrutura de um jogo de tênis denida no conhecimento de domínio da Figura 2.10. A análise estrutural considera quatro unidades básicas para o jogo de tênis: erro no primeiro serviço, ralis, breaks e replays. Cada unidade foi modelada por um HMM especíco, em que as características extraídas também são utilizadas em conjunto com o conhecimento de domínio para o treinamento dos HMMs.

Por m, o processo HMM Parsing é responsável por realizar a análise nal, consi-derando o modelo hierárquico ilustrado pela Figura 2.12. Note que os quatro níveis de HMMs estão conectados a um último HMM de nível semântico mais elevado, reetindo

(31)

Figura 2.11: Estrutura de um jogo de tênis [43]. na estrutura do jogo de tênis ilustrado pela Figura 2.11.

Figura 2.12: Hierarquia do conteúdo de vídeos televisivos de tênis [43].

A variedade de eventos existentes e as particularidades de cada modalidade dicultam a denição de um único modelo para detecção de eventos e sumarização de vídeos esportivos. Note que as duas principais classes de vídeos de esporte, elencadas por Kijak et al. [43] (time-constrained e score-constraine sports), já denem diferentes tipos de análises. As informações semânticas relacionadas a cada evento de cada modalidade é especicada no conhecimento de domínio dos trabalhos apresentados anteriormente. Além disso, princi-palmente para esportes do tipo time-constrained, podem ser adicionadas semânticas para o padrão de transmissão televisivo, denominado dinâmica televisiva. Rui et al. [74] consideraram o padrão de áudio em transmissões de beisebol, denindo um conjunto de

(32)

classes permitindo a classicação do áudio. A análise de áudio proposta procurava sincro-nizar a detecção de uma rebatida (baseball hit) com a detecção de entusiasmo na narração. A dinâmica televisiva, neste caso, não considerava características visuais, mas apenas a temporalidade em que esses eventos aconteciam no sinal de áudio.

Babaguchi et al. [9] perceberam que a dinâmica de transmissão possuía um padrão para a exibição de replays, em que DVEs Digital Video Eects eram utilizados antes e depois destes segmentos. Esta é a principal característica do padrão de transmissão europeu e americano para a maioria das modalidades esportivas. Em seu trabalho, os autores realizaram a detecção de replays em vídeos de futebol americano, e em [10] ex-pandiram a proposta para um sistema de sumarização de vídeos de esporte baseado em replays, incluindo a análise de padrões de informações textuais. Babaguchi and Nitta [8] acrescentaram ainda a análise de áudio em [10] para detectar highlights.

Ekin et al. [23] apresentam um sistema automático para sumarização de vídeos de futebol. Diferentemente das abordagens anteriores, os autores não utilizaram treinamento e deniram um sistema desenhado especicamente para o domínio de futebol. Em seu trabalho, o termo cinemática é utilizado para se referir ao que neste trabalho denominamos de dinâmica televisiva, ou simplesmente dinâmica. Ela está associada à ocorrência de replays e as transições entre tomadas cuja abertura de câmera segue determinado padrão. A abertura de câmera, denominada visão, será discutida com detalhes no Capítulo 4. A Figura 2.13 ilustra o uxograma do sistema proposto.

Figura 2.13: Sistema para detecção de eventos em futebol [23].

Os autores consideram a detecção da cor do gramado como o primeiro passo para os demais processos, principalmente para a detecção de tomadas. A partir daí, é realizada a classicação de tomadas conforme o ângulo de visão da câmera em quatro classes: close-up ou zoom, long view visão longa, medium view visão média e out of eld visão fora de campo. Paralelamente, é realizada a detecção de replays em slow-motion. Esses dois processos fornecem as principais informações sobre a dinâmica de transmissão para os eventos desejados.

Ekin et al. realizam ainda a detecção da grande área e, utilizando o padrão de trans-missão, denem a sumarização de ataques, pênaltis e chutes livres. A detecção do juiz é realizada utilizando as projeções verticais e horizontais dos pixels que representam a cor do juiz. Esse parâmetro deve ser introduzido para cada jogo, assim como os parâmetros para a visão média e de zoom. A detecção de replays em slow-motion e os tipos de visões entre as tomadas são a base para sumarizar os segmentos relacionados aos gols.

Tjondronegoro et al. [83] propuseram um modelo hierárquico utilizando o padrão de play, break e highlights scenes com análise de áudio e vídeo. É utilizada uma detecção

(33)

de apito para marcar highlights em jogos de futebol e natação, além de entusiamos do locutor para outros eventos e detecção de informações textuais. O modelo é ilustrado na Figura 2.14.

Figura 2.14: Modelo hierárquico para sumarização de vídeos de esporte baseado em play e break Tjondronegoro et al. [83].

Como conhecimento de domínio, os autores modelaram o vídeo como sequências de plays e breaks, intercalando highlights provenientes de replays (highlights colletions) ou de segmentos das demais sequências. Para o renamento dos segmentos, é considerado um padrão de transmissão televisivo para a análise de áudio, além do posicionamento adequado para a detecção de informações textuais, tais como substituição de jogado-res, placar, escalação (team line-up information) e texto informativo para natação, entre outras.

Tjondronegoro et al. [84] aprimoraram o trabalho anterior adicionando análise da di-nâmica televisiva, semelhante a apresentada por Ekin et al. [23], para vídeos de futebol americano. Para realizar a análise da dinâmica, foi necessário considerar a classica-ção das tomadas conforme o ângulo de visão das câmeras, nos seguintes grupos: global, zoom-in and close-up).

Utilizando o mesmo conceito de dinâmica em vídeos de futebol, Ye et al. [98] apre-sentaram um modelo para sumarização a partir da detecção de gol e cobrança de faltas. Propuseram uma análise de vídeo que inclui a detecção de movimentos de câmera e uma classicação das tomadas conforme cinco tipos de visões: visão do gol, visão do meio de campo, visão do escanteio (corner), visão de zoom ou close-up de um jogador e visão fora do gramado. A classicação é realizada por meio de um classicador SVM, em que as características visuais de cada tipo de visão por exemplo, a linha do meio do campo, as linhas de escanteio. são extraídas para identicar cada padrão de visão.

Eldib et al. [24] apresentaram um sistema de sumarização de vídeos de futebol baseado na detecção de replays e logo transitions. De forma semelhante a Ekin et al. [23], os autores utilizam a detecção de cor predominante para realizar a detecção de tomadas. Estas, por sua vez, são classicadas como global, média, zoom e torcida. A detecção da alteração textual do placar nos quadros do vídeo também é considerada para auxiliar na detecção de gols, faltas e ataques. Zawbaa et al. [101] também utilizaram a detecção de replays e de alterações no placar para sumarizar vídeos de futebol.

(34)

Tavassolipour et al. [81] utilizam uma Rede Bayesiana e funções Cópulas 1 _{para a}

detecção de eventos e sumarização de vídeos de futebol. A detecção de tomadas é realizada por um classicador SVM ao mesmo tempo que se realiza a detecção de replays (padrão de replays entre logos). Cada tomada é classicada conforme o tipo de visão para cada sequência em uma das quatro classes: visão longa, visão média, close-up ou fora de campo. Com as informações da visão e dos replays, um modelo HMM é utilizado para denir os seguimentos relacionados a play e break. Os conceitos semânticos são, então, obtidos por meio da extração de características visuais, tais como: a área de pênalti, o goleiro e os textos grácos. Um vetor de características semânticas é utilizado para a classicação dos segmentos por meio de uma Rede Bayesiana. O processo de sumarização é realizado utilizando um algoritmo de programação dinâmica como uma redução do problema de otimização da mochila binária (0-1 knapsack problem).

Jai-Andaloussi et al. [37] propuseram um sistema de sumarização de vídeos de futebol combinando análise de áudio, vídeo e de dados minerados de redes sociais. Os autores extraíram informações visuais do vídeo para determinar segmentos candidatos, associados com a detecção de pontos de entusiasmo do locutor no sinal de áudio. Esses trechos foram então combinados com a análise do uxo de redes sociais sequência de postagens em redes sociais, em que se identicou-se um aumento no número de postagens próximo de eventos relevantes. Foram considerados os seguintes eventos: gol, pênaltis, cartões, escanteio e cobrança de falta.

Nguyen and Yoshitaka [64] propuseram um sistema de sumarização de vídeos de fute-bol considerando o uxo de uma partida: cenas de competição intensiva, eventos especí-cos e momentos de emoção de jogadores ou da torcida. O sistema considera a dinâmica televisiva , semelhante à proposta por Ekin et al. [23], i.e., baseada em replays e visões de câmera. A dinâmica foi denida como um padrão de transições de visões e ocorrência de replays, iniciando a segmentação de um evento por um up. Em segmentos de close-up, é aplicado um algoritmo de rastreamento de jogadores para analisar os movimentos e denir o grau de emoção do segmento. O sistema foi submetido para a avaliação de usuários que, em sua maioria, consideraram o resumo bom ou muito bom.

Kapela et al. [41] apresentaram um classicador de eventos para vídeos de esporte televisivos considerando o entusiasmo do locutor no áudio e a dinâmica da utilização de ângulos de visão da câmera. Os autores utilizaram como classicadores uma árvore de decisão e duas redes neurais feed-forward e Elman. Foram detectados eventos em jogos de críquete, basquete, futebol, hóquei e rugby.

Kolekar and Sengupta [47] utilizaram redes Bayesianas probabilísticas para sumarizar vídeos de futebol, em que propuseram o uso de um conjunto de características áudio-visuais para detectar replays entre logos, cartões, jogadores e o árbitro. Os autores consi-deram como highlights a sequência de um conjunto de eventos de entusiasmo, de acordo com a dinâmica televisiva internacional, denindo o conceito de geração de highlight para jogos de futebol.

Raventós et al. [72] deniram um modelo de sumarização para jogos de futebol base-ado em descritores áudio-visuais extraídos do padrão MPEG-7. Os eventos são classica-dos utilizando a detecção de replays entre logos, close-ups, faces e do apito. Os autores

(35)

também consideram o uso de key-frames para a extração de características visuais. Ape-sar de considerar a dinâmica televisiva internacional, a classicação dos eventos considera somente aqueles que foram pré-denidos de acordo com o peso para cada característica audiovisual proposta.

Jiang et al. [39] apresentaram um sistema para sumarização de vídeos de futebol explo-rando técnicas Convolution Neural Network (CNN) e Recurrent Neural Network (RNN). A detecção de tomadas classica os segmentos em play e break. Na sequência, é realizada a seleção de key-frames que são utilizados para a extração das características semânticas por meio de uma CNN treinada. Finalmente, é utilizada uma RNN para mapear os re-cursos semânticos dos segmentos de play e break para os eventos típicos do futebol, tais como gol, chutes ao gol, cartões e escanteio.

Javed et al. [38] propuseram um framework para a sumarização de eventos para vídeos de críquete, basebol, basquete e tênis. O framework é baseado na detecção de transições graduais e do placar. Os autores consideraram a dinâmica televisiva de que replays entre logo utilizam transições graduais, e que a o placar não é exibido durante um segmento de replay. O resultado é uma coletânea de segmentos de replays do jogo.

Embora a maioria dos artigos realizam a sumarização a partir do vídeo de um jogo, Godi et al. [29] propuseram a detecção de eventos utilizando como base o vídeo da tor-cida. A proposta é detectar a ocorrência de eventos diretamente do comportamento dos torcedores, o que reforça a ideia de que o evento é realmente importante. A partir de um vídeo de monitoramento (câmera xa) dos torcedores, os autores utilizaram uma rede neural convolucional 3D (3D-CNN) para identicar as alterações comportamentais du-rante uma partida, identicando os seguimentos relacionados a um evento. Os eventos foram identicados em jogos de futebol do campeonato italiano.

A maior parte dos frameworks e arquiteturas apresentados até aqui fazem uso de algoritmos com treinamento utilizando aprendizado de máquina para diferentes tipos de eventos, e consideram modelar o vídeo em sequência de play e breaks. Algumas dinâmicas televisivas são consideradas principalmente com a utilização de replays (em slow-motions ou entre logos) e, quando possível, entusiasmo do locutor no sinal de áudio ou a detecção do apito do árbitro. A Tabela 2.2 sintetiza os principais frameworks apresentados nesta seção para sumarização baseada em eventos.

A parametrização dos frameworks ainda está muito associada ao algoritmo, e alguns casos exigem parâmetros para cada vídeo. Mas o que se pôde observar é que poucas propostas consideram o uso de key-frame para a extração de características visuais, e que os níveis semânticos estão muito enraizados numa estrutura denida para os even-tos. Tank [80] e Thomas et al. [82] apresentam outros algoritmos semelhantes, enquanto Khan and Pawar [42] elencam outros direcionadas especicamente para jogos de futebol.

Sumarização automática de vídeos de futebol baseada em ritmo visual

Nielsen Cassiano Simões

Sumarização Automática de Vídeos de Futebol Baseada

em Ritmo Visual

CAMPINAS

2018

Sumarização Automática de Vídeos de Futebol Baseada em

Ritmo Visual

CAMPINAS

2018

Nielsen Cassiano Simões

Sumarização Automática de Vídeos de Futebol Baseada em

Ritmo Visual

Capítulo 1

Introdução

Capítulo 2

Fundamentos e Trabalhos Relacionados

2.1 Fundamentos da análise de vídeo digital

2.1.1 Métricas de dissimilaridade

2.1.2 Ritmo Visual

τ

τ

τ

τ

τ

τ

τ

2.2 Detecção de eventos em vídeos de esportes

2.2.1 Detecção de replays e eventos especícos

2.2.2 Sumarização baseada em eventos

2.2.1 Detecção de replays e eventos especícos