• Nenhum resultado encontrado

4.2 Seleção de tomadas de jogos de futebol

4.2.3 Extração de características

Nesta etapa, as imagens IM V R e IM RV R são utilizadas como base para a determinação de

características associadas à ocorrência do gramado no segmento em análise. Dessa forma, este trabalho propõe quatro classes de ocorrência do gramado em um segmento de vídeo de futebol:

Classe A: segmentos que possuem uma grande quantidade de pixels relativos ao gra- mado. Em geral, correspondem à visão longa e visão média. Na imagem IM V R,

o gramado preenche grande proporção da imagem, enquanto na imagem IM RV R, a

representatividade da ocorrência do gramado deve ser alta.

Classe B: segmentos com média quantidade de pixels relativos ao gramado. Na maioria das vezes, associadas à visão média  a partir de câmeras laterais  e zoons Na ima- gem IM V R, o gramado preenche uma proporção intermediária da imagem, enquanto

na imagem IM RV R, a representatividade da ocorrência do gramado deve ser alta.

Classe C: segmentos cujo número de pixels relativos ao gramado é baixo. Representam, principalmente, zoons e visões externas. Na imagem IM V R, o gramado preenche

baixa proporção da imagem, enquanto na imagem IM RV R, não há grande represen-

tatividade do gramado.

Classe D: segmentos sem informação signicativa, tais como falhas de transmissão. Na imagem IM V R, não há presença do gramado, enquanto na imagem IM RV R, a repre-

sentatividade da cor predominante é alta, mas não associada ao gramado.

A Figura 4.9 ilustra as visões relacionadas a cada uma dessas classes. Nos segmentos de um jogo de futebol, raramente é utilizado zoom-in ou zoom-out que podem alterar o tipo de visão predominante. Isso se deve ao fato de serem utilizadas múltiplas câmeras, optando-se pela troca para alguma outra câmera com outra conguração de visão, durante a transmissão ao vivo.

Uma partida inicia-se sempre com um segmento da Classe A (geralmente visão longa). Tomadas da Classe B são utilizadas para realçar ações de jogadores (assistências, jogadas, dribles, etc.), caracterizadas pela visão média ou zoom dentro do gramado. Já a Classe C constitui-se quase que exclusivamente por câmeras laterais, em que raramente se observa o gramado do jogo. A Classe D é utilizada quando nenhuma informação relevante estiver presente, sendo então desprezada pelo processo de Seleção de Segmentos, discutido mais adiante.

Para permitir essa classicação, é necessário extrair certas características presentes nas imagens IM V R e IM RV R do segmento em análise. A Figura 4.10 ilustra a relação entre as

visões e as imagens representativas de cada um dos seis segmentos na gura. Observe que há alteração signicativa na imagem IM RV Rem momentos que o gramado é predominante

na imagem IM V R.

A primeira característica é a área total A da imagem IM V R (A = HM V R × WM V R).

Por meio do conjunto de pixels que representa o gramado, podemos calcular o quanto o gramado é a cor predominante no segmento, denindo a característica P C (Denição 4.3)

a)

c)

b)

d)

Figura 4.9: Exemplo de quadros com diferentes ângulos de visão: a) classe A, com forte presença do gramado; b) classe B, com presença do gramado mediana; c) classe C, com baixa ou nenhuma ocorrência do gramado e d) classe D, relativa às tomadas de falhas de transmissão.

como um conjunto de pixels. Por meio da imagem IM RV R obtém-se um segundo conjunto

de pixels para aqueles que são representativos (Denição 4.4). Um pixel é considerado representativo se seu valor for maior ou igual a 50, o que signica que a moda esta presente em pelo menos 50% da linha.

Denição 4.3 (PC  Pixels MVR do gramado): Seja (x, y) as coordenadas x e y de um pixel da imagem IM V R, cujo valor IM V R(x, y) representa a cor do

pixel (x, y) na imagem. O conjunto PC é o conjunto de todos os pixels cuja cor é igual ao gramado, da forma:

PC = {(x, y) | ∀x,∀y, IM V R(x, y) = P IT CHCOLOR} ,

em que 0 ≤ x < WM V R, 0 ≤ y < HM V R, e P IT CHCOLOR representa a cor

associada ao gramado no processo de redução de cor da Seção 4.2.1.

Denição 4.4 (RA  Pixels representativos): Seja (x, y) as coordenadas x e y de um pixel da imagem IM RV R, cujo valor IM RV R(x, y) representa a cor do

pixel (x, y) na imagem. O conjunto RA é o conjunto de todos os pixels cuja cor é maior ou igual a 50, da forma:

RA = {(x, y) | ∀x,∀y, IM RV R(x, y)≥ 50} ,

em que 0 ≤ x < WM RV R, 0≤ y < HM RV R, HM RV R e WM RV R, respectivamente, a

altura e a largura da imagem IM RV R.

Com base nessas três características principais, pode-se agora obter o valor de uma quarta característica, o P CP , relativo à porcentagem da área da imagem IM V R que é

representada pela cor do gramado (Denição 4.5). Além disso, é necessário saber qual a porcentagem dos pixels relativos ao gramado que são representativos (Denição 4.5), calculando P RA, a quinta característica do segmento. Isso determinará quando o gramado é predominante e representativo em um segmento. A sexta e última característica é o valor de P NR, que é a porcentagem de pixels representativos que não possuem a cor do gramado (Denição 4.7).

Denição 4.5 (P CP  Porcentagem da área relativa ao gramado): Dados A e PC de uma imagem IM V R, a porcentagem da área total relativa ao gramado,

Denição 4.6 (P RA  Porcentagem de gramado representativo): Dados A, PC de uma imagem IM V R e RA da imagem IM RV R de um mesmo segmento, a

porcentagem de pixels relativos ao gramado que são representativos é dada por: P RA = |PC∩RA|A .

Denição 4.7 (P NR  Pixels representativos cuja cor não é a do gra- mado): Dados A, PC de uma imagem IM V R e RA da imagem IM RV R de um

mesmo segmento, a quantidade de pixels representativos cuja cor é diferente do gramado é dada por: P NR = |PC∩RA|

A =

|RA−PC∩RA|

A .

De posse dessas características, torna-se possível realizar a anotação semântica para o segmento. É importante notar que o tempo total do segmento analisado também repre- senta uma característica interessante, já que segmentos extremamente curtos devem ser descartados neste processo de seleção de tomadas.

4.2.4 Anotação semântica

Utilizando as características extraídas por meio das imagens representativas, pode-se agora classicar um segmento quanto à quantidade de gramado. Para isso, analisou- se o comportamento da câmera para cada classe considerada na análise da extração de características.

A Classe A dene um segmento em que, na maioria dos quadros, há uma quantidade alta de linhas em que a cor do gramado é predominante. Observe pela Figura 4.9a que há uma boa representatividade do gramado para a maioria das linhas dos quadros. Logo, é esperado que a imagem IM V R forneça o conjunto PC com cardinalidade alta, sendo

a maioria dos pixels de alta representatividade (acima de 50% dos valores da linha). A Classe B deve ter uma representatividade menor (Figura 4.9b), já que os objetos internos ocupam uma área bem maior que anteriormente. Espera-se, no entanto, que a Classe C forneça poucos elementos no conjunto PC, já que o ângulo da câmera contribui para registrar elementos fora do gramado, como pode ser observado pela Figura 4.9c. Eventualmente poderão ocorrer falhas de transmissão durante um certo período, com imagens escuras, com faixas de cores, ou faixas preto e branco (Figura 4.9d), exibidas no segmento. Nesse caso, a cor com alta representatividade não estará relacionada ao gramado, caracterizando segmentos da Classe D. Para realizar a anotação semântica com base no gramado, é necessário denir dois limiares T1 e T2, sendo T1 > T2, utilizados

como se segue:

Classe A: se P CP ≥ T1 e P RA ≥ T1;

Classe B: se T1 > P CP ≥ T2 e P RA < T1, ou se P CP ≥ T1 e P RA < T1;

Classe C: se P CP < T2 e P NR < T 1, ou se T1 > P CP ≥ T2 e P NR < T1;

Classe A PR A ≥ T1 P CP ≥T1 Classe B PR A < T1 T1> P CP ≥ T2 Classe C PN R< T1 Classe D P N R ≥ T 1 P CP < T 2 P RA < T 1 P N R < T 1

Figura 4.11: Diagrama para anotação semântica da classe relativa à quantidade de gra- mado da imagem IM V R. As setas tracejadas representam situações eventuais de conclusão

fraca.

A Figura 4.11 ilustra o diagrama para essa anotação semântica quanto à quantidade de gramado presente na imagem IM V R. As setas tracejadas representam situações eventuais,

muito raras de serem observadas, de conclusão fraca, e que são avaliadas após se avaliar as setas contínuas. Por exemplo, se uma determinada imagem possui um valor alto de pixels que representam o gramado, e um valor não muito alto destes pixels que são representativos, então boa parte da imagem está ocupada por algum objeto que não possui uma cor uniforme, provocando um histograma por linha com frequências distribuídas. Dessa forma, o segmento será classicado como Classe B, já que há objetos no interior da imagem mas ainda é possível perceber o gramado como predominante.

Após essa classicação, cada segmento será anotado com os seguintes metadados: Tamanho do segmento: A largura da imagem IM V R;

Classe do gramado: Uma das quatro classes denidas.

A próxima etapa fará a seleção dos segmentos interessantes para o resumo, identi- cando aqueles que devem ser descartados.

4.2.5 Seleção de segmentos

De acordo com a semântica de um jogo de futebol televisivo, um segmento de interesse do expectador deve ter duração suciente para sua percepção. Dessa forma, verica-se se o tamanho do segmento é inferior a um limiar T3 predenido. Além disso, deve-se também

excluir os segmentos cuja anotação semântica foi a Classe D.

Resumidamente, apenas os segmentos cujo valor WM V R ≤ T3 ou a classicação do

gramado for diferente da Classe D é que são descartados nesta etapa.

Considerando a parametrização apresentada na Tabela 4.1, pode-se destacar os se- guintes parâmetros de conguração do Perl de domínio A para o processo de seleção de tomadas:

• Processo de redução de cor especíco para determinar a cor do gramado;

• Utilização de imagens representativas cujas funções de transformação são especícas para vídeos de futebol;

• Denição de quatro classes de tomadas para avaliação da quantidade de gramado por meio das imagens de ritmo visual;

• Denição dos parâmetros T1 e T2 relativos à presença de gramado nas imagens

representativas, e T3 relativo ao tamanho do segmento em análise.

4.3 Extração de key-frames

Geralmente, a análise automática de vídeos leva em consideração o princípio de quadro- chave  key-frame, um quadro do segmento de vídeo escolhido estrategicamente para representar todo o conteúdo do segmento. O uso de key-frames pode tanto representar o conteúdo do vídeo para os processos de compactação, indexação e/ou recuperação por conteúdo, quanto para reduzir os dados a serem analisados. Essa redução está associada à similaridade entre os quadros de um segmento. Em se tratando de vídeos esportivos, normalmente têm-se grande similaridade entre os quadros quando a atividade esportiva é realizada em um ambiente controlado, como por exemplo, ginásios, estádios, piscinas ou quadras poliesportivas.

No processo de análise semântica de vídeos, diversos trabalhos consideram a utilização key-frames em diferentes aspectos, tais como visualização [6, 48, 85, 106] e recuperação de segmentos de vídeo [55, 79, 67]. Ueda et al. [86] e Zhang et al. [102] especicaram o uso de um quadro de posição predenida em cada tomada, sem qualquer tipo de análise secundária. Já outros trabalhos [15, 22, 99, 94] preferiram utilizar características de similaridade entre os quadros para que o key-frame seja o mais similar entre todos os quadros do segmento. Por outro lado, Dirfaux [20] e Wolf [90] procuraram explorar variações de movimento por meio dos metadados do padrão MPEG de forma a identicar o quado mais semelhante do segmento.

A seleção de key-frames é uma etapa fundamental para este trabalho, pois é um dos diferenciais em relação aos demais frameworks analisados no Capítulo 3. O objetivo aqui é reduzir a quantidade de dados necessária para determinar um conjunto de características capaz de identicar a dinâmica de transmissão do vídeo. Devido a alta similaridade entre os quadros de um segmento e a natureza do vídeo de futebol, optou-se então por aplicar a técnica de um key-frame preestabelecido, i.e., extraídos de uma posição xa ou posição relativa a um percentual xo em relação ao tamanho do segmento. Entretanto, essa escolha está associada ao resultado da anotação semântica da Seção 4.2.4, sendo assim denida:

Classse A: Para segmentos cujo tamanho é inferior a um limiar T4 é escolhido

apenas um key-frame na posição relativa a 10% do tamanho do segmento. Se o segmento for maior ou igual a T4, então é escolhido mais um key-frame na posição

relativa a 90% do tamanho do segmento.

Classes B e C: Apenas um key-frame na posição relativa a 10% é escolhido para representar o segmento.

As porcentagens de 10% e 90% foram denidas empiricamente, como apresentado em Simões et al. [77]. A escolha de dois key-frames para segmentos anotados na Classe A é

devida ao fato de que segmentos longos podem ter variações entre a parte inicial (10%) e a parte nal (90%). É por este motivo que o limiar T4 foi denido, sendo responsável pela

adequação desse modelo de key-frames pré-denidos. O processo de Análise intra-frame da Seção 4.4 denirá como cada um desses key-frames será utilizado.

Considerando a parametrização apresentada na Tabela 4.1, destaca-se os seguintes parâmetros de conguração do Perl de domínio B para o processo de extração de key-frames:

• Denição do parâmetro T4, relativo ao tamanho mínimo para um segmento ser

considerado longo;

• Regras para a extração dos key-frames, denidas como posições relativas a 10% e 90% do tamanho do segmento.

4.4 Análise intra-frame

A análise intra-frame promove a extração de características visuais dos key-frames obtidos pelo processo anterior, que serão base para o processo de classicação semântica. Para jogos de futebol televisivos, a correta classicação do tipo de visão utilizada na transmissão permitirá, a partir do padrão da dinâmica de câmeras, identicar a ocorrência de eventos relevantes.

Pode-se dizer que esta etapa está associada à extração de características lower-level, que normalmente ocorrem quadro a quadro. Gong et al. [30] realiza identicação de elementos do campo de futebol, como a área do gol, cantos (corners) e o círculo central, com o objetivo de identicar atividades especícas do jogo, semelhante às características extraídas por Ekin et al. [23]. Já Andrade et al. [5] realiza a identicação e classicação de jogadores baseado na identicação de seus números no uniforme. Outros trabalhos, como [20, 23] realizam a análise de cor predominante na imagem, enquanto Babaguchi and Nitta [8] busca extrair informações sobre o placar do jogo.

Para este trabalho, as características importantes que devem ser identicadas nos key- frames estão diretamente associadas ao foco do observador na abordagem de abertura de câmera utilizada. A dinâmica de câmeras para jogos de futebol concentra os eventos interessantes entre tomadas de visão longa (Figura 4.1a). Quando eventos acontecem, a dinâmica procura exibir tomadas com um maior nível de detalhes (Figuras 4.1 b, c e d) de forma a enfatizar para o observador a ocorrência do evento. Por essa razão, procura-se diferencias as tomadas que são de visão longa das que não são, auxiliando a identicação de segmentos que possam descrever eventos em jogos de futebol televisivos.

São extraídas quatro características para uso processo de Classicação de Tomadas, procurando descrever elementos fundamentais presentes nos key-frames . As quatro ca- racterísticas são:

Característica ΦA: Proporção entre altura e largura do MBR1 da área do gramado

presente na imagem;

1MBR  Minimum Bounding Rectangle  menor retângulo imaginário que engloba completamente

Característica ΦB: Porcentagem de preenchimento do MBR relativo ao gramado;

Característica ΦC: Proporção entre a largura do maior componente conexo na área do

gramado em relação à largura da imagem;

Característica ΦD: Área preenchida do maior componente conexo em relação à área da

imagem.

Todos os key-frames extraídos na Seção 4.3 são utilizados após o processo de redução de cor denido na Seção 4.2.1. A análise intra-frame é executada considerando o resultado da anotação semântica obtida pelo processo de Seção 4.2. Para tomadas anotadas como Classe A e Classe B, considera-se os seguintes passos:

1. Binarização em relação a área relacionada ao gramado; 2. Pré-processamento com ltros morfológicos;

3. Determinação da área do gramado;

4. Extração de características relacionada com a área do gramado; 5. Filtragem morfológica vertical;

6. Identicação do maior componente conexo interno à região do gramado;

7. Extração de características dos componentes conexos internos à área do gramado. O Passo 1 realiza uma binarização simples  atribuindo 0 aos pixels em que não há gramado e 1 quando há  para realçar apenas a área cuja cor atribuída pela redução de cor representa o gramado. O Passo 2 busca reduzir possíveis ruídos suavizando a imagem com a aplicação de dois ltros morfológicos, dependendo da classicação obtida. Toma- das da Classe A devem possuir key-frames com uma maior área relacionada ao gramado. Dessa forma, realiza-se o procedimento de Abertura Morfológica [31] com elemento estruturante 15 × 15 seguida de um Fechamento Morfológico [31] com elemento es- truturante 9 × 9. Caso contrário (Classe B), é aplicado o procedimento de Fechamento Morfológico seguido de uma Abertura Morfológica, com elemento estruturante 9 × 9 nos dois casos. O Passo 3 encontra o Minimum Bounding Rectangle (MBR) que engloba a área do gramado, permitindo a extração das características ΦA e ΦB no Passo 4.

Após analisar as informações globais relacionadas ao gramado, o que engloba a grande maioria dos casos de visão longa como já apresentado, é necessário vericar os casos em que a região do gramado não é predominantemente uniforme na imagem. Isso pode ocorrer principalmente para imagens registradas próximas das laterais, dos escanteios e dos gols. Neste caso, pode-se avaliar como os objetos internos à região do gramado são apresentados. O Passo 5 realiza uma ltragem para eliminar pequenos objetos utilizando um Fechamento Morfológico vertical com elemento estruturante 9 × 1. Na sequência, o Passo 6 identica o maior componente conexo interno à região do gramado, permitindo extrair as características ΦC e ΦD no Passo 7.

Já para key-frames das tomadas classicadas na Classe C, como é esperado que a região do gramado seja baixa ou praticamente inexistente, nenhum processo é executado e as características ΦA, ΦB, ΦC e ΦD são denidas como zero.

Considerando a parametrização apresentada na Tabela 4.1, deve-se destacar os se- guintes parâmetros de conguração do Perl de domínio C para o processo de análise intra-frame:

• Especicação das características ΦA, ΦB, ΦC e ΦD, que permitem determinar se

uma tomada é de visão longa;

• Métodos e técnicas de processamento de imagens envolvidas para a aquisição de descritores da imagem.

4.5 Classicação de Semântica

O processo de classicação de tomadas é responsável por denir quais são as tomadas que representam visão longa e quais não são. Para realizar esta classicação, é necessário considerar atributos obtidos em processos anteriores, previstos no framework apresentado no Capítulo 3. Do processo de Seleção de Tomadas (Seção 4.2), é importante que as informações de Comprimento (número de quadros) da tomada e sua Classe estejam disponíveis. As demais informações necessárias são provenientes da etapa anterior, Análise Intra-frame (Seção 4.4).

O processo de classicação considera um conjunto de Fatos e Regras que serão apli- cados para especicar se uma determinada tomada representa um segmento de visão longa ou outro tipo de visão. Os fatos apresentam as variáveis e seus valores esperados, enquanto as regras denem como computar um resultado para os diferentes valores esperados de cada variável. O resultado nal denirá se uma tomada representa um segmento de visão longa ou não. Esse conjunto forma a base de conhecimento do sistema de classicação de tomadas.

Fatos

Comprimento da Tomada (A): poderá assumir o valor LONGO ou CURTO. Característica B (B): poderá assumir o valor ALTO ou BAIXO. Proveniente da ex-

tração da característica ΦB relacionada à porcentagem da área preenchida relativa

ao gramado (Equação 4.2).

Característica C (C): poderá assumir o valor ALTO ou BAIXO. Proveniente da ex- tração da característica ΦC relacionada à propoção da largura do maior componente

conexo em relação à largura da imagem (Equação 4.3).

Característica D (D): poderá assumir o valor ALTO ou BAIXO. Proveniente da ex- tração da característica ΦD relacionada à proporção da área do maior componente

Regras

Dizemos que uma tomada representa uma Visão Longa quando o gramado estiver presente na maior parte do key-frame. Espera-se também que a duração dessas tomadas seja longa, já que a dinâmica de câmeras utilizada para este tipo de visão fornece informações gerais com menor nível de detalhes. Entretanto, nas imagens registradas cujas jogadas ocorrem nas bordas do campo de futebol, essa área do gramado poderá ser menor. Dessa forma, passa-se a análise dos componentes conexos presentes no interior da área de gramado que devem representar a área ocupada pelos jogadores. Como espera-se que essa área seja pequena, basta considerar a maior área cuja largura também seja pequena, uma vez que o jogador, em pé no campo, ocupa uma área na direção vertical (largura menor que altura).

Documentos relacionados