3.2 Características de Vídeo
3.2.2 Movimento de Câmera e Quadros Panorâmicos
As Figuras 3.10 e 3.11 mostram que equipes de produção de partidas de futebol em transmissões de TV sempre utilizam mais de uma posição da câmera, tais como as que estão no nível do campo a uma pequena distância, as que estão um pouco acima do nível do campo a uma média distância e as panorâmicas que ficam no nível mais alto que a infra-estrutura do estádio permite e, por consequência, distantes do campo de jogo.
Além disso, KOKARAM et al. [77] definem o futebol como um esporte MVS (Multiple View Semantics), onde somente uma posição de câmera não é capaz de cobrir toda ação do jogo, enquanto em esportes DSV (Dominant Semantic View), tais como tênis, uma posição de câmera é suficiente.
Figura 3.10: Exemplo de disposição das câmeras em uma partida de futebol. Câ- meras 1, 2, 8 e 12 são usadas para cenas panorâmicas, enquanto 3, 4, 9 e 10 para cenas de média distância e da audiência, e, por fim, 5, 6, 7 e 11 capturam imagens no nível do campo como close-ups. Ilustração baseada em OWENS [19].
Aliando estes dois fatos ao já descrito pela literatura na Seção 3.1, chega-se à conclusão que a partir da análise de movimentação de câmera e o tipo de tomada de câmera é possível obter informações relevantes sobre as características cinemáticas aplicadas pelas equipes de produção de transmissões esportivas.
Entretanto, vale ressaltar que esta característica está diretamente associada a forma como as equipes de produção realizam a transmissão da partida, tornando esta característica sensível a diferenças na produção de equipes de TV distintas. Apesar desta sensibilidade, nos dias de hoje as equipes de produção costumam trabalhar de forma bastante similar, essencialmente no uso da câmera panorâmica em momentos em que ações de perigo ocorrem ao vivo, o que é suficiente para tornar o uso desta característica interessante para o sistema.
Estimação do Movimento de Câmera
O algoritmo para estimação de movimento de câmera consiste em inferir o movi- mento global da imagem e seus objetos. Caso, por exemplo, o algoritmo aponte
Figura 3.11: Imagens de câmera panorâmica, close-up e da audiência são comuns em transmissões de futebol.
movimento global dos objetos para a direita, supõe-se que a câmera está se movi- mentando para a esquerda. Para isso, é comum utilizar cálculos de correlação entre quadros de vídeo subsequentes, que é uma forma mais ágil de realizar esta estimação comparada a algoritmos baseados em rastreamento de objetos, que são mais pesados computacionalmente.
Ao seguir esta linha, é formulada em PEARSON [78] a correlação por fase da seguinte maneira: ao considerar uma imagem I1 que sofre um movimento de trans-
lação representado por um vetor (vx, vy), pode-se estimar a imagem I2 subsequente
como
I2(x, y) = I1(x − vx, y− vy). (3.19)
Ao aplicar a transformada de Fourier em ambos os lados, tem-se
F2(m, n) = F1(m, n)e−πj(mvx+nvy), (3.20)
onde F representa a transformada de Fourier, enquanto m e n as frequências do espectro resultante da transformada (DINIZ et al. [24]).
A partir disso, pode-se chegar, então, à transformada de Fourier da correlação cruzada através de
F2(m, n) = F1F2∗ = F1F1∗e2πj(mvx+nvy). (3.21)
E, ao dividir a Equação (3.21) por F1F1∗ obtem-se
C(x, y) = δ(x − vx, y− vy), (3.22)
que será uma função de δ que representa o deslocamento entre as imagens I1 e I2.
Entretanto, para o caso prático de transmissões esportivas não ocorre um movimento de translação puro entre duas imagens, pois usualmente há outros objetos se mo- vendo simultaneamente, tais como jogadores, bola e audiência. Com isso, pode-se generalizar o cálculo de correlação cruzada para
C(x, y) = F−1 " F1F2∗ |F1F2∗| # , (3.23)
onde F1 e F2 são as transformadas de Fourier de quadros subsequentes enquanto
F−1 é a transformada inversa de Fourier.
Este cálculo é interessante por somente utilizar FFTs e operações multiplicati- vas, tornando-o mais rápido computacionalmente que as correlações temporais. A Equação (3.23) define o mapa de correlação 3D C(x, y) que foi exemplificado na Fi- gura 3.12, onde o maior pico representará o movimento dominante entre os quadros.
Figura 3.12: Mapa 3D de correlação por fase entre duas imagens. Fonte: PEARSON [78].
Além disso, pelo fato de outros objetos estarem se movendo em diferentes dire- ções entre os quadros, vê-se que é comum aparecerem outros picos que representem estes movimentos secundários. Porém, quanto menores forem as áreas cobertas por objetos, menores serão os picos resultantes. Isto nos leva a concluir que a amplitude do pico pode ser utilizada como uma medida de confiabilidade da estimativa do movimento dominante entre os quadros.
A Figura 3.13a exibe em destaque uma visão 2D do mapa C(x, y) resultante da Equação (3.23), de onde, a partir do ponto (0, 0), é possível quantificar, em número de pixels horizontais e verticais, o movimento global. Ao utilizar DFTs, um movimento para esquerda e para cima provoca picos próximos às bordas do mapa devido às repetições do espectro que aparecem em preto na figura.
(a)
(b)
Figura 3.13: Mapa 2D de correlação por fase (a) representado em vermelho divi- dido em quadrantes e suas repetições provenientes da FFT em preto. Inversão dos quadrantes (b). Mapa 3D de correlação por fase com quadrantes invertidos (c).
aplicada a inversão dos quadrantes ilustrada na Figura 3.13b, fazendo com o que a origem (0, 0) ficasse, assim, sempre no centro do mapa, como mostra a Figura 3.12. Em geral, como movimentos de um quadro para outro costumam ser pequenos, os picos dominantes se concentrarão no centro do mapa.
Transformação de Coordenadas
Definido o mapa 3D de correlação que indicará para onde a câmera está se movendo, é necessário extrair parâmetros que representem este movimento. Em um primeiro momento, imagina-se que a melhor maneira é utilizar o número de pixels de distância, tanto na horizontal quanto na vertical, entre o maior pico e o centro do mapa.
No entanto, ao aplicar uma transformação do sistema de coordenadas cartesianas para a polar, indicada pelas Equações (3.24) e (3.25), são obtidas informações mais significantes para a estimação de movimento da câmera:
∆ = qx2+ y2 , (3.24) θ = arctg y x . (3.25)
Isto significa que, dessa forma, a magnitude ∆ do vetor oriundo da origem para a base do maior pico do mapa 3D será descrita pelo tamanho do movimento entre os quadros, enquanto o ângulo θ entre este vetor e uma referência indicará a direção e sentido do movimento entre os quadros. Além disso, pode-se definir a amplitude ρdo pico 3D, que representa o quão bem-definido é este pico, ou seja, quanto maior o valor deste pico, maior a certeza que este representa o movimento global entre os quadros.
Análise das Características
Após a criação dos parâmetros magnitude ∆, direção θ e confiabilidade ρ para explorar o mapa resultante do movimento ocorrido na imagem de um quadro para o seu subsequente, deve-se analisar como estes parâmetros podem contribuir para que características cinemáticas da produção do evento esportivo sejam identificadas. Como os parâmetros criados são relacionados ao movimento dominante da imagem, é interessante analisar a variação destes parâmetros ao longo do tempo.
Além de informações óbvias, tais como para onde a câmera está se movendo e em que velocidade, supõe-se que a variação dos parâmetros ∆, θ e ρ ao longo do tempo pode indicar outros tipos de características, como qual câmera está sendo utilizada naquele momento. Isto acontece porque imagina-se que, por exemplo, em imagens panorâmicas, por conterem objetos menores na imagem, haja movimentos com velocidade menor do que em close-ups, onde os objetos estão mais próximos e consequentemente gerando movimentos mais bruscos. Portanto, a fim de obter conclusões sobre como estes parâmetros se comportam nestes casos, foram extraídos os parâmetros ∆, θ e ρ vistos na Figura 3.14 para um trecho onde primeiro ocorre uma cena de close-up em um jogador (cena 1), seguida por uma cena panorâmica do campo de jogo (cena 2), uma cena da audiência presente no estádio (cena 3), e, finalmente, por mais uma cena panorâmica do campo de jogo (cena 4).
Na Figura 3.14 é fácil notar que nos trechos panorâmicos, os parâmetros ∆ e θ variam consideravelmente menos do que em trechos de close-up e da audiência. Isto é explicado pelo fato de que em close-ups, os objetos em cena são maiores, e se deslocam em mais direções e maiores deslocamentos. Por exemplo, em um close-up de um jogador, cada braço pode se mover em direções e velocidades diferentes, e além disso, o braço pode mudar de direção e velocidade em poucos quadros, o que
0 100 200 300 400 500 600 700 800 900 1000 0 200 400 tempo (quadros) Theta 0 100 200 300 400 500 600 700 800 900 1000 0 10 20 tempo (quadros) Delta 0 100 200 300 400 500 600 700 800 900 1000 0 0.5 1 tempo (quadros) Rho 1 1 1 2 2 2 3 3 3 4 4 4
Figura 3.14: Parâmetros θ, ∆ e ρ ao longo do tempo para vídeo contendo sequências de imagens não-panorâmicas, 1 e 3, e panorâmicas, 2 e 4. Em cenas panorâmicas, θ e ∆ se mantêm estáveis enquanto em não-panorâmicas, variam bastante.
provocará mudanças drásticas nos valores de ∆ e θ. Já em tomadas panorâmicas, os objetos são bem menores e seus movimentos são pequenos em proporção à área de jogo da imagem, e, assim, os pixels do campo e estádio se moverão na mesma direção e velocidade, ocasionando valores de ∆ e θ mais constantes ao longo do tempo.
Também, nota-se na Figura 3.14 que a amplitude ρ do pico do mapa 3D apresenta valores maiores nas cenas panorâmicas. Pelo mesmo motivo, ρ em cenas panorâmicas tende a ser maior, pois o movimento global é melhor definido já que quase toda a imagem se move nas mesmas direção e velocidade. Por outro lado, utilizando o mesmo exemplo de close-up em um jogador, cada parte do braço em movimento gerará um pico em determinada posição do mapa 3D, o que faz com que não haja um pico que caracterize o movimento dominante da imagem. Assim, as amplitudes desses picos serão menores do que no caso do pico dominante em cenas panorâmicas. Apesar desta análise indicar quando uma cena é panorâmica, em geral ela não é capaz de diferenciar cenas de close-ups de cenas de audiência. A explicação é similar à do caso do close-up, ou seja, a imagem é quase totalmente preenchida com muitos objetos se movendo cada um para uma direção e em velocidades diferentes.
Portanto, isso nos leva a crer que a estabilidade de ∆ e θ, e o valor de ρ podem apontar uma imagem como panorâmica ou não-panorâmica.