Sistema de geração automática de audiodescrição a partir de análise de conteúdo de vídeo

(1)

UNIVERSIDADEFEDERALDO RIO GRANDE DO NORTE

DECOMPUTAÇÃO

Sistema de Geração Automática de

Audiodescrição a Partir de Análise de Conteúdo

de Vídeo

Virginia Pinto Campos

Orientador: Prof. Dr. Luiz Marcos Garcia Gonçalves

Tese de Doutorado apresentada ao Pro-grama de Pós-Graduação em Engenharia Elétrica e de Computação da UFRN (área de concentração: Engenharia de Computação) como parte dos requisitos para obtenção do título de Doutor em Ciências.

Número de ordem PPgEEC: D261

Natal, RN, Novembro de 2019

(2)

Campos, Virginia Pinto.

Sistema de geração automática de audiodescrição a partir de análise de conteúdo de vídeo / Virginia Pinto Campos. - 2019. 82 f.: il.

Tese (doutorado) - Universidade Federal do Rio Grande do Norte, Centro de Tecnologia, Programa de Pós-Graduação em Engenharia Elétrica e de Computação, Natal, RN, 2020. Orientador: Prof. Dr. Luiz Marcos Garcia Gonçalves.

1. Acessibilidade - Tese. 2. Audiodescrição - Tese. 3. Geração automática - Tese. 4. Descrição de vídeo - Tese. 5. Aprendizado profundo - Tese. I. Gonçalves, Luiz Marcos Garcia. II. Título.

RN/UF/BCZM CDU 376-056.262

(3)

(4)

Agradeço a Deus, causa primária de todas as coisas.

Aos meu pais, Walkíria e Valdemir, por tudo. A eles devo tudo o que sou e tudo que conquistei.

A Augusto, meu companheiro de muitas vidas, por todo o amor, pelo carinho, pela paci-ência e pelo apoio incondicional.

Ao meu irmão, Bito, por todo carinho, proteção e orientação.

A toda minha família, aqueles que estão em todos os planos, por todo o apoio.

Ao meu orientador, Prof. Luiz Marcos, por toda ajuda nesta jornada, pela confiança, pelo aprendizado e todas as orientações e conselhos que sempre me incentivaram a alcançar o meu melhor.

Aos colegas de doutorado do NATALNET, em especial, Luis Feliphe e Leonardo, por todos os momentos partilhados e pelas contribuições.

Aos colegas do Lavid, em especial, Prof. Tiago Maritan, pelas valiosas discussões, orien-tações e dicas.

A todos os meus amigos, professores e colegas de trabalho que participaram de alguma forma de minha jornada, auxiliando na parte técnica ou até mesmo com uma palavra de incentivo.

(5)

A audiodescrição é um recurso de acessibilidade projetado para tornar a informação visual acessível a pessoas cegas ou com baixa visão. Para aumentar a oferta de faixas de audiodescrição em aplicações de vídeo digital, propomos um sistema para a geração auto-mática de audiodescrição para vídeos. O sistema pode utilizar como fonte de informação sobre o filme o roteiro original e o próprio vídeo. Como prova de conceito, desenvolve-mos um protótipo que gera roteiros de audiodescrição com base em ações extraídas do roteiro e objetos reconhecidos no vídeo. Os experimentos contemplaram a aplicação da solução em filmes de ficção e em vídeos de vigilância. Para os filmes de ficção, foi feita uma avaliação com pessoas cegas. Os resultados indicaram que, através da audiodescrição automática gerada pela solução, foi possível fornecer informações sobre o contexto e que podem auxiliar o usuário no entendimento geral da história. Para os vídeos de vigilância, foi feita uma avaliação de desempenho através da medição do tempo de atraso de cada componente. Os resultados indicaram que a solução tem o potencial para ser utilizada em contextos que exigem AD em tempo-real.

Palavras-chave: Acessibilidade, Audiodescrição, Descrição de Vídeo, Aprendizado Profundo, Geração Automática.

(6)

Audio description is an accessibility feature designed to make visual information ac-cessible to blind or low vision people. To increase the range of audio description tracks in digital video applications, we propose a system for automatic audio description gene-ration of videos. The system can use as source of information about the film the original script or the video itself. As a proof of concept, we developed a prototype that auto-matically generates audio description based on actions taken from the script and objects recognized in the video. The experiments contemplated the application of the solution in fiction films and surveillance videos. For fiction films, an evaluation was made with blind people. The results indicated that through the automatic audio description generated by the solution, it was possible to provide contextual information that can help the user in the general understanding of the story. For surveillance videos, a performance evaluation was made using the delay time of each component. Results indicate that a solution has the potential to be used in contexts that require real-time AD.

Keywords: Accessibility, Audio description, Deep Learning, Video Description, Au-tomatic Generation.

(7)

Sumário i

Lista de Figuras iv

Lista de Tabelas v

1 Introdução 1

1.1 Motivação . . . 1

1.2 Tema, Problema e Hipótese de Pesquisa . . . 4

1.2.1 Hipótese de Pesquisa . . . 5 1.3 Contribuições . . . 5 1.4 Escopo do Trabalho . . . 6 1.5 Estrutura do Texto . . . 7 2 Embasamento Teórico 8 2.1 Audiodescrição . . . 8 2.2 Audiodescrição de Vídeos . . . 9 2.2.1 Roteiro de Audiodescrição . . . 10 2.3 Roteiro Cinematográfico . . . 11

2.4 Reconhecimento de Padrões em Vídeo . . . 12

2.4.1 Redes Neurais Convolucionais - CNN . . . 13

2.4.2 Redes Neurais Recorrentes - RNN . . . 16

2.5 Considerações Metodológicas . . . 17

3 Revisão Sistemática da Literatura 18 3.1 Busca, Seleção e Classificação dos Artigos . . . 18

3.2 Avaliação Qualitativa dos Trabalhos . . . 22

3.2.1 Forma de Apresentação da Audiodescrição . . . 22

3.2.2 Uso de Roteiros na Geração de Audiodescrição . . . 25

3.2.3 Reconhecimento de Vídeo na Geração de Audiodescrição . . . . 26

3.3 Contextualização no Estado da Arte . . . 30

4 Formalização do Modelo de Audiodescrição 33 4.1 Definições . . . 33

4.1.1 Intervalos Sem Falas . . . 33

4.1.2 Elementos Visuais Não-verbais da AD . . . 33 i

(8)

4.2.1 Identificação dos Gaps . . . 36

4.2.2 Seleção das Informações de Interesse . . . 36

4.2.3 Formação das Sentenças . . . 37

4.2.4 Alocação das Sentenças nos Gaps . . . 37

4.3 Considerações Sobre a Solução Adotada . . . 38

5 Implementação 39 5.1 Solução Proposta . . . 39

5.2 Componente de Extração de Informações . . . 40

5.2.1 Roteiro . . . 40

5.2.2 Vídeo . . . 41

5.3 Componente Gerador de Roteiros de AD . . . 42

5.4 Audiodescrição Baseada nas Ações do Roteiro e nos Objetos Reconheci-dos no Vídeo . . . 43

5.4.2 Alocação dos Gaps . . . 44

5.5 Audiodescrição Baseada na Detecção de Múltiplos Objetos Reconhecidos no Vídeo . . . 45

5.5.2 Alocação dos Gaps . . . 46

5.6 Cenários de Uso . . . 46

5.7 Resumo da Implementação . . . 46

6 Experimento e Resultados 48 6.1 Cenário de Uso 1: Aplicação em Filmes de Ficção . . . 48

6.1.1 Análise Técnica das Abordagens de Geração de AD . . . 49

6.1.2 Sessão de Avaliação com Usuários . . . 52

6.2 Cenário de Uso 2: Aplicação em Vídeos de Vigilância . . . 60

6.2.1 Análise Técnica da Qualidade de Geração de AD . . . 61

6.2.2 Avaliação do Desempenho de Geração de Audiodescrição . . . . 62

6.3 Discussões Sobre o Experimento e Resultados . . . 64

7 Conclusão 65 7.1 Propostas para Trabalhos Futuros . . . 66 Referências bibliográficas 67 A Protocolo de Revisão Sistemática 73 B Artigos da Revisão Sistemática 77

(9)

teiro e Vídeo) . . . 80 C.3 Parte 3: Avaliação do Contexto - AD Automática Gerada Apenas Pela

(10)

2.1 Exemplo de Roteiro de AD. . . 10

2.2 Exemplo de Trecho de Roteiro Cinematográfico. . . 12

2.3 Diferença entre os Modelos de Redes Neurais Convencional e Profunda. . 13

2.4 Exemplo de Matriz de Convolução. . . 14

2.5 Exemplo de Max Pooling. . . 15

2.6 Arquitetura da Rede CNN, chamada LeNet-5. . . 15

2.7 Estrutura Interna de uma CNN. . . 16

2.8 Estrutura Interna de uma RNN Genérica. . . 17

3.1 Quantidade de Publicações por Ano . . . 19

3.2 Quantidade de Artigos por Domínio Específico . . . 22

4.1 Exemplo de Roteiro e a Representação Formal dos Elementos para a AD . 35 4.2 Identificação dos Gaps Realizada Através da Legenda . . . 36

4.3 Exemplos de Gaps após a Alocação das Sentenças . . . 38

5.1 Modelo da Solução Proposta . . . 39

5.2 Exemplo de Identificação de Gaps . . . 43

6.1 Grau de Escolaridade do Grupo de Usuários da Primeira Sessão de Testes 52 6.2 Resultados do Teste de Compreensão dos Conteúdos . . . 54

6.3 Gráfico Box Plot do Teste de Compreensão dos Conteúdos . . . 55

6.4 Gráficos Com as Porcentagens de Respostas para o Vídeo 3 . . . 58

6.5 Gráficos Com as Porcentagens de Respostas para o Vídeo 4 . . . 59

6.6 Procedimento da Solução . . . 60

6.7 Exemplos de Frases Geradas para a AD Após a Detecção de Objetos. . . . 61

(11)

3.1 Resultados do Processo de Busca e Seleção de Artigos . . . 19

3.2 Classificação Total dos Artigos . . . 20

3.3 Classificação dos Artigos Diretamente Relacionados . . . 32

4.1 Relação entre as Informações do Roteiro e da AD. . . 34

6.1 Características dos Vídeos de Teste . . . 49

6.2 Resultados da Classificação de Objetos . . . 49

6.3 Comparação entre os Tipos de Roteiros de AD . . . 50

6.4 Resultados da Detecção de Múltiplos Objetos . . . 51

6.5 Resultados dos Roteiros de AD Gerados com Base Apenas em Vídeo. . . 51

6.6 Resultado do t-test entre as Médias dos Grupos Sem AD e AD com Base em Roteiro e Vídeo. . . 54

6.7 Resultado do t-test entre as Médias dos Grupos Sem AD e AD com Base em Roteiro e Vídeo. . . 55

6.8 Características dos Vídeos da Etapa de Compreensão do Contexto Geral do Vídeo . . . 56

6.9 Porcentagem de Acerto Para O Vídeo 3 . . . 57

6.10 Porcentagem de Acerto Para O Vídeo 4 . . . 60

6.11 Resultados da Detecção de Objetos . . . 61

6.12 Resultados da Geração de AD . . . 62

6.13 Medidas de Desempenho de Geração de AD Para os Componentes da Solução . . . 63

(12)

Introdução

Pessoas com deficiência visual possuem alguma dificuldade para enxergar. Depen-dendo do grau de severidade do problema, o indivíduo pode apresentar desde problemas de limitação parcial da visão até a cegueira total, em que não consegue processar nenhuma informação visual. Para pessoas com este problema, as experiências audiovisuais como o cinema, o teatro, a televisão e a ópera, entre outras, são dificultadas principalmente pelas barreiras encontradas na percepção de expressões gestuais, descrição de cenários e per-sonagens, entre outros elementos que são essenciais na compreensão do conteúdo visual. Para contornar ou suavizar este problema e a fim de melhorar a compreensão do conteúdo, a audiodescrição surge como recurso de acessibilidade que foi desenvolvido para tornar a informação visual acessível a pessoas com limitações no sentido da visão.

Neste contexto, o presente trabalho propõe uma solução para geração automática de audiodescrição com base na detecção de eventos no vídeo, com o objetivo de melhorar o acesso de pessoas com deficiência visual aos conteúdos essencialmente visuais, como os filmes.

Este capítulo apresenta a motivação deste trabalho na Seção 1.1, define o tema, o problema e a hipótese de pesquisa na Seção 1.2, as contribuições na Seção 1.3, a definição do escopo do trabalho na Seção 1.4 e, por fim, na Seção 1.5 é apresentada a organização deste documento.

1.1 Motivação

Grande parte das informações veiculadas atualmente utiliza um meio audiovisual para transmiti-las. Em um cenário em que as pessoas dependem desse conteúdo audiovisual como fonte de informação, deficientes visuais podem ser excluídos por causa das barreiras que enfrentam ao acessar esse tipo de conteúdo.

De acordo com o censo demográfico do Instituto Brasileiro de Geografia e Estatística (IBGE) de 20101_{, no Brasil, cerca de 35,7 milhões de pessoas apresentam algum nível}

de deficiência visual. Essa parcela representa cerca de 18,8% da população brasileira. Além disso, o censo mostra que, dentre as deficiências investigadas em 2010, a deficiência visual possui a maior incidência na população brasileira. Esses dados mostram que muitas

(13)

pessoas podem estar enfrentando barreiras no acesso às informações visuais. Além do impacto social causado pela falta de acessibilidade, este cenário também apresenta uma lacuna de mercado que pode ser explorado pela indústria de conteúdos audiovisuais.

Um recurso de acessibilidade extremamente útil para reduzir essas barreiras de acesso é a audiodescrição (AD). A audiodescrição foi desenvolvida para melhorar o acesso de pessoas cegas, ou qualquer pessoa que por algum motivo não tem acesso a informações visuais, que lhes permite participar de experiências intrinsecamente visuais, como cinema, através de descrições de imagens e narração das ações.

No contexto dos filmes, a audiodescrição traduz imagens, enredo, cenário, ações, entre outros elementos da história. Essa tradução é inserida nos intervalos entre os diálogos do filme, através de uma narração, de maneira que evite a interferência nos efeitos sonoros do áudio original (Benecke 2004).

O processo tradicional de geração de audiodescrição, que geralmente é realizado por uma equipe especializada, é uma tarefa demorada, repetitiva, e, eventualmente, bastante cara. Este recurso ainda não é amplamente utilizado no Brasil, e os altos custos e o tempo necessário para criação de roteiros de audiodescrição podem estar entre as possíveis cau-sas para isso. De acordo com Lakritz et al. (2002), um audiodescritor profissional precisa de 60 horas de trabalho para realizar a AD de um filme de 2 horas. Além disso, o custo necessário para uma elaboração do roteiro de AD é, em média, R$ 40,00 por minuto de ví-deo, além das despesas com a gravação do áudio da narração em estúdio. Além do mais, em plataformas que contêm conteúdo dinâmico e de grandes volumes de informação, como por exemplo a Web, é difícil ou mesmo impraticável gerar faixas de audiodescrição manualmente. No Youtube, por exemplo, uma média de 72 horas de vídeo são publicados por minuto (Reisinger 2012). Este contexto motiva a busca de soluções que possam redu-zir as barreiras de acesso à informação visual de pessoas cegas em plataformas de vídeo digital, especialmente quando profissionais não estiverem disponíveis.

Desta forma, a geração automática surge como uma maneira de tornar possível a cri-ação de audiodescrição para os conteúdos destas plataformas, além de poder auxiliar os audiodescritores durante a produção manual do roteiro de AD, reduzindo o tempo e os custos relacionados a este processo.

Na literatura científica, alguns estudos podem ser encontrados investigando a incor-poração de técnicas computacionais dentro do processo de criação de audiodescrição. Em relação ao processo de elaboração da audiodescrição, são basicamente utilizadas duas abordagens principais: uma baseada na análise de roteiro cinematográfico e outra baseada na detecção de informações visuais.

O roteiro cinematográfico é uma fonte de informação, que pode ser encontrada, por exemplo, junto ao produtor do conteúdo ou com a própria mídia. Esses roteiros possuem um alto potencial sobre as descrições dos eventos principais de um filme, especialmente nos casos em que a AD não é fornecida. Os roteiros estão sendo usados nas tarefas de anotações de cenas e de ações humanas através do alinhamento entre a informação no roteiro e os vídeos (Duchenne et al. 2009, Laptev et al. 2008, Marszalek et al. 2009). Além disso, vários bancos de dados estão sendo elaborados a partir do alinhamento entre as informações do roteiro e os vídeos (Cour et al. 2009, Marszalek et al. 2009, Bojanowski et al. 2014, Rohrbach et al. 2017).

(14)

A geração semiautomática de AD através do roteiro é destacada por Lakritz et al.(2002). A solução apresentada pelos autores extrai informações importantes dentro do roteiro do filme e as converte em uma linguagem mais adequada para a audiodescrição, no entanto, sem marcações de tempo e sincronia.

Em nosso trabalho anterior, em pesquisa de mestrado, foi desenvolvido um sistema de geração de roteiros de AD usando como base o roteiro cinematográfico para gerar as descrições, com o diferencial de fornecer as marcações de tempo, obtidas pela análise da legenda do filme, tornando a AD síncrona. Os experimentos realizados com usuários mostraram que o sistema tem o potencial de descrever os pontos principais da história do filme e, consequentemente, pode auxiliar a diminuir as barreiras de acesso enfrentadas pelos deficientes visuais. No entanto, foi detectado que pode ocorrer algumas divergên-cias entre o roteiro e o vídeo, uma vez que o roteiro é elaborado anteriormente à gravação da mídia. Com isso, a AD gerada automaticamente pode conter alguns pontos de incoe-rência. Além disso, a geração automática da AD é dependente da presença de um roteiro cinematográfico, não sendo possível elaborar a AD quando este não estiver disponível.

Esta limitação levou à investigação da outra linha de pesquisa utilizada no processo de geração da AD, a abordagem baseada na detecção e classificação da informação visual, utilizando o próprio vídeo como uma fonte de informação.

Muitos estudos aplicam técnicas de aprendizado profundo para reconhecer elementos em imagens. Variações do modelo de Redes Neurais Convolucionais (Convolutional Neu-ral Networks - CNNs) estão sendo aplicadas para reconhecer objetos em imagens (Ren et al. 2015, Redmon & Farhadi 2016, Dai et al. 2016). Trabalhos recentes utilizam Redes Neurais Recorrentes (Recurrent Neural Networks - RNNs) para gerar descrições textuais de imagens (Chen & Zitnick 2015, Donahue et al. 2015, Fang et al. 2014).

Em relação à descrição de vídeo, vários trabalhos usam combinações e variações dos modelos CNNs e RNNs, especificamente LSTM (Long Short-Term Memory) para descre-ver ações em vídeo (Rohrbach et al. 2015, Donahue et al. 2015, Pan et al. 2015, Venugo-palan et al. 2014, VenugoVenugo-palan et al. 2015).

No entanto, os trabalhos acima apresentam soluções para um domínio específico ou não são gerais o suficiente para atingir a necessidade de criação da audiodescrição em um contexto mais abrangente. Isso se deve principalmente à complexidade envolvida na tarefa de elaboração da audiodescrição, considerando a diversidade de ações, objetos de cena e traços de personagens. Além disso, tratam da descrição comum de vídeos e não levam em considerações especificidades necessárias para a audiodescrição, como por exemplo, tempo disponível para a descrição, geração de áudio, aceitabilidade dos usuários cegos, entre outras. Desta forma, a descrição comum de vídeos gera um resultado que não atinge as necessidades das pessoas com deficiência visual e, portanto, não pode ser considerada uma substituta para a audiodescrição.

Diante das duas abordagens presentes na literatura científica (baseado no roteiro e ba-seada no vídeo), um primeiro questionamento de pesquisa pode ser formulado como: é possível reduzir as barreiras de acesso a vídeos enfrentadas pelas pessoas com deficiência visual através de uma solução automática que incorpora ambas abordagens de geração de audiodescrição? Esse questionamento levanta a possibilidade de integrar informações de roteiro e de vídeo como forma de criação automática da AD. Além disso, considerando a

(15)

não disponibilidade do roteiro cinematográfico, a complexidade da tarefa e da limitação que as técnicas de descrição comum de vídeos tem em relação às demandas específicas de acessibilidade, um segundo questionamento de pesquisa surge: quando o roteiro não estiver disponível, é possível gerar uma audiodescrição a partir do reconhecimento auto-mático de elementos diretamente do vídeo?

Além dos aspectos citados acima, grande parte da literatura apresenta soluções de des-crição que são elaboradas a partir da análise prévia do conteúdo audiovisual. Esta forma de processamento é adequada para vídeos que são exibidos posteriormente à produção do conteúdo. No entanto, existem os vídeos que são exibidos ao vivo, ao mesmo tempo de produção. Para estes casos, a audiodescrição é criada e apresentada ao vivo, feita por um profissional audiodescritor. Este cenário em tempo-real também deve ser levado em consideração ao propor uma solução de geração automática de AD, como forma de pro-mover o acesso às informações que são veiculadas também desta forma. Isso nos leva a uma terceira questão de pesquisa: É possível desenvolver um gerador automático de AD eficaz em cenários que exigem a descrição em tempo-real e que seja de domínio geral?

Assim, a principal motivação deste trabalho é diminuir as barreiras de acesso aos vídeos enfrentadas pelas pessoas com deficiências visuais e, para isso, investigar os ques-tionamentos de pesquisa levantados para propor soluções que ataquem estes problemas. Diante deste contexto, a principal proposta deste estudo é a definição de um modelo de sistema automatizado de geração de audiodescrição em aplicações de vídeo digital. A proposta é criar a AD usando informações extraídas do roteiro cinematográfico e do pró-prio vídeo, apresentando-as em formato de áudio para o usuário. Mais especificamente, o modelo de solução é projetado para suportar a geração automática a partir das seguintes fontes de informação: I) De roteiro e vídeo; II) Apenas vídeo. No primeiro caso, utilizar o processamento de roteiro, para fazer a análise do texto e extrair informações relevantes para a descrição da história, e reconhecimento de elementos de vídeo, como formas de ge-rar uma nova abordagem de geração de audiodescrição do conteúdo do vídeo. No segundo caso, explorar o próprio vídeo para detectar eventos e elementos considerados importan-tes para a história e relevanimportan-tes para o roteiro de AD e, com isso, gerar uma audiodescrição do filme, mesmo quando o roteiro não estiver disponível.

1.2 Tema, Problema e Hipótese de Pesquisa

Em resumo, o tema abordado nesta tese trata da geração automática da audiodescri-ção, para que possa ser utilizada como forma de diminuir as barreiras de acesso aos ví-deos enfrentadas pelas pessoas com deficiências visuais. Diante da motivação do trabalho acima destacada, visando definir melhor o problema a ser trabalhado, foram levantados dois questionamentos de pesquisas relacionados a essa tarefa, que resumem o problema aqui tratado. A primeira pergunta a ser respondida refere-se à possibilidade de criar a audiodescrição através de uma solução automática, que incorpore ambas abordagens de geração de audiodescrição, a partir do roteiro e a partir do vídeo. Para melhorar a com-preensão do problema, pode-se acrescentar uma segunda pergunta a ser respondida: é possível gerar uma audiodescrição a partir do reconhecimento automático de elementos diretamente do vídeo? Finalmente, o que se pode dizer sobre a eficácia de um gerador

(16)

automático usando qualquer uma das abordagens, em cenários que exigem a descrição em tempo-real?

Os dois primeiros questionamentos tratam da integração de técnicas de inteligência artificial para reconhecer automaticamente os elementos do vídeo, quando roteiro cine-matográfico estiver disponível ou não, como forma de obter informações para elaborar a audiodescrição. Neste sentido, torna-se este o fator em comum entre os questionamentos e que centraliza a hipótese definida neste trabalho. O terceiro questionamento trata do ce-nário de uso em relação ao tempo de geração da AD, que se apresenta como uma questão de pesquisa que deve ser trabalhada como um desdobramento do problema central.

Diante desses aspectos e visando solucionar o problema em questão, formulamos o seguinte questionamento central: quando profissionais não estiverem disponíveis, é pos-sível gerar AD automaticamente a partir de técnicas de IA e de visão computacional? Sendo assim, este trabalho foca na resolução deste questionamento central.

1.2.1 Hipótese de Pesquisa

A hipótese que foi construída, e que demonstramos ao longo deste trabalho, tentando responder os questionamentos de pesquisa apontados acima, pode ser elaborada com a frase seguinte:

É possível gerar audiodescrição automaticamente a partir de técnicas de Inteligência Artificial e de Visão Computacional, de forma que facilite ou melhore a compreensão de conteúdos audiovisuais por parte de pessoas com deficiência visual, respeitado um determinado grau de precisão?

A demonstração e validação da tese acima, proposta neste trabalho, envolve a defini-ção de um sistema de geradefini-ção automática através da aplicadefini-ção de técnicas de inteligência artificial, que possibilita a utilização de duas fontes de informação, o roteiro e o próprio vídeo, e, adicionalmente, que tem a possibilidade de ser executado em tempo-real. Além disso, visando uma demonstração empírica, foi necessário obter a avaliação do público-alvo do sistema como forma de validar a tese proposta.

1.3 Contribuições

A principal contribuição deste trabalho é a proposta de uma solução para a geração automática de audiodescrição para vídeos, com a possibilidade de usar informações ex-traídas das seguintes fontes: I) roteiro e vídeo; e II) apenas vídeo, que possa ser utilizada quando um profissional não estiver disponível ou como forma de otimizar o trabalho feito por um humano. Assim, o produto do trabalho é um sistema para geração automática de audiodescrição, visando diminuir as barreiras de acesso aos vídeos, sendo este um problema enfrentado no dia a dia pelas pessoas com deficiência visual. Para que esta pro-posta principal fosse completada, vários estudos foram desenvolvidos, que resultaram em técnicas ou metodologias, ou em outras contribuições parciais, que também podem ser consideradas como resultados da tese e foram implementadas ao longo do doutorado:

(17)

• Revisão sistemática da literatura sobre sistemas de geração automática de audiodes-crição, tendo sido identificadas as principais estratégias relacionadas com a geração automática da audiodescrição.

• Definição de um esquema de dados para armazenar informações relevantes para a audiodescrição sobre o conteúdo do vídeo, com o projeto e desenvolvimento de uma estratégia de geração automática da audiodescrição que utilize o roteiro e o próprio vídeo como fonte de informação, e tendo como saída um áudio contendo a narração das descrições e que possa ser executada em tempo-real ou de forma não-simultânea.

• Definição e desenvolvimento de uma arquitetura de sistema de geração automá-tica da audiodescrição que permite fontes de entrada distintas e que permite fácil expansão, com a possibilidade de integração de múltiplas técnicas de inteligência artificial com diversos propósitos, com a definição de um esquema de dados para armazenar as informações sobre o conteúdo, a partir de diversas fontes e voltado especificamente para audiodescrição.

• Desenvolvimento de duas abordagens de geração de AD com características dis-tintas em relação ao conteúdo identificado no vídeo a partir do roteiro e vídeo ou apenas do vídeo, com a implementação da solução proposta e integração em dois cenários distintos de vídeo digital que exigem tempos de processamento diferentes: filmes e vídeos de vigilância.

• Análise técnica das características da audiodescrição gerada de forma automática. • Desenvolvimento de uma técnica de testes e sua aplicação a um processo de

experi-mentação com pessoas com deficiências visuais para obter a avaliação da proposta. Além das contribuições técnicas e científicas acima, este trabalho deve contribuir tam-bém no âmbito social com o desenvolvimento de uma solução tecnológica que pode re-fletir na qualidade de vida e inclusão social das pessoas com deficiência visual, como também, no incentivo e divulgação de pesquisas que promovam a acessibilidade.

1.4 Escopo do Trabalho

A solução proposta neste trabalho tem o propósito de auxiliar pessoas deficientes vi-suais no entendimento de conteúdo de vídeos. Desta forma, espera-se tornar possível a aplicação em vídeos de diversas plataformas como cinema, televisão, vídeos de vigilância, Youtube, entre outros.

A solução tem o potencial de aplicações em qualquer situação em que não seja pos-sível a percepção visual da informação e, além disso, a audiodescrição pode beneficiar outros tipos de públicos, como deficientes cognitivos, pessoas com perda de visão tempo-rária e etc.

O problema abordado neste trabalho possui caráter multidisciplinar e engloba diver-sos aspectos relacionados à audiodescrição de vídeo. Considerando o contexto de domí-nio geral, restringimos o problema a um escopo específico onde foram considerados os seguintes pontos:

(18)

1. A solução proposta é específica para a audiodescrição de vídeos. A geração au-tomática de AD para outros tipos de mídia não foram englobadas neste trabalho. No entanto, a solução pode ser facilmente adaptada para gerar AD automática para outros tipos de mídia;

2. Dada a complexidade natural da tarefa de elaboração da AD e da diversidade de elementos visuais que podem ser apresentados em um vídeo, este trabalho foca especificamente em elementos presentes predominantemente nas fontes de infor-mação. Em relação ao roteiro, o processamento consistiu da análise das ações de personagens, apresentados na forma textual. Em relação ao vídeo, foi utilizada a detecção dos objetos presentes nas cenas. Para isto, são aplicados modelos de aprendizado profundo para reconhecer elementos visuais diretamente no vídeo. 3. A solução apresentada neste trabalho não tem o propósito de substituir

profissio-nais humanos. De forma geral, as soluções computacioprofissio-nais ainda não conseguem atingir todas as necessidades das pessoas cegas ou com deficiências visuais e a dis-ponibilidade de conteúdos acessíveis, mesmo gerados por humanos, ainda é insu-ficiente. Neste sentido, a solução surge como uma solução complementar eficiente e de baixo custo para melhorar a experiência atual que o usuário tem ao acessar um vídeo sem acessibilidade, onde não é viável contratar um profissional. Além disso, pode ser utilizada por audiodescritores como uma ferramenta de otimização do processo de criação da audiodescrição, reduzindo a carga de trabalho através da descrição automática de elementos básicos do conteúdo.

1.5 Estrutura do Texto

Este documento está estruturado em 7 capítulos. O capítulo 2 apresenta a fundamen-tação teórica sobre os conceitos relevantes para compreensão do trabalho, como, audio-descrição, roteiro cinematográfico e modelos de aprendizado profundo.

O capítulo 3 apresenta um mapeamento e revisão sistemática dos trabalhos relacio-nados à geração automática de audiodescrição. O capítulo 4 descreve a solução proposta neste trabalho e os principais componentes. O capítulo 5 descreve as estratégias de im-plementação adotadas no desenvolvimento dos componentes da solução.

O capítulo 6 apresenta os experimentos realizados e resultados obtidos. Por fim, o capítulo 7 mostra as considerações finais do trabalho e propostas de trabalhos futuros.

(19)

Embasamento Teórico

Este capítulo apresenta os conceitos e definições das áreas que servem de base para implementação deste trabalho. Inicialmente, na Seção 2.1, o conceito e as principais ca-racterísticas da audiodescrição são apresentadas. A Seção 2.2 descreve as especificidades da audiodescrição de vídeos. Em seguida, as Seções 2.3 e 2.4 apresentam definições e descrições relevantes relacionadas às duas fontes de informações consideradas no sis-tema: roteiro cinematográfico e o próprio vídeo. A Seção 2.3 apresenta os elementos fundamentais que compõem o roteiro cinematográfico e o seu papel dentro da elabora-ção da AD. Por fim, a Seelabora-ção 2.4 apresenta os modelos de aprendizado profundo que são aplicados para reconhecer elementos visuais diretamente no vídeo.

2.1 Audiodescrição

Este trabalho concentra-se na acessibilidade, partindo da ideia de que todas as pes-soas devem ter as mesmas possibilidades de acesso às informações, especificamente, as informações visuais. A ABNT relaciona o termo acessibilidade com a possibilidade de qualquer pessoa, independente de condições físicas, perceptivas ou sociais, usufruir dos benefícios da vida em sociedade, o que abrange atividades de entretenimento e informa-tivas que apresentam conteúdos por meio visual.

O cinema, teatro, televisão, e ópera, entre outras, são tipos de entretenimento que exemplificam essas atividades. Diante deste cenário, surge a necessidade de desenvolver meios que promovam a acessibilidade desses conteúdos de forma atrativa e eficaz, levando em consideração as diversas características e limitações que as pessoas possam possuir.

Pessoas que possuem deficiências visuais enfrentam, consequentemente, dificuldades para participar de experiências que exijam a percepção de tal sentido. Considera-se de-ficiência visual quando uma pessoa, de forma parcial ou total, não detém a capacidade funcional da visão. De acordo com Flor (2009), o termo está referido a um problema permanente, congênito ou adquirido, que não pode ser reparado por tratamentos clínicos ou cirúrgicos. Essas pessoas apresentam os seguintes problemas: cegueira total, quando objetos ou luminosidade são imperceptíveis; baixa visão, quando a acuidade visual é me-nor que a de pessoas com visão me-normal; e daltonismo, quando não é possível distinguir combinações ou pares de cores (Dias 2007, Quevedo & Ulbricht 2011).

(20)

que proporciona às pessoas que possuem algum tipo de deficiência visual o acesso e usufruto de conteúdos apresentados por meios audiovisuais.

De acordo com Motta (2019), a audiodescrição é um recurso que facilita o entendi-mento de obras audiovisuais, transformando o que é visto, no que é ouvido. Em outras palavras, é uma tradução que converte a informação visual em verbal, ou seja, audiodes-creve o que é apresentado visualmente. Gagnon et al. (2009) apresentam a definição da audiodescrição como sendo descrição narrativa dos principais elementos visuais de um programa para que as pessoas com perda de visão sejam capazes de formar uma imagem mental do que está ocorrendo na tela. Diferentemente de outras tecnologias que promo-vem a acessibilidade, a audiodescrição não é um recurso a ser utilizado isoladamente, deve ser vinculado ao produto visual (Nunes et al. 2011).

Em nível mundial, alguns modelos de criação da audiodescrição já foram elaborados com a definição de critérios específicos para atender as necessidades das pessoas. O mo-delo inglês, por exemplo, enfatiza a ambientação visual e características dos personagens, resultando em uma descrição mais detalhada. Já no modelo espanhol, o foco da AD está nas ações, com vocabulário mais simples e frases mais curtas (Alves et al. 2011). Em nível nacional, o Brasil ainda não possui normas e modelos que definem as característi-cas da audiodescrição. Pesquisas estão sendo feitas para propor um modelo baseado nos modelos internacionais (Alves et al. 2011). Porém, ainda sem um consenso definido para o contexto brasileiro.

2.2 Audiodescrição de Vídeos

Independente do modelo adotado, uma audiodescrição deve ser elaborada de acordo com o conteúdo visual que se deseja descrever (Nunes et al. 2011). No contexto dos filmes, a audiodescrição traduz imagens, enredo, cenário, ações, entre outros elementos da história. Essa tradução é inserida nos intervalos entre os diálogos do filme, através de uma narração, de maneira que evite a interferência nos efeitos sonoros do áudio original (Benecke 2004).

O processo de produção manual da audiodescrição para filmes engloba um conjunto de etapas em comum e aplicável a vídeos no geral. As etapas envolvidas no processo são as seguintes (Santana 2010, Gagnon et al. 2009) :

• Decupagem: o audiodescritor assiste ao filme na íntegra e os principais elementos visuais são detectados. Os personagens são elencados (nomes e características), as informações sobre quando e onde acontece a história são detectadas e, por fim, ocorre o mapeamento das informações que devem compor a audiodescrição. Os eventos descritos são bastante diversificados e dependem do contexto da história, do tempo disponível e da necessidade do filme;

• Marcação de Cena: os espaços entre os diálogos, silêncios e pontos importantes para inserção de AD são identificados;

• Elaboração do Roteiro de AD: o texto das descrições é criado cena por cena, a partir das informações coletadas nas etapas anteriores. O audiodescritor cuidadosa-mente calcula o tempo da descrição para caber dentro de pausas no diálogo e onde

(21)

houver silêncio. Esta etapa também envolve o consultor, que é uma pessoa cega especializada em avaliar o roteiro e revisar a qualidade da AD;

• Gravação: a voz que reproduzirá a narração é escolhida. A escolha da voz deve se basear na clareza, agradabilidade e em características específicas, como por exem-plo o gênero adequado, para não ser confundida com outras vozes apresentadas no filme. Após a escolha da voz, as falas da audiodescrição são gravadas, geralmente em estúdio, com a presença de um diretor.

• Tratamento, Mixagem e Finalização: o áudio é tratado para eliminar qualquer ruído que possa ter sido captado durante a gravação e é mixado com o som original do filme. Por fim, o produto final é preparado no formato ideal ao solicitado. Essas etapas do processo de produção manual da AD para vídeos serviram como base na definição da solução apresentada neste trabalho. O sistema descrito neste trabalho trata de todas as etapas supracitadas, partindo desde a decupagem até a entrega do conteúdo com o áudio contendo as descrições. O sistema descrito no Capítulo 5 apresenta uma solução para a geração automática de audiodescrição para vídeos.

2.2.1 Roteiro de Audiodescrição

Dentro do fluxo de criação da audiodescrição, o roteiro de AD é um elemento central e de grande importância, pois contém as informações identificadas nas etapas anteriores e serve como orientação para as etapas seguintes. Os audiodescritoroteiristas são res-ponsáveis pela criação deste roteiro, que deve conter, precisamente, marcações de tempo (TIME-CODE), descrições textuais, as deixas (CAPTIONS - os diálogos finais antes do início da descrição) e as rubricas (CUES - observações para a narração). Além disso, des-crições desnecessárias devem ser evitadas para que nenhuma sobrecarga de informações seja criada. Assim, o roteiro de AD deve conter apenas as informações relevantes para a compreensão do filme. A Figura 2.1 mostra um exemplo de um trecho de roteiro de audiodescrição.

Figura 2.1: Exemplo de Roteiro de AD.

De forma geral, a audiodescrição deve descrever os elementos fundamentais para o entendimento da obra audiovisual. Os elementos a serem descritos se dividem em: visuais verbais e visuais não-verbais (Hurtado et al. 2010). Os visuais verbais são títulos, legendas

(22)

e elementos textuais que fazem parte da história, como por exemplo, os nome de ruas e créditos.

De acordo com Hurtado et al. (2010), alguns dos elementos visuais não-verbais que são relevantes para a compreensão da narrativa e que devem ser levados em conta na criação da audiodescrição são os seguintes:

• Personagem: Apresentação, identificação, características físicas, idade, etnia, as-pecto, vestuário, expressões faciais, linguagem corporal, estados emocionais; • Ambiente: Localização espacial, localização temporal, descrições do ambiente; • Ações: descrição do que está acontecendo no momento;

Os elementos não-verbais são fundamentais para a compreensão da história devido à existência da seguinte relação básica: uma pessoa (personagem) faz algo (ação) em um determinado lugar e tempo (ambiente) (Hurtado et al. 2010). Este trabalho irá conside-rar apenas elementos visuais não-verbais, deixando os verbais para serem abordados em trabalhos futuros.

Em relação à presença desses elementos na AD, Gagnon et al. (2009) fez um estudo de algumas ADs com o propósito de entender melhor os componentes das descrições. Segundo os resultados apresentados, a maioria das informações presentes na AD das produções estudadas segue a dada distribuição, em ordem decrescente de ocorrências: ação (35-45% dependendo da produção), movimento dos personagens (7–22% ), ocupa-ção/papéis dos personagens (3-18%), decoração (4–12%), expressões faciais e corporais (2–7%), informações textuais incluídas na imagem (1–2%) e informações sobre a atitude dos personagens (1-4%).

Cada elemento fornece algum tipo de informação dentro do contexto da história e portanto, seguindo essa ideia, propusemos uma modelagem de dados para a solução de geração automática de AD inspirada na relação básica entre os elementos, descrita no Capítulo 4. O propósito da solução proposta é trabalhar na descrição e reconhecimento automático desses elementos para gerar a audiodescrição.

2.3 Roteiro Cinematográfico

Sendo uma das fontes de informações sobre o conteúdo de um vídeo, o roteiro cine-matográfico pode contribuir para a elaboração da AD. Considerando que as descrições da AD devem apresentar uma linguagem adequada e clara ao usuário, capaz de determinar de forma concreta os objetos, personagens e cenários, o vocabulário utilizado para formar o texto das descrições é importante, portanto, deve ser capaz de traduzir as características, gestos e ações do filme de forma objetiva (Braga 2011).

Diante disso, o roteiro cinematográfico se torna um elemento importante, pois con-tém palavras e termos apropriados a linguagem do filme, escritas especificamente para a história em questão. Em relação à criação da audiodescrição, Payá (apud (Braga 2011)) afirma que o audiodescritor deve escolher as melhores palavras para descrever os eventos da história e, para isso, tem o roteiro do filme como uma importante ferramenta auxiliar da tradução.

(23)

Segundo Field (2001), um roteiro cinematográfico é uma história contada com ima-gens, diálogos e descrições, localizada dentro de uma estrutura dramática. O roteiro pos-sui elementos básicos dentro de sua estrutura como, por exemplo, pontos de viradas, cenas, diálogos, personagens, ações, dentre outros. Todas as informações apresentadas no roteiro servem como base para as filmagens. As informações podem variar no nível de detalhe, mas geralmente são divididas em cenas que seguem uma ordem cronológica e têm os seguintes elementos: A) Título da cena, nome da localização, localização espacial (interna ou externa), localização temporal (dia ou noite) ; B) Nomes de personagens e diá-logos; C) descrições de ações que ocorrem nas cenas, como mostra a Figura 2.2 (adaptada de (Campos 2015)) .

Figura 2.2: Exemplo de Trecho de Roteiro Cinematográfico.

Em relação à audiodescrição, o roteiro cinematográfico contêm uma descrição mais completa do filme, porém, como a AD está limitada aos espaços sem diálogos, não é pos-sível comportar todas as descrições provenientes do roteiro. Por esta razão, é necessário que se realize a seleção das informações mais relevantes para a audiodescrição.

2.4 Reconhecimento de Padrões em Vídeo

Outra forma de obter informações de conteúdo de um filme é analisar o próprio ví-deo. Geralmente, um filme contém uma grande quantidade de informações visuais, que podem estar relacionadas a vários tipos de elementos na história, tais como arranjo de cena, características de personagens e eventos. Assim, muitas são as possibilidades de extração, detecção e reconhecimento de informações relacionadas ao conteúdo de vídeo. Considerando a complexidade em que a tarefa está envolvida, este problema precisa de técnicas mais robustas capazes de reconhecer vários tipos de eventos em filmes.

Nos últimos anos, este tema tem sido relevante devido aos avanços de hardware, como o uso de GPUs para fazer cálculos de forma mais eficiente e analisar dados com mais de-talhes. Com isso, foi possível obter avanços no software também, sendo um bom exemplo o surgimento das técnicas de aprendizado profundo (deep learning).

(24)

A Aprendizagem Profunda é um subconjunto da área de aprendizado de máquina, usada para resolver tarefas práticas em uma variedade de campos, tais como a visão computacional, processamento de linguagem natural e reconhecimento de voz. É um subconjunto de métodos de aprendizado de máquina baseado nas Redes Neurais Artifici-ais, que são uma classe de algoritmos inspirados no funcionamento do cérebro humano (Trask 2017).

Uma rede profunda é uma rede neural que, ao adicionar mais camadas e mais unidades dentro de uma camada, podem representar funções de crescente complexidade. A Figura 2.3, adaptada de (Nielsen 2017), apresenta a diferença entre uma rede neural convencio-nal, à esquerda, e uma rede profunda, à direita.

Figura 2.3: Diferença entre os Modelos de Redes Neurais Convencional e Profunda. A maioria das tarefas que consistem em mapear um vetor de entrada para um ve-tor de saída e que são de fácil realização para uma pessoa, podem ser realizadas através da aplicação de aprendizado profundado (Goodfellow et al. 2016). Os modelos de re-des profundas são suficientemente robustos e, aliados aos granre-des conjuntos de dados de exemplos rotulados para treinamento, têm o seu potencial aumentado.

Nessa direção, as redes profundas surgem como uma forma de auxiliar a solucionar esse problema de geração automática da AD, pois permitem lidar com grande quantidade de dados e são capazes de representar dados bastante complexos. Como estamos tratando de um problema que envolve visão computacional, reconhecimento de elementos de vídeo e descrição de imagens e vídeo, a seguir serão apresentados os modelos mais utilizados atualmente para esses tipos de tarefas.

2.4.1 Redes Neurais Convolucionais - CNN

As redes profundas, especialmente o modelo Convolucional Neural Network (CNN), estão sendo aplicadas em visão computacional com vários tipos de efeitos, incluindo desde o reconhecimento de objetos de cena, pessoas e ações humanas, até que a descrição de imagens e vídeos, entre outras.

As CNNs são um tipo especializado de rede neural para processamento de dados que tem uma topologia em grade. Um exemplo desse tipo de dado é a imagem, que pode ser considerada uma grade de pixels.

O termo convolucional indica que a rede emprega uma operação matemática chamada convolução, que é um tipo especializado de operação linear. Essas redes neurais usam a

(25)

convolução em vez da matriz geral, pelo menos em uma das suas camadas (Goodfellow et al. 2016). Em processamento de imagens, a convolução é útil para detecção de bordas, suavização de imagem, extração de características e etc, e esse é o procedimento utilizado pelas redes para detectar características nas imagens.

Segundo Lecun et al. (2015), uma arquitetura típica de uma CNN é formada por uma série de estágios que se repetem. Os estágios iniciais são formados pelas camadas de convolução e de pooling.

A camada de convolução tem o objetivo de extrair características da entrada, preser-vando a relação espacial entre pixels e aprendendo as características da imagem a partir de pequenas áreas de dados da entrada. Cada camada busca na imagem algum tipo de caraterística e, para isso, utiliza um filtro, representado por uma matriz, que desliza sobre a imagem, gerando o mapa de características (feature map). A Figura 2.4 apresenta um exemplo de matriz de convolução.

Figura 2.4: Exemplo de Matriz de Convolução.

Além disso, após cada operação de convolução, a operação adicional chamada ReLUs (Rectified Linear Units) é aplicada às saídas. ReLUs são apresentadas por neurônios com função de ativação não-linear de acordo com a equação:

f (x) = max(0,x) (2.1) O objetivo da ReLU é introduzir não-linearidade à rede. Isso é necessário porque grande parte dos dados reais é não-linear e, como a convolução é uma operação linear, torna-se fundamental inserir a linearidade através de uma função de ativação não-linear.

A camada de pooling (Subsampling) reduz a dimensionalidade de cada mapa de ca-racterísticas, retendo as informações mais importantes. Com isso, a dimensão da repre-sentação dos dados é reduzida e gera como consequência a diminuição do processamento necessário nas camadas seguintes. A Figura 2.5, retirada de (CS231n n.d.) apresenta um tipo de pooling, o Max Pooling, que utiliza apenas o elemento maior do mapa de características dentro da janela.

Por fim, o outro estágio é formado pelas camadas totalmente conectadas que são inse-ridas no final da CNN. Durante todos os estágios das camadas de convolução e pooling, a rede é capaz de detectar muitas característica, no entanto, não consegue associar essas informações com as classes que a rede está trabalho. Esse é o papel das camadas total-mente conectadas, dão o significado para as características representadas pelas camadas anteriores.

(26)

Figura 2.5: Exemplo de Max Pooling.

Portanto, uma CNN é formada por dois ou três estágios com as camadas de convo-lução, de não-linearidade (RELU) e de pooling empilhadas, seguidas por camadas total-mente conectadas para fazer a classificação (Lecun et al. 2015). A rede é treinada através do algoritmo Backpropagation, o que permite que todos os pesos em todos os filtros das camadas possam ser ajustados. A Figura 2.6, extraída de (Lecun et al. 1998), apresenta a arquitetura de uma CNN, chamada LeNet-5, onde é possível identificar os tipos de cama-das.

Figura 2.6: Arquitetura da Rede CNN, chamada LeNet-5.

A Figura 2.7, retirada de (Lecun et al. 2015), mostra a estrutura de uma CNN utili-zando uma imagem de um cão Samoyed como entrada (com os 3 canais RGB servindo como entrada) e apresentando as saídas de cada camada. Cada imagem retangular é um mapa de características (feature maps) correspondente à saída da camada e que repre-senta uma das características aprendidas. Uma camada detecta a mesma característica em cada uma das posições da imagem e cada camada busca por características diferentes. O fluxo das informações dentro da rede ocorre, de acordo com a Figura 2.7, de baixo para cima, com as características dos níveis mais baixos atuando como detectores de bordas orientadas. Por fim, no topo da Figura 2.7, a saída da rede apresenta uma pontuação de probabilidade que é calculada para cada classe de imagem.

Muitos trabalhos na literatura investigam a CNN no reconhecimento de elementos em vídeo e é o modelo integrado à solução apresentada neste trabalho para fazer a extração de informações diretamente do vídeo para a audiodescrição.

(27)

Figura 2.7: Estrutura Interna de uma CNN.

2.4.2 Redes Neurais Recorrentes - RNN

O modelo CNN é o mais comum em tarefas de visão computacional e muitas pequisas apresentam outros modelos variantes da CNN, de acordo com o tipo de aplicação. Assim como variações do modelo, outros trabalhos utilizam mais de um modelo de rede profunda para agregar informações e, com a união de diferentes modelos, obter benefícios que cada tipo de processamento podem oferecer.

Em descrições de imagens e de vídeos, muitos trabalhos tem utilizado a junção da CNN com outro modelo chamado Redes Neurais Recorrentes (Recurrents Neural Networks - RNN). Esta rede é chamada de recorrente porque a sua própria saída é utilizada como uma entrada e isso permite a memória do histórico das entradas. A sua arquitetura pos-sui ciclos nas conexões, tornando o treinamento mais complexo, mas especializado para certos tipos de aplicação, como os sistemas que são variantes no tempo. Na tarefa de des-crição da imagens, por exemplo, a RNN recebe a saída da CNN como uma entrada extra e pode ser treinada para traduzir as representações de alto nível da imagem para textos.

As RNNs são voltadas para dados sequenciais, como texto e voz, porque processam uma sequencia de entrada, um elemento de cada vez, mantendo um "vetor de estado"em seus nerônios escondidos, que contém implicitamente informações sobre o histórico dos elementos de entrada (Lecun et al. 2015). A Figura 2.8 apresenta o mecanismo de uma RNN, que compartilha seus pesos ao longo do tempo (Sutskever et al. 2011).

Esse modelo é bastante utilizado em geração de texto, tarefa utilizada na descrição de imagem e de vídeo, porque parte do princípio que a linguagem consiste em sequências de símbolos atômicos, ou seja, palavras que formam frases.

A solução proposta neste trabalho não utiliza especificamente este modelo, no entanto, alguns trabalhos apresentados na revisão sistemática, no Capítulo 3, fazem a sua aplicação dentro do contexto de descrição comum de vídeos, sendo relevante a sua breve descrição dentro da teoria deste trabalho.

(28)

Figura 2.8: Estrutura Interna de uma RNN Genérica.

2.5 Considerações Metodológicas

A partir da visão geral sobre audiodescrição, como também entendendo suas caracte-rísticas específicas quando aplicada à vídeos, pode-se considerar que a ela é um recurso fundamental para tornar produtos audiovisuais acessíveis às pessoas deficientes visuais.

No processo de elaboração manual da audiodescrição, o audiodescritor precisa co-nhecer bem a obra para descrever os eventos relevantes ao entendimento do conteúdo do vídeo. Por esta razão, uma solução automática de geração deve simular este comporta-mento extraindo as informações necessárias para compor o processo.

Com este propósito, consideramos, nesta tese, o roteiro cinematográfico e o próprio vídeo como fontes de dados disponíveis para extração automática dessas informações. Este capítulo apresentou elementos teóricos relevantes da metodologia a ser utilizada, incluindo uso do roteiro cinematográfico e as técnicas mais utilizadas atualmente para reconhecimento de padrões em vídeo, com utilização de redes neurais profundas.

Para validar a hipótese apresentada acima, a ideia é resolver o problema de gerar a audiodescrição de forma automática, que pode ser abordado a partir de três metodologias. A primeira é usar apenas o roteiro cinematográfico, se existir, solução que foi abordada em contribuição anterior nossa(Campos 2015). A segunda forma, que visa melhorar a pri-meira, é mesclar elementos do roteiro cinematográfico com o reconhecimento de padrões em vídeo. A terceira é utilizar apenas elementos extraídos do vídeo, aplicada em casos em que não exista o roteiro cinematográfico, como ocorre com a maioria dos vídeos do Youtube.

Em relação ao roteiro, como explicado acima, o processamento é realizado baseado na análise das ações de personagens, que pode ser apresentado por sintetização em voz, processada a partir de sua forma textual. Para processar os elementos de vídeo apenas, a ideia é proceder a detecção de objetos presentes nas cenas com utilização de redes de aprendizado profundo, visando reconhecer elementos visuais diretamente no vídeo. Ações podem ser inferidas desses elementos visuais, mas não é o foco aqui, uma vez que, para validar nossa hipótese, tentamos demonstrar a viabilidade de tal sistema.

(29)

Revisão Sistemática da Literatura

O processo de criação de audiodescrição é feito, atualmente, de forma manual e por isso, exige muito tempo de trabalho para passar por todas as etapas de produção. Sendo assim, o uso de técnicas computacionais pode auxiliar e otimizar o processo. Na literatura científica, alguns estudos investigam a incorporação dessas técnicas dentro das etapas de criação da audiodescrição.

Este capítulo apresenta uma revisão de literatura sobre as técnicas de geração au-tomática de audiodescrição. O protocolo de revisão sistemática que foi utilizado para direcionar essa revisão é apresentado no Apêndice A. A Seção 3.1 apresenta o processo de busca, seleção e classificação dos artigos. Na Seção 3.2, os trabalhos mais relevantes são descritos e avaliados de forma qualitativa.

3.1 Busca, Seleção e Classificação dos Artigos

O protocolo utilizado nesta revisão melhora e atualiza a proposta do trabalho de Muniz (2014), que apresenta uma revisão sistemática sobre as técnicas de geração automática de audiodescrição, considerando artigos publicados até 2014. Portanto, a revisão sistemática apresentada neste capítulo atualiza os artigos publicados desde 2014 à 2019, além de uma reclassificação dos artigos selecionados até 2014 para adaptação às mudanças realizadas no protocolo.

A etapa de busca consistiu da pesquisa através da string de busca nos portais de artigos citados no protocolo. A consulta foi realizada nos dias 10 e 11 de Junho de 2019 e foram retornados 126 artigos, no total.

Em seguida, foi aplicado um processo de seleção dos artigos de acordo com os cri-térios de inclusão e exclusão. As etapas de seleção dos artigos foram realizadas por três revisores em duas iterações. A primeira iteração considerou o título e resumo de cada artigo e a segunda iteração foi feita a partir da leitura completa de todos os artigos con-siderados indeterminados. Ao final da primeira iteração, foram selecionados 67 artigos e, após a segunda interação, foram selecionados 32 artigos. A Tabela 3.1 apresenta a quantidade de artigos em cada fase e de acordo com os portais de pesquisa.

A revisão sistemática retornou 32 artigos relacionados ao tema e que foram publicados de 2014 à 2019. A revisão apresentada por Muniz (2014) retornou 14 artigos publicados até 2014. Para o presente trabalho, os dois resultados foram considerados para representar

(30)

Tabela 3.1: Resultados do Processo de Busca e Seleção de Artigos

IEEE ACM Scopus ScienceDirect ISI TOTAL Processo de Busca 20 2 28 8 68 126 Seleção (1a _iteração) ₁₁ ₂ ₂₀ ₅ ₂₉ ₆₇

Seleção (2a iteração) 4 2 12 4 10 32 todos os artigos publicados até o ano de 2019. Com isso, a quantidade de artigos selecio-nados passou a ser 46 no total. A Figura 3.1 apresenta a quantidade de artigos publicados em cada ano.

Figura 3.1: Quantidade de Publicações por Ano

Os 46 artigos selecionados passaram por um processo de classificação que consistiu da leitura e da classificação de acordo com critérios definidos no protocolo de revisão. Este processo foi realizado por dois revisores e, em caso de divergência ou dúvidas na classificação, o terceiro faria a revisão dos critérios, emitindo a decisão final sobre a classificação correta do trabalho. O resultado da classificação dos trabalhos é apresentado na Tabela 3.2. É importante salientar que as categoria “Tipo de Entrada", "Tipo de Saída"e "Método de Avaliação"admitiram mais de uma entrada para alguns artigos, apresentando um número maior que a quantidade total de artigos selecionados.

Em relação ao tipo da geração, a estratégia automática está presente na maior parte dos trabalhos, correspondendo a 65,2% dos trabalhos pesquisados (30 trabalhos, especifica-mente). A geração semiautomática foi utilizada em 6 trabalhos (13,00%). Três trabalhos

(31)

Tabela 3.2: Classificação Total dos Artigos

Categoria Subcategoria Número de Artigos Percentual

Tipo de Geração Automático Manual Semi-automático Não classificado 30 3 6 7 65,2% 6,5% 13,0% 15,2% Tipo de Entrada Vídeo Imagem Mapa Página Web Roteiro Cinematográfico Função matemática Texto Roteiro de AD Dados estatísticos Áudio e Legenda Localização Gráfico Modelo 3D Modelo 2D Não classificado 14 5 3 6 4 5 4 3 3 1 1 1 3 1 9 25,9% 9,3% 5,6% 11,1% 7,4% 9,3% 7,4% 5,6% 5,6% 1,9% 1,9% 1,9% 5,6% 1,9% 14,3% Tipo de Saída Áudio Texto Modelo 3D Roteiro de AD Imagem Impressão Tátil Gráfico Vídeo Não classificado 30 20 1 4 1 3 6 2 8 40,0% 26,7% 1,3% 5,3% 1,3% 4,0% 8,0% 2,7% 10,7% Canal de Geração Canal Original Canal Separado Não utiliza Não classificado 7 14 14 11 15,2% 30,4% 30,4% 23,9% Método de Avaliação Automática Com Usuários Especializada Híbrida Não classificado 12 24 3 1 2 28,6% 57,1% 7,1% 2,4% 4,8% Tempo de Geração de AD Previamente Gerada Tempo-real Não classificado 35 5 6 76,1% 10,9% 13,0% Domínio da Audiodescrição Domínio Específico Domínio Geral Não classificado 40 2 4 87,1% 4,2% 8,7%

(32)

apresentam a geração manual da audiodescrição (6,5%), ou seja, realizada por profissi-onais de audiodescrição. Por fim, 7 trabalhos (15,2%) não especificaram a estratégia de geração da audiodescrição.

Considerando o tipo de entrada, a subcategoria Vídeo apresentou a maior quantidade de trabalhos (14 trabalhos – 25,9%). A subcategoria Página Web teve 6 trabalhos (11,1%), as subcategorias Imagem e Função Matemática tiveram 5 trabalhos (9,3%) e as subcatego-rias Roteiro Cinematográfico e Imagem tiveram 4 trabalhos (7,4%). A demais categosubcatego-rias obtiveram valores menores com a presença de 1 a até 3 trabalhos. Por fim, os trabalhos que não especificaram o tipo de entrada foram considerados na subcategoria Não Classi-ficado, com um total de 9 trabalhos (14,3%).

Sobre o tipo de saída, a subcategoria que apresentou maior número de artigos foi a Áudio com 30 trabalhos, correspondendo a 40%. Em seguida, a subcategoria Texto com 20 trabalhos (26,7%). As demais subcategorias estão relacionadas a saídas mais específicas e portanto, apresentaram uma quantidade menor de trabalhos. Oito trabalhos não especificaram o tipo de saída, portanto foram considerados como Não classificado.

Em relação ao canal de geração de áudio, 7 trabalhos (15,2%) apresentam a audiodes-crição mixada no áudio original do conteúdo e 14 trabalhos utilizam um canal de áudio separado para a AD (30,4%). Além disso, 14 trabalhos (30,4%) não utilizam áudio como saída e outros 11 (23,9%) não especificaram o tipo de canal de áudio e foram considerados como Não classificado.

Em relação ao método de avaliação, a mais utilizada nos trabalhos foi a avaliação com usuários, aplicado em 24 trabalhos (57,1%). A avaliação automática foi utilizada como método de avaliação em 12 trabalhos (28,6%). A avaliação especializada, com ajuda de profissionais, foi utilizada em 3 trabalhos, correspondendo a 7,1%. Apenas 1 trabalho utilizou o método híbrido de avaliação. Os demais trabalhos (2 trabalhos – 4,8%) não especificaram como a avaliação foi feita e por isso, foram considerados como Não classificado.

Em relação ao momento de geração da AD, 35 trabalhos fazem a geração da AD de forma prévia à apresentação do conteúdo, correspondendo a 76,1%. No entanto, 5 traba-lhos (10,9%) fazem a geração da AD em tempo-real, simultaneamente com a apresentação do conteúdo. Os demais trabalhos (6 trabalhos – 13,00%) não especificaram o momento de geração da AD e foram considerados como Não classificado.

Por fim, considerando o domínio da audiodescrição, a maior parte dos trabalhos (40 trabalhos – 87,1%) utiliza a audiodescrição em algum domínio específico, enquanto que 2 trabalhos (4,2%) apresentam uma abordagem de geração de audiodescrição para domínio geral. Apenas quatro trabalhos (8,7%) não especificam o domínio da audiodescrição por se tratar de trabalhos teóricos e, desta forma, foram considerados como Não classificado. Segundo Nunes (2011), a audiodescrição deve ser vinculada ao produto visual, por-tanto, a sua geração deve considerar o tipo de conteúdo que será audiodescrito. A solução proposta neste trabalho foca na audiodescrição de vídeos digitais, portanto, os trabalhos diretamente relacionados devem trabalhar com a mesma mídia. Diante disso, os artigos também foram avaliados em relação ao domínio da audiodescrição para verificar qual o tipo de mídia específica que cada um aborda. A Figura 3.2 apresenta a distribuição dos artigos em relação ao tipo de mídia.

(33)

Figura 3.2: Quantidade de Artigos por Domínio Específico

Os dois artigos de domínio geral focam em estratégias de tradução de idioma e de ga-mificação. Por não apresentarem uma solução/sistema de geração de audiodescrição, não foram considerados. Os domínios específicos que estão relacionados à mídia-alvo deste trabalho são Vídeo e TV. Ambas categorias apresentam características semelhantes na ela-boração da AD e, portanto, estão diretamente relacionados ao tema deste trabalho. Desta forma, serão considerados 20 artigos, 17 de Vídeo e 3 de TV, para realizar a avaliação qualitativa dos trabalhos.

3.2 Avaliação Qualitativa dos Trabalhos

Diante dos 46 artigos selecionados na revisão sistemática da literatura, 20 estão re-lacionados ao foco principal deste trabalho, que são os vídeos digitais. Por possuírem características e etapas semelhantes na criação da AD, os trabalhos relacionados à vídeo e TV são avaliados nesta seção. A Tabela 3.3 apresenta a classificação dos artigos em relação a todos os critérios do protocolo. Para cada artigo, uma descrição e uma avaliação qualitativa são apresentadas a seguir. Como forma de organizar a apresentação dos traba-lhos, eles foram classificados de acordo com o papel executado dentro da audiodescrição.

3.2.1 Forma de Apresentação da Audiodescrição

Muitos trabalhos incorporam técnicas computacionais na forma de apresentar a audio-descrição aos usuários, através de recursos de distribuição de áudio, uso de sintetizadores de voz e players adaptados à manipulação das descrições. Os trabalhos a seguir não pro-põem sistemas de geração automática da audiodescrição em seu objetivo principal, mas apresentam soluções relacionadas ao consumo e acesso do recurso.

(34)

Oliveira et al. (2016) propõem duas novas abordagens para a tradução audiovisual voltadas para conteúdos de televisão: a audiodescrição colaborativa/espontânea e a lei-tura automática de legendas. Em relação à audiodescrição colaborativa ou espontânea, é utilizada uma abordagem co-participativa que aproveita as dinâmicas que frequentemente ocorrem em domicílios, onde os deficientes se beneficiam com a tradução informal dos conteúdos apresentados na TV feitas por parentes ou amigos. Seguindo esta prática, os autores propõem a criação da AD a partir da gravação de áudio, em tempo real, das descri-ções espontâneas geradas por algum colaborador não-profissional. Essas gravadescri-ções irão fazer parte de um repositório e outros deficientes poderiam acessá-las através de aplicativo que fornece uma nova track de áudio contendo a AD. A segunda abordagem de criação é a leitura automática de legendas, que tem o objetivo de deixar conteúdos de TV transmiti-dos em línguas estrangeiras acessíveis às pessoas que não entendem um segundo idioma. Neste caso, esta abordagem pode auxiliar os deficientes visuais a ter acesso ao conteúdo da legenda, como também qualquer pessoa que não seja fluente no idioma estrangeiro em questão. Para executar esta tarefa, a solução utiliza uma ferramenta TTS (text-to spe-ech) ou técnicas de ORC (Optical Recognition Character). As duas abordagens foram avaliadas por especialistas que consideraram a solução relevante, pois aborda conteúdos no idioma nativo e estrangeiro. Já a abordagem colaborativa tem objetivo de aumentar a oferta de audiodescrição para conteúdo de TV, porém necessita de um humano para criar as descrições e, além disso, pode ocorrer problemas de sincronia entre os canais de áudio da TV e da AD, uma vez que são gravações distintas. Já a abordagem automática, a partir da legenda, contribui para o acesso a conteúdos estrangeiros, no entanto, se limita aos diálogos do programa de TV, não fornecendo descrição das informações visuais.

Domingues et al. (2016) apresentam uma solução computacional para ser utilizada em salas de cinema. A solução proposta é capaz de gerar automaticamente a audiodescrição dos filmes e distribuir esses conteúdos, através de dispositivos móveis, para os usuários cegos. Para isso, a solução propõe as etapas de comunicação com o player do cinema, de geração automática da AD e de distribuição do conteúdo nos dispositivos. A comunicação da solução com o player do cinema é feita através de um protocolo de troca de mensagens e possui o objetivo de garantir a sincronia da AD com a exibição do filme. A solução foi testada com usuários cegos para fazer um comparativo do nível de compreensão do conteúdo em duas situações distintas: com e sem a solução durante a exibição do filme. Os resultados mostraram que o sistema promoveu um aumento na compreensão dos eventos do filmes quando comparado a usuários sem o recurso de acessibilidade. Desta forma, o trabalho apresenta uma forma de tornar as salas de cinema acessíveis aos deficientes visuais.

Calvo-Salamanca et al. (2016) apresentam um protótipo Web para acessar vídeos com audiodescrição usando sintetizadores de voz. A solução tem uma arquitetura cliente-servidor para a criação e acesso aos conteúdos acessíveis. A partir do cliente, é possível informar o vídeo através de uma URL, editar, salvar e enviar as descrições, que serão utilizadas para criar a AD através da ferramenta TTS. O servidor faz o controle e arma-zenamento de todos os vídeos acessíveis e, através de uma requisição, o cliente poderá ter acesso a URL para o vídeo original ou para a versão do vídeo com a AD embutida no áudio original. O protótipo foi avaliado por um grupo de usuários em relação à