ANÁLISE E PREDIÇÃO DE BILHETERIAS DE FILMES
Por
João Carlos Procópio Florêncio
Dissertação de Mestrado
Universidade Federal de Pernambuco [email protected] www.cin.ufpe.br/~posgraduacao
RECIFE 2016
Universidade Federal de Pernambuco
Centro de Informática
Pós-graduação em Ciência da Computação
João Carlos Procópio Florêncio
ANÁLISE E PREDIÇÃO DE BILHETERIAS DE FILMES
Trabalho apresentado ao Programa de Pós-graduação em Ciência da Computação do Centro de Informática da Univer-sidade Federal de Pernambuco como requisito parcial para obtenção do grau de Mestre em Ciência da Computação.
Orientador: Tsang Ing Ren
RECIFE 2016
Catalogação na fonte
Bibliotecária Monick Raquel Silvestre da S. Portes, CRB4-1217
F632a Florêncio, João Carlos Procópio
Análise e predição de bilheterias de filmes / João Carlos Procópio Florêncio. – 2016.
96 f.: il., fig., tab.
Orientador: Tsang Ing Ren.
Dissertação (Mestrado) – Universidade Federal de Pernambuco. CIn, Ciência da Computação, Recife, 2016.
Inclui referências.
1. Inteligência artificial. 2. Aprendizagem de máquina. 3. Reconhecimento de padrão. 4. Sistemas de recomendação. I. Ren, Tsang Ing. (orientador). II. Título.
006.31 CDD (23. ed.) UFPE- MEI 2016-058
João Carlos Procópio Florêncio
Análise e Predição de Bilheterias de Filmes
Dissertação apresentada ao Programa de Pós-Graduação em Ciência da Computação da Universidade Federal de Pernambuco, como requisito parcial para a obtenção do título de Mestre em Ciência da Computação.
Aprovado em: 29/02/2016
BANCA EXAMINADORA
_____________________________________________________________ Prof. Dr.Paulo Salgado Gomes de Mattos Neto
Centro de Informática / UFPE
_____________________________________________________________ Prof. Dr. Borko Stosic
Departamento de Estatística e Informática /UFRPE
_____________________________________________________________ Prof. Dr. Tsang Ing Ren
Centro de Informática / UFPE
(Orientador)
Dedico esta tese a minha família, amigos e professores que me deram o suporte necessário para chegar até aqui.
Agradecimentos
Agredeço aos meus pais, Clovis e Maria Aparecida, e irmãos, Ana Luísa e Paulo Henrique, que sempre me apoiaram em minhas decisões e torceram pelo meu sucesso. Meus pais, em especial, que nunca deixaram nada me faltar para que eu seguisse evoluindo na vida e sempre me deram conselhos preciosos que levo para sempre na vida.
Agradeço a minha namorada Tallyta que, além de me dar todo o apoio e incentivo para finalizar a dissertação, também colaborou prontamente quando precisava revisar os textos.
Agradeço aos meus amigos da faculdade: Paulo Henrique, Dayvid Victor, Denys Farias, e ao meu amigo e colega de trabalho Diego Spíndola. Eles sempre me apoiaram e estiveram abertos para me ouvir, desde as minhas dúvidas sobre os assuntos dos mestrado até as questões mais profundas.
Por fim, agradeço imensamente ao meu orientor, Tsang, que vem me ajudando a amadu-recer nesse universo científico desde o fim da minha graduação, e que me apoiou em todos os momentos, mesmo naqueles mais difíceis, e permitiu que eu chegasse até aqui. Sem o apoio dele tudo teria sido mais difícil e serei sempre grato por isso.
I have yet to see any problem, however complicated, which, when looked at in the right way, did not become still more complicated.
Resumo
Prever o sucesso de um filme e, por consequência, seu sucesso nas bilheterias tem uma grande importância na indústria cinematográfica, desde a fase de pré-produção do filme, quando os investidores querem saber quais serão os filmes mais promissores, até nas semanas seguintes ao seu lançamento, quando se deseja prever as bilheterias das semanas restantes de exibição. Por conta disso, essa área tem sido alvo de muitos estudos que tem usado diferentes abordagens de predição, seja na seleção das características dos filmes como nas técnicas de aprendizagem, para atingir uma maior capacidade de prever o sucesso dos filmes. Neste trabalho de mestrado, foi feita uma investigação sobre o comportamento das principais características dos filmes (gênero, classificação etária, orçamento de produção, etc), com maior foco nos resultados das bilheterias e sua relação com as características dos filmes, de forma a obter uma visão mais clara de como as caracaterísticas dos filmes podem influenciar no seu sucesso, seja ele interpretado como lucro ou volume de bilheterias. Em seguida, em posse de uma base de filmes extraída do Box-Office Mojo e do IMDb, foi proposto um novo modelo de predição de box office utilizando os dados disponíveis dessa base, que é composta de: meta-dados dos filmes, palavras-chaves, e dados de bilheterias. Algumas dessas características são hibridizadas com o objetivo evidenciar as combinações de características mais importantes. É aplicado também um processo de seleção de características para excluir aquelas que não são relevantes ao modelo. O modelo utiliza Random Forestcomo máquina de aprendizagem. Os resultados obtidos com a técnica proposta sugerem, além de uma maior simplificação do modelo em relação a estudos anteriores, que o método consegue obter taxas de acerto superior 90% quando a classificação é medida com a métrica 1-away(quando a amostra é classificada com até 1 classe de distância), e consegue melhorar a qualidade da predição em relação a estudos anteriores quando testado com os dados da base disponível.
Abstract
Predicting the success of a movie and, consequently, its box office success, has a huge importance in the motion pictures industry. Its importance comes since from the pre-production period, when the investors want to know the most promising movies to invest, until the first few weeks after release, when exhibitors want to predict the box office of the remaining weeks of exhibition. As result, this area has been subject of many studies which have used different prediction approaches, in both feature selection and learning methods, to achieve better capacity to predict movies’ success. In this mastership work, a deep research about the movie’s main features (genre, MPAA, production budget, etc) has been done, with more focus on the results of box offices and its relation with the movie’s features in order to get a clearer view of the organization of information and how variables can influence the success of a film, whether this success be interpreted as profit or revenue volumes at the box office. Then, in possession of a movie database extracted from Box-Office Mojo and IMDb, it was proposed a new box office prediction model based on available data from the database composed of: movie meta-data, key-words and box office data. Some of these features are hybridized aiming to emphasize the most important features’ combinations. A features’ selection process is also applied to exclude irrelevant features. The obtained results with the proposed method suggests, besides a further simplification of the model compared to previous studies, that the method can get hit rate of more than 90% when classification is measured with the metric 1-away (when the sample is classified within 1 class of distance from the right class), and achieve a improvement in the prediction quality when compared to previous studies using the available database.
Lista de Figuras
2.1 Padrões simulados para modelos estocásticos de vendas nas bilheterias variando λ . 24 2.2 Exemplos de filmes cujas bilheterias se encaixam nos padrões previstos pelo
modelo. . . 26
2.3 Exemplos de filmes cujas bilheterias não se encaixam em nenhum padrão previsto pelo modelo. . . 27
2.4 Arquitetura do método Movie Investor Assurance System (MIAS). . . 32
2.5 Arquitetura da rede neural proposta. . . 35
2.6 Correlação das variáveis analisadas com o faturamento real obtido. . . 37
2.7 Correlação do faturamento previsto pelo modelo com o faturamento real obtido. 38 3.1 Número médio de lançamentos por gênero por ano. . . 45
3.2 Número de lançamentos por mês. Em azul claro, o número de filmes lançados por ano e em azul escuro, a média. . . 46
3.3 Distribuições dos filmes em quatro critérios diferentes. . . 48
3.4 Distribuição do rank de vendas de bilhetes em escala logarítmica em ambos os eixos. . . 50
3.5 Lei de Benford no faturamento dos filmes nos E.U.A.. . . 51
3.6 Proporção dos padrões de bilheterias com base em 0,9 de erro quadrático. . . . 53
3.7 Proporção da venda média de bilhetes entre os gêneros. . . 55
3.8 Proporção da venda média de bilhetes entre os meses do ano em que os filmes foram lançados. Cada linha em azul claro representa a receita média dos filmes ao longo de um ano analisado. A linha em azul representa a receita média e em vermelho representa o orçamento médio dos filmes. . . 56
3.9 Proporção da venda média de bilhetes entre os diferentes níveis de concorrência. 57 3.10 Proporção da venda média de bilhetes entre os diferentes níveis de orçamento. . 58
3.11 Proporção da venda média de bilhetes entre os diferentes níveis de número de salas na semana de lançamento. . . 59
4.1 Distribuição do rank-frequência das palavras-chaves nos filmes. . . 69
4.2 Principais métodos de seleção de características. . . 71
4.3 Comparação de performance de diferentes métodos de aprendizagem de máquina. 75 5.1 Matriz confusão dos 6 conjuntos de dados provenientes do 6-fold cross-validation. 85 5.2 Gráficos de correlação dos 6 conjuntos de dados provenientes do 6-fold cross-validation. . . 87
5.3 Comparação da distribuição das amostras dos resultados 1-away do modelo de Zhang versus o modelo proposto. . . 88
Lista de Tabelas
2.1 Resumo das variáveis de entrada. Para cada variável é apresentado o intervalo de valores que ela pode assumir. Para a variável “Nação”, apenas dois valores possíveis podem ser atribuídos, 0,474 se for nacional e 0,526 se for importado. 34 2.2 Seis classes que podem ser atribuídas aos filmes. Cada classe representa uma
faixa de faturamento especificada na segunda linha. Na terceira linha o número
de filmes disponíveis na base para cada classe é apresentado. . . 35
3.1 Informações disponíveis na base de estudo. . . 44
3.2 Tabela de preço médio do bilhete nos E.U.A. por ano. . . 44
3.3 Parâmetros para encontrar o melhor padrão que define o comportamento da bilheteria de um filme . . . 52
3.4 Correlação de Pearson das principais variáveis com o faturamento do filme nos E.U.A.. . . 59
3.5 Correlação de pearson da renda gerada pelos atores com o faturamento doméstico do filme. . . 60
3.6 Correlação de pearson da renda gerada pelo diretor com o faturamento doméstico do filme. . . 60
4.1 Lista de possíveis gêneros com seus respectivos pesos no modelo. . . 64
4.2 Lista de feriados e festivais americanos com seus respectivos pesos no modelo. 65 4.3 Meses do ano com seus respectivos pesos no modelo. . . 65
4.4 Dias da Semana de lançamento e seus respectivos pesos no modelo. . . 65
4.5 Lista classificações etárias com seus respectivos pesos no modelo. . . 68
4.6 Variáveis finais selecionadas para o modelo. . . 73
4.7 Critérios de classificação definidos para o modelo proposto. Para cada classe é apresentada a sua faixa de bilheterias e o número de filmes contidos na classe. . 74
4.8 Parâmetros para encontrar o melhor padrão que define o comportamento da bilheteria de um filme . . . 77
5.1 Critérios de classificação do modelo de Zhang et al.. . . 81
5.2 Critérios de classificação do modelo de Sharda e Delen. . . 83
5.3 Resultado comparativo do desempenho de classificação dos três modelos testados. 86 5.4 Resultado comparativo do desempenho de regressão dos três modelos testados. 86 5.5 Relevância das variáveis incrementadas ao modelo. . . 89
Lista de Acrônimos
FDC Função de Distribuição Cumulativa . . . 22
FDP Função de Densidade de Probabilidades . . . 24
ROI Return Of Investiment . . . 29
AUC Area Under the Curve. . . 32
MIAS Movie Investor Assurance System. . . 31
FTD Faturamento Total Doméstico . . . 35
MLBP Multi-Layer Back Propagation . . . 35
MSE Mean Squared Error . . . 40
MAE Mean Absolute Error. . . 40
SSE Sum Squared Error. . . 52
RMSE Root Mean Squared Error. . . 52
LAR Least Absolute Residuals. . . 53
APHR Average Percent Hit Rate . . . 83
LDA Latent Dirichlet Allocation. . . 68
MPAA Motion Picture Association of America. . . 15
SVM Support Vector Machine . . . 28
Sumário
1 Introdução 15
1.1 Motivação . . . 15
1.1.1 Aspecto Inovador na Produção de Filmes . . . 16
1.2 Justificativa . . . 18 1.3 Objetivos . . . 18 1.3.1 Objetivo Geral . . . 18 1.3.2 Objetivos Específicos . . . 19 1.4 Contribuições . . . 19 1.5 Estrutura da Dissertação . . . 19
2 Análise e Predição de Box Offices 21 2.1 Análise do Box Office no Período de Exibição . . . 21
2.1.1 Fatores Determinantes de Bilheterias no Período de Exibição . . . 22
2.1.2 Modelagem do Sistema . . . 23
2.1.3 Deficiências do Modelo . . . 25
2.2 Predições de Box Office . . . 25
2.2.1 Predição em Fase de Pré-Produção . . . 29
2.2.1.1 Características Utilizadas para a Predição . . . 29
2.2.1.2 Arquitetura do Método . . . 31
2.2.2 Predição em Fase de Pré-Lançamento . . . 32
2.2.2.1 Meta-dados . . . 33
2.2.2.2 Expectativa do Público . . . 36
2.2.2.3 Avaliações de Críticas . . . 37
2.2.3 Predição em Fase de Pós-Lançamento . . . 39
3 Análise dos Dados de Box Office dos Filmes 41 3.1 Introdução . . . 41
3.2 Dados Disponíveis para Análise . . . 42
3.3 Disposição Geral dos Dados . . . 45
3.3.1 Distribuição dos Filmes . . . 45
3.3.2 Rank-Frequência do Faturamento e a Lei de Potência . . . 47
3.3.3 Lei de Benford . . . 50
3.3.4 Características dos Fluxos das Bilheterias . . . 51
3.4 Correlação das Variáveis com o Sucesso dos Filmes . . . 54
3.4.2 Sazonalidade do Ano . . . 55
3.4.3 Competição . . . 56
3.4.4 Orçamento . . . 57
3.4.5 Número de Salas no Lançamento . . . 58
3.4.6 Análise das Correlações . . . 58
4 Predição de Box-Office 61 4.1 Modelo Proposto . . . 61
4.1.1 Método de Aprendizagem . . . 62
4.1.2 Ajuste das Variáveis . . . 62
4.1.3 Seleção das Características . . . 70
4.1.4 Critérios de Valoração dos Resultados . . . 72
4.1.5 Máquina de Aprendizagem e Parâmetros Utilizados . . . 74
5 Experimentos e Resultados 78 5.1 Descrição dos Experimentos . . . 78
5.1.1 Dados Utilizados nos Experimentos . . . 78
5.1.2 Replicação dos Modelos Concorrentes . . . 79
5.1.3 Metodologia para Medição e Comparação da Performance . . . 82
5.2 Resultados . . . 84
5.3 Discussão . . . 86
6 Conclusão 92 6.1 Trabalhos Futuros . . . 93
15 15 15
1
Introdução
1.1
Motivação
A indústria do cinema possui grande importância não só no seu aspecto cultural, mas também no aspecto econômico. Nos Estados Unidos ela, junto com a indústria da TV, é responsável por movimentar no mercado interno mais de 15 bilhões de dólares todos os anos e sustentar mais de 100 mil negócios de acordo com a Motion Picture Association of America (MPAA), MPAA. Diante de todo esse volume de recursos que são movimentados e do alto risco envolvido nelas, as decisões tomadas sobre: qual filme produzir, onde lançar e quantas salas alocar, deve-se buscar fazê-las embasada em dados, sempre que possível, de modo a minimizar os riscos envolvidos. Muitas informações e números costumam ser levantadas para uma tomada de decisão, e a pena para uma decisão equivocada envolve inevitavelmente prejuízos proporcionais ao montante dos valores movimentados. Por isso, o objetivo é de buscar a melhor estimativa possível do quanto o filme deve produzir de bilheterias e, consequentemente, o quanto ele irá gerar de lucro para as produtoras e distribuidoras de filmes. Esse processo de estimação das receitas está presente em três fases do ciclo de vida de um filme de cinema:
Pré-produção muitos investidores desejam saber qual filme que deve ser produzido a fim de lhe garantir melhores retornos.
Pré-lançamento O objetivo é dimensionar corretamente o número de salas a serem disponibili-zadas no lançamento.
Pós-lançamento a decisão está em como variar o número de salas no decorrer do período de exibição para otimizar a capacidade das salas.
Dentre as diferentes fases de decisões a serem tomadas na indústria do cinema, a fase de pré-produção, em que se decide em qual filme investir, certamente é a mais impactante, pois é na decisão de se fazer um filme que se desencadeiam todos os custos de produção e também é a partir dela que se inicia o processo para a obtenção das receitas que o projeto pode gerar.
1.1. MOTIVAÇÃO 16 Por isso, quanto mais bem munido de informações e análises que embasem a decisão de um investidor sobre qual produção de filme investir, mais ele tenderá a ter sucesso na escolha.
No entanto, prever o grau de sucesso de um filme e o quão ele pode ser atrativo ao público não é um algo trivial. As muitas variáveis envolvidas e, em sua maioria, subjetivas, dão um grau de imprevisilibidade muito alto a um filme. Grau esse muito similar ao visto em lançamento de produtos considerados inovadores, pois ambos trazem elementos ao consumidor final cuja aceitabilidade nunca foi posta a prova antes.
Além de toda a dificuldade de se prever um produto de caráter inovador, como é a produção de um filme, este ainda carrega algumas características particulares que dificultam mais sua previsibilidade. O fato, por exemplo, dos filmes nos cinemas terem um período de exibição relativamente curto (entre 10 e 15 semanas, normalmente) e a maior demanda se concentrar na semana de lançamento, fazem com que o dimensionamento para atender à demanda incial seja feito sem de qualquer feedback sobre a resposta do público. Além disso, o mercado de cinema é altamente dinâmico. Novos filmes são lançados toda semana, e isso afeta diretamente tanto a capacidade de oferta do filme, quando um novo lançamento retira salas dos filmes já em exibição, quanto na sua demanda ao desviar o foco do seu público para filmes mais recentes.
Mesmo sabendo da dificuldade de se estimar com precisão as receitas e a rentabilidade de filmes lançados nos cinemas, muita informação relevante dos filmes ainda pode ser extraída. Com uma técnica de predição de biheterias é possível de analisar as principais variáveis de um filme e fornecer um parecer do que se pode esperar dele com base no histórico da indústria. Isso possilibita conclusões mais fundamentadas a respeito do potencial do filme nas bilheterias, uma vez que já se conhece como o tipo do filme analisado tem se comportado nos últimos tempos.
1.1.1
Aspecto Inovador na Produção de Filmes
Das causas que impactam na dificuldade de se prever bilheterias de filmes, o aspecto inovador é uma das que precisam ser analisadas com mais cuidado para ser possível entender a natureza do comportamento das bilheterias. Filmes que desejam atrair a atenção do público precisam trazer elementos novos para os seus conteúdos. Filmes que, apesar de terem boa qualidade de produção, não trazem novos padrões seja no roteiro, efeitos especiais, forma de divulgação ou em outras características, tornam-se incapazes de surpreender o público e, por isso, tendem a ter resultados fracos de bilheterias. Por outro lado, a medida que um produtor incrementa com novos elementos e combinações no filme que nunca foram testados antes, a reação do público se torna cada vez mais imprevisível. O público poderá reagir positivamente e tornar um fime um grande sucesso e ultrapassar em muitas vezes os custos de produção do filme, como pode também não gerar uma boa reação e o filme mal conseguir arrecadar os seus custos. Por isso, na indústria do cinema é comum precisar arriscar nas produções com alguma inovação para que possa ter a chance de obter um resultado de bilheterias expressivo. Não há fórmula pronta e imutável que garanta o sucesso na indústria cinematográfica e, por isso, o
1.1. MOTIVAÇÃO 17 aspecto inovador impacta tanto no padrão de consumo dos filmes.
Bass (2004) analisa o modelo de difusão de novos produtos e classifica todo o público potencial em categorias chamadas: inovadores, usuários precoces, maioria inicial, maioria tardia e retardatários. Essas categorias dividem o público em relação à velocidade que cada grupo tem de adotar um produto. O público de cinema pode ser classificado da mesma forma, uma vez que a motivação que leva um público a consumir um filme costuma ser baseado mais em expectativas do que em fatores concretos. Quanto maior for a tendência de um espectador a se arriscar a consumir um filme que ainda não tenha uma reputação consolidada, mais inovador e precoce é o consumidor.
A principal forma que a indústria do cinema tem para tratar com essa alta imprevisibili-dade de produtos inovadores é a capaciimprevisibili-dade de rapidamente ajustar sua capaciimprevisibili-dade de oferta. Diferente de produtos físicos, que é muito difícil ajustar a intensidade da distribuição em cada região de interesse por conta das limitações logísticas, a indústria do cinema tem a vantagem de estabelecer uma estratégia de distribuição diferente a cada semana, quando as produtoras e exibidoras estão em comum acordo (ECKERT; DE VANY, 1989). Enquanto em uma semana um filme pode estar sendo exibido em mais salas em uma região que se tinha maior expectativa de bilheteria em detrimento de outras, na outra o distribuidor já pode alterar a disponibilidade das salas para que atenda mais adequadamente às demandas de cada região. No entanto, essa distribuição tende a ser melhor gerida se os distribuidores e as grandes redes de cinema tiverem uma boa capacidade de prever a demanda que virá nas semanas seguintes, já que a oscilação de demanda entre as semanas de um mesmo filme costuma muda consideravelmente.
O varejo do cinema, responsável por entregar o filme ao consumidor final, é formado, principalmente, por grandes redes que precisam gerenciar muitas salas de exibição distribuídas por várias regiões. Por conta do seu tamanho e capacidade de absorver a demanda, eles nego-ciam as condições de exibição diretamente com os distribuidores dos filmes. Eles costumam estabelecer contratos iniciais com os distribuidores para as três primeiras semanas de exibição e, após isso, a negociação é feita semana a semana em que são considerados o comportamento das bilheterias e as perspectivas para as semanas seguintes (SAWHNEY; ELIASHBERG, 1996). Em ambos os períodos de negociação, ter boas ferramentas para prever a real demanda do filme ajudará na negociação com o distribuidor e na melhor alocação de salas para os filmes em cartaz.
No entanto, esses dois períodos tem abordagens muito diferentes de predição. O primeiro período lida com um tipo de previsão que envolve reconhecer o público potencial para o filme de acordo com suas características gerais e o nível de expectativa do filme, geralmente detectado em análise de redes sociais. A segunda parte envolve muito mais entender os aspectos sazonais e os padrões de comportamento das bilheterias ao longo do período de exibição de um filme para se obter uma boa previsão.
1.2. JUSTIFICATIVA 18
1.2
Justificativa
Tendo em vista as dificuldades de previsão de sucesso de um filme e todas as possíveis implicações negativas que uma escolha errada no filme a se investir podem trazer para a indústria do cinema, é possível imaginar o quão valiosa pode ser uma ferramenta que dê suporte aos tomadores de decisão nesse momento. Qualquer ganho de previsibilidade que os investidores venham a ter, representa ganhos enormes, uma vez que muitos recursos estão envolvidos nessas decisões.
Sabe-se, no entanto, que muitos estudos já foram feitos com o intuito de prever o grau de sucesso de um filme, seja ele medido em arrecadação nas bilheterias ou lucro (bilheterias menos os custos). Dentre os estudos já realizados podemos citar Sharda e Delen (2006), Mestyan e Yasseri (2013), Zhang, Luo e Yang (2009) e Lash e Zhao (2015) que buscam prevêr o resultado final nas bilheterias antes do lançamento e também Sawhney e Eliashberg (1996) que se utiliza dos dados iniciais de faturamento do filme para prever o resultado restante das bilheterias. Enquanto o primeiro tipo de previsão se adequa ao momento de pré-lançamento, o segundo se encaixa melhor nas negociações relacionadas ao número de salas alocadas para um filme no seu período de exbição e ao custo da licença de exibição que as grandes redes de cinema terão para exibir o filme nas semanas seguintes após o lançamento.
Considerando o valor agregado de cada tipo de previsão, a primeira se mostra mais recompensadora, pois as implicações da decisão tomada envolvem muito recursos do que os resultados da segunda previsão. Isso é notável também ao comparar a quantidade de estudos já feitos entre as duas áreas, pois existem mais tentativas de se prever a bilheteria do filme no pré-lançamento do que no pós-lançamento.
Apesar de existirem vários modelos que propõem prever o sucesso em bilheterias de um filme antes do seu lançamento, ainda existem muitos aspectos a serem analisados e que podem contribuir para a melhora da capacidade preditiva do modelo. Testar o modelo sob diferentes máquinas de aprendizagem, analisar novas características, como as palvras-chaves relacionadas aos filmes, combinar caracaterísiticas e reduzir a dimensionalidade do modelo são possibilidades que podem levar a proposição de técnicas preditivas mais precisas para área de bilheterias de filmes.
1.3
Objetivos
1.3.1
Objetivo Geral
Esta dissertação tem como objetivo geral fazer uma análise e predição das bilheterias de cinema. Isso envolve identificar os principais fatores que impactam na expectativa de sucesso de filme nos cinemas que começam desde o período de aceitação de projeto em que se define os atores, diretores, tipo do filme, volume de investimento entre outras, passando pelo período de
1.4. CONTRIBUIÇÕES 19 pré-lançamento em que se define o número de salas e as reações são esboçadas pelas críticas, até o período pós lançamento em que fatores como: concorrência, época do ano e as negociações com as distribuidoras mais impactam no curso do volume de vendas. Esta dissertação aborda todos esses períodos de maneira geral, e focar no período de pré-lançamento que é o período que se tem mais informações disponíveis e ainda carraga um grande valor agregado sobre as previsões de bilheterias.
1.3.2
Objetivos Específicos
Os objetivos específicos são:
Análisar os dados de bilheterias e meta-dados dos filmes.
Identificar os fatores que mais impactam nas bilheterias de um filme.
Desenvolver um modelo preditivo que utilize os fatores impactantes na bilheteria
identificados.
1.4
Contribuições
As principais contribuições realizadas com essa dissertação são: Uma análise dos vários aspectos de uma base de filmes de cinema apresentando como as variáveis se relacionam com os resultados de bilheteria. E o desenvolvimento de um sistema de predição de bilheterias em fase de pré-lançamento.
No sistema de predição são utilizadas palavras-chaves do IMDb para melhorar o desem-penho da predição, análise esta que até então não tinha sido feita para o propósito de predição. É apresentado também o potencial do uso de combinação de caracterísiticas, que permite alcançar taxas de acertos superiores na predição sem, necessariamente, incluir novas informações do filme no sistema.
1.5
Estrutura da Dissertação
Esta dissertação é divida em cinco partes. A primeira parte visa apresentar uma visão geral do que já foi feito em relação à análise e predição de Box-offices. Nessa etapa também deve-se fazer uma distinção dos tipos de predição, que podem ser realizadas em diferentes etapas do ciclo de vida de um filme e qual o propósito da predição em cada etapa.
A segunda parte analisa os dados relacionados aos filmes que foram obtidos nesta pesquisa. O objetivo é relacioná-los ao faturamento e o lucro dos filmes e identificar quais variáveis são mais determinantes para identificar os filmes mais propensos a se tornarem box officese quais podem se tornar um fracasso de bilheterias.
1.5. ESTRUTURA DA DISSERTAÇÃO 20 A terceira parte tem como objetivo avaliar as técnicas de predição e em como utilizar os dados avaliados no capítulo anterior para gerar os resultados de previsão de bilheterias mais precisos.
A quarta parte foca nos experimentos e resultados obtidos com a aplicação da técnica proposta. Comparações com outras técnicas já publicadas são realizadas com o objetivo de qualificar a relevância da proposta.
Por fim, a última parte apresenta as conclusões e trabalhos futuros. Todo o estudo feito até então é brevemente resumido e o significado dos resultados é apresentado, apontando os avanços alcançados pela pesquisa. Novos questionamentos também são levantados a partir das conclusões apresentadas e, junto com isso, novos caminhos de pesquisas que levem a resolução dessas novas questões são apontados.
21 21 21
2
Análise e Predição de Box Offices
Este capítulo apresenta os estudos já realizados na área de predição e análise de box office. Desde a apresentação dos diferentes padrões de comportamento da bilheteria ao longo do seu período de exibição e, consequentemente, sua capacidade de predição do comportamento das bilheterias das semanas seguintes, até as predições mais precoces, em que se busca avaliar o nível provável de sucesso de uma produção antes mesmo do início da produção do próprio filme. Para isso, dividimos o capítulo em duas partes: a primeira analisa o comportamento das bilheterias ao longo do período de exibição e a a segunda visa se avaliar a questão da predição de box officenas diferentes fases do ciclo de produção e exibição dos filmes.
2.1
Análise do Box Office no Período de Exibição
A análise do box office no período de exibição visa identificar os padrões de comporta-mento das bilheterias dos cinemas, desde o lançacomporta-mento até o fim do período de exibição dos filmes. Essa análise tem grande relevância tanto para entender o fatores que influenciam o fluxo de procura por determinado filme, como também para prever a demanda nas semanas seguintes de exibição, uma vez que tenha uma amostra inicial dos resultados das bilheterias. Com uma ou duas semanas já é possível, com alto grau de precisão (SAWHNEY; ELIASHBERG, 1996), na maioria dos casos, estimar o resultado das bilheterias para todas as semanas restantes até o fim da exibição do filme. Este fato é muito importante para as empresas exibidoras de filmes, pois a partilha de vendas entre exibidores e distribuidores, geralmente, começa com 90%-10% a favor do distribuidor, e progride para 50%-50% ao longo das semanas de exibição (FRIEDBERG, 1992). E por esta razão, que exibidores, ao contrário dos distribuidores, têm maior interesse em
prever com maior precisão o faturamento dos filmes do meio para o fim do período de exibição do filme. Pois, uma vez que sua parte passará a ser maior, quanto melhor ele racionalizar a sua estrutura para receber a demanda, melhor conseguirá rentabilizar os filmes.
Um estudo importante na área para o propósito de identificar os fatores impactantes no fluxo de bilheterias de filme e suas implicações preditivas foi feito por Mohanbir S. Sawhney e Jehoshua Eliashberg no artigo “A Parimonious Model for Forecasting Gross Box-Office Revenues
2.1. ANÁLISE DO BOX OFFICE NO PERÍODO DE EXIBIÇÃO 22 of Motion Pictures“ (SAWHNEY; ELIASHBERG, 1996). No artigo foi proposto definir uma Função de Distribuição Cumulativa (FDC) para cada padrão de comportamento que as bilheterias possam apresentar. Foram identificadas três FDC que abrangem a maior parte dos casos. Por não pretender explicar através das funções todos os possíveis casos de bilheterias, o método foi chamado de Modelo Parcimonioso, pois o objetivo é de explicar da forma mais concisa possível os diferentes tipos de comportamentos que a demanda por um filme podem assumir.
Porém, não basta definir as possíveis funções de distribuição que estão associadas às bilheterias, é preciso também compreender os parâmetros que são inseridos na função e como eles estão relacionados com o filme analisado. Isso é discutido na seção seguinte em que se busca compreender os fatores determinantes do fluxo de bilheteria e como essas infomações entram na equação.
2.1.1
Fatores Determinantes de Bilheterias no Período de Exibição
Os fatores que impactam na demanda por um filme ao longo do período de exibição são muitos, podemos citar: a quantidade de salas disponíveis, o número de cinemas que disponibili-zam o filme que indica as regiões populacionais que tem acesso ao filme, as caracterísicas do filme, tipos de divulgação sejam espontâneas ou não, o perfil do público, entre outros. Analisar cada uma dessas variáveis e como ela impacta no filme torna o modelo mais complexo e exige o levantamento de um grande número de informações para desenvolver um modelo de predição.
Com o objetivo de simplificar e, ao mesmo tempo, englobar as informações possíveis que afetem as bilheterias de um filme, Sawhney e Eliashberg (1996) propõe um modelo com uso de três variáveis independentes. O seu uso permite definir uma FDC que descreva o comportamento previsto das bilheterias do lançamento ao último dia de exibição. Essas variáveis são:
Tempo para decidir (λ ) Refere-se ao tempo médio que o público de interesse do filme está levando para decidir assistir ao filme. Considera-se que um espectador decide assistir a um filme quando ele já tem o plano de como e quando deve assistir ao filme. A variável está intimamente ligada ao nível de exposição que o público de interesse assume pelas mais diversas mídias, sejam elas expontâneas ou não.
Tempo para agir (γ) Refere-se ao tempo médio que o público de interesse, uma vez que tenha decidido consumir o filme, leva para de fato consumi-lo. Está associada aos hábitos do público de interesse, como frequência que vai ao cinema, dificuldades de acesso aos lugares que ofereçam o filme, entre outros.
Tamanho da população de interesse (N) Valor proporcional ao tamanho total da população que tem algum interesse em assistir ao filme. Esta população é definida, principalmente, pela sua afinidade e pertinência às características gerais do filme, tais como: gênero, classificação etária da MPAA, elenco e diretores.
2.1. ANÁLISE DO BOX OFFICE NO PERÍODO DE EXIBIÇÃO 23 Com esses três parâmetros espera-se conseguir estimar a quantidade de pessoas que deve assistir ao filme e como deve ser a distribuição de consumo durante o seu período de exibição. É importante frisar, no entanto, que o artigo pressupõe a independência das variáveis tempo-para-decidir e tempo-para-agir. Apesar de poder existir alguma correlação entre elas em alguns casos, os autores alegam que não pretendem cobrir todos os casos. E para suportar a ideia de que a independência das variáveis ocorre na maioria deles, uma pesquisa de campo demonstra que elas tendem a serem independentes.
Os autores assumem que a distribuição de densidade do tempo que um espectador irá levar para decidir (λ ) e agir (γ) ocorrem em distribuição exponencial, ou seja, quanto mais tempo passa menor a probabilidade do evento ocorrer. Assim, as distribuições de probabilidade do tempo-para-decidir e do tempo-para-agir podem ser definidas da seguinte forma:
x(T ) = λ e−λ T; X (T ) = 1 − λ e−λ T, 2.1
y(τ) = γe−γτ; Y (τ) = 1 − γe−γτ. 2.2 Onde x(T ) é uma distribuição de densidade do tempo-para-decidir em função, X (T ) é função de distribuição cumulativa da mesma, ambas em função do tempo para decidir T , y(τ) é a função de distribuição de densidade do tempo para agir e Y (τ) é a sua respectiva função de distribuição cumulativa, ambas em função do tempo para agir, τ. Como se pode notar, a medida que elevamos os valores de λ ou γ a função passa a ter uma curva mais acentuada. Isso significa que quanto maior o λ mais eficiente está sendo a divulgação do filme e menos tempo o público está levando para decidir assistir ao filme. E, da mesma forma, quando o γ aumenta mais apto o público de interesse está para consumir com mais rapidez o filme.
2.1.2
Modelagem do Sistema
Como se sabe que o tempo total para um indivíduo assistir a um filme é correspondente à soma do tempo-para-decidir com o tempo para agir (t = T + τ), a distribuição cumulativa do consumo do filme pelo público será dado pela convolução das FDCs das funções cumulativas pelas Equações 2.2 e 2.1 (PARZEN, 1962):
Z(·) = X (·) ∗ Y (·) 2.3 O resultado da convolução é uma FDC para o tempo esperado para assistir um filme. Nesse ponto, a função pode mudar de forma de acordo com a mudança no tempo-para-decidir e no tempo-para-agir do público. Porém não reflete o tamanho do público, mas que pode ser ajustada incluindo o parâmetro N como multiplicador da função. O resultado final é dado pela Equação 2.4:
2.1. ANÁLISE DO BOX OFFICE NO PERÍODO DE EXIBIÇÃO 24 Z(t) = N λ − γ[(λ − γ) + γe −γt− λ e−γt] 2.4 A equação acima pode ser reconhecida como a FDC da distribuição Gama Generalizado, que é a distribuição que surge quando duas variáveis exponenciais independentes com diferentes valores são convoluídas (MCGILL; GIBBON, 1965).
Para transformá-la em uma Função de Densidade de Probabilidades (FDP) e, com isso, obter a taxa de demanda ao longo do período de exibição, basta tirar a derivada de Z(t):
∂ ∂ tZ(t) = Nλ γ λ − γ[e −γt− e−λt] 2.5 A partir deste modelo é possível simular diferentes cenários possíveis no comportamento das bilheterias. Os valores relativos de λ e γ é que determinam o padrão da curva de adoção (referente à bilheteria ao longo do período de exibição) e N determinará a magnitude da curva. Quando λ é finito e λ 6= γ, se aplica a FDP Gama Generalizado como especificado na Equação 2.5 e, com isso, deve-se obter funções não-monotônicas na taxa de adoção do filme. No entanto, existem dois casos em que não é possível aplicar o Gama Generalizado: quando λ = γ ou λ → ∞. No primeiro caso, a função mais adequada a ser usada é distribuição Erlang-2 (com z(t) = γ2te−γt), mas o resultado deve continuar sendo similar à distribuição Gama Generalizado, com a curva não-monotônica. Já no segundo caso, a função exponencial (z(t) = γe−γt) representa mais adequadamente o padrão quando λ tende a infinito e a curva de adoção esperada é de uma queda monotônica. A Figura 2.1 mostra o formato das curvas para as três FDPs variando o parâmetro λ e mantendo fixos γ e o N.
Figura 2.1: Padrões simulados para modelos estocásticos de vendas nas bilheterias variando λ .
2.2. PREDIÇÕES DE BOX OFFICE 25 Note que o componente do tempo-para-decidir (λ ) “amortece” o padrão de adoção que vai se tornando um padrão de queda puramente exponencial (Nγe−γt) a medida que λ assume valores extremamente grandes. Por outro lado, a medida que λ → 0, a taxa de adoção acumulada vai ficando relativamente lenta.
Na Figura 2.2, são mostrados três exemplos em que as distribuições conseguiram re-presentar diferentes padrões de comportamento. Pacific Rim, cuja curva é a mais comum nas bilheterias, e é válida tanto para hits (filmes de grande sucesso de bilheteria) quanto para flops (filmes com fracasso de bilheterias), em que se diferenciam, apenas, na magnitude da curva. Anchor Man e Kite Runner se encaixam no padrão conhecido como sleepers (filmes que só
atingiram maior sucesso após a primeira semana de exibição), em que o pico de bilheteria não acontece na primeira semana de exibição do filme, mas apenas algumas semanas depois. Esse padrão de bilheteria são contemplados nas distribuições Erlang-2 e Gama Generalizado, em que suas curvas são não-monotônicas. No filme Anchor man, apesar da primeira bilheteria ainda ser a maior de todo o período de exibição, sua curva descendente é mais lenta no início e acelerada posteriormente. E em Kite Runner, o filme foi um autêntico sleeper em que a primeira semana de exibição teve uma bilheteria baixa e só então que o filme foi descoberto pelo grande público.
2.1.3
Deficiências do Modelo
Apesar do modelo tratado cobrir boa parte dos padrões de bilheterias, alguns ainda não são contemplados, seja pela excentricidade do comportamento da bilheterias, causado por algum motivo muito específico no curso de vendas, seja devido à parsimonialidade do modelo que, por não ter pretensão de englobar todos os possíveis padrões de bilheterias, falha na descrição de algumas curvas. A Figura 2.3 exemplifica ambos os casos. No filme Hamlet é demonstrado um caso em que nenhuma das distribuições apresentadas foram capazes de descrever com fidelidade o fluxo de bilheteria, apesar de ter um formato relativamente regular. Para encontrar o melhor fittingàs curvas de bilheteria foi utilizada a função fit do Matlab com os parâmetros descritos na tabela 3.3, mas os melhores valores encontrados para os parâmetros alcançaram R2de apenas 0,85. Já o filme Marigold Hotel demonstra um caso de bilheteria bastante atípico, principalmente na quarta semana de bilheteria, que pode ser considerado até um outlier. Este tipo distribuição dificilmente poderia encaixar em um modelo.
2.2
Predições de Box Office
O modelo de previsão de venda das bilheterias de filmes pode ser divido em três abor-dagens. A primeira tenta prever o sucesso do filme (vendas nas bilheterias) antes mesmo da produção do filme. Nesse estágio não se tem informação, por exemplo, da quantidade de salas que serão disponibilizadas ou de críticas de pré-lançamento sobre o filme. No entanto, é muito importante uma boa predição nessa fase, pois permite munir o investidor com mais informações
2.2. PREDIÇÕES DE BOX OFFICE 26
Figura 2.2: Exemplos de filmes cujas bilheterias se encaixam nos padrões previstos pelo modelo.
(a) Distribuição Exponencial.
(b) Distribuição Erlang-2.
(c) Distribuição Gama Generalizado.
2.2. PREDIÇÕES DE BOX OFFICE 27
Figura 2.3: Exemplos de filmes cujas bilheterias não se encaixam em nenhum padrão previsto pelo modelo.
(a) Bilheterias do filme Hamlet.
(b) Bilheterias do filme Marigold Hotel.
2.2. PREDIÇÕES DE BOX OFFICE 28 fundamentadas na hora de tomar a decisão sobre o filme que tem maior potencial de lucro.
Na segunda abordagem se tenta prever o sucesso do filme logo antes do seu lançamento, todas as informações sobre o filme em si já estão disponíveis, mas nada ainda se sabe sobre o real nível de engajamento do público. O grande objetivo de se ter a previsão de bilheterias nesse momento é no sentido de facilitar a negociação junto às distribuidoras. Quanto mais precisa for a previsão de vendas nas bilheterias de filmes, mais segura se torna a negociação para ambos os lados. Tanto do lado do distribuidor que evita alocar salas muito além do necessário, como também do produtor que consegue ter o devido valor de sua produção reconhecido e, com isso, potencializar mais os retornos do seu filme.
Por fim, é possível realizar a previsão ao longo do período em que o filme está em exibição. Mais uma vez, a previsão é muito importante. Como, normalmente, a negociação na alocação de salas no pré-lançamento é válida para, no máximo, as duas primeiras semanas (ECKERT; DE VANY, 1989; SQUIRE, 2004), as semanas seguintes devem ser renegociadas baseadas nas informações extras obtidas após o lançamento do filme. Estas informações podem permitir à distribuidora ter uma noção muito precisa das perspectivas de público para as semanas seguintes.
Já existem estudos nas três abordagens citadas. Lash, Michael T e Zhao (2015), Sharda e Delen (2006), Mestyan, Yasseri e Kertesz (2013) e Zhang, Luo e Yang (2009) são exemplos de trabalhos de predição baseados em informações antes do lançamento. Essas informações podem ser desde informações gerais sobre o filme (SHARDA; DELEN, 2006; ZHANG; LUO; YANG, 2009), como categoria do filme, classificação etária, diretor e atores envolvidos, até detecções nos níveis de rumores nas redes sociais e nas atualizações de conteúdos colaborativos de filmes, que detectam o nível de expectativa do público e tenta correlacioná-lo com o nível de vendas nas bilheterias (MESTYAN; YASSERI; KERTESZ, 2013; JOSHI et al., 2010). Dentre os trabalhos, Lash, Michael T e Zhao (2015) propõem a realizar as previsões antes mesmo de iniciar o período de produção do filme. Apesar de existirem menos informações nesse período, este tipo de previsão é, provavelmente, o mais importante pois a decisão que está em jogo envolve todo o investimento na produção e divulgação do filme.
Previsões antes do lançamento costumam usar métodos de aprendizagem de máquina para classificar os filmes em diferentes grupos. Esses grupos estão relacionados ao nível de sucesso dos filmes e ajudam a determinar o faturamento total do filme analisado. Sharda e Delen (2006) e Zhang, Luo e Yang (2009) usam redes neurais para agrupar os filmes de acordo com as características extraídas. Já Mestyan, Yasseri e Kertesz (2013), Joshi et al. (2010) e Lash, Michael T e Zhao (2015) usam regressões para prover o mesmo tipo de informação. Outros métodos de aprendizagem podem ser usados para alcançar o mesmo objetivo, como: Support Vector Machine (SVM) (CRISTIANINI; SHAWE-TAYLOR, 2000), Random Forest (LASH;
ZHAO, 2015), K-Nearest Neighbors (BISHOP, 2006), dentre outros.
Já previsões para o período de pós-lançamento, os principais estudos da área visam descobrir qual padrão de bilheteria o filme terá ao longo do seu período de exibição, com o
2.2. PREDIÇÕES DE BOX OFFICE 29 mínimo de amostra possível. Ou seja, com os dados de faturamento da primeira ou segunda semana deve ser possível identificar o padrão de demanda que o filme terá e, com isso, projetar a bilheteria esperada para as semanas seguintes até o último dia de exibição. Para fazer isso, busca-se modelos que estejam fortemente relacionadas aos padrões de comportamento das bilheterias. Com os modelos definidos, é possível definir o padrão de comportamento de cada filme encontrando o modelo que melhor se adapta e quais os valores serão usados nos parâmetros da equação. Com uma semana de dados já é possível estimar o comportamento das bilheterias nas semanas seguintes.
A seguir, são detalhadas as principais técnicas de predição para cada fase do ciclo de vida de um filme.
2.2.1
Predição em Fase de Pré-Produção
O período de pré-produção de um filme caracteriza-se, principalmente, por conter a etapa de avaliação do projeto do filme por seus potenciais investidores. Trata-se de um período muito delicado do ciclo de vida de uma produção cinematográfica, pois é nele que dará o destino do filme: se irá ser posto a prova diante de seu público final, ou se ficará apenas no papel. Por conta desta criticidade, a decisão precisa ser muito bem embasada e o mais precisa possível.
Por isso, com base nessa problemática, estudos foram realizados com o objetivo de tentar prever o potencial de lucratividade de um filme com base nas informações que os investidores tem a disposição no momento da decisão. Lash, Michael T e Zhao (2015) realizaram uma revisão mais detalhada na abordagem desse problema. Para medir o grau de sucesso do filme, os autores optam por avaliar o retorno de investimento (Return Of Investiment (ROI)), ou seja, a porcentagem de lucro ao fim do período de exibição. Esta opção é feita por ser o principal critério analisado nessa fase para aprovação ou não dos recursos necessários para a produção do filme. Caso optasse por outras métricas, como receitas das bilheterias, por exemplo, o sistema avaliador poderia apontar um determinado filme como promissor por conter características relacionadas a altas bilheterias, mas que, na prática, seria uma péssima escolha para o investidor por apresentar altos custos de produção, tornando-o muito menos atraente do que olhando sob a perspectiva da bilheteria, simplesmente. Essa justifiva ganha ainda mais força ao analisar a correlação do elenco escolhido com a lucratividade e receitas do filme ao mesmo tempo. O artigo mostra que a qualidade do elenco tem forte correlação com as bilheterias, quanto melhor fosse a qualidade do elenco melhores resultados nas bilheterias o filme obteria, mas que essa mesma correlação não foi tão forte quando comparada com a lucratividade.
2.2.1.1 Características Utilizadas para a Predição
Tendo em vista o objetivo de se prever a lucratividade, o artigo de Lash, Michael T e Zhao (2015) apresentou uma abordagem que utiliza quatro conjuntos de informações para se chegar aos resultados, são eles: “O que”, “Quem”, “Quando” e Híbrido.
2.2. PREDIÇÕES DE BOX OFFICE 30 O conjunto “O que” busca agregar todas as informações relativas às caraterísticas gerais do filme, que são: gênero do filme, classificação etária, vetor de distribuição de tópico e se o filme é sequela de outro (continuação de um filme, nova história com mesma base do original, trilogia) ou uma adaptação (de algum livro, gibi ou história real). O vetor de distribuição de tópicos determina a quais tópicos um determinado filme pertence. Ele é obtido após submeter as sinopses dos filmes a um processo de redução de dimensionalidade de texto utilizando LDA (Latent Dirichlet Allocation (BLEI; NG; JORDAN, 2003)) que resume as palavras contidas nas sinopses em tópicos.
O conjunto “Quem” agrega as informações relativas às pessoas envolvidas na produção do filme. Isso envolve, basicamente, os atores e diretores. No que concerne sobre o poder das estrelas no cinema, as informações como: experiência da equipe (calculada pelo tempo de atuação/direção) e receita total geradas dos filmes em que o ator/diretor participou. Além disso, são avaliadas as redes de relacionamentos de atores e diretores. Dela são extraídas informações, como: heterogeneidade da equipe, número médio de colaborações únicas por ator e número total e médio de brokers. O primeiro busca medir o grau de diferença de experiência entres os atores do elenco. Estudos indicam que quanto mais carga de experiências diferentes os atores trouxerem, maior tenderá a ser a riqueza do filme produzido (MEISEBERG; EHRMANN, 2013). O número médio de colaborações únicas visa quantificar a bagagem total de experiência trazida pelos atores, através do somatório de todas as produções únicas que algum dos atores do elenco já tenham participado. Já o número médio e total de brokers significa o número de atores que conectam grupos de diferentes experiências, o que também agrega alto capital social (BURT, 1993).
O conjunto “Quando”, por sua vez, agrega informações relativas às propriedades tempo-rais do filme, que são: o lucro médio anual, referente ao lucro médio do ano anterior à produção do filme, e a data prevista de lançamento, que combina a estação do ano e se vai ser feriado ou não no dia do lançamento. O lucro médio anual visa dar a noção do lucro médio esperado no mercado na época de lançamento.
Por fim, o conjunto de características “híbridas” tem como objetivo combinar algumas das informações dos outros blocos a fim de extrair informações extra delas. As hibridizações feitas no artigo são “O que” + “Quando” e “O que” + “Quem”.
A hibridização “O que” + “Quando” tem como objetivo relacionar o que foi feito em uma perspectiva temporal. Duas hibridizações são obtidas nesse contexto: porcentagem de lucro anual do gênero do filme analisado, que corresponde ao lucro médio obtido pelos filmes do gênero em questão no ano anterior à análise, cujo o objetivo é refletir o lucro médio que os filmes do gênero estão obtendo. E a Lucratividade Anual por Gênero Ponderada (LAGP) definida pela média do lucro dos filmes do ano anterior (y − 1) e ponderada pelo coseno do vetor de gênero (Gm) do filme m com os filmes m0. O vetor de gênero corresponde a um vetor binário em que
2.2. PREDIÇÕES DE BOX OFFICE 31 gêneros constituintes do filme são marcados com 1. A Equação 2.6 demonstra os cálculos:
LAPGm=
∑
m0∈y−1 cos(Gm, G0m) ∗ p(m0), 2.6 onde p(m) é o faturamento total de m.A hibridização “O que” + “Quem” visa combinar informações sobre o filme com as informações de quem está executando-as. O artigo relaciona, basicamente, duas variáveis: gênero e atores. Porém, essa relação é feita de três formas diferentes. Uma que busca extrair o expertise dos atores no gênero do filme, utilizando o número de filmes médio por ator atuados no gênero em questão, como é dado na Equação 2.7 chamada Expertise Médio do Gênero (EMG):
EMGm= 1 Tm |Tm|
∑
j=1 Gm• Aj, 2.7 onde Tm é o número de atores, Gm é o vetor que indica os gêneros do filme e Aj é vetor queindica a experiência do ator através do número de filmes feitos para cada gênero. O segunda relação que faz o mesmo cálculo, no entanto adiciona um peso relativo à importância que o ator possui como mostra na Equação 2.8 chamada Expertise de Gênero Médio Ponderado (EGMP):
EGMPm= 1 Tm |Tm|
∑
j=1 log(Rj) ∗ (Gm• Aj), 2.8 onde Rj corresponde à soma do faturamento dos filmes que o ator j já participou. E a terceirarelação captura a Novidade no Elenco (NE). Ela é calculada de maneira inversa às outras abordagens, ou seja, quanto menor a experiência do ator nos gêneros do filme maior será sua relevância. Além disso, apenas o ator maior peso nesse critério é considerado. Considera-se com isso que atores famosos são bem cotados quando participam de tipos de filmes que têm pouca experiência. A Equação 2.9 apresenta o cálculo:
CNm= max log(Rj) Gm• Aj+ 1 ∀ ∈ Tm 2.9 2.2.1.2 Arquitetura do Método
Com os critérios de análise das informações definidos, é possível utilizá-la para desen-volver o classificador que pode ser treinado com uma base de treinamento e, com isso, estar apta a classificar novos filmes ainda não testados.
Na Figura 2.4, uma visão geral do modelo intitulado Movie Investor Assurance System (MIAS) é apresentada. A informação é extraída das bases IMDB (2015) e BOX-OFFICE MOJO (2015), das quais são revisadas, processadas, consolidadas e, por fim, armazenadas. A partir dessa nova base estruturada, são extraídas as características dos filmes sob as quatro perspectivas já tratadas: “O que”, “Quem”, “Quando” e uma análise híbrida. Com as características extraídas,
2.2. PREDIÇÕES DE BOX OFFICE 32 as informações são repassadas para o modelo preditivo que será treinado afim de classificar se um filme será um sucesso ou fracasso. Para isso, ele utiliza a porcentagem de lucro (ROI) como unidade de medida de sucesso e define um limiar desse valor que o classifica em sucesso ou fracasso. Uma vez o modelo treinado, novos filmes são submetidos ao modelo a fim de verificar a sua precisão de classificação.
Figura 2.4: Arquitetura do método MIAS.
(LASH; ZHAO, 2015)
O modelo preditivo foi testado com dois classificadores: Random Forest e Regressão Logística, e sob dois diferentes limiares de sucesso: ROI ≥ 24% (correspondente a 30% dos filmes) e ROI ≥ 67% (correspondente a 25% dos filmes). Medindo o resultado utilizando Area Under the Curve(AUC), ou seja, a proporção de verdadeiros-positivos, Random Forest obteve acerto de 71,1% e Regressão Logística 70,8% quando o limiar foi de 24% de ROI. Com ROI de 67%, Random Forest obteve resultado de 82,2% e a Regressão Logística obteve 81,8%. Além disso, os resultados indicam precisão de acerto na classe minoritária de 71,1% de filmes classificados como de sucesso e que realmente viriam a ser sucesso.
2.2.2
Predição em Fase de Pré-Lançamento
Apesar da fase de pré-lançamento não ter o maior valor agregado, como é o caso da fase de pré-produção, é nesta fase que a quantidade de informações relevantes são mais abundantes e com maior poder de classificação. Com esse aumento de capacidade de predição, é possível otimizar os recursos alocados de forma a evitar perder demanda ou também de desperdícios por ofertar salas para um filme que iria subutilizá-las. Além disso, é nas duas primeiras semanas que se arrecada a maior parte da renda prevista de todo o período de exibição. Por isso, predição em pré-lançamento consegue mais relevância do que predições em fase de pós-lançamento em que
2.2. PREDIÇÕES DE BOX OFFICE 33 a previsão só acontece a partir da terceira semana quando a maior parte da arrecadação já foi realizada.
Na fase de lançamento, além das informações já disponibilizadas na fase de pré-produção, é possível saber a concorrência esperada, ou seja, o número de filmes que estarão em cartaz e quais filmes serão competidores diretos, e a expectativa do público, que pode ser avaliada de diversas maneiras possíveis, dentre elas, a análise de texto nas redes sociais e páginas colaborativas são as que tem sido usadas com mais sucesso, devido à facilidade na captura dos dados. Algumas avaliações da crítica também são disponbilizadas antes mesmo do lançamento. Delas podem ser extraídas análise de sentimento que dão uma noção da reação que o público pode ter ao assistir o filme. E, por fim, com a data de lançamento é possível saber também a época que o filme será lançado e se será período de férias, se será próximo de feriados, fatores esses que influenciam muito nas bilheterias dos filmes.
Nesta análise, três abordagens de predição em fase de pré-lançamento são apresentadas, são elas: meta-dados (SHARDA; DELEN, 2006; ZHANG; LUO; YANG, 2009), dados relativos à expectativa do público extraídos da internet (MESTYAN; YASSERI; KERTESZ, 2013; ASUR; HUBERMAN et al., 2010) e avaliações de críticas antes do lançamento (JOSHI et al., 2010). A seguir analisamos cada uma dessas abordagens isoladamente.
2.2.2.1 Meta-dados
Em abordagens baseadas em meta-dados procura-se fazer as predições com informações do próprio filme, como: gênero, classificação etária, atores, diretores, orçamento do filme, etc. Sua grande vantagem está na facilidade de aquisição dos dados, uma vez que são dados abertos e existem muitos sites que concentram essas informações com um bom grau de qualidade, como: IMDb, Adoro Cinema e Box Office Mojo. No entanto, a desvantagem é de não ser capaz de sondar a expectativa do público para o filme analisado. Toda sondagem a respeito do gosto do público é feita com dados históricos, através do correlacionamento do faturamento do filme com os meta-dados disponíveis.
A melhor abordagem de predição feita com meta-dados foi feita por Zhang, Luo e Yang (2009), no artigo Forecasting box office revenue of movies with BP neural network. Ele vem como uma evolução do modelo preditivo de Sharda e Delen (2006) em Predicting box-office success of motion pictures with neural networks. Ambos usam redes neurais para a classificação do faturamento previsto do filme, mas se diferem na arquitetura de entrada dos modelos, enquanto Sharda foca em entradas binárias, Zhang adota entradas contínuas entre 0 e 1 para representar todos os dados, inclusive os categóricos. Como o artigo de Zhang obteve resultados expressivamente melhores do que Sharda, essa análise irá focar no modelo preditivo de Zhang.
Devido à grande proporção de dados categóricos nos dados dos filmes, um dos grandes desafios está em descobrir a melhor maneira de tratá-los. Zhang optou por tratar esses dados com entradas contínuas que variam entre 0 e 1. Para isso, ele relacionou o faturamento com
2.2. PREDIÇÕES DE BOX OFFICE 34
Tabela 2.1: Resumo das variáveis de entrada. Para cada variável é apresentado o intervalo de valores que ela pode assumir. Para a variável “Nação”, apenas dois valores
possíveis podem ser atribuídos, 0,474 se for nacional e 0,526 se for importado.
nº Variável Intervalo 1 Nação Nacional = 0,474 Importado = 0,526 2 Diretor [0, 1] 3 Atores [0, 1] 4 Propaganda [0, 1] 5 Gênero [0, 1] 6 Mês [0, 1] 7 Dia da Semana [0, 1] 8 Festival [0, 1] 9 Competição [0, 1] 10 Nº de cinemas [0, 1] 11 Nº de salas [0, 1]
o dado categórico analisado. No caso da variável de gênero, por exemplo, somou-se todo o faturamento obtido com cada gênero e normalizou em valores de tal forma que a categoria de menor valor seja 0 e o maior é 1, de acordo com a Equação 2.10. Em alguns casos, o autor preferiu arbitrar alguns valores. Na análise do gênero, por exemplo, verificou-se que filmes de ação obtêm retornos “muito altos” e, por isso, arbitrou-se o valor de 1,5 para esse gênero.
f(si) =
si− smin
smax− smin
, i = 1, 2, . . . , n 2.10 Essa forma de atribuir valores contínuos em dados categóricos foi repetida para as demais variáveis categóricas: Mês de lançamento, Festivais próximos ao primeiro dia de exibição do filme e Dia da Semana de lançamento. Menos a variável Nação, que usou a razão de faturamento total feito entre os filmes nacionais e estrangeiros.
Diretor e Atores são dados em formato de texto. Para extrair deles valores entre 0 e 1, buscou-se associar a seus valores de mercado. Como o artigo não detinha os valores oficiais de mercado dos atores e diretores no momento da produção do filmes, os valores foram coletados através do número de páginas retornadas pelo engenho de busca do Google e, em seguida, padronizando-os entre 0 e 1.
Propaganda é dado a partir do orçamento total destinado ao filme. Como o artigo também não dispunha dessa informação, os autores optaram por extrair os valores também a partir do resultado do número de páginas retornadas pelo Google a partir da consulta pelo nome do filme.
Por fim, o número de salas, a competição (determinada pelos número de filmes con-correntes) e número de cinemas, por serem valores númericos, não precisaram de nenhum tratamento e, por isso, foram apenas normalizados para valores entre 0 e 1, assim como os outros dados. Todas as variáveis utilizadas na solução foram listadas na Tabela 2.1.
2.2. PREDIÇÕES DE BOX OFFICE 35
Tabela 2.2: Seis classes que podem ser atribuídas aos filmes. Cada classe representa uma faixa de faturamento especificada na segunda linha. Na terceira linha o número de filmes
disponíveis na base para cada classe é apresentado.
nº da classe 1 2 3 4 5 6
Intervalo (em milhões) <4 >= 4 >= 10 >= 30 >= 90 >= 200 Falha < 10 < 30 < 90 < 200 Sucesso
Nº de filmes 33 47 49 46 35 31
Com as variáveis tratadas e em mãos, o objetivo passa a ser de modelar um classificador que discrimine a provável faixa de faturamento que o filme atingirá após todo o seu período de exibição. As faixas analisadas são definidas com base no Faturamento Total Doméstico (FTD) do filme exibido na China. A base é dividida seis faixas de valores de acordo com a tabela 2.2.
O classificador utilizado foi uma rede neural chamada pelo artigo como Multi-Layer Back Propagation(MLBP) (YIBIN, 2000). A arquitetura do modelo é composta de uma camada de entrada com 11 neurônios, duas camadas escondidas compostas por 30 neurônios na primeira camada e 10 na segunda, uma camada de saida com 6 neurônios e uma função que irá definir as classes com base na Equação 2.11, onde yié o resultado final da saída i da rede neural.
f(yi) = 1 yi= max[y1, y2, . . . , y6] 0 yi6= max[y1, y2, . . . , y6] 2.11
Figura 2.5: Arquitetura da rede neural proposta.
(ZHANG; LUO; YANG, 2009)
Os resultados obtidos neste modelo são descritos de duas formas: Bingo e 1-away (SHARDA; DELEN, 2006). O primeiro se refere à porcentagem de casos na base de teste em que as amostras foram corretamente classificadas. E o segundo se refere à porcentagem de casos em que o classificador errou por no máximo 1 classe de distância.
2.2. PREDIÇÕES DE BOX OFFICE 36 Os testes foram realizados com uma base de filmes exibidos na China entre 2005 e 2006, totalizando 241 amostras, resultando numa média de 40 filmes por classe. Os autores optaram por utilizar k-fold cross validation pelo fato da base ser peguena.
O resultado dos testes foram de 68,1% de acerto do tipo Bingo e 97,1% de acerto do tipo 1-away. Dentre os artigos analisados, este artigo obteve a melhor performance para predição de box-officena fase de pré-lançamento com o uso de meta-dados. Porém este modelo apresenta algumas falhas que serão discutidas no capítulo 5.
2.2.2.2 Expectativa do Público
Estudos que visam medir a expectativa do público, em geral, buscam dados que são atualizados constantemente pelos usuários comuns na internet, como: redes sociais e páginas de conteúdo colaborativo (ex: Wikipedia). Quanto mais informações a respeito de um assunto, maiores as chances do filme ter sucesso no seu lançamento e semanas posteriores. Também é possível realizar análise de sentimento nos conteúdos atualizados quando se trata de uma opinião do usuário.
Um trabalho que focou na detecção da expectativa do público foi Early Prediction of Movie Box Office Success Based on Wikipedia Activity Big Data de MESTYAN; YASSERI; KERTESZ. A expectativa do público foi quantificada a partir das atualizações de conteúdo do site Wikipedia medidas de quatro formas: V (número de visualizações), U (número usuários-editores que contribuiram com o artigo do filme), E (número de edições feitas na página) e R (rigor colaborativo (KIMMONS, 2011)). A partir destas variáveis analisadas mais o número de teatros na semana de abertura (T), analisou-se a correlação delas com o faturamento total obtido pelo filme. A medição da correlação foi feita pelo cáculo do coeficiente de correlação de Pearson descrita na Equação 2.12. A Figura 2.6 mostra a evolução do nível correlação das variáveis ao longo do tempo, em dias. Começando por trinta dias antes do lançamento até dez dias após. Diferentes conjuntos de variáveis são testados a fim de avaliar qual conjunto de variáveis obtem o melhor desempenho. O conjunto que englobou todas as variáveis estudadas conseguiu a melhor correlação ao longo de todo o período com valores próximos de 0,77 com uma base de filmes coletadas do Box-Office Mojo referente aos filmes lançados em 2010.
rj(t) = q hxj(t)yi − hxj(t)ihyi hx2
j(t)i − hxj(t)i2phy2i − hyi2
2.12 Com as variáveis definidas, aplicou-se um modelo de regressão linear de multivariáveis que utiliza essas variáveis para prever o resultado das bilheterias y. O modelo é em função do tempo (t) e é definido como mostra na Equação 2.13.
y(t) =
∑
j∈S αj(t)xj(t) +Cs+ εS(t), 2.13 Onde αj(t) são os pesos dos parâmetros (V, U, R, E e T) variantes no tempo, Csé uma constante2.2. PREDIÇÕES DE BOX OFFICE 37
Figura 2.6: Correlação das variáveis analisadas com o faturamento real obtido.
(MESTYAN; YASSERI; KERTESZ, 2013)
e εS(t) é o termo de ruído.
Para avaliar o desempenho do modelo, foram feitos testes em duas bases: uma na base disponibilizada por Asur et al. (2010), que contem 24 amostras, e outra produzida pelos próprios autores, que contem 312 amostras. Na primeira base o modelo alcançou o melhor resultado de 0,94 de correlação com o faturamento real, com poucos dias antes do lançamento do filme. Esse resultado foi um pouco pior do que o obtido pelo modelo que utiliza informações obtidas pelo Twitter proposto por Asur et al. (2010), o qual alcançou 0,98 de R2. Porém este modelo é limitado por conseguir tais resultados apenas quando testado na noite anterior ao lançamento, enquanto análises do modelo baseado nos dados do Wikipedia podem conseguir resultados de R2> 0, 925 com até um mês de antecedência, o que torna o modelo bem mais robusto e útil para o mercado. Na Figura 2.7, são apresentadas as correlações de amostras dos filmes contidas tanto na base de Asur e Huberman quanto na base proposta pelos autores. É possível notar que filmes de maior faturamento conseguem uma precisão maior do que daqueles de menor faturamento. Isso acontece pois filmes de menor impacto geram bem menos dados nas páginas colaborativas do Wikipedia e, por isso, sua precisão é muito afetada.
2.2.2.3 Avaliações de Críticas
Essa categoria de predição de box office em fase de pré-lançamento é focada, principal-mente, na análise de texto, pois tem como objetivo extrair informações qualitativas, ao invés de dados quantitativos, como foi realizado na análise da expectativa do público. O principal trabalho realizado na análise de críticas foi de JOSHI et al. em Movie Reviews and Revenues: An Experiment in Text Regression. O artigo apresenta uma combinação de meta-dados com
2.2. PREDIÇÕES DE BOX OFFICE 38
Figura 2.7: Correlação do faturamento previsto pelo modelo com o faturamento real obtido.
(MESTYAN; YASSERI; KERTESZ, 2013)
as críticas relativas a cada filme lançado nos cinemas.
O modelo adotado para predição no estudo de Joshi et al. foi baseado em regressão linear. O modelo recebe um vetor x de parâmetros compostos de meta-dados e caraterísticas da análise das críticas, que são palavras (n-grams) encontradas nos textos que representam alguma característica relevante do filme. Para calcular o ganho (y) esperado, a função ˆy= β0+ xxxTβββ
foi utilizada, onde θ = hβ0,βββ i são os parâmetros escalar e vetorial, respectivamente, que são
aprendidos no treinamento. Este treinamento é realizado com o objetivo de minimizar a soma dos erros quadrados para um conjunto de treinamento contendo n pares hxxxiii, yii, onde xi∈ Rpe
y∈ R para 1 ≤ i ≤ n: ˆ θ = arg min θ =(β0,βββ ) 1 2n n