• Nenhum resultado encontrado

Avaliação Qualitativa da Audiência de Televisão Baseada na Classificação de Sentimento de Usuários em Redes Sociais

N/A
N/A
Protected

Academic year: 2021

Share "Avaliação Qualitativa da Audiência de Televisão Baseada na Classificação de Sentimento de Usuários em Redes Sociais"

Copied!
99
0
0

Texto

(1)

Pós-Graduação em Ciência da Computação

“AVALIAÇÃO

QUALITATIVA

DA

AUDIÊNCIA

DE

TELEVISÃO

BASEADA

NA

CLASSIFICAÇÃO

DE

SENTIMENTO DE USUÁRIOS EM REDES SOCIAIS”

Por

Artur Vieira Tenorio

Dissertação de Mestrado

Universidade Federal de Pernambuco posgraduacao@cin.ufpe.br www.cin.ufpe.br/~posgraduacao

RECIFE 2014

(2)

Artur Vieira Tenório

Universidade Federal de Pernambuco

CENTRO DE INFORMÁTICA

PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

Artur Vieira Tenorio

“AVALIAÇÃO QUALITATIVA DA AUDIÊNCIA DE TELEVISÃO BASEADA

NA CLASSIFICAÇÃO DE SENTIMENTO DE USUÁRIOS EM REDES

SOCIAIS."

Este trabalho foi apresentado à PÓs-Graduação em Ciência da COMPUTAÇÃO do Centro de

INFORMáTICA DA

Universidade Federal de Pernambuco como requisito parcial para obtenção do grau de MESTRE EM Ciência da Computação.

ORIENTADOR(A): CARLOS ANDRÉ GUIMARÃES FERRAZ

RECIFE 2014

(3)

Artur Vieira Tenório Catalogação na fonte

Bibliotecária Jane Souto Maior, CRB4-571

Tenório, Artur Vieira

Avaliação qualitativa da audiência de televisão baseada na classificação de sentimento de usuários em redes sociais / Artur Vieira Tenório. - Recife: O Autor, 2014.

98 f., fig., tab.

Orientador: Carlos André Guimarães Ferraz.

Dissertação (mestrado) - Universidade Federal de Pernambuco. CIn, Ciência da Computação, 2014.

Inclui referências e apêndice.

1. Sistemas Distribuídos. 2. TV digital. 3. Sensibilidade a contexto. I. Ferraz, Carlos André Guimarães (orientador). I. Título.

004.36 CDD (23. ed.) MEI2014 – 124

(4)

Artur Vieira Tenório Dissertação de Mestrado apresentada por Artur Vieira Tenorio à Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco, sob o título “Avaliação de Audiência Qualitativa de Televisão Baseadas

na Classificação de Sentimento de Usuários em Redes Sociais” orientada pelo Prof.

Carlos André Guimarães Ferraz e aprovada pela Banca Examinadora formada pelos

professores:

______________________________________________ Prof. Kiev Santos da Gama

Centro de Informática / UFPE

______________________________________________ Profa. Yvana Carla Fechine de Brito

Departamento de Comunicação Social / UFPE

_______________________________________________ Prof. Carlos André Guimarães Ferraz

Centro de Informática / UFPE

Visto e permitida a impressão. Recife, 28 de fevereiro de 2014.

___________________________________________________

Profa. Edna Natividade da Silva Barros

Coordenadora da Pós-Graduação em Ciência da Computação do Centro de Informática da Universidade Federal de Pernambuco.

(5)

Artur Vieira Tenório

Dedicado aos aos meus pais, fundamentais na minha vida

(6)

Artur Vieira Tenório

Agradecimentos

Agradeço primeiramente aos meus pais, pois sem o esforço e dedicação deles eu não teria as oportunidades que tive. Os constantes conselhos e incentivos e ajudas dados pelo meu pai, Agenor Tenorio e minha mãe Solange Tenório foram fundamentais para que eu tivesse atingido este objetivo. Aos meus irmãos, Fábio e Vitor, que mesmo indiretamente estiveram presentes durante toda a elaboração deste trabalho.

Agradeço também à minha namorada e futura companheira para toda a vida, Adriana Lemos, onde encontrei apoio e compreensão nas fases mais complicadas. Espero não precisar compartilhar mais dias tão stressantes com você.

Ao meu orientador Prof. Dr. Carlos Ferraz pela compreensão, paciência e longas conversas sempre proveitosas durante as reuniões que resultaram na elaboração deste trabalho.

Ao CESAR (Centro de Estudos e Sistemas Avançados do Recife), onde adquiri conhecimento e experiência na área de televisão digital dentre outras tecnologias.

Aos meus amigos mais próximos, que por vezes confundidos como irmãos, que direta ou indiretamente me ajudaram bastante durante todo o período deste projeto. Em especial Cirdes Borges, onde pude tirar dúvidas relacionadas ao desenvolvimento deste projeto utilizando tecnologias que eu tinha pouco domínio. Cleano, Felipe “Lapeta”, Renata, Romero “Mafra”, verdadeiros companheiros para todos os momentos bons e ruins.

(7)

Artur Vieira Tenório “A ciência nunca resolve um problema sem criar pelo menos

outros dez.”

(8)

O televisor é o aparelho eletrônico mais popular no Brasil, sendo considerado uma ferramenta com grande poder de influência e formação de opinião pública devido à sua facilidade de acesso, abrangência e popularidade. A crescente inclusão digital vista no Brasil, juntamente com o acesso às redes sociais, permitiu que telespectadores pudessem expressar opinião a respeito de programas televisivos, não somente entre os seus próximos, mas entre milhões de outros telespectadores durante um programa através de notebooks, celulares e tablets, conhecidos também como a “segunda tela”. Dentre as redes sociais com grande acesso, destaca-se o Twitter quando se deseja ler estes dados. Utilizando técnicas de Análise de Sentimentos (AS), diversas ferramentas surgiram para determinar a polaridade das opiniões, sendo positiva, negativa ou neutra. Automatizar o processo de captura de dados, levando em consideração a relevância destes sobre um programa televisivo, e identificar o sentimento empregado pelo telespectador, é uma forma de qualificar a audiência. Esta é uma informação útil para produtores de conteúdo quando se deseja tomar uma decisão ou verificar se alguma parte do conteúdo não agrada o público. Entretanto, estas informações estão dispersas, ocasionando um eventual processo manual de verificação. Visando identificar todas as dificuldades existentes neste processo, é proposto um sistema capaz de automatizar todas as etapas envolvidas. São utilizadas informações contextuais sobre o programa televisivo e o telespectador para determinar se o conteúdo de uma publicação feita por este tem relação com o conteúdo do programa em questão. Em seguida e com o apoio das ferramentas de classificação de sentimentos mais mencionadas em trabalhos acadêmicos na área de Análise de Sentimentos (SentiWordNet e SentiStrenght), determinar a polaridade do texto publicado por um telespectador. Os resultados obtidos mostram que as propostas para seleção de dados relevantes são eficazes, entretanto existem diversas dificuldades envolvidas quando se deseja classificar o sentimento empregado. O fato de não existir ferramentas de AS adequadas para a grafia das redes sociais e que sejam compatíveis com a língua portuguesa, torna-se um fator dificultante. Além disto, determinar a intenção do telespectador em relação ao programa ou ao tema abordado neste é um processo e torna-se um desafio que envolve áreas além da ciência da computação.

(9)

Artur Vieira Tenório

Abstract

The television is the most popular electronic equipment of Brasil and it is considered a resource with great power to influence the public opinion due the facility to be reached, comprisement and popularity.The growing digital inclusion observed in Brasil along with access to social networks, permited the TV viewers could to express your opinions regarding TV programs, not only between their neighbors but also among millions of another TV viewers during the time of one TV program by the use of notebooks, mobiles and tablets, known also as "second screen". Among the social networks with big access, we can highlight the Twiter when we wish to read these informations. By the use of technics of Sentiment Analysis, several tools have emerged to determine the polarity of opinions, being positive, negative or neutral. Automate the process of capturing data, considering the relevance of these on a television program, and identify the feeling by the TV viewer, is a way to qualify the audience. This is a useful information to programs producers when they want to take a decision or to verify if the public did not like any part of the contents. However, this information is scattered on the Internet, causing a possible manual verification. With the objective of to identify all the dificulties in this process, we propose a system capable of automate all the steps involved. It is used context information in order to determine a relation between the TV program and the social network text provided by the TV viewers. Then, with the support of the tools that classify sentiment mentioned in academic works in the area of Sentiment Analysis (SentiWordNet and SentiStrenght), to determine the polarity of the text published by a TV viewer. The results shows that the proposals for the selection of relevant data are effective, however there are several difficulties involved when we want to classify the feeling used. The fact of not exist appropriate feeling analysis tools for social networks and that be compatible with the Portuguese language, becomes a difficult factor. Moreover, determine the intent of the TV viewer regarding to the TV program or the topic covered in this process becomes a challenge that involves areas beyond computer science field.

(10)

Artur Vieira Tenório

Lista de Figuras

FIGURA 1:TRANSMISSÃO DE SINAL DIGITAL.FONTE:(FERRAZ;SQUIRRA;FECHINE,2009) ... 20

FIGURA 2:MULTIPLEXAÇÃO DE UM TS;FONTE:(ARIBB-31,2005) ... 21

FIGURA 3:PACOTE DE DADOS EM UM TS;FONTE:(ISO/IEC13818-1,1995) ... 22

FIGURA 4:ATIVIDADES TÍPICAS DE USUÁRIOS DE INTERNET MÓVEL E TV. ... 28

FIGURA 5:EXEMPLO SENTISTRENGTH. ... 35

FIGURA 6:EXEMPLO SWN PALAVRA LOVE; ... 36

FIGURA 7:VISÃO GERAL DO TVAUDIENCE ANALYZER. ... 44

FIGURA 8:REQUISITOS DO SISTEMA.FONTE:PRÓPRIO AUTOR ... 48

FIGURA 9:TRANSMISSÃO TS.FONTE:(ABNTNBR15601,2008) ... 49

FIGURA 10:CAPTURA IMAGEM VLC.FONTE:PRÓPRIO AUTOR ... 50

FIGURA 11:FUNCIONAMENTO DA RESTAPI.FONTE:TWITTER ... 53

FIGURA 12:COMUNICAÇÃO STREAMAPITWITTER.FONTE:(TWITTER,2013B) ... 54

FIGURA 13:TWEETS GERADOS POR CONTAS DE EMISSORAS.FONTE:TWITTER ... 57

FIGURA 14:EXEMPLO HASHTAG RELACIONADA AO PROGRAMA.FONTE:TWITTER MOBILE ... 58

FIGURA 15:ARQUITETURA TVAUDIENCE ANALYZER ... 62

FIGURA 16:DIAGRAMA DE CLASSES EPGREADER ... 68

FIGURA 17:PACOTE MPEG2-TS. ... 69

FIGURA 18:FLUXO EPGREADER ... 70

FIGURA 19:DIAGRAMA ERTVAUDIENCE ANALYZER ... 71

FIGURA 20:FLUXO TWITTER COLLECTOR ... 71

FIGURA 21:EXEMPLO ORDENAÇÃO ARQUIVOS TWITTER COLLETCTOR. ... 74

FIGURA 22:EXEMPLO DE CAPTURA DE TWEETS.STRING DE BUSCA:#ENCONTROFATIMA ... 74

FIGURA 23:DIAGRAMA DE CLASSES SENTIMENT DETECTOR ... 75

FIGURA 24:TWEETS ELIMINADOS POR DATA ... 78

FIGURA 25:COMPARATIVO DE IDIOMAS ... 79

FIGURA 26:COMPARATIVO DE APIS ... 82

(11)

Artur Vieira Tenório

Lista de Tabelas

TABELA 1:CLASSIFICAÇÃO REDES SOCIAIS;FONTE:AUTORIA PRÓPRIA. ... 30

TABELA 2:TERMOS UTILIZADOS TWITTER;FONTE:AUTORIA PRÓPRIA ... 31

TABELA 3:POLARIDADE SWN ... 37

TABELA 4:COMPARATIVO NIELSEN E TWITTER... 41

TABELA 5:DADOS DE EVENTOS.FONTE:PRÓPRIA AUTORIA ... 52

TABELA 6:RELAÇÃO DE CIDADES EM QUE FORAM COLETADOS TSS. ... 64

TABELA 7:NOMENCLATURA ADOTADA PARA PROGRAMAS PELAS EMISSORAS ANALISADAS ... 65

TABELA 8:RESULTADOS OBTIDOS ... 66

TABELA 9:RESULTADOS PROGRAMA ENCONTRO COM FÁTIMA BERNARDES ... 80

TABELA 10:TERMOS NORMALIZADOS ... 85

TABELA 11:RESULTADOS ENCONTRO COM FÁTIMA BERNARDES ... 87

(12)

Artur Vieira Tenório

LISTA DE ABREVIATURAS E SIGLAS

TV – Televisão

SI – Service Information EIT - Event Information Table

EIT-H – Relacionada ao segmento de HDTV.

EIT-M – Relacionada ao segmento de SDTV.

EIT-L – Relacionada ao segmento de LDTV.

IBOPE – Instituto Brasileiro de Opinião Pública e Estatística EPG – Eletronic Program Guide

SBTVD – Sistema Brasileiro de Televisão Digital. API – Application Programming Interface

TS – Transport Stream

LDTV – Low Definition Television (320x240)

SDTV – Standard Definition Television (720x480)

HDTV – High Definition Television (1280x720 e 1920x1080)

RT – Re Tweet (Repetir Tweet)

SWN – Senti World NET

(13)

Artur Vieira Tenório

Sumário

1. INTRODUÇÃO ... 14

1.1 JUSTIFICATIVA ... 14

1.2 PROBLEMA E QUESTÃO DE PESQUISA ... 15

1.3 PROPOSTA DE SOLUÇÃO ... 15 1.4 OBJETIVO GERAL ... 15 1.5 OBJETIVOS ESPECÍFICOS ... 16 1.6 LIMITAÇÕES ... 16 1.7 ESTRUTURA DA DISSERTAÇÃO ... 17 2. FUNDAMENTAÇÃO TEÓRICA ... 18 2.1 TELEVISÃO DIGITAL ... 18

2.1.1 Sistema Brasileiro de Televisão Digital ... 19

2.1.2 Tabelas de SI ... 21 2.1.3 A audiência ... 23 2.1.4 Engajamento do telespectador ... 25 2.1.5 Segunda tela ... 27 2.2 REDES SOCIAIS ... 29 2.2.1 Análise de opinião ... 31

2.2.2 Integração por Software (API) ... 32

2.3 CLASSIFICAÇÃO DE SENTIMENTOS... 32

2.3.1 SentiStrength ... 34

2.3.2 Senti World Net (SWN) ... 35

2.3.3 Os sentimentos de um telespectador ... 37

2.4 CONTEXTO COMPUTACIONAL ... 37

2.5 TRABALHOS RELACIONADOS ... 39

2.5.1 Sistemas comerciais de análise de audiência usando o Twitter ... 39

2.5.2 Trabalhos acadêmicos que relacionam Twitter e TV ... 40

2.5.3 Trabalhos acadêmicos que relacionam classificação de sentimentos em redes sociais ... 42

2.6 CONSIDERAÇÕES FINAIS ... 43

3. TV AUDIENCE ANALYZER ... 44

3.1 VISÃO GERAL DO SISTEMA PROPOSTO ... 44

3.2 LEVANTAMENTO DE REQUISITOS FUNCIONAIS (RF) ... 45

3.2.1 Visão geral dos requisitos ... 48

3.3 REQUISITOS NÃO FUNCIONAIS (RNF) ... 48

3.4 COLETA DE TS ... 49

3.5 EPGREADER ... 51

3.6 TWITTER COLLECTOR ... 52

3.6.1 Acesso aos dados do Twitter ... 53

3.6.2 Definição das strings de busca ... 56

3.6.3 Informações Contextuais ... 58

3.6.4 Preparação de dados ... 59

3.6.5 Tradução para o Inglês ... 60

3.7 SENTIMENT DETECTOR ... 61

3.8 ARQUITETURA ... 61

3.9 CONSIDERAÇÕES FINAIS ... 63

4. IMPLEMENTAÇÃO DO SISTEMA... 64

4.1 DESCRIÇÃO DO AMBIENTE ... 64

4.2 DESCRIÇÃO DE UM CENÁRIO DE USO ... 65

4.3 IMPLEMENTAÇÃO DOS MÓDULOS ... 66

4.3.1 EPG READER ... 67

4.3.2 Twitter Collector ... 71

4.3.3 Sentiment Detector ... 75

(14)

Artur Vieira Tenório

4.4.1 A Assertividade de tweets relacionados obtida... 76

4.4.2 Contexto Temporal ... 77

4.4.3 Contexto geográfico ... 78

4.4.4 Contexto de Atividade ... 80

4.4.5 String de busca utilizadas ... 80

4.4.6 Considerações... 81

4.5 COMPARATIVO DE APIS DO TWITTER ... 81

4.6 COMPREENSÃO DO TEXTO ... 85

4.7 RESULTADOS CLASSIFICAÇÃO DE SENTIMENTOS ... 86

4.8 CONSIDERAÇÕES FINAIS ... 89 5. CONCLUSÕES ... 90 5.1 RESULTADOS OBTIDOS ... 90 5.2 CONTRIBUIÇÕES ... 91 5.3 LIMITAÇÕES DO ESTUDO ... 92 5.4 TRABALHOS FUTUROS ... 92 5.5 CONSIDERAÇÕES FINAIS ... 93 6. REFERÊNCIAS ... 94

(15)

Artur Vieira Tenório

1. Introdução

Pesquisas periódicas divulgadas pelo IBGE apontam a aproximação de 100% dos domicílios que possuem televisores no Brasil. A mais recente pesquisa aponta 94,8% da população (IBGE, 2013) o que comprova que este ainda é o principal veículo de notícias e entretenimento para a população. A audiência televisiva no Brasil tem como principal aferidor o (IBOPE, 2013). Este utiliza técnicas consolidadas para aferição, como as pesquisas de rua e caixas coletoras de dados instaladas nos lares, que analisam o canal e o horário que um programa é visto. Tais dados refletem quantitativamente a preferência de conteúdo de grande parte da população.

Há também pesquisas que apontam o crescente uso de Internet por parte dos brasileiros. Mais de 21% da população com mais de 10 anos de idade teve algum contato com a Internet em 2011 (IBGE, 2011). O crescente acesso à Internet, associado à TV impulsionou o uso da segunda tela (CESAR; BULTERMAN; JANSEN, 2008), denominação para dispositivos dotados de tela e acesso à Internet que são utilizados durante um programa televisivo. Segundo relatórios gerados pelo ConsumerLab (ERICSSON CONSUMERLAB, 2012) o habito dos telespectadores de assistir televisão tem mudado com o uso de outras plataformas para percepção de conteúdo. Foi visto que 69% dos entrevistados consideram que a Internet e a TV são partes naturais do consumo de conteúdo televisivo. As interações são em geral são: consumo de conteúdo complementar, procura por horários de programas e expressão de opinião sobre um programa, que em geral é realizada através de redes sociais.

A opinião do telespectador torna-se então uma informação computacionalmente possível de ser determinada, o que permite à criadores de conteúdo e empresas na área de publicidade terem informações complementares sobre a audiência.

1.1 Justificativa

Com a tendência crescente de acesso às redes sociais durante um programa televisivo, gerando o desvio de atenção temporário do telespectador, é comum que sejam compartilhados dados relacionados ao que está passando na TV. Entre estes dados, estão expressões de sentimentos, como felicidade, irritação, angústia. São informações geradas em tempo real, por uma quantidade considerável de pessoas. Surge então a oportunidade de interpretar estes dados em favor dos produtores de

(16)

Artur Vieira Tenório conteúdo. Dando-lhes uma nova fonte de audiência, menos invasiva do que a feita por institutos como o IBOPE, pois o telespectador não precisa ter qualquer aparelho em sua residência para aferir estes dados, bastando-lhe apenas manter seu habito de comentar em redes sociais.

1.2 Problema e Questão de Pesquisa

Entende-se hoje que há forma mais eficaz para identificação de postagens relacionadas a um programa e a detecção de sentimento empregado na mesma é feita por profissionais focados em ler e interpretar o que foi dito. Por ser manual, a quantidade de dados processados é limitada. Outro fator redutor de eficácia neste processo é a limitação visual de dados expostos ao acessar estes dados via usuário comum, diretamente pelo site de uma rede social.

1.3 Proposta de solução

O presente projeto propõe um sistema denominado TV Audience Analyzer, capaz de aferir qualitativamente a audiência televisiva, levando em consideração a manifestação de sentimento do telespectador em redes sociais. Desta forma, há a possibilidade de ter dados complementares sobre a audiência de programas televisivos, dando ao produtor do conteúdo uma informação relacionada à satisfação do telespectador, sem uso de decodificadores in loco (como o IBOPE) e de forma natural, utilizando técnicas de identificação de sentimentos através de termos e contexto computacional.

O sistema deve ser capaz de integrar dados de redes sociais e grade de programação televisiva. Este deve fazer uma análise semântica nos comentários gerados em redes sociais a fim de identificar o humor empregado naquela postagem. Só serão analisados textos relacionados com a programação vigente. A grade de programação será utilizada para auxiliar na identificação de relação entre um texto e um programa de TV.

1.4 Objetivo Geral

Este trabalho tem por objetivo propor e implementar um sistema capaz de detectar o sentimento empregado em publicações feitas por usuários nas redes sociais, levando em consideração o que está sendo transmitido no momento pelas emissoras televisivas.

(17)

Artur Vieira Tenório O sistema proposto é modelado exclusivamente para o padrão brasileiro de televisão digital.

1.5 Objetivos Específicos

 Uso de ferramentas de classificação de sentimentos para classificar o sentimento empregado em um comentário.

 Identificar os programas televisivos de acordo com o horário, utilizando a grande de programação enviada pelas emissoras.

 Determinação de informações contextuais para identificação de comentários relacionados com os programas televisivos.

 Fornecer estatísticas do sentimento empregado nos comentários de acordo com o programa televisivo.

1.6 Limitações

O TV Audience Analyzer é uma ferramenta voltada à identificação de textos relacionados à programação televisiva e em seguida a classificação de sentimento dos mesmos.

As ferramentas de classificação de sentimentos utilizadas neste projeto foram elaboradas para a língua inglesa. Por este motivo, são feitas as seguintes ressalvas:

 Todos os textos foram traduzidos para o idioma inglês através de uma ferramenta gratuita.

 Foram utilizadas técnicas desenvolvidas pelo autor da pesquisa para a normalização de textos provindos de redes sociais (com grande índice de jargões, abreviações e erros ortográficos). Estas foram desenvolvidas apenas para que a pesquisa pudesse ser realizada, sem apoio em trabalhos acadêmicos ou estudo aprofundado, visto que isto foge dos objetivos propostos.

 A intenção do telespectador em falar sobre o programa de TV ou algum assunto que o mesmo abordava não foi tratada nesta pesquisa, pois foge dos objetivos propostos.

(18)

Artur Vieira Tenório

1.7 Estrutura da Dissertação

Este trabalho está estruturado da seguinte maneira:

Capítulo 1 – Introdução: Neste capítulo é apresentada a motivação, justificativa, objetivos e as contribuições do trabalho.

Capítulo 2 – Fundamentação Teórica: Onde será revisada toda a literatura relacionada ao tema do projeto.

Capítulo 3 – TV Audience Analyzer: É apresentada a ferramenta proposta, seus requisitos e descrito seu funcionamento.

Capítulo 4 – Implementação do Sistema: Neste capítulo é apresentada a forma como o sistema foi implementada e os resultados obtidos são expostos.

Capítulo 5 – Análise dos Resultados: Neste capítulo são analisados os resultados obtidos pela ferramenta, as conclusões, contribuições e trabalhos futuros.

(19)

Artur Vieira Tenório

2. Fundamentação Teórica

Neste capítulo será apresentado todo o referencial teórico envolvido nesta dissertação, contemplando as tecnologias e tópicos envolvidos. Inicialmente serão abordadas informações sobre a TV Digital e o Sistema Brasileiro de TV Digital (SBTVD). Em seguida, serão vistas as características relacionadas aos telespectadores, descrevendo conceitos de audiência, a sua forma de aferição, e as características deste tipo de usuário.

No tópico seguinte serão tratadas as definições, características e possibilidades de uso em Redes Sociais. A seguir serão vistos os conceitos de contexto computacional e como pode ser aplicado à audiência televisiva. Em seguida, conceitos relacionados à área de Análise de Sentimentos serão vistos, e como é aplicada por pesquisadores em diversas áreas, dentre elas a televisão. No fim deste capitulo será possível verificar trabalhos relacionados ao desta pesquisa.

2.1 Televisão Digital

O termo TV Digital é abrangente e pode compreender diversas tecnologias e definições, de acordo com a perspectiva de análise. O mesmo pode-se dizer da TV aberta, transmitida por radiodifusão terrestre, TVs por assinatura, antenas parabólicas e em alguns casos, via Internet; nestes casos é intrínseco que há digitalização de conteúdo via transmissão de binários (BECKER, 2011). Devidas às estas possibilidades, é importante ressaltar que todas as menções relacionadas à TV aberta neste trabalho é relacionada às emissoras que transmitem de forma gratuita seu sinal via broadcast terrestre. As menções de TV digital são relacionadas à tecnologia de transmissão e recepção de sinal televisivo utilizando o padrão ISDB-Tb.

Conceitua-se TV digital, como o termo designado para a forma de transmissão de TV utilizando sinal digital, no lugar do tradicional analógico. O processo de digitalização está em um estágio avançado no Brasil, com cobertura nas principais cidades do país, incluindo todas as capitais(SBTVD, 2014). O

(20)

Artur Vieira Tenório início das transmissões no Brasil foi em Dezembro de 2007, na cidade de São Paulo pela Rede Globo de Televisão. Até o ano de 2018 o sinal analógico deverá ser descontinuado, sendo uma obrigação das emissoras que em janeiro de 2015 seja iniciado o cronograma de desligamento (NACIONAL, 2013).

Dentre as vantagens obtidas com a adoção do modelo nacional, destaca-se a melhoria na qualidade de imagem e som, da resolução padrão (720x480 pixels por polegada) para a alta definição (1980x1080); permitindo ao telespectador acesso à um conteúdo rico em detalhes.

2.1.1 Sistema Brasileiro de Televisão Digital

O Sistema Brasileiro de Televisão Digital (SBTVD) é um fórum responsável por conduzir a implantação da TV digital no Brasil. É composto por diversos veículos radio difusores, indústria de transmissão e recepção, setor acadêmico e algumas empresas de software1. Este se define (FORUM SBTVD, 2008):

“É uma entidade sem fins lucrativos, criada para estimular o desenvolvimento e implementação das melhores práticas para TV Digital”.

As discursões e projetos desenvolvidos pelo SBTVD tiveram enfoque técnico, visando desenvolver a infraestrutura da TV digital. Não houve preocupação com audiência durante a elaboração das normas técnicas que definiam a padronização de transmissão nacional. Áreas como recepção de conteúdo e interatividade foram estudadas sob a ótica da engenharia e da computação, com pouco apoio dos geradores de conteúdo(BECKER, 2011).

Foram analisadas as principais tecnologias de transmissão digital existentes no mundo. Os sistemas Europeu e Japonês tornaram-se as melhores opções devida à melhor compatibilidade com o cenário nacional, onde antenas internas para recepção compunham mais de 40% dos domicílios, além de complexidades geográficas, como áreas rurais e áreas altamente populosas, como as favelas.

(21)

Artur Vieira Tenório Foi escolhido o padrão japonês por conta da capacidade de recepção por dispositivos moveis, compatibilidade com multiprogramação2 em uma única

faixa, robustez de seu desempenho em relação ao sistema DVB (europeu) devido ao padrão de modulação Orthogonal Frequency Division Multiplex (OFDM) e a capacidade de segmentação de banda em treze partes, flexibilizando o espectro(ARIB B-31, 2005; BECKER, 2011).

O processo entre a criação do conteúdo, o que inclui a etapa de filmagens, até que o sinal chegue a um domicilio é descrito na Figura 1:

Figura 1: Transmissão de sinal digital. Fonte:(FERRAZ; SQUIRRA; FECHINE, 2009)

O sinal codificado no padrão ISDB-Tb permite a transmissão de um ou mais Transport Streams, definidos pelo padrão MPEG2 Transport-Stream

(MPEG-2 TS) Systems, sendo então remultiplexados formando um único

TS(ARIB B-31, 2005).

A definição da codificação de dados utilizando o padrão MPEG2-TS (ISO/IEC 13818-1, 1995) pode ser feita de duas formas: Transport Stream (TS)

(22)

Artur Vieira Tenório e Program Stream (PS). Cada um destes é otimizado para um uso específico. O TS é direcionado para fluxos contínuos, provindos de fontes transmissoras como antenas e satélites. O PS é direcionado para transmissão de dados provindos de mídias físicas, como DVDs e discos rígidos. Ambos os formatos são encapsuladores de mídias, e sua codificação é orientada à pacotes. No padrão de transmissão escolhido no Brasil, há uma ou mais mídias de vídeo no padrão H.264 e uma ou mais mídias de áudio no padrão AAC.

Neste streams estão contidos todas as informações geradas por emissoras e que são necessárias para um televisor no padrão DTV seja capaz de transformar em conteúdo audiovisual. Na Figura 2 é possível identificar o processo definido pela norma japonesa, ARIB.

Figura 2: Multiplexação de um TS; Fonte: (ARIB B-31, 2005)

Três camadas definidas compõem todos os dados inclusos em um TS: vídeo, áudio e dados. O conteúdo gerado por estúdios de gravação e edição em emissoras preenche as duas primeiras camadas, e todos os dados relacionados à informações complementares e como estes se integram ficam localizados na camada de dados. Também é nesta camada que são encontradas as tabelas de informação, denominadas Service Information(SI).

2.1.2 Tabelas de SI

A norma brasileira 15603-1 (ABNT NBR 15603-1, 2008) define as tabelas SI como um conjunto hierarquicamente associado de tabelas que compõem o

(23)

Artur Vieira Tenório MPEG-2/PSI3. Com os dados transmitidos por estas torna-se possível, através

de um receptor digital de televisão terrestre a seleção de canais existentes. Diferentemente do sinal analógico, o sinal digital possui identificações que permitem a visualização do nome do canal, nome do programa e descrição do evento, todas disponíveis para o telespectador. Estas tabelas também permitem que o receptor configure de forma automatizada os serviços presentes naquele TS. Também através destas tabelas é possível que seja visualizada a guia de programação, comumente conhecida como Eletronic Guide Program (EPG).

Para que seja possível ler os dados de uma tabela, diferenciando pacotes de áudio e vídeo, é necessário identificar o Program Identifier (PID) correspondente à tabela, localizado no cabeçalho de cada pacote lido em um TS. Na Figura 3 é possível identificar a estrutura de um pacote de dados em um sistema MPEG2-TS.

Figura 3: Pacote de dados em um TS; Fonte: (ISO/IEC 13818-1, 1995)

(24)

Artur Vieira Tenório Para este trabalho, a identificação e leitura destas tabelas é fundamental, visto que se faz necessário obter informações contextuais relacionadas à programação de uma emissora de forma algorítmica e automatizada.

2.1.3 A audiência

No livro “Audience Analysis” (MCQUAIL, 1997, p. 1), seu autor define audiência como: “termo coletivo designado para ‘receptores’ em modelo simples e sequencial em um processo de comunicação em massa”4. Esta definição

envolve mídias impressas, ouvintes de rádio e telespectadores. Ou seja, engloba o público que apenas consome algo enviado via broadcast de forma que não há interação direta. Não importando a classe social ou localização geográfica. Existe uma visão (DEFLEUR; BALL-ROCKEACH, 1971) voltada para a época da primeira guerra mundial, onde o fenômeno da comunicação em massa era o principal recurso midiático, alimentado pelas grandes guerras mundiais. Neste período, as formas de massificação de informação em geral eram cartazes, livros, fotos, filmes e discos. A audiência tinha papel passivo.

Com a modernidade, televisores e rádios tornaram-se os principais meios de comunicação em massa. A Rede Globo, a maior emissora de televisão no Brasil (REDE GLOBO, [s.d.]), define de forma simplória como o conjunto de pessoas que estão assistindo a determinado programa de TV.

Direta ou indiretamente é a audiência que mantém redes de televisão, rádio e atualmente portais de notícias e entretenimento na Internet. Diretamente, através de ingressos ou mensalidade é possível obter um conteúdo de qualidade sem a necessidade de que propaganda publicitárias sejam vistas, sendo este o conteúdo pago. Indiretamente, quando o conteúdo é propagado de forma gratuita, entretanto empresas pagam quantias altas para que seus nomes e propagandas sejam divulgados, sendo esta então a forma indireta. No segundo caso, o fator crucial para determinação do quanto custará esta publicidade é a quantidade de pessoas que compõem a audiência que determinado meio de

(25)

Artur Vieira Tenório comunicação possui. Por não ser pago, e distribuído via broadcast - logo não há qualquer contato ou identificação com o consumidor - torna-se um desafio mensurar este valor, principalmente em locais com população elevada, como é o caso de diversas capitais do Brasil.

Histórico

A origem da audiência remete ao público em espetáculos teatrais e musicais, ou jogos esportivos. A noção de métrica era relacionada com à presença física, o que permitia além da contabilização exata, também a compreensão/satisfação daqueles presentes. As aferições mais antigas provavelmente vem de cidades romanas ou gregas (MCQUAIL, 1997, p. 03). Com o surgimento da comunicação em massa – inicialmente via rádio e jornais, em seguida com televisores – onde um emissor envia o conteúdo para um número ilimitado de receptores, novas percepções de audiência surgiram. Os novos meios diferiam na escala e em operação. O alcance era maior; a forma de gerar conteúdo era diferente. O produtor não tinha mais a mesma noção visual de sua audiência.

A falta de contato entre o receptor e o produtor de conteúdo gerou uma separação entre ambos, onde a figura do emissor é feita por poucos e a do receptor por aqueles que tem acesso. A televisão tornou-se o meio de maior destaque, sendo assim a principal tecnologia do mercado de medição de audiência (BECKER, 2011).

A primeira ideia de dispositivo para aferição foi através de uma patente desenvolvida em 1929 por um estudante da Universidade de Columbia, denominada audímetro. Esta previa um dispositivo que registrava quando um rádio estava ligado e qual era a frequência sintonizada. Anos mais tarde, em 1934, o Massachusetts Institute of Technology (MIT) desenvolveu o primeiro protótipo baseado nesta patente.

Atualmente

A principal empresa responsável por aferir a audiência no Brasil é Instituto Brasileiro de Opinião Pública e Estatística (IBOPE). O seu legado nesta área de tão vasto tornou o nome da empresa como sinônimo de aferição de audiência pela população e pelos próprios canais, permitindo que expressões como: “O

(26)

Artur Vieira Tenório (BECKER, 2011) citando autor Bailén, apenas uma empresa pode medir audiência no mesmo mercado, evitando conflito de dados. Caso empresas concorrentes utilizem as mesmas metodologias, obterão resultados semelhantes. Caso contrário, não haverá consenso sobre qual é o melhor e mais adequado. E é sob esta ótica que o IBOPE se mantem como única fonte de referência para estes dados. Apesar de constantes questionamentos, a aceitação do mercado publicitário é vital, guiando investimentos destas empresas.

As metodologias utilizadas por este instituto sofreram poucas melhorias com os anos, e se derivam das desenvolvidas pelo Nielsen Research Institute (NRI), instituição que faz as métricas nos Estados Unidos, maior referência em medição de audiência no mundo. Abaixo são descritos os principais métodos utilizados pelo NRI e pelo IBOPE (IBOPE, 2013; NIELSEN - FAQ, 2013; NIELSEN, 2013):

 People Meter: Consiste de um caixa (decodificador) que é instalado em domicílios previamente selecionadas, através de um contrato de 12 meses. O dispositivo é ligado ao televisor e registra cada canal sintonizado. Cada morador deve se identificar antes de utilizar. Até quatro aparelhos são instalados em cada domicilio. No Brasil o IBOPE desenvolveu o aparelho, nomeado DIB.

 Viewer Diary: São diários escritos por telespectadores, descrevendo os programas assistidos em um período de uma semana.

 Questionários: É feito um estudo preliminar sobre o tema de estudo através de um levantamento completo de informações referentes ao assunto. Após esta etapa, são elaboradas questões neutras e insentas para que a avaliação possa ser criteriosa por parte do formulador. As questões não podem induzir o entrevistado à alguma resposta.

2.1.4 Engajamento do telespectador

É constante não somente no Brasil, mas em outros países, como os Estados Unidos, a redução de índices de audiência em programas tradicionais como o Big Brother Brasil (BBB), jogos de futebol e programas dominicais, como é lembrado por Becker (2011). Paradoxalmente, os anúncios feitos nestes

(27)

Artur Vieira Tenório mesmos programas batem recordes de arrecadação anualmente (OUTRO CANAL, 2013; TELEVISÃO UOL, 2013; ZAPPING, 2013). Este comportamento está ligado à forma como o conteúdo é consumido por uma população. O uso de outros meios de comunicação para obter o conteúdo transmitido, principalmente a Internet, faz com que a audiência momentânea de um programa não seja igual à quantidade de pessoas que ela atinge.

Entretanto, a redução dos níveis de audiência real não significa necessariamente que a TV perde importância para a sociedade, nem o poder exercido pelas maiores emissoras do país é menor. Fechine (FECHINE, 2004) pontua a capacidade destes veículos midiáticos:

“A programação da TV pauta nossas conversas e nossos momentos de lazer, determina certas atividades domésticas e compromissos, rege nossos horários e embala inclusive nosso sono.”

Conceitualmente, o telespectador, no papel de consumidor da mídia televisiva, assimila o conteúdo transmitido visualmente e auditivamente. A forma como ocorre a percepção do que é televisionado pode ser classificado em duas formas de absorção, como define Fechine: O regime do “olhar” e o da “olhadela”. O primeiro tipo, caracteriza-se pelo foco do telespectador, fixo, contemplando e absorvendo o conteúdo. Este é o comportamento ideal para os produtores de conteúdo e anunciantes publicitários, pois a atenção está voltada para o programa televisivo, e o telespectador tente à assistir aos comerciais para não correr o risco de perder algum trecho do programa. Para a emissora, há uma dedução que aquilo que está passando é interessante, logo deve ser mantido na grade de programação. Para o anunciante é ideal pois sua propaganda publicitaria e em paralelo a marca atrelada é vista pelo telespectador.

O segundo é o olhar vago, espiadela. Neste regime o espectador “acompanha” a televisão, e em muitos casos realiza outras atividades em paralelo, reduzindo a atenção dada à TV. Este pode inclusive estar “zapeando” os canais, ou seja, procurando o que ver, mas sem atenção à uma programação. Dentre as atividades, quando há o uso de dispositivos eletrônicos como smartphones, tablets ou laptops, para fins não relacionados com o conteúdo transmitido.

(28)

Artur Vieira Tenório Quando, durante o primeiro regime, há acesso à Internet por algum dispositivo móvel, como celulares, tablets ou notebooks, e o conteúdo visto é relacionado com o conteúdo da programação, é evidenciado o uso da “segunda tela”. Através dela os consumidores podem se tornar replicadores, propagando informações relacionadas com um conteúdo assistido para outros consumidores que não compunham a audiência real naquele momento. Em geral é compartilhado algum trecho do programa ou algum destaque, como personagem, mas há casos de compartilhamento de propagandas, quando estas causam uma sensação positiva ao consumidor. Uma definição da “segunda tela” pode ser vista na sessão à seguir.

2.1.5 Segunda tela

O termo “Segunda Tela” define o uso de alguma tecnologia que reproduza imagens, sendo possível que ocorra uma interação entre o usuário e o meio podendo se estender para outras pessoas através da Internet. O trabalho apresentado por Cesar, Bulterman e Jansen (2008) define duas áreas de pesquisa que tiram proveito deste uso: conhecimento interativo e seleção de conteúdo.

O aprimoramento do conhecimento pode ser provido em diversos cenários, como por exemplo no auxílio à compreensão de novas culturas e línguas. O dispositivo neste cenário serve como uma fonte de consulta em que o usuário determina o que deseja saber sobre algo que está assistindo, aprimorando o conhecimento adquirido sobre determinado assunto. A seleção de conteúdo permite que o acesso ao tipo de conteúdo de um programa seja facilitado. O uso de formas de personalizar um guia de programação eletrônico, indicando mais dados sobre um determinado filme ou documentário que iniciará em instantes pode ser fundamental para a escolha do que será assistido por um telespectador. De acordo com o relatório sobre o comportamento dos usuários de Internet através de algum dispositivo móvel – celulares, notebooks e tablets – realizado pelos institutos Nielsen e Yahoo (ALI et al., 2011), mais de 85% dos usuários declararam que quando estavam em casa, geralmente viam TV enquanto utilizavam um dispositivo. Na Figura 4, é possível identificar que tipo de atividade é exercida enquanto os telespectadores estão em regime de “olhadela”, acessando a Internet.

(29)

Artur Vieira Tenório

Figura 4: Atividades típicas de usuários de Internet Móvel e TV. Fonte: Autoria própria, baseada em (ALI et al., 2011)

Através do gráfico é possível identificar que apenas 24% dos usuários estão procurando por termos relacionados à programação. Provavelmente os resultados obtidos por Nielsen/Yahoo são em termos gerais, o que acredita-se varia bastante de acordo com o tipo de programa que está sendo transmitido.

Com a crescente popularidade e quantidade de reality shows, aliado à facilidade de acesso à Internet e redes sociais, permite que a segunda tela ganhe mais uma possibilidade, a TV Social. Esta é a denominação para as interações entre telespectadores utilizando o controle remoto, em ambiente fechado, controlado por uma emissora ou provedor de TV à cabo (HARBOE; MASSEY; METCALF, 2007), que iam além da troca de canais e volume. Os telespectadores enviam informações para as emissoras através de programas, como perguntas à audiência e votações em tempo real. Este termo acabou sendo modernizado com a adicação da segunda tela e as redes sociais, devido às novas possibilidades de envio de dados e maior largura de banda, bem como a popularização das redes sociais.

Destaca-se o Twitter dentre as redes sociais como o mais utilizado na interação entre emissor de conteúdo e o consumidor. Os tópicos de um programa podem ser moldados de acordo com o que os telespectadores compartilham nestas redes, usando termos específicos que identificam o desejo de assimilação

(30)

Artur Vieira Tenório de conteúdo. Em sua pesquisa, Lochrie e Coulton (LOCHRIE; COULTON, 2012a) analisam este comportamento, comprovando o crescimento deste comportamento através de análises de dados gerados pelo Twitter durante determinados programas. Os comentários realizados por usuários durante o programa The X Factor UK (um reality show realizado em um auditório) apareceram durante a transmissão, dando origem ao que eles denominam “audiência invisível”.

Dados de uma pesquisa realizada pelo IBOPE (2011) mostram que no Brasil, 27% da população consome simultaneamente TV e Internet. E dos que acessam Internet por smartphone, cerca de 50% consomem TV em paralelo. Devida à inclusão digital e o crescimento de redes sociais com o passar dos anos, provavelmente estes valores estão maiores nos dias atuais.

O presente projeto busca identificar e classificar a opinião deste tipo de audiência, desta forma, é de fundamental importância o estudo e compreensão do comportamento destes telespectadores.

2.2 Redes Sociais

As redes sociais, também conhecidas por mídias sociais, são sites que, em geral, estão associados ao uso maciço por parte de seus usuários. Nos últimos anos o crescimento em acesso tanto por computadores, quanto por dispositivos móveis foi exponencial. Não por acaso, são assunto recorrente em pesquisas acadêmicas, não somente na área da tecnologia, mas também em marketing, comunicação e psicologia. Existem diversas definições, dentre as quais, na visão da psicologia, Mislove (2009) procurou definir redes sociais como: um sistema onde (a) usuários fazem parte de uma classe primária de entidades com perfis semi-públicos, (b) usuários podem criar vínculos com outros usuários ou algum tipo de conteúdo, e (c) usuários podem navegar pelas redes social através de links e perfis de outros usuários. Na visão da computacional, Golbeck (2005) define de uma forma simplista, como sendo repositórios de dados que armazenam informações sobre seus usuários, sendo este alimentado pelos mesmos.

Existem diversas opções de sites, que procuram se diferenciar em algum aspecto para atrair usuários. Este comportamento permitiu que diversas variantes surgissem, podendo ser classificadas de acordo com a sua finalidade

(31)

Artur Vieira Tenório principal, como é demonstrado na tabela abaixo, onde as principais de cada categoria são demonstradas:

Tabela 1: Classificação redes sociais; Fonte: Autoria própria.

Nome Segmentação

Facebook, Google+ Amizades, compartilhamento de momentos. Instagram, Flickr Compartilhamento de fotos

Youtube, Vimeo, Hulu Compartilhamento de vídeos

LinkedIn Empregos/Negócios

Twitter, Blogger, Mashable Blog/Micro-blogging

LastFM, Deezer Música e artistas

Dentre as várias opções existentes, destacam-se três sites, por estarem no mercado a um certo tempo e lideram seus segmentos: Facebook, Youtube e Twitter.

O Facebook, criado em 2004, atualmente é a rede social mais popular, com mais de 1,19 bilhões de usuários ativos, sendo apenas 20% dos usuários residentes nos Estados Unidos e Canadá (FACEBOOK, 2014). Seu foco está em compartilhamento momentos com outros contatos, em geral ilustrados por fotos, vídeos ou eventos. Não há limitação formal de caracteres em cada postagem.

O YouTube é uma rede social criada em 2007, sendo comprada pela Google anos depois. Seu foco é exclusivamente vídeos, onde é possível assistir e compartilhar de forma ilimitada. Atualmente tem um público de aproximadamente 1 bilhão de usuários por mês. Cerca de 6 bilhões de horas em vídeos são vistas a cada mês. Por volta de 80% do tráfego de dados é provindo de países fora do eixo Estados Unidos Canadá (YOUTUBE, 2014). Recentemente o serviço ganhou maior integração com a rede social Google+, pertencente ao Google.

O Twitter é uma rede social criada em 2006 que se auto denomina uma rede de informação em tempo real. Através desta é possível ler e criar postagens relacionadas à diversos assuntos, produzidas por usuários comuns e empresas. As postagens são denominadas tweets e possuem limitação de 140 caracteres; esta restrição juntamente com a dinâmica de interação usuário categoriza esta rede social como microblogging. Atualmente (primeiro semestre de 2014) tem uma base de usuários ativos em torno de 241 milhões e apriximadamente 500 milhões de tweets enviados por dia. Aproximadamente 77% dos usuários estão fora dos Estados Unidos(TWITTER, 2014). Além das pesquisas simples por assuntos, é possível identificar os termos que se destacam no mundo em tempo real, através do recurso: trending topics.

(32)

Artur Vieira Tenório Na Tabela 2, é possível identificar as principais nomenclaturas utilizadas no Twitter e os seus significados.

Tabela 2: Termos utilizados Twitter; Fonte: Autoria própria

Termo Descrição

Hashtag (#)

Nome dado à uma palavra que é destacada das demais em um texto. Permite dar uma identificação,

semelhante às tags.

Tweet Termo dado aos textos enviados por usuários.

Timeline

É o nome dado aos tweets que compõem o histórico de um usuário. É possível visualizar o dia hora e em

alguns casos o local.

Trending topics Termo dado ao recurso que permite identificar os assuntos mais falados na rede.

Re-Tweet (RT) Quando um usuário deseja replicar um tweet realizado por outra pessoa.

Seguir

É a ação de adicionar alguma pessoa aos seus contatos. Todos os tweets gerados por quem é

seguido aparecem na timeline do seguidor.

Seguidores

Denominação para as pessoas que adicionaram uma outra e recebem em suas timeline todos os

tweets gerados por aquele usuário.

2.2.1 Análise de opinião

As redes sociais cada vez mais são mais vistas como ricas fontes de dados sobre a opinião de internautas (PAK; PAROUBEK, 2010), sendo o Twitter a que tem maior destaque neste campo. Apesar do Facebook ser mais popular (DUGGAN; SMITH, 2013) dentre as redes sociais, ainda não é a mais utilizada para pesquisas de opinião através de analise de publicações. Dentre os fatores que favorecem o Twitter, dois se destacam. O primeiro é a sua quantidade limitada de caracteres, fazendo com que um usuário seja obrigado a gerar textos mais precisos e expressivos em relação à outros tipos de redes sociais. Publicações no Facebook, por exemplo, podem ser textos que dificilmente permitem uma qualificação de opinião via software.

O segundo fator, este de forma mais limitante é o acesso aos dado. O Facebook restringe o acesso às publicações apenas à empresas selecionadas. Mais detalhes podem ser vistos na seção 2.2.2.

A importância do Twitter para análise de opinião pode ser vista durante eventos marcantes ao redor do mundo, como protestos políticos no Egito e na

(33)

Artur Vieira Tenório Turquia (KRAVETS, 2011) (REYNOLDS, 2014). Em assuntos voltados a TV, sua relevância pode ser comprovada com a criação de uma nova metodologia de aferição em conjunto com o principal institudo nesta finalidade o Nielsen (NIELSEN; TWITTER, 2014a) que entrou em funcionamento no ano de 2014.

Por conta das características acima citadas, este trabalho usará o Twitter como fonte de dados relacionados à métrica qualitativa de audiência. Na sessão 2.5, serão vistas algumas pesquisas que utilizam o Twitter como base de dados.

2.2.2 Integração por Software (API)

Para que os dados gerados por usuários de redes sociais sejam acessíveis computacionalmente, as principais redes sociais disponibilizam uma Application

Programming Interface (API). Cada rede social determina quais informações

podem ser acessadas, de acordo com o tráfego de dados envolvido nas solicitações e o tipo de dado que se deseja obter. O Twitter, rede social escolhida para compor a base de dados do TV Audience Analyzer, disponibiliza duas formas de acesso aos seus dados, através das APIs: REST API e Stream API. Ambas possuem á obrigatoriamente de acesso via autenticação de usuário utilizando o padrão OAUTH5 para acesso de grande quantidade de dados e

funcionalidades mais específicas. Para a obtenção de credenciais neste padrão, é necessária uma conta de usuário com credenciais de desenvolvedor. Desta forma, são geradas as chaves necessárias por este protocolo.

Kwak et al. (2010) demonstrou a capacidade de obtenção de dados desta API fazendo analises dos milhares de dados minerados nesta rede. Mais de 106 milhões de tweets foram coletados através das APIs de comunicação desta rede social.

2.3 Classificação de Sentimentos

A classificação de sentimentos, mais conhecido como Sentiment Analysis (SA) é um ramo da informática que cresce ao longo dos anos, motivado principalmente pelas redes sociais, consideradas uma fonte de opinião e

5 Um protocolo de autenticação aberto, utilizado pela maioria das redes sociais e e-mails. Este framework permite que aplicações terceiras obtenham acesso limitado à um serviço HTTP. Mais informações em: http://oauth.net/

(34)

Artur Vieira Tenório sentimentos sobre eventos e temas variados. Institutos de renome como o Pew

Research Center (MITCHELL; HITLIN, 2013), costumam desenvolver relatórios

periódicos informando o comportamento de usuários de mídias sociais e o sentimento/opinião acerca de algum assunto.

O Twitter em especial é a principal fonte de dados, devido à característica dos comentários gerados nesta rede: textos curtos (140 caracteres); é possível inferir emoção de forma menos custosa, como é comprovado por (LI; LI, 2013), onde é feito um estudo voltado para a área de marketing e opinião pública.

O método mais utilizado para determinar a classificação de sentimento em um texto ou frase é através do cálculo da polaridade. Este cálculo é feito baseado em análise léxica de palavras e a determinação de pontuação de acordo com o sentido identificado em cada palavra. A polaridade pode ser ampliada de acordo com o critério adotado pelo algoritmo de classificação. Alguns exemplos de somadores de polaridade (para negativo ou positivo) são os advérbios de intensidade, como “muito”, “assaz”; e uso de exclamação “!!!”.

A determinação de polaridade baseada em palavras mostra-se complexa quando os textos são provindos de redes sociais, onde jargões e abreviações são comuns, o que impede que a simples comparação entre a palavra e a sua polaridade seja eficaz. Uma solução alternativa para este cenário envolve metodologias relacionadas a aprendizagem de máquina, como é feito por (PANG; LEE, 2008). Na abordagem proposta por Pang, um classificador de sentimentos pode ser treinado para distinguir termos positivos, negativos e neutros em um texto.

Além da abordagem de Pang, existem diversos estudos relacionados à esta área, onde inclusive são disponibilizadas diversas ferramentas com finalidades acadêmicas e profissionais, que visam classificar textos e frases. Araújo (ARAÚJO et al., 2013) alerta para o fato de existir um desconhecimento em relação ao funcionamento destas ferramentas no contexto das redes sociais. Em especial levando em consideração o fato de que a maioria dos experimentos divulgados no meio acadêmico tem desempenho testado em sentenças longas. Quando o cenário muda para redes sociais, os resultados podem ser diversos, como aponta o estudo comparativo realizado por Araújo (ARAÚJO et al., 2013).

Desta pesquisa, o resultado final destaca duas ferramentas por serem as mais difundidas no meio acadêmico, tendo inclusive diversos trabalhos

(35)

Artur Vieira Tenório acadêmicos relacionados. O Sentistrength e o Senti Word Net obtiveram resultados melhores do que as demais ferramentas analisadas e por isto foram escolhidas para compor o módulo de classificação de sentimentos do TV

Audience Analyzer.

2.3.1 SentiStrength

O SentiStrength (SENTISTRENGTH, 2012) e um projeto desenvolvido pela

University of Wolverhampton no Reino Unido. É descrita como uma ferramenta

que estima a polaridade, se positiva, negativa ou neutra em pequenos textos, e até mesmo utilizando linguagem informal. Foi otimizada para ter uma precisão semelhante a um humano para textos pequenos gerados em redes sociais, exceto textos políticos. Sua polaridade varia entre:

Seu idioma de origem é o inglês, entretanto possui implementações que permitem classificação em outros idiomas, mas sem o nível de precisão existente na língua inglesa.

Esta ferramenta utiliza métodos baseados em aprendizado de máquina. Seu dicionário de termos é uma versão otimizada para redes sociais do Linguistic

Inquiry and Word Count (LIWC) proposto por Tauscik (TAUSCZIK;

PENNEBAKER, 2009). O estudo que originou o projeto LIWC é baseado em análise de textos, onde é feita a contagem de palavras relacionando seu significado de forma psicológica. O resultado da classificação de um texto curto é visualizado abaixo na Figura 5, onde a frase: “I love you but hate current

political climate” gerou o resultado ilustrado.

-1 (não negativo) até -5 (extremamente negativo) 1 (não positivo) até 5 (extremamente positivo)

(36)

Artur Vieira Tenório

Figura 5: Exemplo SentiStrength.

Fonte: Imagem copiada do site oficial da ferramenta (SENTISTRENGTH, 2012)

A polaridade obtida pela ferramenta resultou no valor -1. O que pode ser traduzido como não negativo, ou neutro. Para o TV Audience Analyzer, foi considerado positivo quando o somatório foi maior do que 2, negativo quando o somatório for menor que -2 e demais valores, considerados neutro.

2.3.2 Senti World Net (SWN)

O Senti World Net (SWN) é uma ferramenta resultante de um estudo realizado e mantido pelo Istituto di Scienza e Tecnologie dell’Informazione “A.

Faedo”; pertencente ao Conselho Nacional de Pesquisa na Itália(ESULI;

SEBASTIANI; MORUZZI, 2006; SENTI WORLD NET, 2010).

Sua finalidade é a mineração de opinião utilizando o dicionário WordNet (MILLER, 1995) como fonte de dados. WordNet é um grande banco de dados lexical da língua inglesa. São agrupados substantivos, verbos, adjetivos e advérbios em conjunto com seus sinônimos cognitivos, cada um expressando um conceito distinto, denominado synset. O dicionário WordNet é gratuito e está disponível através do site da Princeton University para fins acadêmicos.

A relação do WordNet com SentiWordNet é feita através da associação de cada synset com três valores de pontuação que indicam o sentimento de um texto: positivo, negativo e neutro. Cada palavra identificada e recebe uma pontuação, variando de 0 a 1.

(37)

Artur Vieira Tenório Para exemplificar o comportamento desta ferramenta, a palavra “love” foi classificada. Quando identificada como um substantivo, pode ser avaliada como um intensificador de emoção positiva. Em outro contexto, pode ser identificada como atividade sexual entre duas pessoas, neste caso a polaridade é 0 indicando neutralidade. Quando identificada como um verbo, usualmente é atrelada à sentimentos positivos. Quando sua relação na frase é traduzível em português para “gostar” remete à positividade moderada. Quando a sua tradução de acordo com o contexto é realmente amar, relacionado à alguma atividade, remete à grande intensidade de positividade.

Na Figura 6, abaixo, é possível visualizar os possíveis synset para a palavra “love”.

Figura 6: Exemplo SWN palavra love;

Fonte: Autoria própria, imagens do retiradas do site (SENTI WORLD NET, 2010).

Quando identificada como um substantivo, de acordo com o contexto identificado, pode ter pontuação positiva: 0.625; negativa: 0; neutra: 0.375; quando identificada por verbo, a pontuação positiva é:0.5; negativa: 0; neutra: 0.5.

(38)

Artur Vieira Tenório Os critérios de determinação de polaridade desta ferramenta seguem a pontuação detalhados abaixo, na Tabela 3:

Tabela 3: Polaridade SWN Resultado Pontuação Positivo Acima de 0.25 Neutro Entre 0.25 e -0.25 Negativo Abaixo de -0.25 2.3.3 Os sentimentos de um telespectador

Becker (BECKER, 2011) busca explicar o tipo de sentimento envolvido na atividade de assistir à um programa de televisão. Este é relacionado diretamente com o conteúdo que envolve este processo. A capacidade de despertar sensações através de imagens e sons, remete ao estabelecimento de uma conexão entre o telespectador e o objeto, mas a TV como forma tecnológica é incapaz de despertar possibilidades emotivas. Este papel é daqueles que produzem o conteúdo, sendo traduzidos para um domicilio através deste meio eletrônico.

Estas sensações podem variar de acordo a afinidade entre telespectador e o programa de TV. Transmissões de futebol costumeiramente geram por parte dos torcedores sentimentos opostos em intervalos curtos de tempo, sempre ligados à emoção, como a raiva, empatia, angústia e medo, em um extremo, e felicidade, alívio e realização, no outro extremo. No caso de novelas e reality

shows, estes sentimentos podem se prolongar por semanas ou meses.

2.4 Contexto Computacional

A primeira definição de contexto computacional, sob nome de context-aware

computing foi introduzida em 1994 por Schilit et al (1994). Para ele, três aspectos

eram fundamentais se tratando de informações contextuais: onde o usuário está, com quem ele está e quais são os recursos disponíveis ao redor. Um sistema capaz de identifica-los era capaz de examinar um ambiente de forma computacional e reagir às possíveis mudanças neste.

(39)

Artur Vieira Tenório As definições nesta área com o tempo ganharam novas visões, levando em consideração os avanços tecnológicos ao longo dos anos. A definição de contexto para Dey (2001) é:

“Contexto é qualquer informação que possa

ser utilizada para caracterizar uma situação de determinada entidade. Esta entidade pode ser uma pessoa, lugar ou objeto que é considerada relevante para a interação entre usuário e aplicação, incluindo os próprios usuário e aplicação.”6

Dentre as diversas outras definições existentes, é visto que a maioria dos autores utiliza exemplos para chegar à alguma definição, como afirma Zimmermann (ZIMMERMANN; LORENZ; OPPERMANN, 2007). Para ele, as informações contextuais, como qualquer informação, são utilizada para caracterizar a situação de uma entidade. É possível dividir em cinco categorias, as informações contextuais de uma entidade: Individualidade, Tempo, Localização, Atividade e Relações.

A individualidade diz respeito à qualquer coisa relacionada diretamente à entidade, sendo possível caracterizar como ativo, passivo, real ou virtual, em relação ao ambiente que está inserida. O tempo pode considerar o fuso horário, hora atual, hora virtual, ou datas, relacionados à entidade. A localização está relacionada à posição geográfica da entidade, podendo ser verificada por GPS no caso de um local real. A atividade como informação contextual diz à respeito de um objetivo ou intenção de ação da entidade. Por fim, as relações entre as entidades, que podem envolver qualquer tipo e interação ou troca de dados, de forma à identificar comportamentos distintos.

Para o presente projeto, as informações contextuais do telespectador e de um programa televisivo são fundamentais para que seja possível determinar uma ligação entre comentários gerados por estes e assuntos contidos em programas de TV.

(40)

Artur Vieira Tenório

2.5 Trabalhos Relacionados

Existem diversos trabalhos comerciais e na literatura que envolvem temas relacionados com o objetivo proposto neste projeto. Não foram encontrados trabalhos que realizem precisamente análise qualitativa de audiência no Brasil, logo, nesta seção serão vistos trabalhos que envolvem análise de sentimentos no Twitter, e análises de dados relacionados à TV. Inicialmente serão vistos os trabalhos comerciais e em seguida os acadêmicos.

2.5.1 Sistemas comerciais de análise de audiência usando o Twitter

Por ser um tema em evidência, explorar as possibilidades em relacionar dados de redes sociais e televisão criou a possibilidade de sites comerciais abordarem este assunto.

Qual Canal TV

Esta startup (QUAL CANAL TV, 2013) surgiu em 2005. Se consideram os pioneiros neste assunto no Brasil. Esta empresa tem por objetivo monitorar comentários gerados em mídias sociais sobre programas de TV brasileiros. Esta empresa possui apoio do IBOPE e do Twitter para desenvolver métricas e ferramentas que auxiliam seus clientes, em geral emissoras e empresas de publicidade. Não é informado quais são os métodos utilizados para obtenção de resultados, nem as redes sociais que compõem a base de dados.

TTV

Esta empresa (TTV, 2012) foi criada em 2010 por engenheiros e pesquisadores com visão em computação natural. O foco é monitorar redes sociais, de forma quantitativa e qualitativa. Seu público alvo, assim como o Qual Canal TV, são emissoras e empresas na área de publicidade. A metodologia utilizada para obtenção de resultados não é divulgada, nem as redes sociais que são base de dados.

Social Guide

No fim de 2013, foi lançado o Social Guide (NIELSEN; TWITTER, 2014b), empresa resultante da parceria entre o Instituto Nielsen e a rede social Twitter. Este serviço permite analisar a audiência televisiva em tempo real. Atua apenas nos Estados Unidos. Por ser resultado da junção das maiores empresas na área

(41)

Artur Vieira Tenório de aferição de audiência e microblogging, há potencial para serem os maiores no mundo também na área de análise de dados para TV.

2.5.2 Trabalhos acadêmicos que relacionam Twitter e TV

Nesta sessão serão vistos trabalhos que contemplam a análise de dados do Twitter relacionados com TV.

Sharing the View Throught Second Screens

Nesta pesquisa (LOCHRIE; COULTON, 2012a) os autores propõem uma investigação sobre o papel emergente dos celulares (no papel de segunda tela) como facilitadores de conteúdos de TV. O objeto de estudo do referente trabalho é um reality show realizado no Reino Unido, denominado “The X Factor”. Esta pesquisa levou em consideração o comportamento previamente estudado (LOCHRIE; COULTON, 2012b), que sugere uma prévia combinação por parte das emissoras sobre quais elementos do Twitter serão explorados durante a exibição do programa para estimular a interação dos telespectadores.

Para o TV Audience Analyzer, este estudo é relevante pois faz uma análise de um programa em que costumeiramente há muita interação através da segunda tela. Neste tipo de programa – reality show – costumeiramente há sentimentos intensos por parte dos telespectadores, demonstrando aflição, alegria e surpresa durante a exibição de cada episódio. A metodologia optada pelos autores foi o filtro e quantificação de tweets contendo a hashtag “#xfactor” durante a exibição do programa.

Entretanto, por ser uma pesquisa focada em avaliação da quantidade de comentários gerados por uma plataforma móvel, e apenas um programa de TV foi avaliado, foi verificado que não existiu uma preocupação em determinar quais

tweets eram considerados SPAM nem as repetições intencionais ou não de

comentários feitos por um mesmo autor em um curto intervalo de tempo.

Towards better TV viewing rates: exploiting crowd's media life logs over Twitter for TV rating

O estudo realizado no Japão (WAKAMIYA; LEE; SUMIYA, 2011),

confrontou os resultados de audiência publicados pelo Nielsen Institute e os possíveis valores reais. Com a justificativa de que o instituto Nielsen apenas

Referências

Documentos relacionados

AÇÕES ESTRATÉGICAS DE ENSINO ORIENTADAS PARA O PERFIL DOS ALUNOS/ ABORDAGEM.. INTERDISCIPLINAR DESCRITORES DO PERFIL DOS ALUNOS Sexualidade Temas: Conhecimento e valorização

Depois da ação do último jogador, os jogadores devem novamente jogar ou descartar cartas na ordem de ORGANIZAÇÃO (a ordem pode alterar-se caso algum jogador ganhe ou

Da Silva et al (2020) estudaram a variabilidade espacial do fator k em áreas comerciais de cana-de-açúcar, causadas pelas estruturas multivariadas de perdas de carbono em

Mais do que propor uma metodologia para a musicalização de adultos, esse trabalho deve fazer o leitor refletir sobre a prática do ensino musical atual vigente.. O que

Este trabalho é resultado de uma pesquisa quantitativa sobre a audiência realizada em 1999 envolvendo professores e alunos do Núcleo de Pesquisa de Comunicação da Universidade

A Prefeitura de nossa cidade está vivendo bom momento economica- mente, mesmo tendo gastos com a pandemia, ainda assim, o vereador Marcos Nem (PSD) disse que no perí- odo de chuva

Especialidade médica que trata clinicamente ou através de cirurgia das doenças do aparelho reprodutor

Proponha Proponha uma uma função função chamada chamada inicializa() inicializa() que receba um vetor de inteiros, seu que receba um vetor de inteiros, seu tamanho,