• Nenhum resultado encontrado

Vista do Uso do Google Trends como indicador para o faturamento de uma marca

N/A
N/A
Protected

Academic year: 2021

Share "Vista do Uso do Google Trends como indicador para o faturamento de uma marca"

Copied!
20
0
0

Texto

(1)

225

Uso do Google Trends como indicador para o

faturamento de uma marca

Claudia Rosa Acevedo Professora há 23 ano e professora e pesquisadora da USP há 12 anos. Atualmente professora e pesquisadora da USP. Graduada em Economia pela Universidade de São Paulo (1989) e doutorado em Administração de Empresas pela Fundação Getúlio Vargas - SP (1998). Foi Associate Professor na Quinnipiac University no Departamento de Marketing de 2001 a 2002. Atualmente é professora no curso de Marketing da EACH-USP. Suas pesquisas relacionam-se a área de Marketing e sociedade. Seus projetos investigam se as trocas com os consumidores são: justas, seguras, equitativas (não discriminatórias) e se contribuem para melhorar o bem estar da sociedade. Alguns dos temas estudados são: (1) práticas de marketing discriminatórias com consumidores ditos vulneráveis, como por exemplo, as representações de minorias raciais e de gênero na mídia; (2) marketing social; (3) práticas de marketing em relação às crianças e (5) comportamento pró-social. Email: acevedocampanario@usp.br Arthur Walter Portes Bacharel em Marketing pela Escola de Artes, Ciências e Humanidades da Universidade de São Paulo. Previamente foi estudante de Economia na Faculdade de Economia, Administração, Contabilidade e Atuária – FEA-USP. Email: arthur.wportes@gmail.com Bruno Silveira Scavone Bacharel em Marketing pela Escola de Artes, Ciências e Humanidades da Universidade de São Paulo. Email: bruno.scavone@dp6.com.br João Gabriel de Freitas Araujo Bacharel em Marketing pela Escola de Artes, Ciências e Humanidades da Universidade de São Paulo. Atualmente trabalha na empresa de desenvolvimento de aplicativos Poppin. Email: senderemetente@gmail.com Bruno Catão Bacharel em Marketing pela Escola de Artes, Ciências e Humanidades da Universidade de São Paulo.

Estagiou na empresa de pesquisa em big data e comunicação Num.br. Trabalhou com treinamento de inteligência artificial para a Nexus Edge. Email: bruno.catao@gmail.com

Resumo

Na era do Big Data (INEICHEN, 2015), o Google Trends tem se tornado uma ferramenta estatística importante. Enquanto autores como Eysenbach (2006) e Seifter et al (2010) utilizaram o serviço de dados do Google para correlacionar volumes de buscas com números de casos de gripe e doença de Lyme, Choi e Varian (2011) e Schmidt e Vosen (2009) começaram a usá-lo como indicador econômico. O presente trabalho busca criar um modelo que correlacione o volume de buscas com o faturamento de marcas como Hering, Renner, Riachuelo e Natura. Para tanto, os autores utilizaram o Google Trends, programação em Python 3.7, além de regressão linear e testes de R² e R² ajustado. Os resultados provaram a eficácia do Google Trends como um preditor de faturamento para as empresas, levando em conta a sazonalidade das buscas e das vendas.

Palavras chave

Big Data; Google Trends; Marketing; Sazonalidade. Abstract

In the era of Big Data (INEICHEN, 2015), Google Trends has become an important statistical tool. As authors such as Eysenbach (2006) and Seifter et al (2010) Used Google's data service to test the relation of search volumes with numbers of cases of flu and Lyme disease, Choi and Varian (2011) and Schmidt and Vosen (2009) began to use it as an economical indicator. The present work seeks to create a model that correlates the volume of searches with the gross revenue of brands such as Hering, Renner, Riachuelo and Natura. For this purpose, the authors used Google Trends, coding in Python

(2)

226

3.7, in addition to linear regression and tests of R ² and Adjusted R ². The results proved the effectiveness of Google Trends as a predictor of invoicing for companies, taking into account the seasonality of searches and sales.

Keywords

Big Data; Google Trends; Marketing; Seasonality.

Introdução

O volume de dados produzidos pela sociedade atual em suas interações com as redes como a Internet deu origem à Era do Big Data (INEICHEN, 2015). A análise da informação produzida pelos indivíduos nas redes permite previsões cada vez mais imediatas de seu comportamento.

O forecasting, forma de previsão de tendências futuras através da análise de dados acumulados ao longo de bimestres ou semestres, começa a ser substituído pelo nowcasting (INEICHEN, 2015). Com o Nowcasting, as análises são capazes de gerar insights para lidar com o que está acontecendo agora, ou num curtíssimo prazo.

Uma das ferramentas de nowcasting disponíveis ao público geral é o Google Trends, que analisa a frequência com que determinadas palavras-chaves são procuradas no motor de busca, quantificando o interesse do público por certo assunto. Há, inclusive, estudos que utilizam o Google Trends como indicador de tendências econômicas e para detectar possíveis epidemias e surtos de curto-prazo.

O presente estudo busca verificar se resultados no Google Trends podem ser utilizados como preditores de resultados operacionais de uma marca, ou seja, se interesse pela marca no Google se traduz em vendas efetivas, de acordo com os dados da ferramenta e dos relatórios de desempenho de empresas de capital aberto.

1. Revisão bibliográfica

1.1 Métodos de Previsão

A previsão de vendas norteia o planejamento e a tomada de decisões para o futuro de uma empresa (REIS, 2014). Armstrong (2008) afirma que existem duas fontes para essas decisões: técnicas de julgamento – qualitativas ou subjetivas – e técnicas estatísticas. É comum que se tomem as duas atitudes.

Alguns dos métodos que utilizam técnicas de julgamento são Estudos de Intenção de Compra, em que se pergunta ao público alvo se existe interesse nos produtos; Interpretação de Papéis, tentativa de se colocar no lugar do consumidor para entender seu comportamento; e as Perguntas a Experts, que são consultas a especialistas para tentar prever comportamento do consumidor alvo.

Já as técnicas quantitativas são as que usam extrapolações estatísticas para prever comportamento futuro (ARMSTRONG, 2008). Métodos mais complexos são testados constantemente, como o método Box-Jenkins, que é usado em séries não lineares (ARUNGUVAI; LAKSMI; KALAIVANI, 2008), mas eles não mostram resultados significativamente melhores que modelos de extrapolação (ARMSTRONG, 2008).

O modelo de Redes Neurais Artificiais descrito por Reis (2014) é uma ferramenta estatística que usa elementos (denominados neurônios) que emitem um sinal em sua entrada e

(3)

227

outro em sua saída, que são recebidos e processados pelo sistema (RAUBER & WALTER, 2005). Este modelo é utilizado para testar como diversos elementos se afetam entre si (REIS, 2014), fornecendo uma possível previsão de vendas.

Armstrong (2008) ainda salienta que existem modelos que utilizam técnicas subjetivas e estatísticas, especialmente utilizando a opinião dos especialistas e pesquisas feitas sobre o público-alvo.

1.2 Forecasting e Nowcasting

Forecasting (“previsão” em inglês) é a técnica de previsão do futuro através da análise de dados passados, muito usada em economia. Hendry (2000) define quatro condições essenciais ao forecasting: deve haver regularidade nos dados; estas regularidades devem informar sobre o futuro; o método utilizado deve ser capaz de captá-las; e as irregularidades devem ser excluídas do processo.

Entretanto, o Forecasting enfrenta obstáculos sérios à sua efetividade, um deles sendo a dificuldade de se fazer previsão quando se tem dados inconstantes.

Já o Nowcasting (“now” significando “agora) não busca prever o futuro, mas entender o presente e um futuro de curtíssimo prazo (INEICHEN, 2015). Sua base em fatos é mais sólida, seu escopo, mais preciso, e sua aplicação nas decisões gerenciais, mais apropriada num contexto dinâmico.

1.3 Google Trends

O Google Trends é uma ferramenta que permite a análise do volume de buscas de um termo ou frase no motor de busca (SEIFTER et al., 2010), fornecendo o índice de buscas destes termos relativos ao total de buscas (de qualquer termo) em uma região e período escolhidos (CHOI e VARIAN, 2011). Isto faz do Google Trends a ferramenta ideal para estudar o interesse por certos tópicos, podendo ser testada em um modelo de previsão estatístico linear.

Possíveis usos do Google Trends já são utilizados pela academia. Por exemplo, Eysenbach (2006) testou a correlação entre buscas sobre gripe e casos da doença no Canadá. Confrontados com os dados divulgados pela Agência de Saúde Pública do Canadá, os números de buscas levantados no Google Trends estavam muito mais próximos dos casos reais da doença do que os dados oficiais.

Seifter et al. (2010) desenvolveram um trabalho parecido, estudando a doença de Lyme e chegando a resultados semelhantes. Carneiro e Mylonakis (2009) também estudaram casos de gripe através do Google Trends, mas ressaltaram a necessidade de análises mais rigorosas para validar seus resultados.

Mais próximo ao Marketing, Schmidt e Vosen (2009) estudaram o uso do Google Trends como indicador de consumo doméstico, concluindo que era a melhor ferramenta dentre as estudadas para prever consumo domiciliar.

Choi e Varian (2011) apontaram que o Google Trends funciona como um bom indicador de curto prazo quando trabalhado com indicadores econômicos. Os resultados das regressões lineares foram de 5% a 20% mais relevantes quando os pesquisadores levaram em contas os dados da ferramenta.

(4)

228

1.4 Mensuração de Resultados

Kaplan e Norton (1996) propõem um processo cíclico de avaliação gerencial estritamente financeiro chamado Balanced Scorecard (BSC). Sua função seria construir a ponte entre a estratégia de longo prazo e as ações de curto prazo de uma empresa. O processo se dá em quatro passos: (1) Tradução da Visão; (2) Comunicação e Associação de Benefícios; (3) Plano de Negócios; e (4) Feedback e Aprendizagem. É importante notar que este é um processo cíclico, o que, portanto, quer dizer que após realizar o quarto passo, o primeiro deve se iniciar.

Parmenter (2007) aponta para a necessidade de se diferenciar KPIs (Key Performance Indicators ou KPIs) de KRIs (Key Result Indicators) para a gestão de uma empresa. Enquanto KRIs devem ser checados mensal ou trimestralmente, KPIs devem ser avaliados diária ou semanalmente, gerando tarefas para a governança (KRIs) e para a gestão (KPIs).

Parmenter (2007) define sete características para um KPI: (1) Medidas não financeiras; (2) Métricas mensuradas frequentemente (diariamente ou em tempo real); (3) Passíveis de ação por um CEO ou time senior de gestão; (4) Clareza da métrica e suas respectivas ações corretivas para todos os envolvidos; (5) Une a responsabilidade do time à individual; (6) Tem impacto significativo para a organização; (7) Tem impacto positivo nas outras métricas de performance.

Sabendo o que são KPIs, restam as relações entre eles. Bitici et al (2001) e Rodiguez et al (2009) discutem o QRPMS (Quantitative Relationships at the Performance Measurement System), modelo através do qual KPIs podem ser identificados e seus efeitos quantificados, especialmente os decorrentes da relação entre eles

Uma das vantagens dessas relações é encontrar as redundâncias entre os KPIs, tornando possível identificar as relações latentes que ocorrem no nível estratégico (RODRIGUEZ et al, 2009).

Peral et al (2017) criticam a ideia de elaboração de KPIs através de Data Mining, alegando que a ausência de listas de KPIs de uma nova fonte de dados como as mídias sociais obriga os gestores a agirem de acordo com a intuição, muitas vezes priorizando vendas e esquecendo outros indicadores (como entregas bem-sucedidas). Peral et al (2017) ainda criticam a pouca clareza do conteúdo dos KPIs e a dificuldade de se obter uma gama de KPIs quando a organização já está estabelecida há muito tempo.

De forma geral, a literatura avança rumo a uma abordagem mais pragmática e qualitativa na seleção e monitoração de indicadores relevantes de performance.

2. Metodologia

O presente estudo busca provar o valor do Google Trends de forma mais simples, relacionando o resultado operacional de uma empresa (receita bruta) como o objetivo e o volume de buscas pela sua marca como o indicador de performance.

2.1 A Natureza dos Dados Estudados

Para tratar das duas métricas discutidas neste trabalho, é preciso discutir características dos dados tratados neste trabalho.

(5)

229

2.1.1. Relatividade do Período

O volume de buscas é mostrado pelo Google Trends como um gráfico de linhas com valores que variam de 0, mínimo, a 100, máximo.

Enquanto o faturamento (em reais) das empresas estudadas independe do período analisado, o volume de buscas é totalmente dependente destes. Dessa forma, fixou-se o maior período comum entre as empresas, o que limitou as análises possíveis às empresas com demonstrativos com frequências coincidentes.

2.1.2. Periodicidade dos Dados

Os dados fornecidos pelo Google Trends têm periodicidade variável. Dados sobre a última hora podem ser quebrados em minuto a minuto, enquanto dados sobre um período de anos podem ser vistos de meses a meses. Geralmente, dados de demonstrativos de empresas abrangem períodos de trimestres.

A solução encontrada foi utilizar a médica de cada três meses no Google Trends para comparar com os resultados financeiros.

2.1.3. Desproporção das Grandezas

Os resultados do Google Trends são relativos. De fato, não apenas em relação ao período pesquisado, mas também aos termos de interesse.

Por exemplo, o volume de pesquisas pelo termo “Google” no Brasil alcançou seu pico em maio de 2017, enquanto uma pesquisa por “Google Trends” alcançou seu ápice em setembro daquele ano, ambos valendo 100 ao serem comparados a si mesmos. Entretanto, quando os pesquisadores compararam os volumes entre si, o pico de “Google” continuava em 100 e o de “Google Trends” apresentava um volume relativo menor do que 1, ficando neste nível relativo mesmo em seu pico, quando “Google” apresentava um volume de buscas de 70. Dessa forma, optou-se por correlacionar não os volumes de vendas e faturamentos brutos das empresas, mas as respectivas variações trimestrais destes.

2.2. A Modelagem

As empresas utilizadas neste estudo foram Hering, Natura, Riachuelo e Renner. A exploração e modelagem dos dados foi feita utilizando a linguagem de programação Python na versão 3.7 com o uso das bibliotecas matplotlib, numpy, pandas, seaborn e sklearn (scikit-learn).

2.2.1. Exploração dos Dados e Hipóteses

O período utilizado na análise foi o do segundo trimestre de 2007 até o final de 2017, tanto para as quatro empresas quanto para o Google Trends.

A exploração dos dados é feita através de uma regressão linear, técnica que, segundo Souza (2001), descreve a relação entre as variáveis analisadas através de uma equação matemática, podendo ser utilizada para prever valores futuros de uma variável. Este modelo utiliza as variações trimestrais do Google Trends como variável regressora, e a estimada como as respectivas variações do resultado operacional.

O modelo utilizado é então aplicado a cada marca separadamente e os resultados são discutidos após passarem pelos testes R² e R² ajustado. Segundo Thomas, Cláudio (2006), O

(6)

230

R², ou Coeficiente de Determinação, representa a quantidade da variação total que a regressão explica, porém, este coeficiente não considera a quantidade de variáveis no modelo em seu cálculo. Já o R² ajustado, ou Coeficiente de Determinação Ajustado, apesar de exercer a mesma função que o R², incorpora em sua operação a quantidade de variáveis existentes no modelo.

2.2.2. Previsão do Faturamento

O objetivo fundamental do estudo é avaliar a previsibilidade a curto prazo do faturamento (Nowcasting). O modelo foi, então, utilizado para, com base nos dados históricos trimestre a trimestre, prever o resultado do trimestre vigente. Para tanto, foram feitos três testes: Previsão do primeiro, segundo e terceiro trimestres de 2018.

Para cada trimestre a metodologia consiste em:

i. Consolidar as médias trimestrais do índice do Google Trends desde o segundo trimestre de 2007 até o último trimestre antecedente ao previsto1 (e.g., para prever o primeiro trimestre de 2018 a base contém dados até o quarto trimestre de 2017. Para a previsão do segundo trimestre de 2018, os dados vão até o primeiro trimestre do mesmo ano).

ii. Treinar o modelo de regressão linear com os dados históricos de variação dos índices do Google Trends, trimestre a trimestre, até o trimestre antecedente a se prever.

iii. Utilizar modelo para prever o trimestre desejado em função da variação do índice do Google Trends nesse mesmo trimestre2. (i.e. para prever o primeiro trimestre de 2018).

Para cada trimestre previsto os resultados são discutidos e o processo se reinicia.

3. Análise e discussão dos resultados

A exploração dos dados se iniciou construindo os quatro gráficos apresentados na Figura 1, que compara as variações trimestrais dos índices do Google Trends com a variação do faturamento. Nesse primeiro contato visual é possível identificar picos e vales alinhados das variações das respectivas empresas.

1 É importante ressaltar que, devido à variabilidade dos índices do Google Trends em função do período selecionado, para cada novo trimestre a ser previsto pela regressão não foi apenas incluso um novo trimestre de dados, mas uma nova base histórica foi utilizada.

2 Por hipótese, na aplicação prática desse método é possível ter acesso aos índices do Google Trends do trimestre vigente antes da consolidação do faturamento.

(7)

231 Figura 1 - Variações trimestrais dos índices do Google Trends (azul) sobre as variações dos faturamentos

(laranja).

Fonte: Gerada no Google Trends

As distâncias entre os picos e vales, no entanto não são iguais em todos os semestres. A primeira hipótese levantada, então, foi a influência da sazonalidade, i.e., se o trimestre do ano (1º, 2º, 3º ou 4º) poderia apoiar o poder de previsão no modelo.

A fim de testar o conceito da previsibilidade da variação do resultado operacional em função das variações nos índices do Google trends, dois primeiros modelos genéricos (i.e., utilizando os valores de todas as marcas sem distinção dessas) foram construídos, sendo um deles considerando a sazonalidade e outro não.

3.1. Modelo Genérico

A segunda exploração visual dos dados foi feita construindo um gráfico de dispersão, apresentado na Figura 2, entre as variações dos índices do Google Trends as variações nas receitas, sendo cada ponto um trimestre de determinado ano. A disposição dos pontos e da linha regressora sugere uma correlação visualmente perceptível entre as variáveis.

(8)

232 Figura 2 - Gráfico de dispersão das variações dos índices do Google Trends e variações na receita com

linha de regressão.

Fonte: Gerada no Google Trends

A reta, contudo, foi encarada com relativo ceticismo. Como observado nas séries temporais da Figura 1, as distâncias entre as duas variáveis em cada trimestre sugere influência de sazonalidade. Três variáveis dummy, então, foram incluídas na base, sendo elas “T2”, “T3” e “T4”, cada qual com o valor 1 em nos segundos, terceiros e quartos trimestres do ano, respectivamente, e valor zero caso contrário.

A modelagem resultante é apresentada no gráfico mais à esquerda da Figura 3, com alguns comparativos na mesma imagem. Ao centro é mostrado novamente a dispersão real das variações e à direita tem-se os pontos previstos pelo modelo linear sem dummies, que coincide com a reta regressora da Figura 2.

O modelo com dummies de sazonalidade sugere quatro retas distintas (ilustradas no gráfico mais à esquerda da Figura 3), uma para cada trimestre, com inclinações bem menos expressivas.

(9)

233 Figura 3 - Gráficos de dispersão das variações dos índices do Google Trends e variações na receita. À esquerda, variação na receita prevista com sazonalidade, à direita sem sazonalidade e ao centro a variação na

receita real.

Fonte: Gerada no Google Trends

Para avaliar o poder de previsão de ambos os métodos, dois pares de gráficos são apresentados nas Figuras 9 e 10.

No gráfico superior da Figura 4 é apresentada em azul a série temporal das previsões do modelo sem dummies, i.e., desconsiderando-se a sazonalidade, sobreposta pelos valores reais de variação trimestral de faturamento em laranja. O sombreado translúcido em torno de cada linha, das suas respectivas cores, representa os máximos e os mínimos observados para cada marca.

Ainda na mesma Figura, o gráfico inferior trás as mesmas informações, porém a curva azul traz os valores previstos do modelo com dummies, i.e., considerando-se a sazonalidade trimestral. Os pontos são visualmente mais justapostos e o sombreado translúcido é imperceptível, o que endossa a hipótese de influência da sazonalidade no modelo.

Figura 4 - Variações trimestrais previstas dos faturamentos (azul) sobre as variações reais dos faturamentos (laranja). Modelo sem dummies de sazonalidade na parte superior e modelo com dummies de

sazonalidade na parte inferior.

(10)

234 Figura 5 - Variações previstas dos faturamentos (azul) sobre as variações reais dos faturamentos (laranja), agrupados por trimestre. Modelo sem dummies de sazonalidade na parte superior e modelo com

dummies de sazonalidade na parte inferior.

Fonte: Gerada no Google Trends

Na Figura 5 são apresentadas as mesmas visualizações da Figura 4, porém com os pontos agrupados em trimestres. A ordem dos pontos se dá da seguinte forma: primeiro trimestre de 2007, primeiro trimestre de 2008, primeiro trimestre de 2009, e assim sucessivamente até o primeiro trimestre de 2017. Em seguida, tem-se o segundo trimestre de 2007, o segundo trimestre de 2008 e assim por diante, até, por fim, o quarto trimestre de 2017.

Com o sequenciamento dos pontos feito dessa forma é possível ver claramente o comportamento sazonal das variações. Isto porque com esta ordenação as curvas geradas têm quatro setores distintos, sendo um para cada grupo de trimestres.

Finalmente, a fim de quantificar o poder de previsibilidade dos modelos gerados, foram calculados os indicadores de R² e R² ajustado de ambos os modelos, apresentados na Tabela 1.

Tabela 1 - Valores de R² e R² ajustado para os modelos gerados. Modelo Geral R² Ajustado

Sem dummies 54,23% 53,95% Com dummies 78,58%

78,06% Fonte: Gerada no SPSS

Os números sugerem um incremento substancial no poder de previsibilidade do modelo com o uso das dummies de sazonalidade. Alguns pontos importantes, no entanto, foram levantados com o modelo genérico que guiaram a análise dos dados para cada marca separadamente.

i. Possibilidade de Overfitting (inclusão de mais variáveis do que o necessário para o modelo) do modelo:

Os resultados foram interpretados com certo ceticismo. Para algumas marcas o R² ajustado ultrapassa a faixa dos 95%, o que nos levou a até certo ponto descredibilizar o R² como

(11)

235

indicador adequado para o poder de previsão dos modelos. Optamos por, empiricamente, testar os modelos três vezes cada, prevendo os três primeiros trimestres de 2018, a fim de avaliar o quão próximo o valor previsto é do valor real. As conclusões e observações são apresentadas no decorrer da análise e discussão dos resultados.

ii. Convergência de Sazonalidade: Os modelos preditivos usados levam em conta a sazonalidade devido à conclusão de melhor poder de previsibilidade obtida com o modelo genérico. Um incremento de em torno de 40% nos índices de R², ajustado ou não, afinal, não deve ser ignorado. No entanto, no desenvolvimento dos modelos para cada marca separadamente foi dada especial atenção aos índices das regressões sem dummy, i.e., sem levar em conta a sazonalidade. A hipótese do estudo, afinal, é o uso dos índices de interesse do Google Trends para previsão a curto prazo do resultado operacional e não a convergência das oscilações dos índices por trimestre do ano. As conclusões e observações são apresentadas no decorrer da análise e discussão dos resultados.

3.2. Modelos por Marca

Uma vez estruturado o modelo genérico, o estudo se aprofundou no desenvolvimento de modelos análogos marca a marca. Para cada uma das quatro empresas analisadas o mesmo procedimento exploratório foi implementado.

3.2.1 Hering

A primeira empresa cujos dados foram modelados não teve os melhores resultados quantitativamente, mas uma exploração visual dos resultados do modelo indica sinais satisfatórios no uso do índice de interesse do Google Trends.

De forma simples, comparando-se o modelo sem dummies e o modelo com dummies, percebe-se que a inclusão da sazonalidade reduz os erros - as distâncias entre os pontos de real e previsto - de uma forma orgânica.

Figura 6 - Variações trimestrais (Hering) previstas dos faturamentos (azul) sobre as variações reais dos faturamentos (laranja). Modelo sem dummies de sazonalidade na parte superior e modelo com dummies de

sazonalidade na parte inferior.

Fonte: Gerada no Google Trends

Na Figura 6 fica evidente esse ajuste, principalmente nos períodos de 2012 a meados de 2016, em que as divergências entre real e previsto são maiores. Na Figura 7, porém, o aspecto orgânico dos ajustes é melhor visualizado: Ainda que fácil de identificar os quatro trimestres agrupados entre si, há uma considerável variação atribuível às oscilações do índice

(12)

236

do Google Trends, o que não ocorre tão expressivamente nos modelos das outras empresas. A Tabela 2 traz os índices quantitativos de R² e R² Ajustado que corroboram com a interpretação visual dos dados. A inclusão de sazonalidade no modelo melhora os índices, mas não tão expressivamente.

Figura 7 - Variações (Hering) previstas dos faturamentos (azul) sobre as variações reais dos faturamentos (laranja), agrupados por trimestre. Modelo sem dummies de sazonalidade na parte superior e

modelo com dummies de sazonalidade na parte inferior.

Fonte: Gerada no Google Trends

Tabela 2 - Valores de R² e R² ajustado para os modelos de Hering gerados.

Hering R² Ajustado

Sem dummies 78,90% 78,37% Com dummies 89,81% 88,70% Fonte: Gerada no SPSS

3.2.2. Natura

A Natura foi a empresa com os piores resultados quantitativos e visuais. Com um R² Ajustados de 19% no modelo sem dummies e 47% com a inclusão de sazonalidade (Tabela 3), a decisão óbvia seria abandonar o modelo. Contudo, há uma explicação latente levantada como hipótese. Há um descompasso histórico dos dados, principalmente no segundo trimestre de 2010, em que há um pico de variação positiva no faturamento.

Esse pico, seguido de trimestres divergentes, inviabiliza o uso desses dados no modelo preditivo, visto que não há coesão entre quais trimestres são divergentes e quais não. Os números passam a se aproximar em meados de 2016, havendo assim poucas observações para treinar o modelo.

A hipótese de que os números passam a convergir com o tempo é testada nas previsões dos trimestres de 2018 e é então discutida.

(13)

237 Figura 8 - Variações trimestrais (Natura) previstas dos faturamentos (azul) sobre as variações reais dos faturamentos (laranja). Modelo sem dummies de sazonalidade na parte superior e modelo com dummies de

sazonalidade na parte inferior.

Fonte: Gerada no Google Trends

Na Figura 9 é possível visualizar o ajuste pouco orgânico da inclusão de sazonalidade, diferentemente do que acontece no modelo para Hering. A inclusão das dummies retorna linhas horizontais para cada trimestre, como se o modelo passasse a “chutar” um valor médio na impossibilidade de prever de forma concisa o faturamento em função dos índices do Google Trends.

Tabela 3 - Valores de R² e R² ajustado para os modelos de Natura gerados.

Natura R² Ajustado

Sem dummies 20,98% 19,01%

Com dummies 52,42% 47,28% Fonte: Gerada no SPSS

(14)

238 Figura 9 - Variações (Natura) previstas dos faturamentos (azul) sobre as variações reais dos faturamentos (laranja), agrupados por trimestre. Modelo sem dummies de sazonalidade na parte superior e

modelo com dummies de sazonalidade na parte inferior.

Fonte: Gerada no Google Trends

3.2.3. Riachuelo

Os valores reais de variação do resultado operacional de Riachuelo têm um comportamento de “pulsos” consistentes tanto trimestralmente quanto anualmente. A evolução das variações dos índices de interesse do Google trends, contemplados na Figura 1 no início das análises, são relativamente consistentes e cíclicos também.

Essa relativa previsibilidade entre as duas variáveis sugere uma forte correlação sazonal entre si, o que é reforçado pelo forte incremento dos índices de R² e R² ajustado apresentados na Tabela 4. Mesmo previamente à inclusão das dummies de trimestre no modelo, os índices encontram-se acima da marca dos 70%, passando de 98% uma vez contemplada a sazonalidade.

Mais uma vez, o resultado foi interpretado com forte ceticismo, o que é avaliado nas previsões dos três primeiros trimestres de 2018. Outro recurso, este mais visual, para entender a forte relação da sazonalidade com ambos os índices é o comparativo dos gráficos da Figura 11. Assim como ocorre no caso de Natura, a linha dos valores previstos pode ser decomposta em outras quatro virtualmente horizontais, sinalizando um efeito similar de “chute” do modelo.

Há, entretanto, maior variabilidade intra-trimestral no agrupamento feito, além do fato de que - também perceptível visualmente - as variações reais de resultado operacional são fortemente demarcadas em quatro diferentes alturas, uma para cada trimestre. Esse fenômeno reforça o comportamento de “pulsos” já discutido, segundo o qual sempre primeiros trimestres têm certo valor, segundos trimestres têm outro, e assim por diante.

(15)

239 Figura 10 - Variações trimestrais (Riachuelo) previstas dos faturamentos (azul) sobre as variações reais dos faturamentos (laranja). Modelo sem dummies de sazonalidade na parte superior e modelo com dummies de

sazonalidade na parte inferior.

Fonte: Gerada no Google Trends

Figura 11 - Variações (Riachuelo) previstas dos faturamentos (azul) sobre as variações reais dos faturamentos (laranja), agrupados por trimestre. Modelo sem dummies de sazonalidade na parte superior e

modelo com dummies de sazonalidade na parte inferior.

Fonte: Gerada no Google Trends

Tabela 4 - Valores de R² e R² ajustado para os modelos de Riachuelo gerados.

Riachuelo R² Ajustado

Sem dummies 72,13% 71,43% Com dummies 98,34% 98,16% Fonte: Gerada no SPSS

(16)

240

3.2.4. Renner

O caso de Renner foi o que apresentou melhor poder de previsão mesmo sem ser considerada a sazonalidade, com um R² de 88% (Tabela 5). Ao avaliarem-se os valores reais de variações dos índices do Google Trends e variações de receita na Figura 1, é possível constatar que ambas as variáveis têm um comportamento consistente de “pulsos”, com seus picos e vales alinhados, porém em grandezas distintas.

Ainda que os valores sejam diferentes, as diferenças são compassadas nos pulsos de forma bem previsível, o que faz com que o ajuste da inclusão das dummies de trimestres corrija o modelo propriamente, i.e., aumentando a grandeza dos picos e dos vales segundo essas divergências previsíveis trimestralmente.

Na Figura 12 fica bem visível essa correção, com as curvas aparentemente se sobrepondo justapostas no gráfico inferior. A Figura 13 por sua vez apresenta mais uma vez as curvas segmentadas trimestralmente com comportamento de “degraus”, como ocorre no caso de Riachuelo. É especialmente notável a proximidade entre as curvas para valores dos primeiros trimestres anuais. Não surpreendentemente, o melhor resultado, i.e., que menos diverge do real, obtido nas previsões de 2018 foi o primeiro trimestre de Renner, o que é discutido melhor na seção seguinte.

Figura 12 - Variações trimestrais (Renner) previstas dos faturamentos (azul) sobre as variações reais dos faturamentos (laranja). Modelo sem dummies de sazonalidade na parte superior e modelo com dummies de

sazonalidade na parte inferior.

(17)

241 Figura 13 - Variações (Renner) previstas dos faturamentos (azul) sobre as variações reais dos faturamentos (laranja), agrupados por trimestre. Modelo sem dummies de sazonalidade na parte superior e

modelo com dummies de sazonalidade na parte inferior.

Fonte: Gerada no Google Trends

Tabela 5 - Valores de R² e R² ajustado para os modelos de Renner gerados.

Renner R² Ajustado

Sem dummies 88,98% 88,70% Com dummies 98,39% 98,22% Fonte: Gerada no SPSS

3.3. Nowcasting dos Resultados

Uma vez elaborados os modelos, tanto genérico quanto marca a marca, foi evidenciado melhor poder de previsão com a inclusão das variáveis dummy em todos os casos, mesmo ajustando-se os R²s. Seguimos, então, utilizando apenas os modelos com sazonalidade contemplada, cujos resultados são apresentados adiante.

É importante ressaltar que para cada uma das previsões uma nova base histórica dos indicadores do Google Trends foi utilizada para compor o modelo. Dessa forma, o que a metodologia propõe em uma possível aplicação prática desse estudo é o uso do maior

intervalo possível antes do período a ser previsto e, então, através do modelo treinado,

utilizar o valor do período vigente para a previsão.

O valor retornado pelos modelos é sempre a variação em relação ao trimestre anterior. Dessa forma, é necessário realizar um cálculo sobre o faturamento real obtido no período imediatamente anterior ao previsto.

Seguindo esse método três vezes para cada marca, os resultados da Tabela 6 foram obtidos.

(18)

242 Tabela 6 - Valores reais e previstos, com seus respectivos desvios, de cada marca em cada um dos

trimestres de 2018.

Trimestre Marca valor real valor previsto desvio relativo Diferença absoluta

2018_T1 hering R$ 343.803.000 R$ 362.300.440 5,38% R$ 18.497.440,12 2018_T2 hering R$ 362.293.000 R$ 403.720.020 11,43% R$ 41.427.019,53 2018_T3 hering R$ 385.526.000 R$ 335.434.338 12,99% -R$ 50.091.662,42 2018_T1 natura R$ 1.222.415.000 R$ 1.323.930.515 8,30% R$ 101.515.515,00 2018_T2 natura R$ 1.507.863.000 R$ 1.633.490.586 8,33% R$ 125.627.586,12 2018_T3 natura R$ 1.623.708.000 R$ 1.432.883.642 11,75% -R$ 190.824.358,14 2018_T1 riachuelo R$ 1.318.051.000 R$ 1.176.658.894 10,73% -R$ 141.392.105,66 2018_T2 riachuelo R$ 1.636.374.000 R$ 1.735.564.913 6,06% R$ 99.190.912,66 2018_T3 riachuelo R$ 1.536.819.000 R$ 1.614.676.406 5,07% R$ 77.857.406,20 2018_T1 renner R$ 1.398.819.000 R$ 1.383.337.401 1,11% -R$ 15.481.599,03 2018_T2 renner R$ 1.780.031.000 R$ 1.893.043.046 6,35% R$ 113.012.046,24 2018_T3 renner R$ 1.711.461.000 R$ 1.651.181.845 3,52% -R$ 60.279.155,20 Fonte: Gerada no SPSS

A coluna de desvios relativos reforça a análise crítica e o ceticismo na interpretação dos índices de R² e R² ajustado na construção dos modelos. De fato, as empresas com os maiores índices, i.e., Riachuelo e Renner, tiveram os menores desvios. O maior desvio, contudo, não foi obtido com o modelo de menor R² da empresa Natura. Com aproximadamente 13% de divergência do valor real, o terceiro trimestre de 2018 da empresa Hering deixa bastante a desejar.

O primeiro trimestre de Renner, contudo, divergiu apenas 1% do faturamento real. Essa previsão é coerente com os gráficos da Figura 13, em que os valores dos primeiros trimestres no modelo com o uso de dummies são visualmente mais próximos das variações do faturamento efetivamente.

Conclusão e considerações finais

Ainda que alguns dos valores previstos apresentem divergência do valor real acima de 10%, é inegável que os índices do Google Trends têm potencial de previsibilidade de resultado operacional. A maior vantagem do uso da variável antecede qualquer processo quantitativo, sendo ela a extrema facilidade de acesso do indicador.

Com uma divergência mínima de 1% e R² de até 98%, a precisão da previsão do primeiro trimestre de 2018 para Renner não foi esperada no início do estudo. Isso porque todo

(19)

243

o desenvolvimento das bases e modelos foi feita sob diversas premissas e ajustes.

Os resultados operacionais são arredondados na casa dos milhares de reais e só são obtidos via planilhas de relacionamento com o investidor de empresas de capital aberto. Além disso, os números do Google Trends são arredondados com nenhuma casa decimal, o que faz com que uma expressiva variação no interesse para buscas cujo valor absoluto é muito alto seja anulada no arredondamento das cifras.

Ainda que esse problema de arredondamento dos números do Google Trends não seja contornável, outro impasse enfrentado foi o uso da média aritmética trimestral do índice a fim de pareá-lo com a receita disponível apenas com granularidade quaternária anualmente.

Esse ajuste prejudica a aplicabilidade dos modelos de duas formas. A primeira é na redução do total de observações para um terço. Com os dados utilizados no estudo variando do segundo trimestre de 2007 até o quarto de 2017 (e, posteriormente, até o primeiro, segundo e terceiro de 2018) o número total de observações do modelo foi de apenas 42 por marca. A segunda perda é no próprio uso da média em si, o que além de diminuir a granularidade dos dados, ignora as variações intra trimestrais do modelo. Com dados mais granulares de resultado operacional, e.g., relatórios mensais, ambos os problemas mencionados seriam eliminados. A sazonalidade, então, poderia ser mensal ou ainda trimestral para não superpovoar as regressões com dummies desnecessárias.

A aparente dissonância entre os índices de R² e desvios obtidos nas previsões pode, também, ser explicada de forma simples. Muitas premissas e ajustes foram levantados no decorrer do estudo, desde as limitações de granularidade e máximo período comum entre as observações até as constatações críticas e céticas de índices altos, mas em nenhum momento fica implícita uma relação causal entre as métricas. Todo o estudo é desenvolvido sob uma premissa de correlação, podendo até ser espúrias.

Dessa forma, os modelos são tão úteis quanto há consistência entre as variáveis, i.e., o comportamento de “pulsos” observado. Um forte incremento para o modelo que minimizaria essa frágil dependência seria a inclusão de palavras-chave pertinentes a cada empresa, como marcas concorrentes ou termos de busca que contemplam as atividades do negócio (e.g., “roupas”, “camisetas”, “hidratante” para algumas das empresas estudadas). Tais inclusões requerem um estudo mais aprofundado que potencialmente levariam a modelos mais sofisticados para cada setor ou empresa em particular.

O Google Trends pode, então, ser utilizado na construção de modelos preditivos de resultado operacional? Os estudos revisados na bibliografia e os próprios resultados obtidos indicam que sim, há grande potencial. O intuito fundamental do estudo é evidenciar a simplicidade e elegância do uso de uma informação amplamente disponível e gratuita para previsões com níveis de precisão bem variáveis, mas alcançando cifras surpreendentes.

De forma simples, é possível fazer muito com muito pouco. Modelos muito complexos não têm aplicabilidade democratizada e modelos simples podem ter incrementos de complexidade graduais conforme o objetivo é atingido com maior precisão.

Referências

ARMSTRONG, J. SCOTT. Sales Forecasting. SSRN Electronic Journal, 2008.

ARUNGUVAI, J. LAKSHMI, P. KALAIVANI, R. Improved Method of Quarter Car System Using Box-Jerkings Methodology. International Journal of Applied Engineering

Research, v. 9, n. 26, p. 8996-8998, 2014.

(20)

244

Web‐Based Tool for Real‐Time Surveillance of Disease Outbreaks. Clinical Infectious

Diseases, v. 49, n. 10, p. 1557-1564, 2009.

EYSENBACH, GUNTHER. Infodemiology: Tracking Flu-Related Searches on the Web for Syndromic Surveillance. PubMed Central (PMC). Disponível em:

<https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1839505/>. Acesso em: 11 ago. 2018. HENDRY, DAVID F. Economic Forecasting. Folk.uio.no. Disponível em:

<https://folk.uio.no/rnymoen/DFHForc.pdf>. Acesso em: 12 ago. 2018.

INEICHEN, ALEXANDER. Nowcasting: A Risk Management Tool. Caia.org. Disponível em: < https://bit.ly/2VzYCFR >. Acesso em: 11 ago. 2018.

RAUBER, T. W. Redes Neurais Artificiais. In: ERI'98 - Encontro Regional de Informática, 1998, Nova Friburgo-RJ e Vitória-ES. ERI'98 - Encontro Regional de Informática. Nova Friburgo-RJ e Vitória-ES, 1998. p. 201-228.

REIS, F. D. AVALIAÇÃO DE MODELOS DE PREVISÃO DE VENDAS A PARTIR DA EXPLORAÇÃO DE TÉCNICAS DE ANÁLISE DE SÉRIES TEMPORAIS, MÉTODOS CAUSAIS E DE REDES NEURAIS ARTIFICIAIS. Projetos e Dissertações em Sistemas de

Informação e Gestão do Conhecimento, v. 3, n. 1, 2014.

SCHMIDT, TORSTENVOSEN, SIMEON. Forecasting Private Consumption: Survey-Based Indicators vs. Google Trends. SSRN Electronic Journal, 2009.

SEIFTER, ARI, SCHWARZWALDER, ALISONGEIS, KATE et al. The utility of “Google Trends” for epidemiological research: Lyme disease as an example. Geospatial health, v. 4, n. 2, p. 135, 2010.

SOUZA, S.G.; Introdução aos Modelos de Regressão Linear e Não-Linear. Embrapa

Produção de Informação, 2001.

THOMAS, C.; ANDRADE, C. M.; SCHNEIDER, P. R.; FINGER, C. A. G., 2006.

“Comparação de equações volumétricas ajustadas com dados de cubagem e análise de tronco”. Disponível em: <https://bit.ly/2X35a09>

VARIAN, HAL R.CHOI, HYUNYOUNG. Predicting the Present with Google Trends. SSRN

Referências

Documentos relacionados

Os resultados deste estudo mostram que entre os grupos pesquisados de diferentes faixas etárias não há diferenças nos envoltórios lineares normalizados das três porções do

Os testes de desequilíbrio de resistência DC dentro de um par e de desequilíbrio de resistência DC entre pares se tornarão uma preocupação ainda maior à medida que mais

Neste trabalho avaliamos as respostas de duas espécies de aranhas errantes do gênero Ctenus às pistas químicas de presas e predadores e ao tipo de solo (arenoso ou

esta espécie foi encontrada em borda de mata ciliar, savana graminosa, savana parque e área de transição mata ciliar e savana.. Observações: Esta espécie ocorre

O valor da reputação dos pseudônimos é igual a 0,8 devido aos fal- sos positivos do mecanismo auxiliar, que acabam por fazer com que a reputação mesmo dos usuários que enviam

Analysis of relief and toponymy of the landscape based on the interpretation of the military topographic survey: Altimetry, Hypsometry, Hydrography, Slopes, Solar orientation,

Box-plot dos valores de nitrogênio orgânico, íon amônio, nitrito e nitrato obtidos para os pontos P1(cinquenta metros a montante do ponto de descarga), P2 (descarga do

Entre as atividades, parte dos alunos é também conduzida a concertos entoados pela Orquestra Sinfônica de Santo André e OSESP (Orquestra Sinfônica do Estado de São