• Nenhum resultado encontrado

Dados, procedimentos e avaliação da previsão

3.2.1 Dados

Nossos dados3 contêm observações mensais do prêmio de risco para o índice S&P

500 rte 15 preditores, que incluem razão de preço-dividendo (DP), dividend yield (DY),

razão lucro-preço (EP), taxa de pagamento de dividendos (DE), volatilidade do índice (SVAR), índice book-to-market (BM), expansão do patrimônio líquido (NTIS), taxa de juros do Tesouro (TBL), rendimento a longo prazo (LTY), retorno a longo prazo (LTR), term spread(TMS), default yield spread(DFY), yield spread(DFR), inflação (INFL) e média móvel da razão lucro/preço (E10P), de janeiro de 1980 a dezembro de 2017. Ao contrário de Welch and Goyal (2007) e seguindo Lima and Meng(2017), não defasamos o preditor INFL, o que implica que estamos assumindo expectativas adaptativas para futuras mudanças de preços. Os preditores econômicos serão denotados por Xt. Nossa

amostra começa em janeiro de 1980 devido à disponibilidade de notícias financeiras no Banco de Dados Dow Jones Factiva.

Nós baixamos as notícias financeiras publicadas no “The Wall Street Journal” e no “The New York Times” da base de dados Dow Jones Factiva de 1980:1 a 2017:12. Nesse caso, definimos nosso Corpus no tempo t como todas as notícias coletadas naquele determinado mês. Para selecionarmos apenas as notícias financeiras, filtramos pelos temas “Economic News” e “Commodity/Financial Market News”. Esse preditor será denotado por Wt. Depois de coletar as notícias, nós as classificamos mensalmente e

realizamos a contagem de palavras, construindo nossa DTM(Document Term Matrix) Mt, seguindo Lima et al. (2018b). Antes fizemos todo o pre processamento baseado

em Hansen et al. (2017), a fim de identificar as colocações, pois termos como “financial market”, “stock market”, “bull market” correspondem a um único conceito econômico, apesar de estarem em palavras separadas. Também aplicamos o filtro TF-IDF, a fim de excluir tanto palavras raras bem como palavras muito frequentes. Mesmo assim, continuamos com um problema de alta dimensão, ou seja, p >> T .

O procedimento de previsão é baseado na janela de estimação recursiva (Rapach and Strauss, 2010) e Lima and Meng (2017). Nossa janela de estimação começa com 228 observações, de janeiro de 1980 a dezembro de 1998 e se expande periodicamente à medida que avançamos. As previsões fora da amostra variam de janeiro de 1999 a dezembro de 2017, correspondendo a 228 observações. Além de todo o período fora da amostra, testamos a robustez de nossas descobertas considerando o seguinte sub período de amostra mais recente: janeiro de 2008 a dezembro de 2017. Também dividimos a

Capítulo 3: Previsão do Prêmio de Risco: Identificando o Poder Preditivo das Notícias

Financeiras 64

amostra em sub períodos de recessão e expansão, onde as datas de recessão são iden- tificadas de acordo com a NBER4. Para a nosso período fora da amostra, as recessões

aconteceram entre março e novembro de 2001 e entre dezembro de 2007 e junho de 2009. 3.2.2 Construindo dicionários variantes no tempo

Nesta seção, queremos construir um dicionário que varie no tempo, isto é, uma matriz M⇤

t ⇢ Mt que contenha apenas as palavras mais preditivas das notícias. O

prêmio de risco é denotado por rt+1. Implementamos este passo aplicando Elastic Net

na seguinte equação de predição linear:

rt+1= Xt i0 + Wt i0 + ✏i,t+1 (3.1)

bh e bh são estimados minimizando a seguinte função objetivo:

min

i, i

X

t

(rt Xt 1 i0 Wt 10 i)2+ 1 k i k`1 + 2 k ik`2 (3.2)

onde Wt é um vetor de k ⇥ 1 de preditores predeterminados, como preditores

econômicos Xt; Wt é um vetor de p ⇥ 1 de séries temporais representando valores de

contagem normalizados para as palavras/termos p listadas em Mt5; k·k`1 e k·k`2 são as

normas `1 e `2 , respectivamente. Na literatura estatística, uma combinação das normas

de restrição `1 e `2 é conhecido como “Elastic Net” (Zou and Hastie, 2005). Como

estamos considerando um dicionário que varia no tempo, a dimensão de Wt será muito

grande, ou seja p >> T , e por essa razão h serão os únicos coeficientes penalizados em

(3.2). Os valores ótimos de 1 e 2 são obtidos a partir do procedimento sugerido no

pacote GLMNET R (seção de regressão linear) desenvolvido por Trevor Hastie e Junyang Qian.6.

Nossos preditores de notícias financeiras correspondem ao(s) fator(es) comuns P Ct de Wt⇤, que são calculados via componentes principais. Selecionamos o número

ideal de fatores por meio da abordagem de taxa de autovalores desenvolvida por Ahn and Horenstein (2013). Em seguida, seguimos Bai and Ng (2008) para manter apenas os fatores com p valor menor ou igual a 0.01. Por exemplo, se o número ideal é 3, então consideramos os três primeiros componentes principais, mas mantemos apenas aqueles com p valor menor ou igual a 0.01. Essa abordagem é próxima da desenvolvida por Bai

4As datas podem ser encontradas no seguinte site. Datas de ciclos de negócios do The National

Bureau of Economic Research (NBER)

5M

t representa a DTM como emLima et al.(2018b) 6O link pode ser encontrado aquiGLMNET.

Capítulo 3: Previsão do Prêmio de Risco: Identificando o Poder Preditivo das Notícias

Financeiras 65

and Ng (2008), que aplicou a mesma ideia a dados estruturados, ou seja, propuseram primeiro selecionar as variáveis mais preditivas de um grande conjunto de co-variáveis e, então, consideraram os fatores comuns das variáveis selecionadas como preditores. Ob- serve que essa abordagem não impõe nenhuma restrição à porcentagem de informações “negativas” e “positivas” carregadas em cada fator. De fato, mesmo que a quantidade de informações “negativas” (“positivas”) nas notícias financeiras não se altere com o tempo, essa abordagem é capaz de selecionar diferentes porcentagens de tais informações a serem carregadas nos fatores baseados em palavras selecionadas por Elastic Net. Se as informa- ções negativas tiverem mais poder de previsão em um determinado momento, as palavras relacionadas ao sentimento negativo serão selecionadas e os fatores serão carregados com mais informações negativas.

3.2.3 Procedimento de Previsão

Antes de explicar o procedimento de previsão, introduzimos as regressões prediti- vas univariadas padrão estimadas por OLS (Rapach and Strauss,2010,Lima and Meng,

2017,Welch and Goyal,2008). Eles são expressos como:

rt+1= Xt i0 + ✏i,t+1 (3.3)

onde Xt é uma matriz t ⇥ 2 com um preditor econômico e os 1s necessário na

estimação do intercepto do modelo. Com o objetivo de testar se os resultados deRapach and Strauss(2010) no qual a combinação de previsão dos preditores econômicos melhora a previsão, adicionamos a Combinação de Previsão(FC) dos preditores econômicos com pesos iguais, que será rotulado como F Cy. Neste modelo, combinamos os 15 modelos de

preditores econômicos individuais da equação (3.3). Nosso modelo benchmark será repre- sentado pela média histórica HA(“historical average”). A média histórica será estimada através regressão onde o prêmio de risco rt será regredido apenas contra a constante.

Para descobrir se as notícias melhoram a precisão das previsões, adicionamos a (3.3) os fatores comuns construídos a partir dos preditores de palavras W⇤

t. Estes

modelos de News Factors serão representados por:

rt+1= Xt i0 + P Ct0'i+ ✏i,t+1 (3.4)

onde i e 'i são estimados por MQO. P Ct0 representa o(s) fator(es) a partir das

Capítulo 3: Previsão do Prêmio de Risco: Identificando o Poder Preditivo das Notícias

Financeiras 66

econômicos, incluímos o modelo onde os preditores são apenas os fatores das notícias, dando origem ao modelo “News”, denotado por:

rt+1= P Ct0'i+ ✏i,t+1 (3.5)

A fim de verificar se a seleção das palavras tem importância, temos um modelo em que P C0

t é obtido a partir de Wt ao invés de Wt⇤, ou seja, com todas as raízes

de palavras e termos. Esse modelo será rotulado por “News factor”. Também, a fim de verificar a importância do método Elastic Net, vamos estimar a equação 3.2 por ridge e LASSO, cujos modelos serão identificados por “News ridge” e “News LASSO”. Consideramos também o modelo sum-of-the-parts(SOP) de Ferreira and Santa-Clara

(2011), dado pela equação:

rt+1= ge20t + dpt rf,t+1 (3.6)

onde ge20

t é a média móvel de 20 anos do crescimento dos lucros, e dpt é a razão

dividendo-preço e rf,t+1 é a taxa livre de risco.

Por fim, incluímos o fator das notícias financeiras no modelo SOP, dando origem ao modelo que chamamos SOP-News. Neste modelo estimamos3.4 com X0

t = [1 dpt]

e 0 = ge20t rf,t+1 e 1 = 1. O vetor de parâmetros 'i não tem restrição. A restrição

é necessária para que o modelo Sum-of-the-Parts seja aninhado no modelo Sum-of-the- Parts news, desta forma, usamos o pacotelrmtest e a função rls para estimar a equação de previsão do modelo SOP-News.

3.2.4 Avaliação da Previsão

Nosso procedimento de avaliação de previsão é baseado em Lima and Meng

(2017). A primeira medida de avaliação é o R2, R2

OS, que compara a previsão de um

Modelo condicional fora da amostra ˆrt+1, com o modelo benchmark(incondicional) rt+1

(Campbell and Thompson, 2007). Reportamos o valor de R2

OS em termos percentuais,

ROS2 (%) = 100⇥ R2

OS. Segundo, para testar a hipótese nula R2OS  0, aplicamos os

testesDiebold and Mariano(2002) eClark and West(2007)7. Campbell and Thompson

(2007) definem o R2

OS como:

7As estatísticas Diebold and Mariano (2002) e West (1996) geralmente são usadas para testar a

hipótese nula, R2

OS  0 entre os modelos não aninhados fora da amostra. Para modelos aninhados,

como os apresentados neste artigo,Clark and McCracken(2001) eMcCracken(2007) mostram que essas estatísticas têm uma distribuição não padrão. Assim, os testesDiebold and Mariano(2002)(DM) eWest

(1996) podem ser severamente subdimensionados sob a hipótese nula e ter baixo poder sob a hipótese alternativa

Capítulo 3: Previsão do Prêmio de Risco: Identificando o Poder Preditivo das Notícias Financeiras 67 R2OS = 1 PT⇤ t=1(rt rˆt) PT⇤ t=1(rt rt) (3.7) Onde T⇤ é o número de previsões fora da amostra. Na literatura de previsão

de retorno de ações e prêmio de risco, os valores percentuais de ROS

2 fora da amostra

são tipicamente pequenos, mas isto não significa que seus valores econômicos sejam in- significantes. De fato, como argumentado por Campbell and Thompson(2007), mesmo um R2 muito pequeno, como 0.5% para dados mensais ou 1% para dados trimestrais,

ainda pode sinalizar um retorno econômico significativo dado o aumento da previsibi- lidade do prêmio de risco, em termos de aumento do retorno anual do portfólio para um investidor de média variância. Para estimar os ganhos econômicos das previsões, calculamos o equivalente de certeza(ou ganho de utilidade), que pode ser interpretado como a taxa de administração que um investidor estaria disposto a pagar para ter acesso às informações adicionais fornecidas pelos modelos de previsão condicional, em relação à informação disponível no modelo benchmark. Considerando um investidor avesso ao risco que tenha uma função de utilidade de média-variância e considera como otimizar a alocação da riqueza total entre um ativo de risco e um ativo livre de risco no tempo t baseado na taxa livre de risco atual rft+1 e a previsão um passo a frente do prêmio de risco, ˆrt,t+1. Assim, a previsão um passo a frente do retorno é ˆRt,t+1 = ˆrt,t+1+ ˆrft,t+1.

O peso atribuído ao ativo de risco é calculado como w = 1 ˆRt,t+1 ˆ2

t+1 , onde é o parâmetro

de aversão ao risco e ˆ2

t+1 é a variância estimada do retorno. Nós impomos a restrição

wt2 (0, 1.5)8 para garantir que não haja venda a descoberto (Rapach and Strauss,2010)

e (Lima and Meng,2017).

Ainda seguindo Lima and Meng (2017), o retorno realizado da carteira no mo- mento t + 1 é Rp

t+1= wt+1Rt+1+ (1 wt+1)rt+1f . sobre o período T⇤ fora da amostra, a

utilidade de um investidor dessa alocação de carteira pode ser calculada como:

U = ˆµp 1 2 ˆ 2 p (3.8) onde ˆµp = T1⇤ P tRpt e 2p = V ar(Rpt) = T1⇤ P t(Rpt µˆp)2. O ganho de utilidade

é a diferença entre a utilizada baseada na previsão condicional e a utilidade da média histórica. Para facilitar a interpretação, multiplicamos os ganhos de utilidade por 1200, o que nos dá a taxa de administração anual que um investidor estaria disposto a pagar para obter acesso às informações adicionais desse modelo de previsão condicional. Essa

8Os pesos do ativo de risco variam de 0, onde o investidor comprará apenas ativos livres de risco a 1.5,

onde o investidor assume uma posição alavancada. Se o peso for igual a 1, o investidor comprará apenas ativos de risco, e não investirá no ativo livre de risco. Se o peso for maior que 1, significa que o investidor tomará recursos emprestados a taxa livre de risco e com esse dinheiro emprestado comprará o ativo de risco, indicando um operação alavancada. Na nossa simulação não é permitido vender á descoberto.

Capítulo 3: Previsão do Prêmio de Risco: Identificando o Poder Preditivo das Notícias

Financeiras 68

mesma abordagem também foi usada porCampbell and Thompson(2007),Rapach and Strauss(2010),Lima and Meng(2017) entre outros.

Também decompomos o erro quadrático médio de previsão (MSFE) em duas partes: a variância da previsão e o viés quadrado. Calculamos o MSFE de qualquer previsão ˆrt+1 como T1⇤

P

t(rt+1 rˆt+1)

2 e a variância da previsão incondicional como 1

T⇤

P

t(rt+1 T1⇤

P

trˆt+1)2, onde T⇤ é o número total de previsões fora da amostra. O

viés ao quadrado da previsão é então calculado como o diferença entre MSFE e variância de previsão (Elliott and Timmermann, 2013b, Rapach and Strauss, 2010). A variância de previsão relativa(viés ao quadrado) é calculada como diferença entre a variância de previsão(viés ao quadrado) do i-esimo modelo e a variância de previsão(viés ao quadrado) do modelo HA. Consequentemente, o valor da variância da previsão relativa(viés ao quadrado) para o modelo HA9 é necessariamente igual a zero.