• Nenhum resultado encontrado

Sumário

2. FUNDAMENTAÇÃO TEÓRICA E REVISÃO DA LITERATURA

3.4 Comparação de previsões.

O conhecido teste de Diebold e Mariano (1995) oferece uma forma adequada para testar a igualdade preditiva entre pares de modelos. No entanto, quando o conjunto de modelos comparáveis é muito grande, o procedimento se torna inadequado. Em uma investigação em que se realiza uma busca por diversas especificações de modelo, com a intenção de encontrar o melhor modelo preditor de uma variável, sempre existe a possibilidade de que um ou mais bons modelos tenham sido encontrados por pura sorte, e não pela sua habilidade preditiva. Este problema, conhecido como data snooping, foi tratado por White (2000) como endêmico em séries temporais pelo fato de haver apenas uma realização observada da variável e a consequente reutilização desta informação para finalidade de estimação de modelos concorrentes. Tendo em vista este problema, White (2000) especifica o procedimento reality check para testar a hipótese nula de que o melhor modelo encontrado em uma pesquisa de especificação não tem superioridade preditiva comparado a um determinado modelo de referência (benchmark).

Apesar da relevância do trabalho de White, Hansen (2005) demonstra que o reality check de White (2000) pode ser facilmente manipulado através da inclusão de um grande número de modelos ruins (de baixo desempenho preditivo). O autor sugere o Superior Predictive Ability test (teste SPA), que é um teste para verificar a superioridade preditiva de um modelo referente a um benchmark, sendo o teste SPA robusto à adição de modelos ruins.

Em uma abordagem diferente, Hansen, Lunde e Nason (2011) apresentam o Model Confidence Set (MCS), que é um conjunto de modelos que contém o melhor modelo com determinado nível de confiança. Esta investigação utiliza o MCS com diferentes funções de perda com a finalidade de ranquear os modelos quanto à suas habilidades preditivas, e também utiliza o SPA para dar robustez aos resultados, verificando se algum modelo alternativo é superior aos modelos de referência. Ambos os procedimentos serão descritos mais detalhadamente a seguir.

3.4.1 Model Confidence Set (MCS)

O objetivo do procedimento de determinação do MCS é criar um conjunto M*, constituído do(s) melhor(es) modelo(s) extraídos de um grupo de modelos candidatos, M0, em que o critério de

“melhor” pode ser definido pelo usuário. O procedimento de determinação do MCS resulta em um conjunto de confiança de modelos 𝑀̂*, que é um conjunto de modelos construído para conter os melhores modelos com um certo grau de confiança. Os modelos de 𝑀̂* são avaliados pela utilização da informação amostral das performances relativas dos modelos contidos em M0. Portanto, o MCS é um conjunto aleatório que inclui modelos de previsão, e 𝑀̂* está para o

melhor modelo assim como um intervalo de confiança está para o parâmetro populacional. Uma característica atrativa da abordagem do MCS é que ela reconhece as limitações dos dados. Dados informativos resultarão em um MCS que contém apenas o melhor modelo. Dados menos informativos fazem com que seja difícil distinguir entre os modelos e pode resultar em um MCS que contém vários ou até mesmo todos os modelos. Desta forma, o MCS difere de critérios de seleção de modelo existentes que escolhem um único modelo sem levar em conta o conteúdo dos dados. Através do procedimento de determinação do MCS é possível se fazer afirmações sobre significância que são válidas no sentido tradicional, outra propriedade que não é compartilhada com a abordagem comumente utilizada de Diebold e Mariano (1995) de relatar valores-p a partir de múltiplas comparações de pares de modelos. Outra característica atrativa do processo de determinação do MCS é que ele permite a possibilidade de que mais de um modelo seja o "melhor", isto é, M* pode conter mais do que um único modelo.

O MCS é construído a partir de uma coleção de modelos competidores, 𝑀0, e de um critério para avaliar estes modelos empiricamente. O procedimento de determinação do MCS se baseia em um teste de equivalência, 𝛿𝑀, e uma regra de eliminação, 𝑒𝑀. O teste de equivalência é aplicado ao conjunto de objetos 𝑀 = 𝑀0. Se 𝛿𝑀 é rejeitado, existe evidência que os modelos

M não são igualmente “bons”, e então 𝑒𝑀 é utilizado para eliminar um objeto de M que tenha apresentado performance amostral ruim. Este procedimento é repetido até que 𝛿𝑀 seja “aceito”,

e o MCS passa a ser definido como o conjunto de modelos “sobreviventes”. O mesmo nível de significância α é definido em todos os testes, o que, segundo Hansen, Lunde e Nason (2011), assintoticamente garante que 𝑃(𝑀 ⊂ 𝑀1−𝛼∗ ) ≥ 1 − 𝛼, e, no caso de 𝑀∗ consistir em apenas um

objeto, tem se o resultado mais forte que lim

𝑛→∞𝑃(𝑀 ∗ = 𝑀̂

30

Para uma explanação mais formal do procedimento de determinação do MCS, considere um conjunto, M0, que contenha um número finito de modelos, indexados por i=1,...,m

0. Os modelos

são avaliados sobre uma amostra t=1,...,T, em termos de uma função de perda e se denota a perda associada a i, no tempo t, por: Li,t. Defina as variáveis de performance relativa como

𝑑𝑖𝑗,𝑡 ≝ 𝐿𝑖,𝑡− 𝐿𝑗,𝑡, para todo i, j, pertencente a 𝑀0. Então, o conjunto de modelos superiores é

definido como 𝑀∗ ≝ {𝑖 ∈ 𝑀

0 ∶ 𝐸(𝑑𝑖𝑗,𝑡) ≤ 0 ∀ 𝑗 ∈ 𝑀𝑜}.

O objetivo do procedimento é determinar 𝑀∗. Isto é feito através de uma sequência de testes de significância, em que objetos que são significantemente inferiores a outros elementos de M0 são

eliminados. A hipótese que está sendo testada toma a forma:

𝐻0,𝑀: 𝐸(𝑑𝑖𝑗,𝑡) = 0

para todo i, j, pertencente a M, em que M está contido em 𝑀0. Denota-se a hipótese alternativa

como 𝐻𝐴,𝑀 de que 𝐸(𝑑𝑖𝑗,𝑡) ≠ 0 para algum i, j pertencente a M. O teste de equivalência 𝛿𝑀 é utilizado para testar 𝐻0,𝑀 para qualquer conjunto M contido em M0. No caso da hipótese nula

ser rejeitada, então 𝑒𝑀 é utilizado para identificar o objeto que será eliminado de M. Logo o algoritmo do MCS é baseado nos três passos a seguir:

1- Inicialmente configure 𝑀 = 𝑀0

2- Teste 𝐻0,𝑀 com α de nível de significância

3- Se 𝐻0,𝑀 não é rejeitada, define-se 𝑀̂1−𝛼∗ = 𝑀, caso contrário utiliza-se 𝑒𝑀 para eliminar um objeto de M e repete-se o procedimento a partir do passo 2.

Ao final do algoritmo, o conjunto de objetos que passaram por todos os testes sem serem eliminados (o conjunto 𝑀̂1−𝛼) será o conjunto de confiança de modelos, o MCS.

P-valores do MCS

Para um dado modelo i pertencente a M0, o p-valor do MCS, 𝑝

𝑖

̂ , é o limiar no qual i pertence a 𝑀̂1−𝛼∗ se e somente se 𝑝̂ ≥ α. Portanto, um modelo que apresente um baixo 𝑝𝑖 ̂ é pouco provável 𝑖

de fazer parte do “melhor” grupo de modelos (𝑀∗).

Para definir os p-valores do MCS, considere m0 como o número de elementos no M0. A regra

de eliminação 𝑒𝑀 define uma sequência de conjuntos aleatórios, 𝑀0 tal que: 𝑀0 = 𝑀

1 ⊃ 𝑀2 ⊃

⋯ ⊃ 𝑀𝑚0 , em que 𝑀𝑖 = {𝑒𝑀(𝑖), … , 𝑒𝑀(𝑚0)} e 𝑚0 é o número de elementos em M0. Logo 𝑒

𝑀(0) = 𝑒𝑀(2)é o primeiro modelo a ser eliminado no caso de 𝐻0,𝑀1 ser rejeitada, 𝑒𝑀(3) = 2 é o segundo

modelo e assim por diante. Considere 𝑃𝐻0,𝑀1como o p-valor associado à hipótese nula,

convencionando que 𝑃𝐻

0,𝑀𝑚0 ≡ 1. O p-valor do MCS para o modelo 𝑒𝑀(𝑖)∈ 𝑀

0é definido por

𝑝̂𝑒𝑀𝑗 ≡ 𝑚𝑎𝑥𝑖≤𝑗𝑃𝐻0,𝑀1. Como 𝑀𝑚0consiste em um único modelo, a hipótese nula

𝑃𝐻0,𝑀𝑚0simplesmente diz que o último modelo sobrevivente é tão bom como ele mesmo.

Hansen, Lunde e Nason (2011) provam que, estando os elementos de 𝑀0 indexados por 𝑖 = 1, … , 𝑚0, o p-valor do MCS, 𝑝̂ , é tal que 𝑖 ∈ 𝑀𝑖 ̂1−𝑎∗ , se e somente se 𝑝̂ ≥ 𝛼, para qualquer 𝑖 ∈𝑖 𝑀0. Desta forma fica claro que os p-valores individuais do MCS facilitam a determinação de se um objeto particular está dentro do 𝑀̂1−𝑎 ou não, para qualquer α.

A interpretação de um p-valor do MCS é análoga a de um p-valor clássico. A analogia é a de que um intervalo com (1-α) de confiança contenha o verdadeiro valor do parâmetro com uma probabilidade de pelo menos (1-α). O p-valor do MCS não pode ser interpretada como a probabilidade de que um modelo é o melhor modelo, mas sim como a probabilidade de que o conjunto de modelos restante contenha 𝑀∗.

3.4.2 Teste de Habilidade Preditiva Superior

Quando se deseja testar a habilidade preditiva superior, a pergunta de interesse é se alguma previsão alternativa é superior a um benchmark, ou de forma equivalente, se o melhor modelo preditor alternativo é melhor que o benchmark. O 3.3.2 Teste de habilidade preditiva superior, ou Superior Predictive Ability Test (teste SPA), é um teste que pode ser utilizado para comparar a performance preditiva do benchmark com m previsões alternativas em que m é um número fixo. As previsões são comparadas utilizando-se uma função de perda predefinida, e o “melhor” modelo é o que apresenta a menor perda esperada.

Permita que 𝐿(𝑌𝑡, 𝑌̂𝑖,𝑡) seja a perda do modelo i no instante t caso o modelo gere a previsão 𝑌̂𝑖,𝑡,

quando o verdadeiro valor realizado foi 𝑌𝑡. Para simplificação notacional defina 𝐿𝑖,𝑡 ≡

𝐿(𝑌𝑡, 𝑌̂𝑖,𝑡). No tempo t, a performance domodelo k, relativa ao modelo 0 (benchmark) pode ser

definida como: 𝑑𝑘,𝑡 ≡ 𝐿0,𝑡− 𝐿𝑘,𝑡 .

A pergunta de interesse é se algum dos modelos k = 1, 2, ... , m é melhor do que o modelo 0. Definindo 𝜇𝑘 ≡ 𝐸(𝑑𝑘,𝑡), para analisar esta questão formula-se a hipótese testável de que o

32

modelo benchmark é o melhor modelo de previsão. Já que um valor positivo de 𝜇𝑘 corresponde ao modelo k sendo melhor que o benchmark, deseja-se testar a hipótese nula:

𝐻0: 𝜇𝑘 ≤ 0, ∀𝑘 = 1, … , 𝑚

Enquanto o problema de igualdade de habilidade preditiva de Diebold e Mariano (1995) apresenta uma hipótese nula simples, a hipótese nula derivada do problema de SPA é composta, o que traz uma dificuldade para o teste de hipóteses pois neste último caso “a distribuição assintótica não é única sob a hipótese nula” (HANSEN 2005, v.23, p.366, tradução nossa). Hansen (2005) mostra que a abordagem utilizada no reality check (RC) de White (2000), baseada em least favorable configuration5, tem um poder de teste que tende a zero quando se

adicionam previsões alternativas ruins.

Uma maneira de testar a hipótese nula acima, é considerando a estatística: 𝑇𝑇𝑆𝑃𝐴 ≡

𝑚𝑎𝑥 [ max

𝑘=1,…,𝑚 𝑇1/2𝑑̅𝑘

𝜔̂𝑘 , 0], em que 𝜔̂𝑘

2 é um estimador consistente para a variância de 𝑇1/2𝑑̅ 𝑘 e 𝑑̅𝑘

é a performance relativa média do modelo k, ou seja, 𝑑̅𝑘 ≡ 𝑇−1∑𝑇𝑡=1𝑑𝑘,𝑡. Embora Hansen (2005) não prove que 𝑇𝑇𝑆𝑃𝐴 domina a estatística 𝑇𝑇𝑅𝐶 de White (2000) em termos de poder, a primeira tem poder maior que a segunda na maioria dos casos, a não ser no caso não usual em que a melhor performance de previsão é associada a uma maior variância. Hansen (2005) prova que 𝜇̂𝑐 leva a uma estimativa consistente da distribuição assintótica da estatística de teste, e

também a um p-valor consistente.

Documentos relacionados