Modelos de estimação aplicados às estatísticas do Comércio Internacional

(1)

Lídia Maria da Cunha Sá

Modelos de estimação aplicados às

estatísticas do Comércio Internacional

Lídia Maria da Cunha Sá

Modelos de es timação aplicados às es tatís ticas do Comér cio Inter nacional

Universidade do Minho

Escola de Ciências

(2)

(3)

Dissertação de Mestrado

Mestrado em Estatística

Trabalho efectuado sob a orientação de

Professora Doutora Raquel Menezes

Professora Doutora Susana Faria

Dra. Ana Cristina Neves

Lídia Maria da Cunha Sá

Modelos de estimação aplicados às

estatísticas do Comércio Internacional

Universidade do Minho

(4)

(5)

Agradecimentos

Em primeiro lugar, gostava de agradecer às minhas orientadoras, Professora Doutora Raquel Menezes (Universidade do Minho), Professora Doutora Susana Faria (Uni-versidade do Minho) e Dra. Ana Cristina Neves (Instituto Nacional de Estatística), que sempre se disponibilizaram para rever, comentar e, acima de tudo, melhorar este trabalho. Quero deixar um agradecimento muito especial à Professora Doutora Raquel Menezes, pelas palavras de incentivo e por não me ter deixado desistir. Não poderia deixar de agradecer à Rita Lages e à Maria João Pereira do Instituto Nacional de Estatística pela disponibilidade e paciência para me explicarem todo o processo e esclarecerem as dúvidas que surgiram.

Quero igualmente agradecer a todos que contribuíram, direta ou indiretamente, para que este trabalho fosse possível, mesmo que alguns nem se tenham apercebido da ajuda que me deram, mas que eu não esqueço.

Por fim, este trabalho não teria sido possível sem o apoio gigantesco do meu com-panheiro desta caminhada que tem sido a minha vida, o meu maior amigo e o meu porto seguro em todas as situações, o meu marido José Pimentel. Obrigada por tudo!

(6)

(7)

Modelos de estimação aplicados às estatísticas do

Comércio Internacional

Resumo

O presente trabalho resulta de uma parceria entre o Instituto Nacional de Estatís-tica (INE) e a Universidade do Minho e tem como principal objetivo melhorar as estimativas do Comércio Intra-UE (transações com Estados-Membros da União Eu-ropeia) de forma a diminuir as revisões feitas entre as várias divulgações efetuadas pelo INE.

As empresas que realizam transações de bens com outros Estados-Membros da União Europeia estão integradas num de dois grupos, abx ou INTRA, constituí-dos de acordo com o tipo de fluxo (importações ou exportações) e o montante anual envolvido nessas transações. O primeiro grupo, abx, constituído pelas empresas cu-jas importações ou exportações não atingem o montante estabelecido anualmente, não tem obrigatoriedade de prestar informação ao INE acerca destas transações. O grupo INTRA, composto pelas empresas cujos montantes gerados pelas importações ou exportações cujos parceiros comerciais sejam Estados-Membros da União Euro-peia ultrapassam o limiar estabelecido, têm obrigatoriedade de fornecer informação ao INE, usando uma ferramenta específica, o INTRASTAT.

O Instituto Nacional de Estatística está sujeito à obrigatoriedade de divulgar men-salmente os valores envolvidos na transação de bens entre Portugal e outros países da União Europeia. No momento das divulgações existe informação em falta, o que cria a necessidade de estabelecer estimativas para os valores dos quais ainda não existe informação disponível ou cuja comunicação não tenha sido feita corretamente nem em tempo útil. Os valores divulgados num determinado mês são alvo de revi-sões nas divulgações seguintes, resultantes da incorporação de novas informações ou correção dos valores recebidos anteriormente.

O melhoramento das estimativas efetuadas (e consequente redução das correções subsequentes) é o ponto de partida deste trabalho. Para tal, pretende-se averiguar a existência de sazonalidade e de correlação temporal nos dados das séries geradas pelos diferentes fluxos e dentro dos dois grupos de empresas considerados, abx e INTRA. A abordagem inclui a possibilidade de realizar estimativas para os totais afetos a cada tipo de fluxo, com especial enfoque nas séries temporais onde exista correlação temporal, com recurso a modelos de suavização exponencial e modelos SARIMA. Estas previsões a curto prazo, efetuadas para os valores totais serão, sem-pre que possível, comparadas com os valores disponíveis/observados para o período a que as estimativas dizem respeito.

(8)

(9)

Estimation models applied to the statistics of the

International Trade

Abstract

The present work is the result of a partnership between the Instituto Nacional de Estatística (INE) and Universidade do Minho and its main objective is to improve the estimates of Intra-EU Trade (transactions with Member States of the European Union) in order to decrease the revisions made between the various disclosures made by INE.

The companies that perform transactions of goods with other European Union Mem-ber States are integrated in one of two groups, abx or INTRA, constituted according to the type of flow (imports or exports) and the annual amount involved in these transactions. The first group, abx, includes the companies whose imports or exports do not reach the annually established amount and has no obligation to provide infor-mation to INE about these transactions. The INTRA group, comprised of companies whose amounts generated by the trades with other European Union Member States exceed the established threshold, have an obligation to provide information to INE and they use a specific tool, the INTRASTAT.

Monthly, INE has the obligation to disclose the amounts involved in the transaction of goods between Portugal and other European Union countries. At the time of dis-closure some information will be unavailable, which creates the need for establishing estimates for those missing values or whose communication has not been made pro-perly or in a timely manner. The values disclosed in a given month suffer revisions in subsequent disclosures resulting from the incorporation of new information or correction of the amounts received previously.

The improvement of the estimates made (and consequent reduction of posterior ad-justments) is the starting point of this work. With this purpose, the intention is to investigate the existence of seasonal and temporal correlation in the time series generated by the two different type of flows and within the two groups of companies considered, abx and INTRA. The approach includes the possibility of doing estima-tes for totals related with each type of trade, with special focus on time series where there is temporal correlation, using exponential smoothing models and SARIMA models. These short-term predictions, made for the totals will be compared with the available/observed values for the considered period of time.

(10)

(11)

Conteúdo

1 Introdução 1

1.1 As estatísticas do Comércio Intra-UE . . . 1

1.2 Objetivos . . . 2

2 Contextualização do problema 5 2.1 Divulgação das estatísticas do Comércio Intra-UE - Calendarização . 6 2.2 Metodologia utilizada . . . 6

2.2.1 Estimativas abaixo dos limiares (abx) . . . . 6

2.2.2 Estimativas de não resposta . . . 8

3 Enquadramento Teórico 11 3.1 Séries Temporais . . . 11

3.1.1 Os modelos ARIMA(p,d,q) e SARIMA(p,d,q)(P,D,Q)s . . . . 15

3.1.2 Métodos de suavização exponencial . . . 17

3.2 Modelos de regressão linear . . . 19

4 Modelação de dados 23 4.1 Análise inicial das bases de dados . . . 23

4.2 Valores das empresas abx . . . 29

4.2.1 Exportações Intra . . . 29

4.2.2 Importações Intra . . . 38

4.3 Valores das empresas acima dos limiares . . . 44

4.4 Valores totais das transações intra-comunitárias . . . 52

5 Conclusões 71

(12)

(13)

Acrónimos

abx – Conjunto de estimativas feitas para transações de empresas que não atingem

um volume de importações/exportações igual ou superior aos limiares de assimilação AIC – Akaike´s Information Criterion

AICc - Akaike´s Information Criterion corrigido BIC – Bayesian Information Criterion

CECIT - Classificação Económica do Comércio Internacional

ETS – Error, Trend and Seasonal – sigla de identificação dos modelos de suavização exponencial

FAC – Função de Autocorrelação

FACP – Função de Autocorrelação Parcial INE – Instituto Nacional de Estatística

INTRA – Conjunto de empresas que têm obrigatoriedade de fornecer informação sobre importações/exportações, ou seja, as empresas responsáveis pelo fornecimento da informação.

INTRASTAT – Formulário eletrónico que se destina à recolha da informação sobre as transações de bens entre os Estados-Membros da União Europeia (importações Intra e exportações Intra), durante o mês de referência, por categorias de produtos, por país e por região.

IVA – Imposto sobre o Valor Acrescentado

IVNEI - Inquérito ao Volume de Negócios e Emprego na Indústria

RIE – Responsáveis pelo fornecimento da informação, ou seja, empresas para as quais o preenchimento do INTRASTAT é obrigatório

SARIMA - Processos mistos autorregressivos e de médias móveis com componente sazonal

SSE - Soma dos quadrados dos erros

SST - Soma dos quadrados dos desvios totais TVM - Taxa de variação mensal

UE – União Europeia

VIES - VAT Information Exchange System ou Sistema de Intercâmbio de Informa-ções sobre o IVA

(14)

(15)

Lista de Figuras

2.1 Limiares de assimilação para importações e exportações entre 2002 e 2014 . . . 5 4.1 Boxplot dos montantes totais das exportações e importações por

tri-mestre, obtidos a partir da base de dados abx . . . 25 4.2 Gráfico Q-Q Normal das variáveis acima, total e totalnmov,

respeti-vamente, valores registados para as importações . . . 26 4.3 Evolução das variáveis total, totalnmov e acima das importações . . . 28 4.4 Evolução das variáveis total, totalnmov e acima das exportações . . . 28 4.5 Evolução das importações e exportações para empresas abaixo dos

limiares - abx . . . 29 4.6 FAC e FACP da série de exportações para a base de dados abx . . . 30 4.7 Gráfico da evolução sazonal das exportações por trimestre (abx) . . . 30 4.8 FAC e FACP dos resíduos do modelo SARIMA (1,0,0)(2,1,0)4 com

drift quando aplicado aos dados das exportações da base de dados abx 32

4.9 Histograma e gráfico Q-Q Normal dos resíduos do modelo SARIMA (1,0,0)(2,1,0)4 com drift quando aplicado aos dados das exportações

da base de dados abx . . . 32 4.10 Decomposição resultante da aplicação do modelo ETS(M,A,A) para

os dados das exportações das empresas abaixo dos limiares . . . 34 4.11 FAC e FACP para os resíduos obtidos aquando da aplicação do

mo-delo ETS(M,A,A) aos dados das exportações das empresas abaixo dos limiares . . . 35 4.12 Histograma e gráfico Q-Q Normal dos resíduos do modelo ETS(M,A,A)

aplicado aos dados das exportações das empresas abaixo dos limiares 35 4.13 Previsão para 8 trimestres recorrendo ao modelo SARIMA(1,0,0)(2,1,0)4

com drift para os dados das exportações abx . . . 36 4.14 Previsão para 8 trimestres recorrendo ao modelo ETS(M,A,A) para

os dados das exportações da base de dados abx . . . 37 4.15 FAC e FACP da série associada ao valor das importações realizadas

por empresas abaixo dos limiares (base de dados abx) . . . 38 4.16 Histograma e gráfico Q-Q Normal dos resíduos do modelo SARIMA

(1,0,0)(1,1,0)4 com drift para os dados das importações da base de

dados abx . . . 40 4.17 FAC e FACP dos resíduos do modelo SARIMA (1,0,0)(1,1,0)4 com

(16)

Capítulo 0 Lista de Figuras

4.18 Decomposição da série de importações da base de dados abx pelo modelo ETS (M,A,M) . . . 42 4.19 Histograma e gráfico Q-Q Normal dos resíduos do modelo ETS(M,A,M)

para os dados das importações da base de dados abx . . . 42 4.20 FAC e FACP dos resíduos obtidos aquando da aplicação do modelo

ETS(M,A,M) para os dados das importações da base de dados abx . . 43 4.21 Previsões segundo os modelos SARIMA (1,0,0)(1,1,0)4 com drift e

ETS(M,A,M) para os dados das importações da base de dados abx . . 44 4.22 Evolução dos valores mensais totais das empresas acima dos limiares

de assimilação, por fluxo (importações ou exportações) . . . 45 4.23 Funções de autocorrelação e autocorrelação parcial valores acima

-exportações . . . 45 4.24 Gráfico de sazonalidade - valores acima - exportações (por ano) . . . 46 4.25 Histograma e gráfico Q-Q Normal dos resíduos resultantes da

aplica-ção do modelo SARIMA(1,1,2)(0,1,0)12 para os dados acima -

expor-tações . . . 47 4.26 FAC e FACP dos resíduos resultantes da aplicação nos dados da

va-riável acima (exportações) do modelo SARIMA(1,1,2)(0,1,0)12 . . . . 48

4.27 Decomposição nas componentes Nível, Tendência e Sazonalidade da série temporal definida pela variável acima (valores das exportações das empresas acima dos limiares) resultante da aplicação do modelo ETS(M,M,M) . . . 50 4.29 FAC e FACP dos resíduos obtidos da aplicação do modelo ETS(M,M,M)

aos dados da série temporal definida pela variável acima - exportações 50 4.28 Histograma e Gráfico Q-Q Normal dos resíduos obtidos da aplicação

do modelo ETS(M,M,M) aos dados acima - exportações . . . 51 4.30 FAC e FACP da variável acima no que diz respeito ao fluxo das

importações . . . 52 4.31 Evolução das variáveis total e totalnmov (relativamente ao fluxo de

exportações da base de dados Totais) ao longo dos 36 períodos con-siderados . . . 53 4.33 FAC e FACP da variável total relativamente ao fluxo das exportações 53 4.32 Evolução das variáveis total e totalnmov (relativamente ao fluxo de

importações da base de dados Totais) ao longo dos 36 períodos con-siderados . . . 54 4.34 Histograma e gráfico Q-Q Normal dos resíduos do modelo SARIMA

(1,1,2)(0,1,0)12 para os dados da variável total das exportações . . . 55

4.35 FAC e FACP dos resíduos do modelo SARIMA(1,1,2)(0,1,0)12 para

os dados da variável total das exportações . . . 56 4.36 Decomposição da série temporal obtida a partir da variável total das

exportações pela aplicação do modelo ETS(M,M,M) . . . 57 4.37 Gráfico Q-Q Normal dos resíduos do modelo ETS(M,M,M) para os

dados da variável total das exportações . . . 58

(17)

Lista de Figuras

4.38 Funções de Autocorrelação e Autocorrelação parcial dos resíduos do modelo ETS(M,M,M) para os dados da variável total das exportações 58 4.39 FAC e FACP da variável totalnmov das exportações . . . 59 4.40 Histograma e gráfico Q-Q Normal dos resíduos obtidos da aplicação do

modelo SARIMA(1,1,2)(0,1,0)12 para os dados da variável totalnmov

das exportações . . . 60 4.41 FAC e FACP dos resíduos do modelo SARIMA(1,1,2)(0,1,0)12 para

os dados da variável totalnmov das exportações . . . 61 4.42 Decomposição em componentes resultante da aplicação do modelo

ETS(M,M,M) à série temporal definida pela variável totalnmov - ex-portações . . . 62 4.43 FAC e FACP dos resíduos resultantes da aplicação do modelo ETS

(M,M,M) à variável totalnmov . . . 63 4.44 Histograma e Gráfico Q-Q Normal dos resíduos resultantes da

apli-cação do modelo ETS (M,M,M) à variável totalnmov . . . 64 4.45 Previsões segundo o modelo SARIMA(1,1,2)(0,1,0)12 e o modelo ETS

(M,M,M) para a variável total - exportações . . . 64 4.46 Previsões segundo o modelo SARIMA(1,1,2)(0,1,0)12 e o modelo ETS

(M,M,M) . . . 65 4.47 FAC e FACP da variável total das importações dentro da UE . . . 66 4.48 FAC e FACP da variável totalnmov das importações dentro da União

Europeia . . . 66 4.49 Gráfico Q-Q Normal dos resíduos do modelo linear para o total das

importações . . . 68 4.50 Valores ajustados versus resíduos apurados do modelo linear para o

total das importações . . . 68 4.51 Valores ajustados versus resíduos apurados para a variável totalnmov

das importações . . . 70 4.52 Gráfico Q-Q Normal dos resíduos do modelo linear para a variável

(18)

(19)

Lista de Tabelas

3.1 Modelos estacionários não sazonais e respetivas equações . . . 15 3.2 Tipos de tendência e sazonalidade em suavização exponencial . . . 18 4.1 Variáveis incluídas na base de dados abx . . . 24 4.2 Principais estatísticas descritivas das variáveis importações e

expor-tações da base de dados abx (em milhões de euros) . . . 24 4.3 Variáveis que compõe a base de dados Totais . . . 25 4.4 Principais estatísticas descritivas das variáveis total, totalnmov e acima

no caso das importações (em milhões de euros), extraídas da base de dados Totais . . . 26 4.5 Principais estatísticas descritivas das variáveis total, totalnmov e acima

no caso das exportações (em milhões de euros), estraídas da base de dados Totais . . . 27 4.6 Parâmetros estimados e respetivos erros padrão do modelo SARIMA

(1,0,0)(2,1,0)4 com drift quando aplicado aos dados da variável exp

da base de dados abx . . . 31 4.7 Dados das exportações da base de dados abx - comparação dos valores

observados em 2013 com as previsões obtidas debaixo dos modelos SARIMA(1,0,0)(2,1,0)4 e ETS(M,A,A) . . . 37

4.8 Parâmetros estimados e respetivos erros padrão do modelo SARIMA (1,0,0)(1,1,0)4 com drift para os dados das importações da base de

dados abx . . . 39 4.9 Dados das importações (base de dados abx) - comparação dos valores

observados em 2013 com as previsões debaixo dos modelos SARIMA (1,0,0)(1,1,0)4 com drift e ETS(M,A,M) . . . 44

4.10 Estimativa dos parâmetros do modelo SARIMA(1,1,2)(0,1,0)12,e res-petivos erros padrão, para os dados acima - exportações . . . 46 4.11 Estimativa dos parâmetros e respetivos erros padrão do modelo

SA-RIMA(1,1,2)(0,1,0)12 para os dados da variável total das exportações. 54

4.12 Estimativas dos parâmetros do modelo SARIMA(1,1,2)(0,1,0)12 para

os dados da variável totalnmov das exportações . . . 60 4.13 Estimadores obtidos usando o Método dos Mínimos Quadrados para

obtenção do modelo de regressão linear para a variável total das im-portações da base de dados Totais . . . 67

(20)

Capítulo 0 Lista de Tabelas

4.14 Estimadores obtidos usando o Método dos Mínimos Quadrados para obtenção do modelo de regressão linear para a variável totalnmov das importações da base de dados Totais . . . 69

(21)

1 Introdução

1.1 As estatísticas do Comércio Intra-UE

As estatísticas do Comércio Internacional têm como objetivo o acompanhamento da evolução mensal das trocas comerciais de bens entre Portugal e os seus parceiros. Estas estatísticas são constituídas pelas estatísticas do Comércio Extra-UE (transa-ções com países não integrados na União Europeia) e pelas estatísticas do Comércio Intra-UE (transações com Estados-Membros da União Europeia). As primeiras têm origem em dados administrativos recolhidos pelas diversas alfândegas e mais tarde comunicados ao Instituto Nacional de Estatística (INE) pela Autoridade Tributá-ria e Aduaneira. As segundas têm como base a informação recolhida através de uma ferramenta específica: o INTRASTAT. As empresas que realizam operações de importação e/ou exportação com valores acima de um montante estabelecido anu-almente – limiar de assimilação – têm obrigatoriedade de preencher mensanu-almente a declaração INTRASTAT [INE, 2014]. Todas as empresas que forneçam informação através deste meio são designadas por responsáveis pelo fornecimento da informação (RIE). Os limiares de assimilação são definidos por tipo de fluxo, isto é, há um valor definido para importações e outro para exportações. As empresas cujas operações relativas a estes fluxos, dentro da União Europeia, não atingem o valor estabelecido como limiar de assimilação nesse ano, não são obrigadas a preencher a declaração INTRASTAT, podendo fazê-lo de forma voluntária. Para além dos limiares de assi-milação, são estabelecidos limiares de simplificação e de valor estatístico que definem o tipo de declaração que a empresa tem que preencher no INTRASTAT. Os limiares são estabelecidos a nível europeu de modo a assegurar que a cobertura do valor total das transações intra-UE através dos dados declarados seja de, por exemplo para o ano de 2014, pelo menos, 97% nas exportações Intra e 93% nas importações Intra. A partir desta percentagem, anualmente, cada estado membro divulga qual o seu li-miar de assimilação. Além dos lili-miares, existe também a obrigatoriedade de divulgar informação sobre a totalidade das transações intra-UE, donde surge a necessidade de estimar o valor das transações das empresas sem obrigatoriedade de resposta. Estas estimativas, designadas por estimativas abaixo dos limiares, serão identifica-das com a sigla abx. Para além da estimativa dos valores associados às empresas sem obrigatoriedade de preenchimento da declaração INTRASTAT, surge também a necessidade de estimar valores associados à atividade de algumas empresas que se posicionam acima dos limiares de assimilação. Esta situação verifica-se quando não há resposta (ou a resposta é tardia) por parte das mesmas no INTRASTAT ou

(22)

Capítulo 1 Introdução

ainda, quando há discrepâncias, ou seja, os valores declarados no INTRASTAT não correspondem ao valor real das transações (declarações parcialmente preenchidas). Assim, o valor global de importações e exportações que mensalmente é divulgado pelo Instituto Nacional de Estatística, conforme documento metodológico das Esta-tísticas Correntes do Comércio Intracomunitário[Comércio Intracomunitário, 2011], resulta da compilação de:

• Dados declarados pelas empresas acima do limiar de assimilação; • Estimativas para valores das empresas abaixo dos limiares; • Estimativas de não resposta;

• Estimativas de movimentos específicos (estimação de eletricidade, da importação de veículos usados e dos movimentos extra).

1.2 Objetivos

O objetivo deste trabalho é ajudar a melhorar as estimativas produzidas pelo INE por forma a diminuir as revisões feitas em cada divulgação dos valores associados ao total das importações e exportações em Portugal. Esta necessidade de constante re-visão resulta do facto de as fontes disponíveis para verificação dos valores em causa não estarem disponíveis no momento em que se procede à divulgação. Devido a este desfasamento, muito frequentemente os valores utilizados como histórico para estabelecimento de estimativas não são definitivos e ainda poderão ser alvo de cor-reções. Esta realidade torna o problema muito dinâmico, com os dados que se têm disponíveis a mudarem constantemente e a afetarem qualquer previsão que se faça a partir dos mesmos.

Este relatório divide-se em cinco capítulos: Introdução, Contextualização do pro-blema, Enquadramento teórico, Modelação de dados e Conclusões. No primeiro capítulo faz-se uma breve introdução ao tema, referindo a origem dos dados, as metodologias estatísticas e o software usado. No segundo capítulo é feita uma con-textualização do problema através da análise das várias situações que geraram a necessidade de se proceder a estimativas e os meios disponíveis para tal. Este ca-pítulo inclui também uma breve explicação do tipo de metodologia usada neste momento no INE para obtenção de estimativas nas diferentes situações em estudo. O terceiro capítulo destina-se à exposição da base teórica em que assentam os mo-delos que serão aplicados aos dados disponíveis, nomeadamente, momo-delos SARIMA, modelos de suavização exponencial e modelos de regressão linear clássicos (sem cor-relação temporal). No capítulo destinado à modelação dos dados, começa-se com uma análise descritiva dos dados sendo posteriormente apresentados os resultados obtidos que apoiaram a tomada de decisão acerca dos modelos a aplicar, assim como os resultados obtidos dessa mesma aplicação.

Os dados estudados neste relatório têm como base valores existentes no início de 2014. A base de dados referente às empresas que se situam abaixo dos limiares de

(23)

1.2 Objetivos

assimilação engloba os valores totais por trimestre de 2002 a 2012, para importações e exportações. No caso dos valores de empresas acima dos limiares de assimilação, são considerados os valores totais mensais de 2010 a 2012 também para os dois fluxos, ou seja, para as importações e para as exportações. Após estabelecer modelos para estes dados, foram feitas previsões segundo os mesmos, que são analisadas através de comparação com alguns valores apurados para o ano de 2013, mesmo que ainda não sejam os definitivos. O tratamento e análise dos dados é feito recorrendo ao

(24)

(25)

2 Contextualização do problema

Com a crise económica, a dinâmica das exportações e das importações mudou e os valores dos limiares estabelecidos para Portugal sofreram alterações significativas, o que levou à necessidade de estabelecer novos métodos para a estimação dos valores em falta. O cálculo dos limiares de assimilação tem em conta os valores registados nos anos anteriores. Em 2009, os limiares foram estabelecidos tendo em conta os elevados valores registados nos anos precedentes. Nesse ano, as transações do Co-mércio Internacional sofreram acentuadas reduções, resultantes da crise financeira internacional, o que resultou numa redução significativa dos valores determinados para os limiares nos anos seguintes.

Figura 2.1: Limiares de assimilação para importações e exportações entre 2002 e 2014

Paralelamente à dinâmica do problema inerente à evolução dos limiares, os alar-gamentos da União Europeia ao longo do período de tempo considerado, poderão influenciar a evolução dos valores, nomeadamente a tendência geral, considerando que o número de países de origem ou destino aumentou.

Desde 1 de janeiro de 2003, ocorreram dois alargamentos:

• Em 1 de maio de 2004, o número de estados membros passou de 15 para 25; • Em 1 de janeiro de 2007, o número de estados membros aumentou para 27;

(26)

Capítulo 2 Contextualização do problema

• Em 1 de julho de 2014, o número de estados membros passou a ser 28, com a integração da Croácia na União Europeia;

2.1 Divulgação das estatísticas do Comércio Intra-UE

- Calendarização

As divulgações das estatísticas do Comércio Intra-UE são mensais e seguem o se-guinte esquema temporal :

• Para o mês M, a primeira informação é divulgada a 40 dias, isto é, sensivel-mente 40 dias depois do término desse mês;

• Nos três meses seguintes, em cada nova divulgação, os valores do mês M são revistos, ou seja, as revisões são feitas a 70, 100 e 130 dias;

• Poderão ocorrer revisões extraordinárias, procedentes de factos inesperados associados à correção de erros graves, correção essa que não pode ser efetuada aquando das revisões regulares.

Assim, cada divulgação mensal contempla a previsão a 40 dias para o mês M, a revisão a 70 dias para o mês M-1, a revisão a 100 dias para o mês M-2 e a revisão a 130 dias para o mês M-3.

Relativamente às divulgações relativas ao total anual, os resultados preliminares do ano N são divulgados no mês de maio do ano N+1, coincidindo com a última revisão aos valores do mês de dezembro (divulgação a 130 dias). Em outubro do ano N+1, é feita a divulgação dos resultados provisórios do ano N. A divulgação dos resultados definitivos do ano N realiza-se em maio do ano N+2, ou seja, um ano depois de serem divulgados os resultados preliminares.

As várias revisões efetuadas às estimativas resultam de atualizações que surgem de: • substituição de estimativas de não resposta pelas respostas efetivas das

em-presas;

• correção de informação que as empresas enviaram anteriormente;

• atualização das estimativas (não resposta e abaixo do limiar) através do uso da informação adicional proporcionada pelo IVA (Imposto sobre o Valor Acres-centado) e do conhecimento de novas empresas com transações Intra-UE.

2.2 Metodologia utilizada

2.2.1 Estimativas abaixo dos limiares (abx)

Segundo o documento metodológico do INE para as estimativas abaixo dos limiares [Comércio Intracomunitário, 2010a], o processo foca-se nos pontos que de seguida se

(27)

2.2 Metodologia utilizada

descrevem, em termos gerais.

Identificação das empresas a integrar o grupo abx

O grupo de empresas abx é composto pelas empresas sem obrigação de preenchi-mento da declaração INTRASTAT, ou seja, empresas que realizam transações de bens intracomunitárias cujo volume global não atinge os limiares de assimilação es-tabelecidos. O processo de estimação dos valores de cada um dos fluxos a imputar a estas empresas começa pela definição de quais integram este grupo. Esta iden-tificação advém da informação IVA constante das declarações periódicas que estas enviam para a Autoridade Tributária e Aduaneira e a partir do ano 2010, das de-clarações periódicas e das dede-clarações recapitulativas. Nesta seleção são excluídas todas as empresas pertencentes à Região Autónoma da Madeira, pois todas têm obrigatoriedade de comunicar as transações intracomunitárias, uma vez que os li-miares de assimilação não se aplicam nesta região. O grupo de empresas abx (e consequentemente a amostra INTRA, ou seja, as empresas com obrigatoriedade de preenchimento do questionário INTRASTAT) é atualizado constantemente ao longo do ano. A inclusão acontece com base no acréscimo de nova informação IVA que as coloca acima ou abaixo dos limiares de assimilação.

Em linhas gerais, para cada ano de referência, enquanto não existe informação anual, a seleção das empresas que integrarão o grupo de empresas abx é feita com base no número de trimestres já disponíveis[Comércio Intracomunitário, 2010a]. No final de cada trimestre, a definição de que grupo integrará uma empresa (abx ou INTRA) é revista. Tomando como exemplo o primeiro trimestre de um ano, se uma empresa não pertence à amostra INTRASTAT no ano corrente e no final desse trimestre também não atingiu o valor correspondente à quarta parte do limiar de assimilação definido para esse ano, ela continuará a pertencer ao grupo abx. Caso apresente um volume igual ou superior a 1/4 do limiar de assimilação estabelecido para o ano atual passará a integrar o grupo INTRA, ou seja, passa a ter obrigatoriedade de preen-chimento da declaração INTRASTAT. Assim, tendo em conta o fluxo (importações Intra ou exportações Intra), são selecionadas as empresas onde:

• Na informação de IVA do 1.º trimestre, apresentam um valor de IVA inferior a 1/4 do limiar do ano;

• No valor de IVA apurado nos 1.º e 2.º trimestres, ou seja, com um valor de IVA no 1.º semestre, inferior a 1/2 do valor do limiar do ano;

• No acumulado do IVA referente ao 1.º, 2.º e 3.º trimestres, apresentam um valor de IVA inferior a 3/4 do valor do limiar do ano;

• A informação do IVA referente total dos 4 trimestres do ano seja inferior ao limiar estabelecido para o ano em causa.

Em resumo, a seleção das empresas a integrar o grupo abaixo do limiar é feita através de limiares infra-anuais.

(28)

Determinação dos valores trimestrais das estimativas abaixo dos limiares Quando se recebe uma nova informação do IVA relativa ao ano de referência, torna-se necessário verificar quais os trimestres disponíveis que estão completos. Esta verificação é efetuada através da contagem das empresas e pelo valor declarado por fluxo/trimestre. Apenas trimestres completos devem ser considerados para as estimativas abaixo dos limiares uma vez que, a maioria das empresas que integram este grupo está abrangida pelo regime de periodicidade trimestral do envio das declarações IVA.

Os valores para os trimestres do ano de referência que é necessário divulgar e que não têm informação do IVA, são os que têm que ser previstos. Os valores por fluxo (importações Intra ou exportações Intra) das empresas selecionadas são somados para calcular os valores trimestrais das estimativas abaixo dos limiares.

Fatores de correção

Verificou-se, através de estudos, que a seleção das empresas pelos limiares infra-anuais conduz a valores inferiores aos obtidos através da seleção usando o limiar anual. Assim, enquanto a informação anual do IVA não está disponível, procede-se a um ajustamento da soma dos valores trimestrais do IVA destas empresas. Atra-vés da análise dos valores do IVA apurados no ano anterior, calculam-se fatores de correção para cada uma das situações possíveis para a informação a considerar: 1.º trimestre, 1.º semestre, 3 trimestres ou do limiar anual. Enquanto os valores anuais do IVA para o ano de referência não estão disponíveis, estes fatores de correção são aplicados aos valores trimestrais apurados para determinar, por fluxo, os valores trimestrais do IVA corrigidos das estimativas abaixo dos limiares. Uma vez deter-minados estes valores, têm que ser excluídas as empresas pertencentes à amostra do INTRASTAT do ano corrente, por fluxo, quer estas tenham preenchido ou não o respetivo questionário. Por fim, uma vez que os valores declarados ao IVA são valores faturados, é necessário aplicar os coeficientes de ajustamento que se aplicam aos valores declarados no INTRASTAT para obter o valor estatístico.

2.2.2 Estimativas de não resposta

As estimativas de não resposta são obtidas tendo em conta os pontos seguintes, conforme descrito no respetivo documento metodológico do INE.

[Comércio Intracomunitário, 2010b]

Seleção dos responsáveis pelo fornecimento de Informação (RIE)

Os responsáveis pelo fornecimento da informação (RIE) são as empresas que têm obrigatoriedade de responder ao questionário do INTRASTAT, ou seja, são as em-presas que se encontram acima dos limiares de assimilação. A seleção dos RIE para

(29)

2.2 Metodologia utilizada

o ano N é feita com a informação disponível a 15 de dezembro do ano N-1, ou seja, as empresas que no conjunto dos três primeiros trimestres do ano N-1 e no 4.º trimes-tre do ano N-2 tenham atingido o limiar de assimilação definido para o ano N são integradas nessa amostra. Ao longo do ano N, essa amostra vai sendo atualizada com a inclusão das empresas que nos quatro trimestres do ano N-1 ou durante o ano N tenham atingido os limiares de assimilação por fluxo (importações Intra ou exportações Intra).

Metodologia atual das estimativas de não resposta

A estimação dos valores mensais associados a não resposta baseia-se essencialmente na informação proveniente do IVA e o histórico registado no INTRASTAT para identificar os RIE com falta de resposta. Esta análise tem também como objetivo identificar os RIE cuja resposta no INTRASTAT seja parcial, isto é, não esteja completa. Nesta análise, além de se utilizar o IVA e o INTRASTAT como fontes, recorre-se também ao Inquérito ao Volume de Negócios e Emprego na Indústria (IVNEI) (usado apenas no fluxo de exportações Intra-UE) e a informação VIES (VAT Information Exchange System).

O IVNEI é um inquérito mensal do INE que é usado para produzir indicadores de curto prazo na área da indústria que mostrem a evolução:

• do mercado de bens e serviços; • do emprego;

• do volume de trabalho efectuado; • dos salários e vencimentos na indústria.

O VIES, cuja designação em português é Sistema de Intercâmbio de Informações sobre o IVA, é um sistema controlado pela União Europeia que permite uma eficaz troca de informações possibilitando, entre outras situações, detetar transações não declaradas e fraudes fiscais.

Tendo em conta que a informação do IVA trimestral completa nem sempre está disponível, a estimativa de não resposta é feita de forma diferenciada consoante a disponibilidade da informação do IVA.

Estimação com informação IVA disponível

Se há informação do IVA disponível, a estimação de não resposta baseia-se na impu-tação da informação do IVA ajustada. Inicialmente, todas as empresas da amostra INTRA e as que declararam IVA são agregadas para que seja feita a imputação auto-mática da informação proveniente do IVA. De seguida, procede-se a uma análise por empresa para verificar a existência de não resposta ou de discrepâncias. No caso da não resposta em empresas da amostra é analisado o valor do IVA, o valor estimado

(30)

por produto (CECIT), a informação histórica do INTRASTAT e do IVA, o IVNEI e os contactos efetuados com as empresas. Quando a não resposta está associada a empresas fora da amostra, a estimativa faz-se por análise das que apresentam os maiores valores de IVA declarados e comparação com o histórico do INTRA e do IVA, pelo IVNEI e pelos contactos efetuados com as empresas.

Estimação sem informação IVA disponível

Quando não está disponível a informação relativa ao IVA, a estimação dos valo-res associados à não valo-resposta baseia-se no pvalo-ressuposto de que o comportamento das empresas que não respondem num determinado período é idêntico ao das que responderam nesse mesmo período. Assim:

• A previsão tem como base a taxa de variação mensal (TVM) das empresas que enviaram declaração INTRASTAT no mês de referência e no anterior. Esta TVM é aplicada ao valor global da informação IVA ajustada do mês anterior, caso esta esteja disponível. Caso não exista esta informação, a TVM é aplicada à previsão do valor global da informação IVA ajustada do mês anterior. A TVM é revista constantemente através da análise das empresas com maiores variações e da análise das empresas com falta de resposta, com falsa ausência de resposta ou com correções efetuadas com um determinado peso de forma a ser aplicada a mais fidedigna possível.

• É efetuada uma análise das empresas da amostra através do valor estimado por produto, da informação histórica do INTRASTAT e do IVA, dos contactos efetuados com as mesmas e através do IVNEI.

• A diferença entre as estimativas de não resposta por empresa e o valor previsto para a não resposta correspondente à previsão do valor das novas componentes relativas a novas empresas e a não respostas parciais.

A metodologia para estimação de não resposta por empresa é distinta entre as di-vulgações mensais e as didi-vulgações anuais, até porque a informação disponível em cada um dos momentos é diferente.

(31)

3 Enquadramento Teórico

3.1 Séries Temporais

Quando se pretende tratar dados estatísticos obtidos em contexto real, relacionando-os com o tempo em que foram recolhidrelacionando-os, forma-se um conjunto de dadrelacionando-os que se pode designar por série temporal ou sucessão cronológica. Assim, uma série temporal pode ser definida como um conjunto de observações acerca de uma determinada realidade, recolhidas sucessivamente ao longo de um período de tempo. Este conceito tem aplicabilidade num vasto leque de áreas como a economia, a produção, o ambiente, entre outras. Embora nem sempre se tenham séries temporais com observações igualmente espaçadas no tempo, neste trabalho debruçar-nos-emos sobre o caso em que existe regularidade temporal. Assim, as séries que serão objeto de estudo são compostas por valores espaçados mensal ou trimestralmente. Mesmo que o mês ou o trimestre não sejam definidos à custa de unidades de tempo exatamente iguais, neste trabalho serão assim consideradas. O principal objetivo do estudo de uma série temporal prende-se com a necessidade de compreender determinados fenómenos que se repetem ao longo do tempo. Em muitos estudos, além da identificação e compreensão dos fenómenos que expliquem a evolução da série, pretende-se realizar previsões com base nos comportamentos apresentados anteriormente.

A maioria dos conceitos que de seguida se apresentam baseiam-se no trabalho sobre sucessões cronológicas de [Murteira et al., 2000] tendo algumas noções sido comple-mentadas com informação dos trabalhos de [Wheelwright et al., 1998] e também de [Brockwell and Davis, 2002].

Processos estocásticos

As séries temporais caracterizam-se por ser uma coleção de observações indexadas no tempo por um parâmetro t pertencente ao espaço de parâmetros T (que pode ser R, R2_{, N, Z,...).O conjunto das observações é designado por espaço de estados}

(que pode ser R, R2_{, N, Z,...).}

A natureza, discreta ou contínua, do espaço de parâmetros e do espaço de estados é importante para a escolha adequada dos modelos. Neste trabalho, iremos considerar séries temporais discretas no tempo, uma vez que os dados são mensais ou trimestrais (i.e. T é um conjunto finito). No que diz respeito ao espaço de estados, assume-se que este é contínuo, uma vez que tipicamente as nossas obassume-servações identificam montantes em euros.

(32)

Capítulo 3 Enquadramento Teórico

Note-se que no contexto das séries temporais, um processo estocástico é qualquer família de variáveis aleatórias que obedeça às condições anteriormente definidas. Assim, considerando um processo estocástico Xt, tal que, para todo o t se tem

E[X(t)2_{] < +∞}

define-se:

• função de valor médio

µ(t) = E [X(t)] (3.1) • função de variância σ2(t) = V ar [X(t)] = Eè(X(t) − µ(t))2é (3.2) • função de covariância: γ(t1, t2) = Cov [X(t1), X(t2)] = E [(X(t1) − µ(t1))(X(t2) − µ(t2))] (3.3) • função de correlação ρ(t1, t2) = γ(t1, t2) σ(t1)σ(t2) = ñ Cov[X(t1), X(t2)] V ar[X(t1)] V ar [X(t2)] (3.4) Processos estacionários

Um processo estocástico diz-se estritamente estacionário se apresentar proprie-dades estatísticas que se mantêm invariáveis no tempo , ou seja, se a distribuição con-junta de (X(t1+ δ), ..., X(tn+ δ)) é igual à distribuição conjunta de (X(t1), ..., X(tn))

qualquer que seja o n-úplo (t1, ..., tn) e para qualquer δ. A estacionaridade no

sen-tido estrito é uma propriedade muito exigente e que dificilmente se verifica. Os processos fracamente estacionários ou estacionários de 2ª ordem obedecem a uma propriedade mais fraca mas que se pode considerar como descrevendo um tipo de comportamento similar.

Um processo estocástico diz-se fracamente estacionário ou estacionário de 2ª ordem se todos os momentos até à 2ª ordem de (X(t1), ..., X(tn)) existem e são

iguais aos momentos correspondentes até à 2ª ordem de (X(t1+ δ), ..., X(tn+ δ)).

Assim, num processo estacionário deste tipo, tem-se: 1. o valor médio não depende de t, ou seja µ(t) = µ; 2. a variância não depende de t, ou seja σ2_{(t) = σ}2_;

3. a covariância de X(t1) e X(t2) só depende do desfasamento t2 − t1, ou seja,

Cov[X(t1), X(t2)] = γ (|t2− t1|).

(33)

3.1 Séries Temporais

No contexto de modelação de séries temporais, uma outra definição importante é a de um processo de ruído branco. Trata-se então de um processo estacionário de 2ª ordem em que:

1. E [X(t)] = µ, onde usualmente se tem µ = 0; 2. Cov[X(t1), X(t2)] = 0, t1 Ó= t2;

3. V ar [X(t)] = σ2_, _{independentemente de t.}

Se σ = 1, designa-se ruído branco reduzido.

As séries temporais geradas pelas mais diversas situações raramente apresentam um comportamento estacionário, mas muitas delas podem ser reduzidas à estacionari-dade através de transformações.

Decomposição de séries temporais

Segundo [Murteira et al., 2000], muitos métodos utilizados no estudo e compreensão das séries temporais têm como base a decomposição das mesmas em componentes:

• tendência ou trend: abarca os movimentos que a série vai manifestando ao longo do tempo e as mudanças de nível (ou level), refletindo a variação “em média” ao longo do tempo;

• sazonalidade ou seasonal: descreve as variações cíclicas que vão ocorrendo relativamente à tendência, normalmente no decorrer de um ano;

• outros movimentos oscilatórios: que se caracterizam por ciclos longos rela-cionados com períodos de expansão ou depressão mas que nem sempre se conseguem distinguir facilmente da tendência.

Desta decomposição, resultam os resíduos, que deverão apresentar uma estrutura não discernível e não ser temporalmente correlacionados, considerando ainda a pre-sença de um ruído branco.

Dentro dos modelos mais tradicionais, temos modelos aditivos, multiplicativos e mistos, sendo que estes últimos misturam componentes aditivas com multiplicativas. No estudo que se segue, não vamos contemplar movimentos oscilatórios nas de-composições feitas, uma vez que não temos informação suficiente para identificar a existência dos mesmos nas séries consideradas.

Funções de autocovariância, autocorrelação e autocorrelação parcial

No nosso caso de estudo temos séries temporais em tempo discreto. Por conseguinte, passaremos a adotar a notação Xt em detrimento de X(t).

(34)

• Função de autocovariância

γk = Cov [Xt, Xt+k] = E [(Xt− µ)(Xt+k − µ)] (3.5)

Esta função mede a intensidade com que pares de valores do processo, separados por um intervalo de amplitude k, se acompanham. Verifica-se:

1. γ0 = σ2 = V ar [Xt];

2. γk= γ−k, ou seja, é uma função par;

3. |γk| ≤ γ0

• Função de autocorrelação (FAC)

ρk = Corr [Xt, Xt+k] =

γk

γ0

= Cov[Xt, Xt+k]

σ2 (3.6)

Esta função mede a correlação entre pares de valores do processo separados por um intervalo de amplitude k. Tem-se:

1. ρ0 = 1;

2. ρk = ρ−k, ou seja, é uma função par;

3. |ρk| ≤ 1.

• Função de autocorrelação parcial (FACP)

φkk= |P∗ k| |Pk| = -1 ρ1 ... ρk−2 ρ1 ρ1 1 ... ρk−3 ρ2 ... ... ... ... ... ρ_k−1 ρ_k−2 ... ρ1 ρk -1 ρ1 ρ2 ... ρk−1 ρ1 1 ρ1 ... ρk−2 ... ... ... ... ... ρ_k−1 ρ_k−2 ρ_k−3 ... 1 -(3.7)

Com esta função estuda-se a correlação parcial entre Xte Xt+k, quando se fixam as

variáveis intermédias Xt+1, Xt+2, ..., Xt+k−1. A título de exemplo, tem-se:

1. φ11= ρ1; 2. φ22= ρ 2_−ρ21 1−ρ2 1 ; 3. φ33= ρ3(1−ρ2₁)+ρ1(ρ2₁+ρ2₂_−2ρ2) (1−ρ2)(1+ρ2_−2ρ21) .

Através da representação gráfica das duas últimas funções, é possível tirar conclu-sões acerca da estacionaridade da série e, consequentemente, da necessidade de fazer

(35)

diferenciação. Tal como se explicará na secção seguinte, as funções de correlação to-tal e parcial são também bastante úteis para ajudar a identificar modelos adequados para os dados em estudo.

3.1.1 Os modelos ARIMA(p,d,q) e SARIMA(p,d,q)(P,D,Q)

s

Os principais processos estacionários não sazonais são representados pelos processos autorregressivos de ordem p, AR(p), os processos de médias móveis de ordem q, MA(q) e os processos mistos autorregressivos e de médias móveis ARMA(p,q). No caso de um processo AR(p), vem

Xt= φ1Xt−1+ φ2Xt−2+ ... + φpXt−p+ εt (3.8)

Onde εt é um ruído branco, ou seja,

(1 − φ1B− φ2B2− ... − φpBp)Xt= εt (3.9)

onde B identifica o operador retardo, tal que Bk_X

t= Xt−k.

No caso de um processo MA(q), tem-se

Xt= εt− θ1εt−1− θ2εt−2− ... − θqεt−q (3.10)

ou

Xt= (1 − θ1B − θ2B2− ... − θqBq)εt (3.11)

Considerando

Φp(B) = (1 − φ1B − φ2B2− ... − φpBp) e Θq(B) = (1 − θ1B− θ2B2− ... − θqBq)

as equações para os processos AR(p), MA(q) e ARMA(p,q) são as apresentadas na Tabela 3.1.

Modelo Equação

AR(p) Φp(B)Xt= εt

MA(q) Xt= Θq(B)εt

ARMA(p,q) Φp(B)Xt = Θq(B)εt

(36)

No caso da falha de estacionaridade, poder-se-á mostrar útil a operação de diferen-ciação de Xt. Tal poderá significar que o novo processo Xt− Xt−1 = (1 − B)Xt ou,

generalizando, (1 − B)d_X

t já é estacionário. Este novo processo designa-se por

pro-cesso integrado de ordem d. Por exemplo, caso Xt apresente uma tendência linear,

então d igual a 1 poderá ser suficiente para garantir um processo estacionário na média; ou caso se trate de uma tendência quadrática, então deverá ser necessário recorrer a uma diferenciação de ordem 2.

Torna-se, então, importante apresentar os processos integrados mistos, ARIMA(p,d,q), que contemplam um qualquer modelo ARMA(p,q) e diferenciação de ordem d

(1 − φ1B− φ2B2− ... − φpBp)(1 − B)dXt= (1 − θ1B− θ2B2− ... − θqBq)εt (3.12)

Esta equação pode ser reescrita usando a notação anteriormente apresentada para os modelos estacionários e considerando ∇d_{= (1 − B)}d_{, ficando}

Φp(B)∇dXt= Θq(B)εt (3.13)

Se os modelos incluirem drift, a equção (3.13) pode ser reescrita, obtendo-se

Φp(B)∇d(Xt− Dr) = Θq(B)εt (3.14)

com Dr a representar o valor do drift.

Quando os processos identificados em (3.13) contemplam também uma componente sazonal passam a designar-se por SARIMA(p,d,q)(P,D,Q) s , onde (p,d,q) identifi-cam as ordens da parte não sazonal, (P,D,Q) as ordens da parte sazonal e s o período contemplado em cada intervalo da sazonalidade. Neste caso, tem-se

NP(B)Φp(B)∇d∇DsXt= Θq(B)HQ(B)εt (3.15)

onde NP(B) = (1 − ν1Bs − ... − νPBsP), HQ(B) = (1 − η1Bs − ... − ηQBsQ) e

∇D

s = (1 − Bs)D.

Seleção de modelos

Quando não é muito claro através da análise do comportamento da FAC e da FACP qual o tipo de modelo a escolher para modelizar uma qualquer série temporal, é co-mum recorrer-se ao cálculo de um critério sugerido por Akaike em 1974. O Critério

(37)

de Akaike, cuja sigla habitualmente usada é AIC (do inglês Akaike´s Information

Criterion), é um critério que penaliza os modelos que têm um grande número de

parâmetros, tendo em conta a função de verosimilhança. A decisão entre dois mo-delos pode ser feita através da opção pelo modelo em que este critério é minimizado [Emiliano et al., 2010]. Seja m = p + q + P + Q, ou seja, m é o número total de parâmetros considerados, então tem-se

AIC = −2logL + 2m (3.16)

onde L denota o valor devolvido pela função de verosimilhança.

Existem algumas variações deste critério que também são frequentemente conside-radas, como o BIC e o AICc, ou seja, o Bayesian Information Criterion, proposto

por Schwarz em 1978 e o Critério de Akaike Corrigido proposto por Bozdogan em 1987 [Emiliano et al., 2010].

3.1.2 Métodos de suavização exponencial

Os métodos de suavização exponencial surgiram no final da década de 50 do século XX, sendo Robert Goodell Brown (1959), Charles Holt (1957) e Peter Winters (1960) os maiores impulsionadores de entre todos os que contribuíram para a definição dos mesmos [Wheelwright et al., 1998]. Esta metodologia surgiu na tentativa de fazer previsões mais precisas de inventários, mas tem sido alargada, tornando-se prática e aplicada a variadas problemáticas.

Uma extensão natural do processo de médias móveis é a utilização de médias mó-veis pesadas, de tal forma que nem todas as observações consideradas contribuam da mesma forma para a previsão. Espera-se que valores mais recentes forneçam melhores indicações do comportamento futuro da variável em causa. Os métodos de suavização exponencial operam debaixo desse princípio, atribuindo pesos expo-nencialmente menores conforme a observação é mais antiga. Existe uma variedade considerável de métodos de suavização exponencial, sendo que a característica de atribuir mais peso às observações mais recentes nas previsões é comum a todos eles. Existem 15 tipos de modelos de suavização exponencial que resultam da combinação dos vários tipos de tendência com os vários tipos de sazonalidade, de acordo com [Hyndman and Khandakar, 2007] conforme descrito na Tabela 3.2.

(38)

Capítulo 3 Enquadramento Teórico Sazonalidade

Tendência _{(Nula) (Aditiva) (Multiplicativa)}N A M

N (Nula) N,N N,A N,M

A (Aditiva) A,N A,A A,M

Ad(Aditiva Amortecida) Ad,N Ad,A Ad,M

M (Multiplicativa) M,N M,A M,M

Md(Multiplicativa Amortecida) Md,N Md,A Md,M

Tabela 3.2: Tipos de tendência e sazonalidade em suavização exponencial

Quando a estas duas componentes se acrescenta a componente associada ao erro, A (aditivo) ou M (multiplicativo), fica-se com um triplo de iniciais que identificam o tipo de modelo de suavização exponencial definido. Estes modelos são habitual-mente designados por modelos ETS (do Inglês, Error, Trend and Seasonal). Por conseguinte, a primeira letra do triplo identifica o tipo de erro, a segunda a ten-dência e a terceira a sazonalidade. A notação utilizada na definição das equações associadas a cada uma das componentes é a seguinte:

• t define o tempo considerado;

• lt denota o nível da série no momento t;

• bt denota o declive da série no momento t, ou seja, a tendência a médio/longo

prazo;

• st denota a componente sazonal da série no momento t;

• m denota o número de observações dentro do período considerado para a sazonalidade;

• α é a constante associada ao nível da série; • β é a constante associada ao declive da série; • γ é a constante associada à sazonalidade da série; • ˆyt+k é a previsão considerando um avanço de k passos.

Quando a tendência é amortecida (aditiva ou multiplicativa) torna-se necessário es-timar um outro parâmetro, φ, que integrará a equação associada a esta componente. Uma vez que as fórmulas apresentadas para estes modelos são recursivas, convém estabelecer os valores iniciais para cada uma delas.

O modelo mais simples de entre todos os possíveis na suavização exponencial é aquele onde não existe nem tendência, nem sazonalidade, ou seja, é um método do tipo *NN, onde * representa qualquer tipo de erro (multiplicativo ou aditivo). Neste caso, assume-se que não existe tendência nem sazonalidade e que os valores oscilam em torno de uma média estável. Assim, apenas se define uma equação para o nível

lt, lt = αyt+ (1 − α)lt−1 , e uma equação para a previsão, ˆyt+k = lt.

(39)

3.2 Modelos de regressão linear

Conforme os modelos contemplam as restantes componentes, tendência e sazonali-dade, torna-se necessário estabelecer mais equações, nomeadamente uma para cada componente, cujos valores apurados são depois integrados no cálculo das previsões. A título de exemplo apresentam-se as equações (3.16), (3.17) e (3.18) das compo-nentes de um modelo do tipo *AM, ou seja, que considera a tendência aditiva e a sazonalidade multiplicativa, e a respetiva equação de previsão (3.19).

lt= α (yt− st−m) + (1 − α) (lt−1+ bt−1) (3.17)

bt= β (lt− lt−1) + (1 − β) bt−1 (3.18)

st = γ (yt− lt−1− bt−1) + (1 − γ)st−m (3.19)

ˆ

yt+k = (lt+ kbt) st−m+k (3.20)

A totalidade das equações para todos os modelos teóricos pode ser consultada em [Gardner, 2006].

3.2 Modelos de regressão linear

A informação e conceitos compilados nesta secção baseiam-se maioritariamente nos trabalhos de [Fahrmeir et al., 2013] e [Hyndman and Athanasopoulos, 2014].

Quando se estuda a evolução de uma variável Y tendo em conta p variáveis explica-tivas ou independentes X1, X2, ..., Xp através de uma relação do tipo da apresentada

na equação Y = β0+ β1x1+ .... + βpxp+ Ô, dizemos que estamos perante um modelo

de regressão linear múltipla. Os parâmetros ou coeficientes de regressão desconhe-cidos são os β0, β1, ..., βp e Ô é o erro aleatório com distribuição normal de média 0

e variância σ2_{. O parâmetro β}

0 representa o valor esperado que a variável Y toma

quando as variáveis explicativas são todas simultaneamente iguais a zero e βj

repre-senta a alteração observada no valor esperado de Y quando a variável Xj é alterada

numa unidade e todas as outras variáveis explicativas se mantêm constantes. Considerando uma amostra, para cada observação i, tem-se um valor associado para cada uma das variáveis independentes, designado por xij, com j = 1, ..., p, i =

(40)

1, ..., n. Da mesma forma, para a variável dependente Y , cada indivíduo i tem uma resposta aleatória associada, designada yi. Assim, para um indivíduo i, tem-se

yi = β0+ β1xi1+ .... + βpxip+ Ôi, i= 1, . . . , n (3.21)

onde β0, β1, ..., βp são os parâmetros desconhecidos do modelo e Ôi é o erro aleatório

associado à observação da resposta da indivíduo i com distribuição normal de média 0 e variância σ2_.

Nestes casos, o modelo obtido representa-se graficamente através de uma superfície. A utilização de notação matricial facilita os cálculos neste tipo de modelos, podendo o modelo ser representado por

Y = Xβ + Ô (3.22) onde Y =       Y1 Y2 ... Yn       , X =       1 x11 . . . x1p 1 x21 . . . x2p ... ... ... ... 1 xn1 . . . xnp       , β =       β0 β1 ... βp       e Ô =       Ô1 Ô2 ... Ôn      

em que Y é um vector coluna com n observações da variável resposta, X é uma matriz onde estão registados os valores das variáveis explicativas, β é um vector coluna de parâmetros do modelo de regressão e Ô é o vector coluna composto pelos valores dos erros aleatórios.

De acordo com [Osborne and Waters, 2002], os pressupostos usuais num modelo de regressão linear múltipla são os seguintes:

• E [Ôi] = 0, isto é, o valor esperado da distribuição dos erros aleatórios é zero;

• V ar [Ôi] = σ2,∀i, isto é, a variância da distribuição dos erros aleatórios é

constante e igual σ2 _{(homocedasticidade dos erros);}

• ÔÍ

is são variáveis aleatórias independentes;

• Ôi ∼ N (0, σ2) , i = 1, ..., n então Ô ∼ N (0, σ2In) onde Iné a matriz identidade

de ordem n;

• Cov [yi, yj] = 0, i Ó= j, i, j = 1, .., n, isto é as observações são independentes;

• as variáveis explicativas não devem estar correlacionadas.

Para obtenção de um qualquer modelo de regressão linear, torna-se necessário en-contrar o vector ˆβ =è βˆ0 βˆ1 . . . βˆp

éT

em que cada ˆβi é uma estimativa para o

parâmetro βi, i = 0, 1, ..., p do modelo de regressão linear. Na estimação dos

parâ-metros do modelo de regressão, o método mais habitual (e que será o adotado neste

(41)

3.2 Modelos de regressão linear

trabalho) é o Método dos Mínimos Quadrados. O vector de estimadores dos míni-mos quadrados ˆβ é aquele que se obtém o menor valor para a soma dos quadrados

dos erros (SSE), ou seja, é o que minimiza

SSE= n Ø i=1 Ô2_i = n Ø i=1 [yi− (β0+ β1xi1+ .... + βpxip)]2 = (Y − Xβ) T (Y − Xβ) (3.23)

Desta forma, o estimador dos mínimos quadrados será

ˆ

β =1XTX2−1XTY (3.24)

Avaliação da qualidade e significado da regressão

Após estimação dos parâmetros desconhecidos do modelo, deve-se avaliar a quali-dade do ajustamento do modelo obtido e o significado da regressão. Uma das forma de o fazer é através do coeficiente de determinação, R2_{, dado por}

R2 = 1 − SSE

SST (3.25)

onde SSE é a soma dos quadrados dos erros e SST é a soma dos quadrados dos desvios totais dada por qn

i=1(yi− y)

2_{, y}

i é o valor da observação i e ¯y é o valor médio

amostral da variável Y.

Se se pretende comparar dois modelos com o mesmo número de variáveis explicativas, pode-se utilizar o coeficiente de determinação R2_{, devendo-se optar pelo modelo que}

apresentar o valor mais próximo de 1. Contudo, se estamos a analisar modelos com um número diferente de variáveis explicativas, este coeficiente pode induzir em erro. O valor de R2 _{aumenta com a introdução de variáveis explicativas, mesmo que estas}

não sejam significativas. No caso de os modelos não contemplarem o mesmo número de variáveis explicativas, a decisão sobre qual o mais adequado pode ser tomada escolhendo o que apresentar o maior valor no coeficiente de determinação ajustado,

R2

a, de acordo com a equação (3.25).

R2a= 1 − SSE n−p−1 SST n−1 (3.26)

onde n é o número de observações consideradas e p é o número de variáveis explica-tivas no modelo.

(42)

Os valores de R2 _{e R}2

avariam entre 0 e 1. Quanto mais próximos de 1, melhor será o

ajustamento do modelo, uma vez que esse valor é interpretado como a percentagem de variabilidade de Y que é explicada pelo modelo de regressão linear.

Análise de resíduos

A análise de resíduos é uma ferramenta utilizada para verificar a não violação dos pressupostos do modelo. Quando um modelo viola os pressupostos estabelecidos deve ser posto em causa, pois toda a inferência se baseia nos mesmos.

Um resíduo ei é dado por ei = yi− ˆyi = yi− ˆ(β0+ ˆβ1xi1+ · · · + ˆβjxij), i = 1, ..., n,

ou seja, um resíduo é a diferença entre o valor da observação e o valor estimado da observação através do modelo obtido usando p variáveis explicativas. Os pressu-postos que devem ser analisados são: normalidade, média nula, variância constante, independência dos erros e a independência das variáveis explicativas integradas no modelo.

1. Normalidade dos erros

Entre outras técnicas, o pressuposto da normalidade dos erros pode ser verificado através da representação do gráfico Q-Q Normal dos resíduos. Se os pontos deste gráfico se apresentarem aproximadamente sobrepostos a uma reta, então verifica-se a normalidade dos erros associados ao modelo.

2. Média nula, variância constante e independência dos erros

Uma forma prática de verificar o cumprimento destes pressupostos é através da re-presentação gráfica dos resíduos ei versus valores estimados ˆyi. Para que os

pressu-postos sejam cumpridos, a nuvem de pontos gerada deve distribuir-se aleatoriamente em torno da reta correspondente ao resíduo zero. Se esta nuvem não está em torno da reta do resíduo zero, o pressuposto de média nula é quebrado. Se a nuvem apre-senta uma dispersão de pontos que aumenta ou diminui com o aumentar dos valores estimados ˆyi, o pressuposto de variância constante é posto em causa. A

independên-cia dos erros verifica-se caso a nuvem de pontos não apresente um qualquer padrão identificável.

3. Testar a independência das variáveis explicativas (multicolinearidade)

A não existência de correlação entre as várias variáveis explicativas integradas no modelo é um pressuposto a validar num qualquer modelo de regressão linear. A relação entre as variáveis independentes pode ser avaliada recorrendo:

• ao VIF (Variance Inflation Factor), com V IF = _1−R1 2

j, onde R

2

j é o coeficiente

de determinação da regressão da variável Xj em função das outras variáveis

explicativas. Se VIF≈ 1 há independência entre as variáveis explicativas, se VIF≥ 10 existe dependência linear entre as variáveis explicativas.

(43)

4 Modelação de dados

4.1 Análise inicial das bases de dados

Os dados a estudar dividem-se em dois tipos, tendo em conta a posição das empresas relativamente a limiares estabelecidos, relativamente ao volume de importações ou exportações intracomunitárias. Assim, os dados contemplam:

• valores totais apurados para empresas cujo volume de importações ou expor-tações dentro da União Europeia não atinge o limiar estabelecido (grupo de empresas abx) e que, por isso, não são obrigadas a comunicar os valores apu-rados nestas transações através do INTRASTAT;

• valores totais associados às transações das empresas do grupo INTRA, ou seja, empresas cujo volume de importações e/ou exportações dentro da UE ultrapassam os valores estabelecidos nos limiares de assimilação e que, por isso, têm obrigatoriedade de fornecer informação sobre as mesmas através do INTRASTAT.

Na primeira situação há necessidade de estimar os valores por não haver uma fonte de onde se possa recolher atempadamente essa informação. Na segunda situação, uma vez que o fornecimento da informação nem sempre acontece atempadamente ou não corresponde à realidade e é alvo de correções, quando é necessário proceder a uma divulgação por parte do INE, torna-se necessário estimar os valores em falta, ou seja, os valores de não resposta.

A primeira base de dados, relativa aos dados abaixo dos limiares de assimilação (só referente ao grupo abx), contempla os valores apurados para 40 trimestres (do início de 2002 ao final de 2012) e será designada pela sigla abx ao longo deste trabalho. A base de dados relativa aos valores totais de importações e exportações realizadas com países da União Europeia, incluindo todas as vertentes incorporadas nos mesmos (grupo abx e grupo INTRA), contempla 36 valores mensais (de 2009 a 2012) para cada uma das variáveis. Esta base de dados tomará a designação Totais ao longo do presente trabalho.

Base de dados abx

A base de dados abx, inclui as variáveis descritas na Tabela 4.1. A Tabela 4.2 resume algumas das principais estatísticas descritivas das variáveis quantitativas imp e exp

(44)

Capítulo 4 Modelação de dados

da base de dados abx. Estas duas variáveis serão as variáveis de interesse a estudar posteriormente, ou seja, são as variáveis que se pretende estimar.

Designação Descrição Níveis

ano ano a que os dados dizem respeito de 2003 a 2012

trim trimestre a que os dados dizem respeito 1,2,3,4 imp valor total das importações - empresas abx –

exp valor total das exportações - empresas abx –

Tabela 4.1: Variáveis incluídas na base de dados abx

Valores em milhões de euros

variável mínimo 1.º quartil média mediana 3.º quartil máximo

imp 183,6 234,0 316,7 286,7 401,2 522,5

exp 81,9 112,4 152,7 159,7 189,1 246,4

Tabela 4.2: Principais estatísticas descritivas das variáveis importações e exporta-ções da base de dados abx (em milhões de euros)

Pela análise dos valores apresentados na Tabela 4.2, facilmente se verifica que o volume das importações realizadas por empresas abaixo dos limiares de assimilação dentro da União Europeia é muito superior ao volume das exportações. Analisando a Figura 4.1, no caso das importações, os valores têm uma distribuição assimétrica positiva e não existem outliers. Os valores das exportações não apresentam clara-mente qualquer tipo de assimetria. Quer num caso quer no outro, os dados não parecem enquadrar-se dentro do esperado em dados que obedecem a uma distribui-ção normal. As duas variáveis resposta têm periodicidade trimestral, pelo que é importante verificar a sua dispersão, tendo em conta a que trimestre correspondem as observações. Quer no caso das exportações, quer no caso das importações, o último trimestre de cada ano é onde se registam valores superiores, apresentando os restantes trimestres valores bastante semelhantes.