• Nenhum resultado encontrado

Conforme os modelos contemplam as restantes componentes, tendência e sazonali- dade, torna-se necessário estabelecer mais equações, nomeadamente uma para cada componente, cujos valores apurados são depois integrados no cálculo das previsões. A título de exemplo apresentam-se as equações (3.16), (3.17) e (3.18) das compo- nentes de um modelo do tipo *AM, ou seja, que considera a tendência aditiva e a sazonalidade multiplicativa, e a respetiva equação de previsão (3.19).

lt= α (yt− st−m) + (1 − α) (lt−1+ bt−1) (3.17)

bt= β (lt− lt−1) + (1 − β) bt−1 (3.18)

st = γ (yt− lt−1− bt−1) + (1 − γ)st−m (3.19)

ˆ

yt+k = (lt+ kbt) st−m+k (3.20)

A totalidade das equações para todos os modelos teóricos pode ser consultada em [Gardner, 2006].

3.2 Modelos de regressão linear

A informação e conceitos compilados nesta secção baseiam-se maioritariamente nos trabalhos de [Fahrmeir et al., 2013] e [Hyndman and Athanasopoulos, 2014].

Quando se estuda a evolução de uma variável Y tendo em conta p variáveis explica- tivas ou independentes X1, X2, ..., Xp através de uma relação do tipo da apresentada

na equação Y = β0+ β1x1+ .... + βpxp+ Ô, dizemos que estamos perante um modelo

de regressão linear múltipla. Os parâmetros ou coeficientes de regressão desconhe- cidos são os β0, β1, ..., βp e Ô é o erro aleatório com distribuição normal de média 0

e variância σ2. O parâmetro β

0 representa o valor esperado que a variável Y toma

quando as variáveis explicativas são todas simultaneamente iguais a zero e βj repre-

senta a alteração observada no valor esperado de Y quando a variável Xj é alterada

numa unidade e todas as outras variáveis explicativas se mantêm constantes. Considerando uma amostra, para cada observação i, tem-se um valor associado para cada uma das variáveis independentes, designado por xij, com j = 1, ..., p, i =

Capítulo 3 Enquadramento Teórico

1, ..., n. Da mesma forma, para a variável dependente Y , cada indivíduo i tem uma resposta aleatória associada, designada yi. Assim, para um indivíduo i, tem-se

yi = β0+ β1xi1+ .... + βpxip+ Ôi, i= 1, . . . , n (3.21)

onde β0, β1, ..., βp são os parâmetros desconhecidos do modelo e Ôi é o erro aleatório

associado à observação da resposta da indivíduo i com distribuição normal de média 0 e variância σ2.

Nestes casos, o modelo obtido representa-se graficamente através de uma superfície. A utilização de notação matricial facilita os cálculos neste tipo de modelos, podendo o modelo ser representado por

Y = Xβ + Ô (3.22) onde Y =       Y1 Y2 ... Yn       , X =       1 x11 . . . x1p 1 x21 . . . x2p ... ... ... ... 1 xn1 . . . xnp       , β =       β0 β1 ... βp       e Ô =       Ô1 Ô2 ... Ôn      

em que Y é um vector coluna com n observações da variável resposta, X é uma matriz onde estão registados os valores das variáveis explicativas, β é um vector coluna de parâmetros do modelo de regressão e Ô é o vector coluna composto pelos valores dos erros aleatórios.

De acordo com [Osborne and Waters, 2002], os pressupostos usuais num modelo de regressão linear múltipla são os seguintes:

• E [Ôi] = 0, isto é, o valor esperado da distribuição dos erros aleatórios é zero;

• V ar [Ôi] = σ2,∀i, isto é, a variância da distribuição dos erros aleatórios é

constante e igual σ2 (homocedasticidade dos erros);

• ÔÍ

is são variáveis aleatórias independentes;

• Ôi ∼ N (0, σ2) , i = 1, ..., n então Ô ∼ N (0, σ2In) onde Iné a matriz identidade

de ordem n;

• Cov [yi, yj] = 0, i Ó= j, i, j = 1, .., n, isto é as observações são independentes;

• as variáveis explicativas não devem estar correlacionadas.

Para obtenção de um qualquer modelo de regressão linear, torna-se necessário en- contrar o vector ˆββˆ0 βˆ1 . . . βˆp

éT

em que cada ˆβi é uma estimativa para o

parâmetro βi, i = 0, 1, ..., p do modelo de regressão linear. Na estimação dos parâ-

metros do modelo de regressão, o método mais habitual (e que será o adotado neste

3.2 Modelos de regressão linear

trabalho) é o Método dos Mínimos Quadrados. O vector de estimadores dos míni- mos quadrados ˆβ é aquele que se obtém o menor valor para a soma dos quadrados

dos erros (SSE), ou seja, é o que minimiza

SSE= n Ø i=1 Ô2i = n Ø i=1 [yi− (β0+ β1xi1+ .... + βpxip)]2 = (Y − Xβ) T (Y − Xβ) (3.23)

Desta forma, o estimador dos mínimos quadrados será

ˆ

β =1XTX2−1XTY (3.24)

Avaliação da qualidade e significado da regressão

Após estimação dos parâmetros desconhecidos do modelo, deve-se avaliar a quali- dade do ajustamento do modelo obtido e o significado da regressão. Uma das forma de o fazer é através do coeficiente de determinação, R2, dado por

R2 = 1 − SSE

SST (3.25)

onde SSE é a soma dos quadrados dos erros e SST é a soma dos quadrados dos desvios totais dada por qn

i=1(yi− y)

2, y

i é o valor da observação i e ¯y é o valor médio

amostral da variável Y.

Se se pretende comparar dois modelos com o mesmo número de variáveis explicativas, pode-se utilizar o coeficiente de determinação R2, devendo-se optar pelo modelo que

apresentar o valor mais próximo de 1. Contudo, se estamos a analisar modelos com um número diferente de variáveis explicativas, este coeficiente pode induzir em erro. O valor de R2 aumenta com a introdução de variáveis explicativas, mesmo que estas

não sejam significativas. No caso de os modelos não contemplarem o mesmo número de variáveis explicativas, a decisão sobre qual o mais adequado pode ser tomada escolhendo o que apresentar o maior valor no coeficiente de determinação ajustado,

R2

a, de acordo com a equação (3.25).

R2a= 1 − SSE n−p−1 SST n−1 (3.26)

onde n é o número de observações consideradas e p é o número de variáveis explica- tivas no modelo.

Capítulo 3 Enquadramento Teórico

Os valores de R2 e R2

avariam entre 0 e 1. Quanto mais próximos de 1, melhor será o

ajustamento do modelo, uma vez que esse valor é interpretado como a percentagem de variabilidade de Y que é explicada pelo modelo de regressão linear.

Análise de resíduos

A análise de resíduos é uma ferramenta utilizada para verificar a não violação dos pressupostos do modelo. Quando um modelo viola os pressupostos estabelecidos deve ser posto em causa, pois toda a inferência se baseia nos mesmos.

Um resíduo ei é dado por ei = yi− ˆyi = yi− ˆ0+ ˆβ1xi1+ · · · + ˆβjxij), i = 1, ..., n,

ou seja, um resíduo é a diferença entre o valor da observação e o valor estimado da observação através do modelo obtido usando p variáveis explicativas. Os pressu- postos que devem ser analisados são: normalidade, média nula, variância constante, independência dos erros e a independência das variáveis explicativas integradas no modelo.

1. Normalidade dos erros

Entre outras técnicas, o pressuposto da normalidade dos erros pode ser verificado através da representação do gráfico Q-Q Normal dos resíduos. Se os pontos deste gráfico se apresentarem aproximadamente sobrepostos a uma reta, então verifica-se a normalidade dos erros associados ao modelo.

2. Média nula, variância constante e independência dos erros

Uma forma prática de verificar o cumprimento destes pressupostos é através da re- presentação gráfica dos resíduos ei versus valores estimados ˆyi. Para que os pressu-

postos sejam cumpridos, a nuvem de pontos gerada deve distribuir-se aleatoriamente em torno da reta correspondente ao resíduo zero. Se esta nuvem não está em torno da reta do resíduo zero, o pressuposto de média nula é quebrado. Se a nuvem apre- senta uma dispersão de pontos que aumenta ou diminui com o aumentar dos valores estimados ˆyi, o pressuposto de variância constante é posto em causa. A independên-

cia dos erros verifica-se caso a nuvem de pontos não apresente um qualquer padrão identificável.

3. Testar a independência das variáveis explicativas (multicolinearidade)

A não existência de correlação entre as várias variáveis explicativas integradas no modelo é um pressuposto a validar num qualquer modelo de regressão linear. A relação entre as variáveis independentes pode ser avaliada recorrendo:

• ao VIF (Variance Inflation Factor), com V IF = 1−R1 2

j, onde R

2

j é o coeficiente

de determinação da regressão da variável Xj em função das outras variáveis

explicativas. Se VIF≈ 1 há independência entre as variáveis explicativas, se VIF≥ 10 existe dependência linear entre as variáveis explicativas.

4 Modelação de dados

4.1 Análise inicial das bases de dados

Os dados a estudar dividem-se em dois tipos, tendo em conta a posição das empresas relativamente a limiares estabelecidos, relativamente ao volume de importações ou exportações intracomunitárias. Assim, os dados contemplam:

• valores totais apurados para empresas cujo volume de importações ou expor- tações dentro da União Europeia não atinge o limiar estabelecido (grupo de empresas abx) e que, por isso, não são obrigadas a comunicar os valores apu- rados nestas transações através do INTRASTAT;

• valores totais associados às transações das empresas do grupo INTRA, ou seja, empresas cujo volume de importações e/ou exportações dentro da UE ultrapassam os valores estabelecidos nos limiares de assimilação e que, por isso, têm obrigatoriedade de fornecer informação sobre as mesmas através do INTRASTAT.

Na primeira situação há necessidade de estimar os valores por não haver uma fonte de onde se possa recolher atempadamente essa informação. Na segunda situação, uma vez que o fornecimento da informação nem sempre acontece atempadamente ou não corresponde à realidade e é alvo de correções, quando é necessário proceder a uma divulgação por parte do INE, torna-se necessário estimar os valores em falta, ou seja, os valores de não resposta.

A primeira base de dados, relativa aos dados abaixo dos limiares de assimilação (só referente ao grupo abx), contempla os valores apurados para 40 trimestres (do início de 2002 ao final de 2012) e será designada pela sigla abx ao longo deste trabalho. A base de dados relativa aos valores totais de importações e exportações realizadas com países da União Europeia, incluindo todas as vertentes incorporadas nos mesmos (grupo abx e grupo INTRA), contempla 36 valores mensais (de 2009 a 2012) para cada uma das variáveis. Esta base de dados tomará a designação Totais ao longo do presente trabalho.

Base de dados abx

A base de dados abx, inclui as variáveis descritas na Tabela 4.1. A Tabela 4.2 resume algumas das principais estatísticas descritivas das variáveis quantitativas imp e exp

Capítulo 4 Modelação de dados

da base de dados abx. Estas duas variáveis serão as variáveis de interesse a estudar posteriormente, ou seja, são as variáveis que se pretende estimar.

Designação Descrição Níveis

ano ano a que os dados dizem respeito de 2003 a 2012

trim trimestre a que os dados dizem respeito 1,2,3,4 imp valor total das importações - empresas abx

exp valor total das exportações - empresas abx

Tabela 4.1: Variáveis incluídas na base de dados abx

Valores em milhões de euros

variável mínimo 1.º quartil média mediana 3.º quartil máximo

imp 183,6 234,0 316,7 286,7 401,2 522,5

exp 81,9 112,4 152,7 159,7 189,1 246,4

Tabela 4.2: Principais estatísticas descritivas das variáveis importações e exporta- ções da base de dados abx (em milhões de euros)

Pela análise dos valores apresentados na Tabela 4.2, facilmente se verifica que o volume das importações realizadas por empresas abaixo dos limiares de assimilação dentro da União Europeia é muito superior ao volume das exportações. Analisando a Figura 4.1, no caso das importações, os valores têm uma distribuição assimétrica positiva e não existem outliers. Os valores das exportações não apresentam clara- mente qualquer tipo de assimetria. Quer num caso quer no outro, os dados não parecem enquadrar-se dentro do esperado em dados que obedecem a uma distribui- ção normal. As duas variáveis resposta têm periodicidade trimestral, pelo que é importante verificar a sua dispersão, tendo em conta a que trimestre correspondem as observações. Quer no caso das exportações, quer no caso das importações, o último trimestre de cada ano é onde se registam valores superiores, apresentando os restantes trimestres valores bastante semelhantes.

4.1 Análise inicial das bases de dados

Figura 4.1: Boxplot dos montantes totais das exportações e importações por tri- mestre, obtidos a partir da base de dados abx

Base de dados Totais

A base de dados Totais contempla as variáveis discriminadas na Tabela 4.3. Designação Níveis Descrição

ano de 2010 a 2012 ano de referência fluxo 1: importações2: exportações tipo de movimento

mês de 1 a 12 mês de referência total ———– valor total apurado

declarado ———– dados declarados através do INTRASTAT abx ———– estimativas dos valores abaixo dos limiares mov_es ——— movimentos específicos

enr.disc ——— soma das previsões de estatística de nãoresposta com os valores das discrepâncias

acima ——– soma dos valores dos dados declarados com asprevisões das estatísticas de não resposta e discrepâncias totalnmov ——— valores totais excluindo os movimentos específicos

Tabela 4.3: Variáveis que compõe a base de dados Totais

O tratamento e modelação dos dados será efetuado tendo em conta o tipo de fluxo, se importações ou exportações. Por conseguinte, quando se consulta a base de dados

Capítulo 4 Modelação de dados

Totais, é importante especificar o tipo de fluxo em estudo. Por sugestão do grupo de

trabalho do INE, o estudo cingiu-se ao comportamento das variáveis total, totalnmov e acima e não sobre todas as variáveis apresentadas na Tabela 4.3. A Tabela 4.4 apresenta as principais estatísticas descritivas para estas três variáveis, no caso das importações.

Valores em milhões de euros

variável mínimo 1.º quartil média mediana 3.º quartil máximo

total 2 883 3 320 3 576 3 583 3 739 4 305 totalnmov 2 842 3 273 3 530 3 549 3 699 4 274 acima 2 745 3 143 3 383 3 398 3 559 4 071 Tabela 4.4: Principais estatísticas descritivas das variáveis total, totalnmov e acima

no caso das importações (em milhões de euros), extraídas da base de dados Totais

Os dados associados às variáveis total, totalnmov e acima têm um comportamento segundo o qual é razoável aceitar que estes seguem uma distribuição normal, sem que existam outliers. O teste de Shapiro-Wilks efetuado às três variáveis das importações apresentou um valor-p de 0.56 para a variável acima e 0.55 para as variáveis total e totalnmov. Os gráficos Q-Q Normal associados a cada uma das variáveis estão representados na Figura 4.2.

Figura 4.2: Gráfico Q-Q Normal das variáveis acima, total e totalnmov, respetiva- mente, valores registados para as importações

A Figura 4.3 apresenta, no caso das importações, as três séries temporais definidas à custa das variáveis total, totalnmov e acima. De forma similar, a Figura 4.4 apresenta as séries temporais obtidas à custa das exportações.

No caso das importações, a Figura 4.3 permite verificar que estas variáveis têm o mesmo tipo de comportamento ao longo do ano, registando os valores mais baixos

4.1 Análise inicial das bases de dados

nos meses de janeiro e agosto. Uma vez que estão relacionadas entre si, o tipo de comportamento não parece depender das componentes (movimentos específicos e valores das empresas abx) que são acrescentadas à variável acima para obter os valores totais. Assim, o valor associado aos movimentos específicos e às empresas abaixo dos limiares de assimilação não parece ter peso suficiente para alterar o comportamento dos valores totais relativamente ao comportamento registado pelas empresas acima dos limiares de assimilação.

Relativamente ao comportamento das variáveis consideradas no caso das exporta- ções, as principais estatísticas descritivas das mesmas estão indicadas na Tabela 4.5.

Valores em milhões de euros

variável mínimo 1.º quartil média mediana 3.º quartil máximo

total 1 836 2 364 2 559 2 573 2 819 3 005

totalnmov 1 811 2 317 2 537 2 553 2 797 2 995 acima 1 771 2 257 2 478 2 478 2 732 2 935

Tabela 4.5: Principais estatísticas descritivas das variáveis total, totalnmov e acima no caso das exportações (em milhões de euros), estraídas da base de dados Totais

Para o caso das exportações, e à semelhança do verificado no caso das importações, é razoável aceitar que estas três variáveis seguem uma distribuição normal, sem que existam valores extremos com comportamento desviante, ou seja, outliers.

A representação gráfica dos valores, presente na Figura 4.4, associados às três va- riáveis permite verificar que as diferenças entre elas não são muito vincadas e que o comportamento global ao longo do tempo é muito semelhante tal como acontecia no caso das importações. Os meses em que se registam valores mais baixos são agosto e dezembro. Tal como verificado no fluxo das importações, o comportamento global não é muito influenciado quer pelos valores asociados aos movimentos específicos, quer pelos valores apurados nas empresas que se situam abaixo dos limiares.

Capítulo 4 Modelação de dados

Figura 4.3: Evolução das variáveis total, totalnmov e acima das importações

Figura 4.4: Evolução das variáveis total, totalnmov e acima das exportações

Ao longo dos 36 meses observados, as exportações evidenciaram um crescimento positivo, com decréscimos acentuados nos meses de agosto e dezembro. Mesmo nes- tes meses, que registam os valores mais baixos ao longo do ano, quando analisados individualmente, registam um aumento significativo no que se refere ao volume de exportações. No caso das importações, não é evidente a existência de uma tendência (crescente ou decrescente). Da análise da evolução ao longo dos 36 meses de obser- vação apenas é possível concluir que a amplitude de valores registados ao longo do ano tem vindo a diminuir, com 2012 a registar valores mensais mais aproximados entre si.

Documentos relacionados