• Nenhum resultado encontrado

Previsão com agregação temporal univariada e multivariada: um caso de estudo no setor do retalho

N/A
N/A
Protected

Academic year: 2021

Share "Previsão com agregação temporal univariada e multivariada: um caso de estudo no setor do retalho"

Copied!
72
0
0

Texto

(1)

F

ACULDADE DE

E

NGENHARIA DA

U

NIVERSIDADE DO

P

ORTO

Previsão com agregação temporal

univariada e multivariada:

um caso de estudo no setor do retalho

Daniela Oliveira

Mestrado Integrado em Engenharia Eletrotécnica e de Computadores Orientador: Américo Azevedo

Co-orientador: Patrícia Ramos

(2)

c

(3)

Resumo

A previsão da procura é crucial no mercado económico atual. É esta previsão o centro das deci-sões nas empresas. O crescimento económico exponencial nos dias de hoje leva a uma necessidade acrescida de cada empresa no seu setor ser o mais competitiva possível, esta competitividade está diretamente relacionada com o modo de gestão da empresa. Um bom desempenho na previsão de procura é fulcral para o planeamento e gestão da empresa, tanto a nível tático, estratégico como operacional. Para produzir boas previsões é necessário identificar o método que melhor de ajusta aos dados. Identificar o melhor método de previsão é uma tarefa difícil e desafiante, que está ainda em descoberta.

Neste trabalho analisamos diferentes métodos de previsão de procura, de modo a perceber qual gera melhor previsões com base em medidas de erro. Pretende-se também mostrar que a agrega-ção temporal é uma vantagem e que ajuda a mitigar os erros feitos na previsão. São analisados, também, métodos que incluem regressores pois é do conhecimento comum que promoções e festi-vidades influenciam a procura e consumo dos bens, portanto métodos com inclusão de regressores são estudados de modo a entender se a adição destas variáveis trará melhoria à previsão.

(4)
(5)

Abstract

Forecasting demand is crucial in today’s economic marketplace. Forecasting is the center of decisions in companies. The exponential economic growth, nowadays, leads to an increased need for each company in its sector be as competitive as possible, this competitiveness is directly related to the way the company is managed. Good forecasting performance is fundamental to the planning and management of the company, whether tactical, strategic or operational. To produce good forecasts, it is necessary to identify the method that best fits the data. Identifying the best forecasting method is a difficult and challenging task, which is still being studied.

In this work, we analyze different methods of forecasting demand, in order to understand which generates better predictions based on error measures. It is also intended to show that tem-poral aggregation is an advantage and helps mitigate the errors made in the forecast. We also analyze methods that include regressors since it is common knowledge that promotions and fes-tivities influence the demand and consumption of goods, so methods with inclusion of regressors are studied to understand if adding these variables will improve the forecast.

(6)
(7)

Agradecimentos

O maior dos agradecimentos à co-orientadora Patrícia Ramos.

Daniela Oliveira

(8)
(9)

“O homem é do tamanho do seu sonho.”

Fernando Pessoa

(10)
(11)

Conteúdo

1 Introdução 1

1.1 Objetivos . . . 2

1.2 Estrutura da Dissertação . . . 2

2 Metodologias e estado de arte 3 2.1 Naïvesazonal . . . 3

2.2 Alisamento exponencial . . . 4

2.2.1 Alisamento exponencial simples . . . 4

2.2.2 Método de tendência linear de Holt . . . 6

2.2.3 Método de tendência exponencial . . . 7

2.2.4 Método de tendência amortecida . . . 8

2.2.5 Método sazonal de Holt-Winters . . . 9

2.2.6 Taxonomia dos métodos de alisamento exponencial . . . 11

2.2.7 Modelos de espaço de estados . . . 12

2.3 Multiple Aggregation Prediction Algorithm . . . 18

2.4 Regressão linear . . . 21

2.4.1 Seleção e regularização . . . 24

2.5 Análise de componentes principais . . . 28

2.6 Alisamento exponencial com regressores . . . 32

2.7 Multiple Aggregation Prediction Algorithmcom regressores . . . 33

3 Caso de estudo 37 3.1 Conjunto de dados . . . 37

3.2 Avaliação do desempenho da previsão . . . 39

3.3 Resultados . . . 43

3.4 Discussão . . . 48

4 Conclusões e Trabalho Futuro 51 4.1 Conclusões . . . 51

4.2 Trabalho Futuro . . . 52

Referências 53

(12)
(13)

Lista de Figuras

2.1 Fórmulas recursivas dos métodos de alisamento exponencial [1]. . . 13

2.2 Equações do modelo de espaço de estados de alisamento exponencial erro aditivo [1]. 16 2.3 Equações do modelo de espaço de estados de alisamento exponencial erro multi-plicativo [1]. . . 16

2.4 Fluxograma do Multiple Aggregation Prediction Algorithm (MAPA) [2]. . . 18

2.5 Previsão de componentes na formulação aditiva [2]. . . 19

2.6 Contornos das funções de erro e restrição para o LASSO [3]. . . 27

2.7 Fluxograma das etapas de cálculo para cada nível de agregação temporal do MA-PAx [4]. . . 35

3.1 "Rolling forecasting origin"com previsão a um passo. . . 41

(14)
(15)

Lista de Tabelas

2.1 Taxonomia dos métodos de alisamento exponencial [1]. . . 12

3.1 Número de SKUs e topologia de cada loja. . . 37

3.2 Áreas, número de SKUs em cada área e a percentagem. . . 38

3.3 Detalhe de categoria: número de SKUs por categoria, número médio de unidades vendidas, mediana das unidades vendidas e a percentagem de promoção. . . 40

3.4 Packagesutilizados no diversos métodos em R. . . 43

3.5 Resultado da análise de componentes principais para ETSx e MAPAx. . . 44

3.6 Resultados da avaliação da previsão para diferentes horizontes de previsão (MAPE, MdAPE e GMRMAE). . . 45

3.7 Resultados da avaliação da previsão para diferentes horizontes de previsão (GMR-RMSE, MASE e MdASE. . . 46

3.8 Resultado do rank médio de cada método para os diferentes horizontes de previsão e para as médias, e rank global. . . 47

(16)
(17)

Abreviaturas e Símbolos

AE Alisamento Exponencial

AES Alisamento Exponencial Simples

AIC Akaike’s Information Criterion

BIC Bayseniano Information Criterion

ETS Exponential Smoothing

GMRMAE Geometric Mean Relative Mean Absolute Error GMRRMSE Geometric Mean Relative Root Mean Square Error LASSO Least Absolute Shrinkage and Selection Operator MAPA Multi Aggregation Prediction Algorithm

MAPE Mean Absolute Percentage Error (

MASE Mean Absolute Scaled Error

MdAPE Median Absolute Percentage Error

MdASE Median Absolute Scaled Error

PCA Principal Componente Analysis

RSE Residual Standard Error

RSS Residual Sum of Squares

SKU Stock Keeping Unit

TSS Total Sum Square

(18)
(19)

Capítulo 1

Introdução

O crescimento económico do mercado, bem como o desenvolvimento tecnológico acentuado nos últimos anos, contribuíram para a necessidade acrescida das empresas serem competitivas no mercado atual para continuarem ativas.

Uma empresa poderá ser tanto mais competitiva no mercado quanto mais corretas as suas previsões forem, pois quanto melhor o desempenho destas previsões, melhor será efetuada a gestão de inventário e, portanto, evitando roturas como também acumulação de produtos.

As previsões são cruciais para empresas e para todas as decisões importantes de gestão. A previsão é a base do planeamento. Uma boa previsão da procura no setor do retalho é fulcral para uma empresa dominar a área em que atua, pois uma boa previsão da procura dos diversos produtos leva a uma melhor gestão estratégica, ou seja, a empresa conhece as necessidade do cliente e sabe como atuar sobre as mesmas.

A previsão da procura no setor do retalho leva também à melhoria da gestão operacional, pois se a empresa conhece a quantidade de produtos que irá necessitar e quando, poderá organizar-se de modo a diminuir tempo de espera de produto evitando rutura de inventário nas lojas.

Uma das razões pelas quais as grandes empresas fazem previsão de procura é para conseguir ser mais competitivas no que diz respeito aos preços e também às promoções. Perceber a pro-cura de um SKU quando este se encontra promovido ou não promovido leva a um planeamento estratégico diferente para cada produto.

Para uma empresa estudar os padrões de consumo e conseguir produzir uma previsão é essen-cial adequar um método de previsão aos dados.

Identificar o método mais apropriado para uma série temporal de modo a obter uma previsão precisa é uma tarefa desafiante e também decisiva no modo como a empresa opera, uma vez que são estas previsões que apoiam decisões tanto ao nível operacional, tático e estratégico. No entanto as previsões que apoiam estas decisões são de natureza inerentemente diferente, por exemplo decisões focadas no modo operacional exigem previsões muito detalhadas a um curto prazo, porém decisões a nível estratégico exigem previsões a longo prazo agregadas. [5]

(20)

2 Introdução

1.1

Objetivos

Para efetuar uma boa previsão é necessário primeiramente ajustar um modelo de previsão aos dados disponíveis. No entanto, um bom ajuste do modelo aos dados nem sempre gera boas previsões. De modo a encontrar o melhor modelo de previsão é necessário, primeiro, encontrar um modelo que se adequa aos dados e, de seguida, avaliar a qualidade deste modelo a gerar previsões. Assim, a avaliação do desempenho das previsões geradas é determinada considerando o quão bem um modelo desempenha em dados que não são utilizados para ajustar o modelo.

Parte do estudo feito neste trabalho é analisar seis modelos de previsão diferentes para um dado conjunto de dados. Esta análise é feita com base em medidas de erro estipuladas que serão calculadas, e de acordo com os valores obtidos perceber qual o método que se adequa melhor para o caso de estudo em questão.

O trabalho elaborado passa também por perceber o impacto que a agregação temporal tem na previsão de séries temporais. A agregação temporal é um assunto relativamente recente, mas já foi provado que é um método que produz melhores previsões, pois a agregação feita no conjunto de dados contribui para a mitigação do erro de previsão. Com este trabalho pretendemos mostrar que métodos que utilizam agregação temporal produzem melhores previsões, logo apresentam erros menores.

Assim os objetivos deste trabalho são claros, e passam por avaliar o desempenho dos seis modelos que serão apresentados no capítulo 2 e, também, analisar a importância da agregação temporal na previsão de séries temporais.

1.2

Estrutura da Dissertação

Para além da introdução, esta dissertação contém mais 3 capítulos. No capítulo2, é descrito o estado da arte atual, ou seja as metodologias que são utilizadas atualmente para resolver os problemas de previsão de procura. No capítulo 3, é descrito o caso de estudo, apresentando os dados, a avaliação do desempenho, os resultados obtidos e a discussão sobre estes. No capítulo4, capítulo final, é a conclusão sobre o trabalho efetuado e a apresentação de possíveis trabalhos futuros.

(21)

Capítulo 2

Metodologias e estado de arte

Neste capítulo são introduzidos todos os métodos de previsão de séries temporais1utilizados no desenvolvimento deste trabalho. Para fazer a análise à previsão de procura, recorremos aos seguintes métodos que serão explicados neste capítulo.

2.1

Naïve sazonal

O método naïve apesar de bastante simples por vezes é surpreendentemente eficaz. Neste mé-todo as previsões de mé-todos os valores futuros são iguais à última observação dos dados históricos, ou seja

ˆ

yT+h|T = yT (2.1)

onde yT é a observação da série temporal no instante T e ˆyT+h|T é a previsão de yT+h tendo em

conta todas as observações até ao instante T , com h = 1, 2, .... Assume que a última observação é a única importante e que todas as observações anteriores não fornecem informação relevante para futuras previsões [1].

Naïve no R

naive(y, h)

# y contém a série temporal # h é o horizonte de previsão

O método naïve sazonal é semelhante ao anterior mas mais adequado para séries temporais com forte sazonalidade. Cada previsão é igual ao último valor observado do respetivo período homólogo:

ˆ

yT+h|T = yT+h−km (2.2)

1Uma série temporal consiste num conjunto de observações de uma variável, feitas em períodos sucessivos de tempo,

durante um determinado intervalo.

(22)

4 Metodologias e estado de arte

onde m é o período sazonal e k = b(h − 1)/mc + 12.

Naïve Sazonal no R

snaive(y, h)

# y contém a série temporal # h é o horizonte de previsão

O método naïve, ou a sua versão sazonal, são habitualmente utilizados como benchmarks [6].

2.2

Alisamento exponencial

Os métodos de alisamento exponencial surgiram no final da década de 1950 e motivaram o aparecimento de alguns dos métodos de previsão mais bem sucedidos [1].

As previsões obtidas utilizando alisamento exponencial são médias ponderadas de observações passadas, com os pesos a decair exponencialmente com a antiguidade das observações. Ou seja, quanto mais recente a observação maior é o respetivo peso.

Esta metodologia gera previsões fiáveis rapidamente e para um amplo espectro de séries tem-porais.

O texto que se segue tem por base a exposição referida em [1].

2.2.1 Alisamento exponencial simples

O método de alisamento exponencial simples (AES) é o mais simples dos métodos de alisa-mento exponencial. É adequado para a previsão de séries temporais que não detenham nem padrão de tendência nem padrão de sazonalidade [7].

Pode dizer-se que é um método ponderado que se encontra entre o método naïve e o método da média (as previsões são iguais à média dos dados históricos), uma vez que o primeiro apenas valoriza a última observação e o segundo valoriza todas as observações com o mesmo peso. O mé-todo de AES valoriza as observações mais recentes em detrimento das observações mais antigas, mas não as desconsidera:

T−1

t=0

θtyT−t = yT+ θ yT−1+ θ2yT−2+ · · · + θT−1y1 (2.3)

onde 0 ≤ θ ≤ 1. Para que a soma dos pesos ∑T−1t=0 θt=1−θ

T

1−θ seja 1, tem de se multiplicar a equação 2.3por 1−θ1−θT. Uma vez que θT → 0 para grandes valores de T, a previsão 1-passo à frente para o

instante T + 1 vem: ˆ

yT+1|T = (1 − θ )(yT+ θ yT−1+ θ2yT−2+ · · · + θT−1y1) (2.4)

(23)

2.2 Alisamento exponencial 5

Isto é, as previsões são calculadas utilizando uma média ponderada onde os pesos diminuem exponencialmente à medida que as observações se tornam mais antigas.

O parâmetro de alisamento (ou amortecimento) θ controla a taxa de decrescimento dos pesos. Uma expressão alternativa à equação2.4na forma recursiva é:

ˆ

yT+1|T = (1 − θ )(yT+ θ yT−1+ θ2yT−2+ · · · + θT−1y1)

= (1 − θ )yT+ θ (1 − θ )(yT−1+ θ yT−2+ · · · + θT−2y1)

= (1 − θ )yT+ θ ˆyT|T −1 (2.5)

O método de AES pode ser representado de diferentes formas alternativas. A primeira, desig-nada por forma de média ponderada é dada por:

ˆ

yt+1|t = α yt+ (1 − α) ˆyt|t−1 (2.6)

onde α = 1 − θ é o parâmetro de alisamento (ou amortecimento), com 0 ≤ θ ≤ 1. Esta represen-tação evidencia que a previsão para o instante t + 1 é a média ponderada entre a observação mais recente yt e a previsão mais recente ˆyt|t−1.

Uma outra representação para o AES é a forma de componente. No método de AES existe apenas uma componente, que é o nível da série lt. As representações em forma de componente

dos métodos de alisamento exponencial (AE) incluem uma equação da previsão e uma equação do alisamento para cada uma das componentes existentes no método [8,9].

A representação do método de AES na forma de componente é:

Equação da previsão yˆt+1|t = lt (2.7)

Equação do nível lt = α yt+ (1 − α)lt−1 (2.8)

onde lt é o nível (ou valor alisado) da série no instante t. Substituindo lt por ˆyt+1|t e lt−1 por

ˆ

yt|t−1na equação do nível obtêm-se a forma de média ponderada (Equação2.6).

Por fim, a terceira forma do método de AES, designada por forma de correção de erro, obtém-se rearranjando a equação do nível (Equação2.8):

lt = lt−1+ α(yt− lt−1)

= lt−1+ αet (2.9)

onde et= yt− lt−1= yt− ˆyt|t−1 é o erro de previsão a 1-passo no instante t.

Atente-se que o erro de previsão leva ao ajustamento/correção do nível estimado. Se o erro no instante t é negativo, então ˆyt|t−1> yt logo o nível no instante t − 1 foi sobre-estimado, e então, o

novo nível lt será o nível anterior lt−1ajustado para baixo. E vice-versa.

Quanto mais próximo de 1 for o valor de α, mais rápidos serão os ajustamentos, e em oposto, quanto mais próximo de 0 for o valor de α, mais lentos serão os ajustamentos.

(24)

6 Metodologias e estado de arte

Alisamento exponencial simples no R

# oil - Produção anual de petróleo (em milhões de toneladas) na Arábia Saudita entre 1965 e 2010

oildata <- window(oil, start=1996, end=2007)

# initial="simple- valores iniciais obtidos usando as primeiras observações # h - node períodos das previsão (horizonte da previsão)

# alpha - valor do parâmetro de alisamento do nível

fit1 <- ses(oildata, alpha=0.2, initial="simple", h=3) fit2 <- ses(oildata, alpha=0.6, initial="simple", h=3)

2.2.2 Método de tendência linear de Holt

De modo a ser possível a previsão de dados com tendência, em 1957 Holt estendeu o método de AES. Este método envolve a equação de previsão e duas equações de alisamento para cada uma das componentes (uma para o nível e outra para a tendência) [7]:

Equação da previsão yˆt+h|t = lt+ hbt (2.10)

Equação do nível lt = α yt+ (1 − α)(lt−1+ bt−1) (2.11)

Equação da tendência bt = β∗(lt− lt−1) + (1 − β∗)bt−1 (2.12)

onde lt é a estimativa do nível da série no instante t, bt é a estimativa da tendência (declive) da

série no instante t, 0 ≤ α ≤ 1 é o parâmetro de alisamento do nível, 0 ≤ β∗≤ 1 é o parâmetro de alisamento da tendência e h = 1 é o passo da previsão.

Da mesma forma que no AES, a equação do nível denota que lt é a média ponderada entre a

observação mais recente yt e a previsão a 1-passo à frente mais recente (lt−1+ bt−1). A equação

da tendência mostra que bt é a média ponderada entre a tendência estimada mais recente (lt− lt−1)

e a última estimativa da tendência (bt−1).

A previsão h-passos à frente obtém-se adicionando a última estimativa do nível com a última estimativa da tendência multiplicada por h:

ˆ

yT+h|T = lT+ hbT (2.13)

A forma de correção do erro das equações do nível e da tendência do método de tendência linear de Holt mostram os ajustes em termos dos erros de previsão a 1-passo:

lt = lt−1+ bt−1+ αet (2.14)

(25)

2.2 Alisamento exponencial 7

onde et= yt− (lt−1+ bt−1) = yt− ˆyt|t−1.

Método de tendência linear de Holt no R

# ausair - Total anual de passageiros aéreos (em milhões) viajando em voos domésticos e internacionais na Austrália entre 1970-2009

ausairdata <- window(ausair, start=1990,end=2004)

fit <- holt(ausairdata, alpha=0.8, beta=0.2, initial="simple", h=5)

2.2.3 Método de tendência exponencial

O método de tendência exponencial é uma variante do método de tendência linear de Holt, referido anteriormente, que permite que o nível e o declive sejam multiplicados (em vez de adici-onados) [7]: Equação da previsão yˆt+h|t = ltbth (2.16) Equação do nível lt = α yt+ (1 − α)lt−1bt−1 (2.17) Equação da tendência bt = β∗ lt lt−1 + (1 − β∗)bt−1 (2.18)

onde lt é a estimativa do nível da série no instante t, bt é a estimativa da taxa de crescimento da

série no instante t, 0 ≤ α ≤ 1 é o parâmetro de alisamento do nível, 0 ≤ β∗≤ 1 é o parâmetro de alisamento da tendência e h = 1 é o passo da previsão. Assim, o método de tendência exponencial é a versão multiplicativa do método linear de Holt. A tendência na equação da previsão é expo-nencial ao invés de linear, logo as previsões projetam uma taxa de crescimento constante em vez de um declive constante.

A forma de correção do erro é:

lt = lt−1bt−1+ αet (2.19) bt = bt−1+ αβ∗ et lt−1 (2.20) onde et= yt− (lt−1+ bt−1) = yt− ˆyt|t−1.

Método de tendência exponencial no R

# ausair - Total anual de passageiros aéreos (em milhões) viajando em voos domésticos e internacionais na Austrália entre 1970-2009

ausairdata <- window(ausair, start=1990,end=2004)

(26)

8 Metodologias e estado de arte

2.2.4 Método de tendência amortecida

Método de tendência amortecida aditiva

O método de tendência amortecida aditiva surgiu em 1985 por Gardner e McKenzie, e consiste na inclusão de um parâmetro no método de tendência linear de Holt, que amortece a tendência (crescente ou decrescente) convergindo-a para uma linha plana.

Este método surgiu uma que que o método da tendência linear de Holt e o método de tendência exponencial tendiam a sobre-prever, sobretudo para horizontes de previsão longos.

Em conjunto com os parâmetros de alisamento 0 ≤ α ≤ 1 e 0 ≤ β∗≤ 1, o método de tendência amortecida aditiva inclui o parâmetro de amortecimento 0 < φ < 1:

Equação da previsão yˆt+h|t = lt+ (φ + φ2+ · · · + φh)bt (2.21)

Equação do nível lt = α yt+ (1 − α)(lt−1+ φ bt−1) (2.22)

Equação da tendência bt = β∗(lt− lt−1) + (1 − β∗)φ bt−1 (2.23)

De notar que se φ = 1 este método equivale ao método de tendência linear de Holt.

As previsões convergem para lT+1−φφ bT quando h → ∞, para qualquer 0 < φ < 1.

Consequen-temente, o efeito é que as previsões a curto prazo são amortecidas e as previsões a longo prazo são constantes.

A forma de correção do erro das equações do nível e da tendência do método de tendência amortecida aditiva é:

lt = lt−1+ φ bt−1+ αet (2.24)

bt = φ bt−1+ αβ∗et (2.25)

onde et = yt− (lt−1+ φ bt−1) = yt− ˆyt|t−1.

Método de tendência amortecida aditiva no R

# ausair - Total anual de passageiros aéreos (em milhões) viajando em voos domésticos e internacionais na Austrália entre 1970-2009

ausairdata <- window(ausair, start=1990,end=2004)

fit1 <- holt(ausairdata, alpha=0.8, beta=0.2, initial="simple", damped=TRUE, h=5)

Método de tendência amortecida multiplicativa

Estimulado pelo sucesso do desempenho das previsões do método de tendência amortecida aditiva, Taylor (2003) [10] introduziu o parâmetro de amortecimento 0 < φ < 1 no método de

(27)

2.2 Alisamento exponencial 9

tendência exponencial, surgindo o método de tendência amortecida multiplicativa: Equação da previsão yˆt+h|t = ltb(φ +φ 2+···+φh) t (2.26) Equação do nível lt = α yt+ (1 − α)lt−1bt−1φ (2.27) Equação da tendência bt = β∗ lt lt−1+ (1 − β ∗ )bφt−1 (2.28)

A forma de correção do erro das equações do nível e da tendência do método de tendência amortecida multiplicativa é: lt = lt−1+ bφt−1+ αet (2.29) bt = bφt−1+ αβ∗ et lt−1 (2.30) para t = 1, 2, . . . , T onde et= yt− lt−1bφt−1= yt−ˆt|t−1.

Os métodos que incluem tendência amortecida têm-se mostrado extremamente eficazes e são, habitualmente, os métodos individuais preferencialmente utilizados quando se pretendem previ-sões automáticas de uma grande quantidade de séries temporais.

2.2.5 Método sazonal de Holt-Winters

Holt (1957) e Winters (1960) estenderam o método de tendência linear de Holt para captar sazonalidade.

O método sazonal de Holt-Winters compreende a equação da previsão e três equações de alisamento: nível – lt, tendência – bt e sazonalidade – st, com os parâmetros de alisamento α, β∗

e γ, respetivamente.

O período de sazonalidade (denotado habitualmente por m) é o período de tempo regular (nú-mero de observações) em que o fenómeno periódico se repete. Este método é apropriado para séries que apresentam tendência linear e movimentos sazonais.

Existem duas variantes deste método que diferem na natureza da componente sazonal. O método aditivo utiliza-se quando as variações sazonais são aproximadamente constantes ao longo da série. A componente sazonal é expressa em termos absolutos nas unidades da série e a equação do nível é sazonalmente ajustada subtraindo a componente sazonal. Em cada período de sazonalidade a soma das componentes sazonais é aproximadamente 0.

O método multiplicativo utiliza-se quando as variações sazonais variam proporcionalmente com o nível da série. A componente sazonal é expressa em termos relativos (percentagem) e a equação do nível é sazonalmente ajustada dividindo a componente sazonal. Em cada período de sazonalidade a soma das componentes sazonais é aproximadamente m.

(28)

10 Metodologias e estado de arte

Método sazonal de Holt-Winters aditivo

A forma de componente para o método sazonal de Holt-Winters aditivo é: Equação da previsão yˆt+h|t = lt+ hbt+ st−m+h+

m (2.31)

Equação do nível lt = α (yt− st−m) + (1 − α)(lt−1+ bt−1) (2.32)

Equação da tendência bt = β∗(lt− lt−1) + (1 − β∗)bt−1 (2.33)

Equação de sazonalidade st = γ (yt− lt−1− bt−1) + (1 − γ)st−m (2.34)

onde lté a estimativa do nível da série no instante t, bté a estimativa da tendência (declive) da série

no instante t, st é a estimativa da sazonalidade da série no instante t, 0 ≤ α ≤ 1 é o parâmetro de

alisamento do nível, 0 ≤ β∗≤ 1 é o parâmetro de alisamento da tendência, 0 ≤ γ ≤ 1 é o parâmetro de alisamento da sazonalidade e h = 1 é o passo da previsão com h+m= b(h − 1) mod mc + 1.

A equação do alisamento para o nível mostra uma média ponderada entre a observação ajus-tada de sazonalidade (yt− st−m) e a previsão não sazonal (lt−1+ bt−1) para o instante t.

A equação do alisamento para a tendência é idêntica à equação da tendência do método de tendência linear de Holt (Equação2.12).

A equação do alisamento para a componente sazonal mostra uma média ponderada entre o índice sazonal corrente (yt− lt−1− bt−1) e o índice sazonal do instante homólogo do período de

sazonalidade anterior (st−m).

Note-se que h+m= b(h − 1) mod mc + 1 para assegurar que as estimativas dos índices sazonais

usadas para previsão provêm do último período homólogo da série.

A forma de correção do erro das equações de alisamento do método de Holt-Winters sazonal aditivo é:

lt = lt−1+ bt−1+ αet (2.35)

bt = bt−1+ αβ∗et (2.36)

st = st−m+ γet (2.37)

onde et = yt− (lt−1+ bt−1+ st−1) = yt− ˆyt|t−1é o erro de previsão a 1-passo no instante t.

Método sazonal de Holt-Winters multiplicativo

A forma de componente para o método sazonal de Holt-Winters multiplicativo é: Equação da previsão yˆt+h|t = (lt+ hbt)st−m+h+ m (2.38) Equação do nível lt = α yt st−m + (1 − α)(lt−1+ bt−1) (2.39) Equação da tendência bt = β∗(lt− lt−1) + (1 − β∗)bt−1 (2.40) Equação de sazonalidade st = γ yt lt−1+ bt−1 + (1 − γ)st−m (2.41)

(29)

2.2 Alisamento exponencial 11 multiplicativo é: lt = lt−1+ bt−1+ α et st−m (2.42) bt = bt−1+ αβ∗ et st−m (2.43) st = st−m+ γ et lt−1+ bt−1 (2.44) onde et= yt− (lt−1+ bt−1)st−1.

Método sazonal de Holt-Winters no R

# austourists - Total trimestral de noites (em milhões) passadas por turistas internacionais na Austrália entre 1999 e 2010

austouristsdata <- window(austourists,start=2005)

fit1 <- hw(austouristsdata, seasonal="additive") fit2 <- hw(austouristsdata, seasonal="multiplicative")

Método amortecido de Holt-Winters

Um método que é frequentemente o melhor método de previsão para dados sazonais é o método de Holt-Winters com uma tendência amortecida aditiva e sazonalidade multiplicativa.

A forma de componente deste método é:

Equação da previsão yˆt+h|t = [lt+ (φ + φ2+ · · · + φh)bt]st−m+h+ m (2.45) Equação do nível lt = α yt st−m + (1 − α)(lt−1+ φ bt−1) (2.46) Equação da tendência bt = β∗(lt− lt−1) + (1 − β∗)φ bt−1 (2.47) Equação de sazonalidade st = γ yt lt−1+ φ bt−1 + (1 − γ)st−m (2.48)

Método amortecido de Holt-Winters no R

# Método de Holt-Winters com tendência amortecida aditiva e sazonalidade multiplicativa fit3 <- hw(austouristsdata, seasonal="multiplicative", damped=TRUE)

2.2.6 Taxonomia dos métodos de alisamento exponencial

Tendo em consideração todas as combinações possíveis da componente de tendência e da componente sazonal obtêm-se 15 métodos de alisamento exponencial diferentes, que se mostram na Tabela2.1.

Cada método é identificado por um par de letras (T,S) que especifica, respetivamente, o tipo da componente de tendência e o tipo da componente sazonal [11].

(30)

12 Metodologias e estado de arte

Tabela 2.1: Taxonomia dos métodos de alisamento exponencial [1]. Componente sazonal

Componente de tendência N A M

(Nenhuma) (Aditiva) (Multiplicativa)

N (Nenhuma) (N,N) (N,A) (N,M)

A (Aditiva) (A,N) (A,A) (A,M)

Ad(Amortecida aditiva) (Ad,N) (Ad,A) (Ad,M)

M (Multiplicativa) (M,N) (M,A) (M,M)

Md (Amortecida multiplicativa) (Md,N) (Md,A) (Md,M)

Podemos identificar a taxonomia dos métodos introduzidos nas secções anteriores: (N,N) = Alisamento exponencial simples

(A,N) = Método de tendência linear de Holt (M,N) = Método de tendência exponencial (Ad,N) = Método de tendência amortecida aditiva

(Md,N) = Método de tendência amortecida multiplicativa

(A,A) = Método sazonal de Holt-Winters aditivo (A,M) = Método sazonal de Holt-Winters multiplicativo (Ad,M) = Método amortecido de Holt-Winters

Esta classificação foi proposta por Pegels (1969) [12] e mais tarde foi estendida por Gardner (1985) [8] para incluir os métodos com tendência amortecida aditiva e por Taylor (2003) [10] para incluir os métodos com tendência amortecida multiplicativa.

A Figura 2.1 mostra as fórmulas recursivas para aplicação dos 15 métodos de alisamento exponencial possíveis.

Cada célula inclui a equação da previsão, para a geração das previsões h-passos à frente e as equações de alisamento para aplicação do método onde:

• lt é o nível da série no instante t,

• bt é a tendência da série no instante t,

• st é a sazonaliade da série no instante t,

• m é o número de observações do período de sazonalidade,

• α, β∗, γ e φ são parâmetros de alisamento com h+m= b(h − 1) mod mc + 1.

2.2.7 Modelos de espaço de estados

Nesta secção iremos definir modelos estatísticos com base nos métodos de alisamento expo-nencial apresentados anteriormente que, além de gerarem as mesmas previsões pontuais, geram também intervalos de previsão e permitem a utilização de um critério objetivo de seleção de mo-delos candidatos.

(31)

2.2 Alisamento exponencial 13

Figura 2.1: Fórmulas recursivas dos métodos de alisamento exponencial [1].

Cada modelo estatístico consiste numa equação da medida (ou observação) que descreve os dados observados e uma ou mais equações de estado (ou transições) que descrevem como as componentes ou estados (nível, tendência e sazonalidade) não observados variam com o tempo. Assim, designam-se por modelos de espaço de estados [9,13].

Para cada método de alisamento exponencial existem dois modelos, um com erros aditivos e um com erros multiplicativos. As previsões pontuais produzidas pelos dois modelos são iguais se estes usarem os mesmos valores para as constantes de alisamento. Todavia, irão gerar sempre intervalos de previsão diferentes.

Cada modelo é identificado por um terno de letras (E,T,S) que significa (Error, Trend, Sea-sonality), ou seja (Erro, Tendência, Sazonalidade), para os quais as possibilidades são, usando a notação apresentada na Figura2.1, Erro = (A, M), Tendência = (N, A, Ad, M, Md) e Sazonalidade

= (N, A, M).

Existem 30 modelos de espaço de estados, 15 com erros aditivos e 15 com erros multiplicati-vos. Assim, para especificar um modelo utiliza-se a notação ETS( , , ). Por vezes a sigla ETS é significa ExponenTial Smoothing tendo assim duplo significado.

ETS(A,N,N): Alisamento Exponencial Simples com erros aditivos

Através da forma de correção do erro do AES (equação2.9), e sabendo que et= yt− lt−1e ˆyt|t−1=

lt−1, então podemos escrever:

(32)

14 Metodologias e estado de arte

Para tornar isto num modelo de espaço de estados inovativos3 basta especificar a distribuição de probabilidade de et.

Para um modelo com erros aditivos, assume-se que os erros de previsão a 1-passo et são ruído

branco com distribuição normal de média 0 e variância σ2:

et = εt ∼ NID(0, σ2) (2.50)

onde NID significa “Normal e Independentemente Distribuído”. Então as equações do modelo podem ser escritas da forma:

Equação da medida yt = lt−1+ εt (2.51)

Equação do estado lt = lt−1+ αεt (2.52)

A equação da medida mostra a relação entre a observação e o estado não observado. A equação da transição mostra a evolução do estado ao longo do tempo. Estas equações, em conjunto com a distribuição estatística dos erros, compõem o modelo de espaço de estados inovativos sob AES com erros aditivos – ETS(A,N,N).

ETS(M,N,N): Alisamento Exponencial Simples com erros multiplicativos

Similarmente, pode-se definir o modelo ETS(M,N,N) escrevendo os erros de previsão a 1-passo aleatórios como erros relativos:

εt =

yt− ˆyt|t−1

ˆ

yt|t−1 (2.53)

em que εt ∼ NID(0, σ2).

Substituindo na equação2.53yˆt|t−1= lt−1obtém-se yt = lt−1+ lt−1εt.

Da equação2.9tem-se que et= yt− ˆyt|t−1, logo utilizando a equação2.53vem:

εt = lt−1εt (2.54)

Substituindo o resultado alcançado (equação2.54) na equação2.9obtém-se lt= lt−1(1 + αεt).

Desta forma, o modelo ETS(M,N,N) vem

Equação da medida yt = lt−1(1 + εt) (2.55)

Equação do estado lt = lt−1(1 + αεt) (2.56)

3O termo "inovativos"surge pois todas as equações neste tipo de especificação usam o mesmo processo de erro

(33)

2.2 Alisamento exponencial 15

ETS(A,A,N): Método de tendência linear de Holt com erros aditivos

Para o modelo ETS(A,A,N) assume-se que os erros de previsão a 1-passo aleatórios são dados por:

εt = yt− lt−1− bt−1 (2.57)

em que εt∼ NID(0, σ2).

Substituindo este resultado nas equações de correção de erro para o método de tendência linear de Holt, obtemos o modelo ETS(A,A,N):

yt = lt−1+ bt−1+ εt (2.58)

lt = lt−1+ bt−1+ αεt (2.59)

bt = bt−1+ β εt (2.60)

onde, por simplicidade, β = αβ∗.

ETS(M,A,N): Método de tendência linear de Holt com erros multiplicativos

Para o modelo ETS(M,A,N) assume-se que os erros de previsão a 1-passo aleatórios são dados por:

εt =

yt− (lt−1+ bt−1)

lt−1+ bt−1

(2.61) Seguindo uma abordagem semelhante à que tem sido utilizada, obtém-se o modelo de espaço de estados sob o método de tendência linear de Holt com erros multiplicativos ETS(M,A,N):

yt = (lt−1+ bt−1)(1 + εt) (2.62)

lt = (lt−1+ bt−1)(1 + αεt) (2.63)

bt = bt−1+ β (lt−1+ bt−1)εt (2.64)

onde, β = αβ∗e εt∼ NID(0, σ2).

De forma semelhante, podemos obter os restantes modelos de espaço de estado relativos a cada um dos métodos alisamento exponencial presentes na da Figura2.1. A Figura2.2e a Figura

2.3apresentam as equações de todos os modelos ETS.

O modelo de espaço de estados pode ser escrito na forma matricial:

yt = ω (vt−l) + r(vt−l)εt (2.65)

vt = f(vt−l) + g(vt−l)εt (2.66)

onde yt é a série temporal, vt = (lt, bt, st, st−1, . . . , st−m+1)

0

é o vetor do estado, ω(.) o vetor da observação, r(.) vetor do erro, f (.) matriz de transição, g(.) vetor persistente e εt ∼ NID(0, σ2).

(34)

16 Metodologias e estado de arte

Figura 2.2: Equações do modelo de espaço de estados de alisamento exponencial erro aditivo [1].

Figura 2.3: Equações do modelo de espaço de estados de alisamento exponencial erro multiplica-tivo [1].

(35)

2.2 Alisamento exponencial 17

Estimação de modelos ETS

A aplicação de qualquer modelo ETS requer a especificação dos estados iniciais l0, b0, s0, s−1, . . .

. . . , s−m+1 e dos parâmetros de alisamento α, β∗, γ e φ . Estes podem ser obtidos minimizando

a soma dos quadrados dos erros (SSE) de previsão a 1-passo dentro da amostra, ou alternativa-mente maximizando a verosimilhança. A verosimilhança é a probabilidade de um conjunto de dados ser originário de um determinado modelo. Logo, um bom modelo está associado a uma verosimilhança elevada.

Para um modelo com erros aditivos, maximizar a verosimilhança conduz ao mesmo resultado que minimizar SSE. Contudo, para modelos com erros multiplicativos obtêm-se resultados dife-rentes. A literatura sugere que os estados iniciais e os parâmetros de alisamento de modelos ETS sejam estimados maximizando a verosimilhança [7].

Para que as equações dos métodos de AE fosse interpretadas como médias ponderadas, os parâmetros de alisamento estavam restritos a 0 < α, β∗, γ∗, φ < 1. Para os modelos de espaço de estados, como β = αβ∗e γ = (1 − α)γ∗, vem 0 < α < 1, 0 < β < α e 0 < γ < 1 − α. Na prática, para evitar dificuldades na estimação dos modelos, o parâmetro de amortecimento φ é habitual-mente restrito ao intervalo ]0.8; 0.98[.

Critério de informação e seleção do modelo

A grande vantagem de usar modelos ETS é a possibilidade de utilizar um critério objetivo de seleção de modelos candidatos. Os critérios seguintes podem ser utilizados para determinar qual dos 30 modelos ETS é o mais apropriado para uma dada série temporal [14,15].

O Critério de Informação de Akaike, Akaike’s Information Criterion (AIC) é definido por

AIC = −2 log(L) + 2k (2.67)

O Critério de Informação de Akaike corrigido (AICc), adequado para amostras de dados

pe-quenas, é definido por

AICc= AIC +

2(k + 1)(k + 2)

T− k (2.68)

Por fim, o Critério de Informação Bayesiano (BIC) é definido por

BIC = AIC + k[log(T ) − 2] (2.69)

onde (em todas os critérios anteriores) L é a verosimilhança do modelo e k é o número total de parâmetros e estados iniciais estimados.

(36)

18 Metodologias e estado de arte

2.3

Multiple Aggregation Prediction Algorithm

O Multiple Aggregation Prediction Algorithm (MAPA) foi desenvolvido por Kourentzes et al. [2] com o objetivo de mostrar que a agregação de séries temporais em múltiplas frequências produz melhores previsões, mitigando os erros.

Este método começa por construir múltiplas séries temporais partindo da série temporal origi-nal, utilizando agregação temporal. Para cada série, é ajustado um modelo ETS apropriado e os componentes da série temporal são determinados. Posteriormente, os componentes da série tem-poral de cada nível de agregação são combinados, e usados para determinar a previsão final [2].

A estrutura deste método encontra-se dividida em três etapas: (i) agregação, (ii) previsão e, por fim, (iii) combinação. Uma visão geral do MAPA é apresentada na Figura2.4.

Figura 2.4: Fluxograma do Multiple Aggregation Prediction Algorithm (MAPA) [2].

Seja Y uma série temporal, com observações yt com t = 1, ..., n, amostradas a uma dada

frequência. A agregação é feita considerando grupos consecutivos de valores da série temporal original em conjuntos de comprimento k.

As séries temporais agregadas podem ser denotadas por Y[k], com observações yi[k] e i =

1, 2, ..., bn/kc tal que: yi[k]= k−1 ik

t=1+(i−1)k yt (2.70)

Para k = 1, y[1]i = yt. Doravante, por uma questão de consistência, será usado apenas y [k] i .

Atente-se que se considera a média aritmética como o operador de agregação. Isto acontece para manter o nível da série temporal agregada Y[k] semelhante ao nível e unidades da série temporal original Y[1].

A série agregada Y[k]resultante possui bnkc · k observações. Se o resto da divisão n/k não for zero para um determinado nível de agregação k, então algumas observações não serão tomadas

(37)

2.3 Multiple Aggregation Prediction Algorithm 19

em consideração ao formar os buckets de agregação temporal. Nesse caso, remove-se n − bnkc · k observações do início da série temporal para ser possível formar buckets de agregação completos. Em teoria, podemos agregar uma série temporal para todos os k = 2, . . . , N, mas na prática é preferível que k  n com o intuito de se obter uma amostra suficiente para estimar (parametrizar) um método de previsão para Y[k].

Tal como mostra a Figura2.4, na primeira etapa do MAPA, K séries temporais são produzi-das através da agregação temporal. Uma vez criaproduzi-das as séries agregaproduzi-das é necessário ajustar um modelo de previsão apropriado a cada uma delas. Para cada série temporal agregada Y[k]o MAPA ajustado um método ETS. É escolhido um modelo ETS porque de acordo com a literatura este tem um bom desempenho na previsão. Como o foco deste método não é a escolha do modelo ETS, esta escolha é feita automaticamente através do AIC, habitualmente com bons resultados.

O vetor de estado x[k]i contém os valores atualizados de cada componente da série temporal: nível (li), tendência (bi) e sazonalidade (si) - xki = (li, bi, si, si−1, . . . , si−S+1). Com estas

informa-ções e sabendo o modelo ETS ajustado, é possível produzir previsões para qualquer horizonte de previsão desejado.

Os valores numéricos dos componentes aditivos e multiplicativos de x[k]i não são diretamente comparáveis. Contudo, é perfeitamente possível que um ETS aditivo seja ajustado a nível de agre-gação e um ETS multiplicativo a outro. Isso pode aumentar a complexidade da combinação dos componentes de Y[k]. Desta forma é proposto em [2] transformar os componentes multiplicativos em componentes aditivos.

Utilizando os componentes presentes no vetor de estado x[k]i , produz-se previsões para cada nível (li), tendência (bi) e sazonalidade (si) (quando se encontram disponíveis), transformando

para componentes aditivos quando necessário, utilizando as fórmulas da Figura2.5.

Figura 2.5: Previsão de componentes na formulação aditiva [2].

Uma vez que os componentes multiplicativos são transformados em componentes aditivo, ocorrem uma reformulação e os valores previstos de Y[k] podem ser calculados como uma sim-ples adição dos componentes previstos:

ˆ y[k] i+h[k] = l [k] i+h[k]+ b [k] i+h[k]+ s [k] i+h[k] (2.71)

(38)

20 Metodologias e estado de arte

Para facilitar a combinação das previsões é desejável que todas estejam agregadas na escala de tempo da série temporal original Y[1]. Para qualquer valor de z[k]i , isso pode ser feito utilizando

a seguinte igualdade: Zt = k

j=1 ωjz[k]i (2.72) com t = 1, 2, . . . , n e i = bt/kc.

A equação2.72é aplicada a todos os li[k], b [k] i e s

[k]

i resultado pelo menos k previsões para cada

componente da série temporal no domínio da frequência original.

Em alguns casos, nem todos os componentes ETS são ajustados em todos os níveis de agre-gação. Quando não há estimativa de um componente específico num certo nível de agregação, estabelecemos as previsões iguais a zero. O raciocínio é que se um componente é deixado de fora, então não é identificado na série temporal, tendo zero impacto na previsão. Por outras palavras, tem contribuição zero aditiva.

A segunda etapa do algoritmo do MAPA consiste, então, em ajustar um modelo ETS em cada nível de agregação e os componentes de cada um destes modelos são extraídos, conforme ilustrado na Figura2.4. Estes componentes são posteriormente transformados em aditivos e colocados na frequência original de Y[1].

O resultado da etapa de agregação são conjuntos de componentes de nível, tendência e sazo-nalidade para cada nível de agregação, prontos para ser combinados na próxima etapa.

Na etapa final do método proposto, a combinação, os diferentes componentes que foram an-teriormente calculados são combinados para produzir a estimativa do nível, da tendência e da sazonalidade final. E de seguida estas estimativas são utilizadas para produzir a previsão final.

Neste método foram considerados dois métodos de combinação que demonstram ter um bom desempenho: a média não ponderada e a mediana.

No caso da média não ponderada, os componentes são combinados da seguinte maneira: ¯lt+h[1] = K−1 K

k=1 l[k] t+h[1] (2.73) ¯bt+h[1] = K−1 K

k=1 b[k] t+h[1] (2.74) ¯ st+h[1] = K 0−1 K 0

k=1 l[k] t+h[1] , se (m/k) ∈ Z e k < m (2.75)

onde k é o nível de agregação máxima e K0é o número de níveis de agregação onde a sazonalidade pode ser identificada, ou seja, quando m/k resulta num inteiro e k < m.

Alternativamente, no desenvolvimento deste método foi explorado o uso da mediana em vez da média para a construção de ¯lt+h[1], ¯bt+h[1] e ¯st+h[1].

A mediana é mais robusta para valores extremos e, portanto, será menos afetada por compo-nentes mal estimados. Se o ETS, aplicado em diferentes níveis de agregação, identificar diferentes

(39)

2.4 Regressão linear 21

componentes, a mediana favorece o tipo de componente mais popular. Já a média considera todos os componentes igualmente.

Para produzir a previsão final para h[1]passos à frente, com o horizonte de previsão das séries temporais originais, simplesmente adicionamos os componentes combinados:

ˆ y[1]

t+h[1] = ¯lt+h[1]+ ¯bt+h[1]+ ¯st−m+h[1] (2.76)

Este é um método elaborado, que tem um bom desempenho para previsões a longo prazo. A sua aplicação em R é feita utilizando o package que foi desenvolvido com as funções necessários, cujo nome é MAPA.

2.4

Regressão linear

A regressão linear é uma abordagem simples, e embora possa parecer mais fraca em compa-ração com abordagens estatísticas mais modernas, é um método útil e muito utilizado [16].

Existem abordagens de aprendizagem estatística que podem ser consideradas como genera-lizações ou extensões da regressão linear. Uma vez que algumas dessas abordagens serão referidas à frente nesta secção é importante compreender bem a regressão linear antes de passar ao estudo de métodos mais complexos. Iremos rever algumas ideias principais adjacentes à regressão linear, bem como a abordagem dos mínimos quadrados que é comummente utilizada para ajustar este modelo [3].

A regressão linear simples, tal como o próprio nome diz, é uma abordagem muito direta para prever uma resposta quantitativa Y com base numa única variável X . É assumida aproximação de relação linear entre X e Y :

Y≈ β0+ β1X (2.77)

onde β0 e β1 são duas constantes desconhecidas que representam os termos de intercetação

(intercept) e declive (slope), respetivamente. Estas constantes são conhecidas como os coeficien-tes/parâmetros do modelo.

Utilizando o conjunto de dados de treino para produzir estimativas de ˆβ0e ˆβ1, a previsão pode

ser escrita como:

ˆ

y= ˆβ0+ ˆβ1x (2.78)

onde y indica a previsão de Y com base em X = x.

Na prática, os parâmetros β0e β1são desconhecidos, portanto antes de utilizar a equação2.77

para produzir previsões, devemos utilizar os dados para estimar os coeficientes. Seja (x1, y1), (x2, y2), . . . , (xn, yn)

(40)

22 Metodologias e estado de arte

a representação dos n pares de observações, que consistem numa medida de X e numa medida de Y. O objetivo é obter estimativas dos parâmetros ˆβ0 e ˆβ1de modo a que o modelo linear descrito

na equação2.77se adeque aos dados disponíveis, ou seja yi≈ ˆβ0+ ˆβ1xi para i = 1, 2, . . . , n. Dito

de outra forma: pretende-se encontrar uma interceção ˆβ0e uma inclinação ˆβ1, de modo que a linha

resultante seja o mais próxima possível dos n pontos de dados. A proximidade pode ser medida de diversas formas, a abordagem mais comum envolve minimizar o critério dos mínimos quadrado e será a abordagem utilizada nesta secção.

Regressão linear simples no R

# fuel - dados sobre modelos de carros de 2009 com transmissão automática e motores entre 3 e 5 cilindros

# City - economia de combustível em cidade (mpg) # Carbon - emissão média de CO2 (ton./ano)

fit <- lm(Carbon City, data=fuel

Seja ˆyi= ˆβ0+ ˆβ1xia previsão para Y com base no i-ésimo valor de X e ei= yi− ˆyirepresente

o residual (erro), então a soma residual dos quadrados (residual sum of squares – RSS) é: RSS = e21+ e22+ · · · + e2n = n

i=1 (yi− ˆyi)2 = (y1− ˆβ0− ˆβ1x1)2+ · · · + (yn− ˆβ0− ˆβ1xn)2 (2.79)

A abordagem dos mínimos quadrados escolhe ˆβ0e ˆβ1que minimizam o RSS. Os parâmetros

minimizadores, ou seja as estimativas de coeficientes de mínimos quadrados são: ˆ

β1 = ∑

n

i=1(xi− ¯x)(yi− ¯y)

∑ni=1(xi− ¯x)2 ˆ β0 = y¯− ˆβ1x¯ (2.80) onde ¯y≡1 n∑ n

i=1yie ¯x≡1n∑ni=1xisão as médias da amostra.

Assumimos que a verdadeira relação entre X e Y é dada por Y = f (X ) + ε, para uma função f desconhecida onde ε é um termo de erro aleatório com média zero. Se f for aproximada por uma função linear, então esta relação pode ser escrita como:

Y = β0+ β1X+ ε (2.81)

onde β0é o termo de intercetação – o valor de Y com X = 0 – e β1 é o declive. O modelo dado

pela equação2.81define a linha de regressão da população, que é a melhor aproximação linear da verdadeira relação de X e Y .

(41)

2.4 Regressão linear 23

As estimativas do coeficiente de regressão dos mínimos quadrados (2.80) caracterizam a linha dos mínimos quadrados (2.78).

Para avaliar a precisão das estimativas dos coeficientes podemos analisar o quão perto estão ˆ

β0e ˆβ1dos verdadeiros valores de β0e β1, calculando o erro padrão associado a cada estimativa:

SE( ˆβ0)2= σ2  1 n+ ¯ x2 ∑ni=1(xi− ¯x)2  , SE( ˆβ1)2= σ2 ∑ni=1(xi− ¯x)2 (2.82)

onde σ2= Var(ε). Para que estas fórmulas sejam válidas, assumimos que os erros εi para cada

observação não estão correlacionados com a variância comum σ2.

Geralmente, σ2não é conhecido, porém pode ser estimado a partir dos dados. A estimativa de σ é conhecida como erro padrão residual (residual standard error – RSE) e é dada pela fórmula RSE=pRSS/(n − 2).

É interessante conseguir quantificar até que ponto o modelo se ajusta aos dados, ou seja, a qualidade com que a regressão linear se ajusta. Esta qualidade é tipicamente avaliada utilizando o RSE e a estatística R2.

O RSE é uma estimativa do desvio padrão de ε. Em termos aproximados, é a quantidade média que a resposta se desviará da linha de regressão verdadeira. É calculado da seguinte forma:

RSE= r 1 n− 2RSS= s 1 n− 2 n

i=1 (yi− ˆyi)2 (2.83)

O RSE fornece uma medida absoluta da falta de ajuste do modelo2.81aos dados. No entanto, como é medido nas unidades de Y , nem sempre é claro fazer a avaliação do RSE.

A estatística R2fornece uma medida alternativa de ajuste pois adota a forma de uma proporção – a proporção de variância explicada – e assume um valor entre 0 e 1, e é independente da escala de Y . É calculado através da seguinte fórmula:

R2=T SS− RSS

T SS = 1 −

RSS

T SS (2.84)

onde T SS = ∑(yi− ¯y)2é o total da soma dos quadrados (total sum square).

A regressão linear simples é uma abordagem útil para prever a resposta com base em apenas uma variável preditora. Por vezes pretende-se prever a resposta com base num conjunto de variá-veis, isto é possível com a regressão linear simples produzindo modelos separados. No entanto, a abordagem de ajustar um modelo separado de regressão linear simples para cada preditor não é muito razoável.

Em vez de ajustar um modelo de regressão linear simples separado para cada preditor, uma abordagem melhor é estender o modelo de regressão linear simples (equação2.81) para que ele possa receber diretamente vários preditores. Isto é possível, impondo a cada preditor um coefici-ente de declive separado num único modelo. Assim, o modelo de regressão linear múltipla assume

(42)

24 Metodologias e estado de arte

a forma [17]:

Y = β0+ β1X1+ · · · + βpXp+ ε (2.85)

onde Xjrepresenta o i-ésimo preditor e βjquantifica a associação entre essa variável e a resposta.

Tal como na regressão linear simples, os coeficientes de regressão β0, β1, . . . , βp da equação 2.85são desconhecidos e devem ser estimados. Dadas as estimativas ˆβ0, ˆβ1, . . . , ˆβp, as previsões

são:

ˆ

y = βˆ0+ ˆβ1x1+ · · · + ˆβpxp (2.86)

Os parâmetros são estimados utilizando a abordagem de mínimos quadrados que vimos no contexto da regressão linear simples. Escolhemos regressão β0, β1, . . . , βpde modo a minimizar a

soma de resíduos quadrados

RSS = n

i=1 (yi− ˆyi)2 = n

i=1 (yi− ˆβ0− ˆβ1xi1− · · · − ˆβpxip)2 (2.87) 2.4.1 Seleção e regularização

Como visto anteriormente, a regressão linear estabelecida pela equação2.85é usada regular-mente para descrever a relação entre a resposta Y e um conjunto de variáveis X1, . . . , Xp, e que

normalmente se ajusta utilizando mínimos quadrados. Porém existem outros procedimentos que podem produzir um melhor desempenho na previsão. Veremos algumas abordagens para efetuar automaticamente seleção de variáveis, isto é, para excluir variáveis irrelevantes de um modelo de regressão múltipla [3].

2.4.1.1 Melhor seleção de subconjuntos

Para realizar a melhor seleção de subconjuntos, best subset selection, é ajustada uma regressão de mínimos quadrados para cada combinação possível dos p preditores, ou seja são ajustados todos os p modelos que contêm exatamente um preditor, todos os 2p = p(p − 1)/2 modelos que contêm dois preditores e por aí em diante. Analisam-se todos os modelos resultantes com a finalidade de identificar o melhor.

Porém surge um problema ao selecionar o melhor modelo, pois são 2ppossibilidades conside-radas pela melhor seleção de subconjuntos, e fazer a seleção não é trivial. Esta seleção é feita de acordo com os seguintes passos:

1. Seja M0o modelo nulo que não contém preditores. O modelo simplesmente prevê a média

da amostra para cada observação. 2. Para cada k = 1, 2, . . . , p:

(43)

2.4 Regressão linear 25

(a) Ajustar todos os kp modelos que contêm exatamente k preditores.

(b) Escolher o melhor entre estes pk modelos e é denominado Mk. Aqui o melhor é

definido como tendo o RSS mais pequeno ou o maior R2.

3. Selecionar um único melhor modelo entre M0, . . . , Mp utilizando erro de precisão cruzada,

cross-validated prediction error, Cp(AIC), BIC ou R2.

O passo 2 identifica o melhor modelo (nos dados de treino) para cada tamanho do subconjunto, de forma a reduzir o problema de 2pmodelos possíveis para p + 1 modelos possíveis.

Embora a melhor seleção de subconjuntos seja uma abordagem simples e concetualmente atra-tiva, sofre limitações computacionais. O número de modelos possíveis que devem ser considera-dos cresce velozmente à medida que p aumenta. Existem modelos 2pque envolvem subconjuntos de p preditores. Naturalmente, a melhor seleção de subconjuntos torna-se computacionalmente inviável para valores de p superiores a cerca de 40.

2.4.1.2 Stepwise selection Forward stepwise selection

A forward stepwise selection é uma alternativa computacionalmente eficiente para a melhor sele-ção de subconjuntos. Considera um conjunto de modelos muito menores. Esta selesele-ção começa com um modelo que não contém preditores e adiciona preditores ao modelo, um em cada tempo, até que todos os preditores estejam no modelo. Em cada etapa, a variável que dá a maior melho-ria adicional ao ajuste é adicionada ao modelo. Esta seleção é feita de acordo com os seguintes passos [3]:

1. Seja M0o modelo nulo que não contém preditores.

2. Para cada k = 0, . . . , p − 1:

(a) Considerar todos os p − k preditores que aumentam os preditores em Mk+1 com um

preditor adicional.

(b) Escolher o melhor entre estes p − k modelos e é denominado Mk. Aqui o melhor é

definido como tendo o RSS mais pequeno ou o maior R2.

3. Selecionar um único melhor modelo entre M0, . . . , Mp utilizando erro de precisão cruzada,

Cp(AIC), BIC ou R2.

Ao contrário da melhor seleção de subconjuntos, que envolve o ajuste de 2p modelos, a

forward stepwise selection ajusta um modelo nulo, juntamente com os p − k modelos na k-ésima iteração, para k = 0, . . . , p − 1. Ou seja, a forward stepwise selection apresenta um total de 1 + ∑k=0p−1(p − k) = 1 + p(p + 1)/2 modelos. Porém, apesar da forward stepwise selection ser boa na prática, nem sempre é garantido encontrar o melhor modelo possível de todos os 2p mode-los contendo subconjuntos dos p preditores.

(44)

26 Metodologias e estado de arte

A forward stepwise selection pode ser aplicada mesmo quando n < p, no entanto, neste caso, apenas é possível construir M0, . . . , Mn−1 sub-modelos, uma vez que cada submodelo é ajustado

utilizando mínimos quadrados, o que não produzirá uma solução única se p ≥ n.

Backward stepwise selection

A backward stepwise selection, ao contrário da forward stepwise selection começa com o modelo de mínimos quadrados completo contendo todos os p preditores e, em seguida, remove iterativa-mente o preditor menos útil, um de cada vez [3].

Esta seleção é feita de acordo com os seguintes passos: 1. Seja Mpo modelo completo que contém os p preditores.

2. Para cada k = p, p − 1, . . . , 1:

(a) Considerar todos os k modelos que contêm todos, exceto um dos preditores, em Mk,

para um total de k − 1 preditores.

(b) Escolher o melhor entre estes k modelos e é denominado Mk− 1. Aqui o melhor é

definido como tendo o RSS mais pequeno ou o maior R2.

3. Selecionar um único melhor modelo entre M0, . . . , Mp utilizando erro de precisão cruzada,

Cp(AIC), BIC ou R2.

Tal como a forward stepwise selection, backward stepwise selection procura apenas em 1 + p(p + 1)/2 modelos e pode ser aplicada quando p é muito grande para aplicar a melhor seleção de subconjuntos, no entanto nem sempre garante que consegue produzir o melhor modelo contendo um subconjunto dos p preditores.

A backward stepwise selection requer que n > p para que o modelo completo possa ser ajus-tado. A forward stepwise selection pode ser utilizada mesmo quando n < p , logo é o único método de subconjunto viável quando p é muito grande.

2.4.1.3 Least Absolute Shrinkage and Selection Operator

Os métodos de seleção de subconjuntos descritos anteriormente envolvem o uso de mínimos quadrados para se ajustarem a um modelo linear que contém um subconjunto dos preditores. Exis-tem também outras abordagens alternativas, podemos ajustar um modelo contendo todos os p pre-ditores utilizando uma técnica que restrinja ou regularize as estimativas de coeficientes, ou equi-valentemente, que diminui (shrink) as estimativas de coeficientes em direção a zero. Pode não ser óbvio a razão desta restrição melhorar o ajuste, todavia a diminuição (shrinking) das estimativas de coeficientes pode reduzir significativamente a variância. Uma das técnicas mais conhecidas para encolher os coeficientes de regressão em direção a zero é Least Absolute Shrinkage and Selection Operator(LASSO) [3].

Por vezes o número de preditores, p é muito elevado e surge a necessidade de escolher apenas os mais fundamentais para o modelo de previsão. É assim que surge o LASSO. Os coeficientes

(45)

2.4 Regressão linear 27

lasso, ˆβλL, minimizam a quantidade [18]:

n

i=1 yi− β0− p

j=1 βjxi j+ λ p

j=1 |βj| = RSS + λ p

j=1 |βj| (2.88)

onde λ ≥ 0 é um parâmetro de tuning. A vantagem do LASSO é que permite que os coe-ficientes estimados sejam forçosamente zero quando o parâmetro de ajuste λ é suficientemente grande.

O LASSO produz modelos sparse, i.e. modelos que envolvem apenas um subconjunto de variáveis.

Uma formulação alternativa é:

minimize ( n

i=1 (yi− β0− p

j=1 βjxi j) ) sujeito a p

j=1 |βj| ≤ s (2.89)

Figura 2.6: Contornos das funções de erro e restrição para o LASSO [3].

Como já foi dito, o LASSO resulta em estimativas de coeficientes exatamente iguais a zero e a equação2.89pode ser elucidativa. A Figura 2.6ilustra a situação. A solução dos mínimos quadrados é identificada como ˆβ e o diamante azul representa a restrição do LASSO na equação

2.89. Se s for suficientemente grande, as regiões de restrição conterão β e, assim, as estimativas de LASSO serão as mesmas que as estimativas de mínimos quadrados4. Porém, conforme se pode visualizar na Figura2.6, as estimativas dos mínimos quadrados ficam fora do diamante, logo as estimativas de mínimos quadrados não são as mesmas que as estimativas do LASSO.

(46)

28 Metodologias e estado de arte

As elipses centradas em torno de β representam regiões da constante RSS, ou seja, todos os pontos de uma determinada elipse partilham um valor comum do RSS. À medida que as elipses se expandem para longe das estimativas de coeficientes de mínimos quadrados, o RSS aumenta.

A equação2.89indica que as estimativas dos coeficientes do LASSO são dadas pelo primeiro ponto em que uma elipse entra em contacto com a região de restrição.

A restrição do LASSO (diamante azul) tem cantos em cada um dos eixos, e a elipse, usual-mente, irá cruzar a região de restrição num eixo. Quando isso ocorre, um dos coeficientes será igual a zero. Em dimensões superiores, diversas estimativas de coeficientes podem ser iguais a zero. Na Figura2.6, a interseção ocorre com β1= 0, logo o modelo resultante incluirá apenas β2.

Na Figura2.6, é ilustrado o caso para p = 2. Quando p = 3, a região de restrição para o lasso torna-se um poliedro. Quando p > 3, a região de restrição para o LASSO torna-se um politopo.

2.5

Análise de componentes principais

A análise de componentes principais, principal componente analysis (PCA), refere-se a um processo em que os componentes principais são computacionalmente calculados e ulteriormente usa estes componentes para perceber os dados. É uma abordagem sem supervisão, uma vez que envolve apenas um conjunto de recursos X1, X2, . . . , Xpe nenhuma resposta Y associada.

Quando encontramos um grande conjunto de variáveis correlacionas, os componentes princi-pais permitem reduzir este conjunto com um número restringido de variáveis que coletivamente explicam a maioria da variabilidade do conjunto original.

PCA fornece uma ferramenta que encontra uma representação de baixa-dimensão do conjunto de dados que contém a variação, tanto quanto possível. Cada uma das n observações existe no es-paço p-dimensional, mas nem todas essas dimensões são igualmente interessantes. PCA procura um pequeno número de dimensões tão interessantes quanto possível, onde o conceito de interes-sante é medido pela quantidade que as observações variam ao longo em cada dimensão. Cada uma das dimensões encontradas pela PCA é uma combinação linear das características p [3].

A análise de componentes principais é introduzida aqui pois será futuramente utilizada nos métodos propostos nas secções2.6e2.7.

Para introduzir o procedimento para o cálculo dos componentes principais, começamos por supor que temos um vetor aleatório X [19].

X =       X1 X2 .. . Xp      

(47)

2.5 Análise de componentes principais 29 var(X) = Σ =       σ12 σ12 . . . σ1p σ21 σ22 . . . σ2p .. . ... . .. ... σp1 σp2 . . . σp2      

O primeiro componente principal – Y1– é a combinação linear de x variáveis que detém a

vari-ância máxima, portanto, representa a maior variação nos dados possível. O primeiro componente principal é descrito com a seguinte combinação linear:

Y1 = e11X1+ e12X2+ · · · + e1pXp (2.90)

Definiremos os coeficientes e11, e12, . . . , e1pque maximizam:

var(Y1) = p

k=1 p

l=1 e1ke1lσkl= e01Σe1 (2.91) Sujeito à restrição e01e1= p

j=1 e21 j= 1 (2.92)

Depois de determinado o primeiro componente principal Y1, podemos determinar o segundo

componente principal Y2. O segundo componente principal é uma combinação linear de X1, . . . , Xp

que tem variância máxima em todas as combinações lineares que não estão correlacionas com Y− 1. Pode ser descrito como:

Y2 = e21X1+ e22X2+ · · · + e2pXp (2.93)

Selecionando coeficientes e21, e22, . . . , e2pque maximizam este novo componente:

var(Y2) = p

k=1 p

l=1 e2ke2lσkl= e02Σe2 (2.94)

Sujeito à restrição que o somatório do quadrado dos coeficientes iguala 1:

e02e2= p

j=1

e22 j= 1 (2.95)

Concomitantemente com a restrição adicional de que estes dois componentes não estarão cor-relacionados um com o outro:

cov(Y1,Y2) = p

k=1 p

l=1 e1ke2lσkl= e01Σe2= 0 (2.96)

(48)

30 Metodologias e estado de arte

Todos os componentes principais são combinações lineares que representam a variância má-xima possível e não estão correlacionados com os demais componentes principais.

Assim, todos os outros componentes principais podem escritos como

Yp = ep1X1+ ep2X2+ · · · + eppXp (2.97)

Selecionando ei1, ei2, . . . , eipque maximizam

var(Yi) = p

k=1 p

l=1 eikeilσil= e0iΣei (2.98) Sujeitos às restrição e0iei= p

j=1 e2i j= 1 (2.99) cov(Y1,Yi) = p

k=1 p

l=1 e1keilσkl= e01Σei= 0, (2.100) cov(Y2,Yi) = p

k=1 p

l=1 e2keilσkl= e02Σei= 0 (2.101) .. . (2.102) cov(Yi−1,Yi) = p

k=1 p

l=1

ei−1,keilσkl= e0i−1Σei= 0 (2.103)

A solução para encontrar os coeficientes ei jpara um componente principal envolve os valores

próprios e os vetores próprios da matriz de variância-covariância Σ.

Sejam λ1, . . . , λp os valores próprios da matriz variância-covariância Σ. Estes valores são

ordenados de tal modo que λ1tenho o maior valor próprio e λpo menor.

λ1≥ λ2≥ · · · ≥ λp (2.104)

E os vetores e1até ep indicarem os vetores próprios correspondentes. Os valores para os vetores

próprios serão os coeficientes dos componentes principais.

A variância para o i-ésimo componente principal é igual ao i-ésimo valor próprio:

var(Yi) = var(ei1X1+ · · · + eipXp) = λi (2.105)

Definimos a variação total de X como o traço da matriz variância-covariância, ou seja a soma das variâncias das variáveis individuais. Isto também é igual à soma dos valores próprios:

trace(Σ) = σ12+ · · · + σ2p

(49)

2.5 Análise de componentes principais 31

A proporção de variação explicada pelo i-ésimo componente principal será definida como o valor próprio desse componente dividido pela soma de todos os valores próprios, ou seja, o i-ésimo componente principal tem a seguinte proporção da variação total:

λi

λ1+ · · · + λp

(2.107)

A proporção de variação explicada pelos primeiros k componentes principais é o quociente da soma dos primeiros k valores próprios com a soma total destes:

λ1+ · · · + λk

λ1+ · · · + λp

(2.108)

Se a proporção de variação explicada pelos primeiros k componentes principais, então não se perderá muita informação considerando apenas os primeiros k componentes principais.

Tudo isso é definido em termos da matriz de variância-covariância populacional Σ que é des-conhecida. Contudo, podemos estimar Σ pela amostra da matriz variância-covariância, S:

S = 1 n− 1 n

i=1 (Xi− ¯x)(Xi− ¯x) (2.109)

Para tal é necessário calcular os valores próprios ˆλ1, ˆλ2, . . . , ˆλpda amostra matriz de

variância-covariância, S, e os respetivos vetores próprios ˆe1, ˆe2, . . . , ˆep.

Sejam ˆY1, . . . , ˆYp os componentes principais estimados, definidos utilizando os vetores

pró-prios: ˆ Y1 = eˆ11X1+ ˆe12X2+ · · · + ˆe1pXp ˆ Y2 = eˆ21X1+ ˆe22X2+ · · · + ˆe2pXp .. . ˆ Yp = eˆp1X1+ ˆep2X2+ · · · + ˆeppXp

Usualmente apenas se utilizam os primeiros k componentes principais. Para a escolha do valor de k devemos equilibrar dois desejos conflituosos:

1. Para a interpretação ser mais simples, queremos que k seja o mais pequeno possível. O menor k é a menor quantidade de variação é explicada pelo primeiro componente k. 2. Para evitar perda de informação, queremos que a proporção de variação explicada pelos

primeiros k componentes principais seja grande. Idealmente tão próximo quanto possível de um: ˆ λ1+ ˆλ2+ · · · + ˆλk ˆ λ1+ ˆλ2+ · · · + ˆλp ∼ = 1 (2.110)

Referências

Documentos relacionados

O objetivo deste experimento foi avaliar o efeito de doses de extrato hidroalcoólico de mudas de tomate cultivar Perinha, Lycopersicon esculentum M., sobre

17 CORTE IDH. Caso Castañeda Gutman vs.. restrição ao lançamento de uma candidatura a cargo político pode demandar o enfrentamento de temas de ordem histórica, social e política

O enfermeiro, como integrante da equipe multidisciplinar em saúde, possui respaldo ético legal e técnico cientifico para atuar junto ao paciente portador de feridas, da avaliação

*-XXXX-(sobrenome) *-XXXX-MARTINEZ Sobrenome feito por qualquer sucursal a que se tenha acesso.. Uma reserva cancelada ainda possuirá os dados do cliente, porém, não terá

O Museu Digital dos Ex-votos, projeto acadêmico que objetiva apresentar os ex- votos do Brasil, não terá, evidentemente, a mesma dinâmica da sala de milagres, mas em

nhece a pretensão de Aristóteles de que haja uma ligação direta entre o dictum de omni et nullo e a validade dos silogismos perfeitos, mas a julga improcedente. Um dos

Equipamentos de emergência imediatamente acessíveis, com instruções de utilização. Assegurar-se que os lava- olhos e os chuveiros de segurança estejam próximos ao local de

Tal será possível através do fornecimento de evidências de que a relação entre educação inclusiva e inclusão social é pertinente para a qualidade dos recursos de