• Nenhum resultado encontrado

CLUSTERIZAÇÃO E MONITORAMENTO DE SÉRIES TEMPORAIS

N/A
N/A
Protected

Academic year: 2021

Share "CLUSTERIZAÇÃO E MONITORAMENTO DE SÉRIES TEMPORAIS"

Copied!
9
0
0

Texto

(1)

CLUSTERIZAÇÃO E MONITORAMENTO DE SÉRIES TEMPORAIS

Thiago de Paula Bronzi

Instituto Tecnológico de Aeronáutica, Rua H8C apartamento 328, CTA, CEP 12228-462, São José dos Campos, SP, Brasil. Bolsista PIBIC-CNPq.

t.bronzi@gmail.com

Rodrigo Arnaldo Scarpel

Instituto Tecnológico de Aeronáutica, Praça Marechal Eduardo Gomes, 50, Vila das Acácias, CEP 12.228-900, São José dos Campos,SP, Brasil. rodrigo@ita.br

Resumo. O estudo aborda os principais conceitos envolvidos nas técnicas de clusterização e monitoramento de séries temporais

seguido de uma aplicação prática desses métodos a um conjunto de dados reais. Palavras chave: clusterização,monitoramento,séries temporais

1.Introdução 1.1.Objetivos

.

Ao estudar-se um fenômeno, qualquer que seja a sua natureza, o primeiro passo é identificarmos quais os possíveis fatores que podem influenciá-lo.Normalmente, esse primeiro passo é feito embasado em alguma teoria ou até mesmo em uma intuição respaldada pelo raciocínio.Contudo, com esses candidatos em mãos, a escolha sobre quais e quantos dentre eles devem de fato ser utilizados pode ser não trivial.

No caso particular das séries temporais,é comum que esses fatores apresentem um comportamento semelhante com o decorrer do tempo, o que torna difícil diferenciar o quanto de fato adicionam de poder explicativo ou distúrbio ao modelo.

A clusterização visa transpor essa dificuldade.Segundo Liao[1], “O objetivo da clusterização é identificar uma estrutura dentro de um conjunto de dados, organizando-os de maneira objetiva em grupos homogêneos... maximizando a disimilaridade entre grupos distintos”.

Quanto ao monitoramento, o que se pode dizer é que a capacidade de se distinguir se a diferença entre os valores reais e os valores esperados de uma determinada variável com o passar do tempo é justificável ou não, é crucial para diversas áreas da atuação humana.Desde a medicina quando se quer determinar se a resposta a uma determinada droga está sendo satisfatória ou não, até aos processos produtivos onde se quer identificar se desvios em relação aos padróes de qualidade se devem à imprecisão da máquina ou ao mal funcionamento dela, passando pelas finanças, campo em que mudanças estruturais na economia podem toranr modelos obsoletos.

No caso específico desse estudo, as técnicas serão aplicadas para se tentar identificar quais são realmente os fatores ligados ao consumo e a produção que se refletem no crescimento da economia no curto prazo e a validade do modelo em função da variação do cenário.As séries utilizadas, obtidas do site do BCB[2] , seguem listadas abaixo:

-Bens de consumo não-duráveis e semi-duráveis (mensal) (BCN) -Bens de consumo duráveis (mensal) (BCD)

-Bens intermediários (mensal) (BI) -Bens de capital (mensal) (BC) -Produção industrial (mensal) (PI)

-Vendas de hipermercados e supermercados (mensal) (VHS) -Vendas de automóveis e motocicletas (mensal) (VAM) -Vendas de móveis e eletrodomésticos (mensal) (VME) -Vendas de tecidos, vestuário e calçados (mensal) (VTV) -Vendas de combustíveis e lubrificantes (mensal) (VCL) -Volume de vendas no varejo (mensal) (VV)

(2)

Essa aplicação visa exemplificar uma abordagem prática das técnicas estudadas, extraindo de dados brutos modelos mais eficientes e informações relevantes sobre o comportamento relativo entre os valores estimados por esses modelos e os valores reais.

2.Conceitos Fundamentais 2.1.Clusterização

Nos textos estudados o processo de clusterização pode ser discriminado em très atividades distintas e complemnares.São elas:

2.1.1.Métodos de formação dos clusters

Consiste em se decidir como se formarão os clusters.Entre as possibilidades está a abordagem aglomerativa em que inicialmente as séries são consideradas todas distintas entre si e vão sendo agrupadas paulatinamente até que se atinja um limite de dissimilaridade entre esses conjuntos.

Outro exemplo é a realocação.Nesse caso, inicialmente as séries são atribuídas a uma quantidade de cluster de maneira aleatória.Então passa-se a intercambiar esses dados entre os grupos de maneira torná-los os mais distintos possíveis entre si.

2.1.2.Critérios de similaridade

Para avaliar o quão semelhantes ou distintas são as séries umas das outras é necessária uma formulação matemática objetiva.

Dois exemplos desses critérios são a distância baseada no coeficiente de correlação de Pearson e o critério

Short Time Series Distance (STS).

O primeiro consiste em calcular o coeficiente de correlação de Pearson:

E a partir dele obter o grau de similaridade entre as séries:

Já o STS considera que a série é composta de um conjuto de trechos lineares e compara as respectivas inclinações entre duas séries para um dado intervalo conforme a fórmula abaixo.

2.1.3.Avaliação dos resultados da clusterização

É necessário julgar a performance dos clusters obtidos.Esse julgamento é feito de maneira distinta caso o número ótimo de clusters seja conhecido previamente ou não.

2.2.Monitoramento

De acordo com Gorr&Ord[3] , entre as melhores maneiras de se monitorar uma série temporal é observar o erro de previsão.

No entanto, essas séries, por poderem apresentarem tendências e autocorrelações fazem com que premissas sobre o erro( usado como proxy para o distúrbio) como a variância constante e a distribuição normal não sejam válidas.

(3)

3.Resultados 3.1.Clusterização

Aplicando o STS às séries em questão em relação ao PIB defasado de um mês, uma vez que nosso interesse é distiguir quais as séries forneceriam um modelo de previsão para essa variável, obtivemos os seguintes valores: Tabela 1.Valores de distância STS das séries à série PIB(t+1)

BCN BCD BI BC PI VHS VAM VME VTC VCL VV 0,60 0,72 0,52 0,61 0,54 0,84 0,79 1,09 1,74 0,55 0,95 Portanto, as séries podem ser assim ordenadas (da mais similar para a menos similar):

BI,PI,VCL,BCN,BC,BCD,VAM,VHS,VV,VME,VTC.

A idéia era então incluir cada uma dessas séries no modelo, sempre atentando para não incorrer em multicolinearidade, checando as correlações entre séries.

Desse modo incluiu-se BI.A próxima seria PI, mas essa variável foi deixada de lado por apresentar uma alta semelhança com BI.VCL então foi inclusa por ser a terceira mais próxima e ser distinta de BI.Todas as demais foram descartadas por estarem altamente corralciondas com as outras duas variáveis já constantes do modelo.Segue abaixo a tabela das correlações.

Tabela 2.Correlações entre as séries temporais

BCN BCD BI BC PI VHS VAM VME VTC VCL VV BCN 1,00 BCD 0,71 1,00 BI 0,73 0,90 1,00 BC 0,75 0,93 0,89 1,00 PI 0,86 0,93 0,97 0,94 1,00 VHS 0,45 0,47 0,35 0,56 0,44 1,00 VAM 0,56 0,54 0,45 0,65 0,56 0,59 1,00 VME 0,56 0,69 0,56 0,74 0,64 0,92 0,61 1,00 VTC 0,30 0,16 0,09 0,26 0,19 0,84 0,34 0,76 1,00 VCL 0,02 -0,40 -0,18 -0,31 -0,18 -0,13 -0,15 -0,26 0,13 1,00 VV 0,48 0,50 0,38 0,58 0,48 0,98 0,59 0,95 0,89 -0,10 1,00 Todas as séries assinaladas têm relação com o PIB, no entanto, as duas variáveis selecionadas fazem mais sentido economicamente quando falamos de um modelo de previsão.Os bens intermediários indicam um aumento na capacidade de produção pois estão associados à indústria de base.Se a capacidade de produção aumenta em um dado momento é sinal de que o mercado está se preparando para responder a um aumento da demanda num futuro

próximo.Diferentemente dos bens de consumo não duráveis, os quais espera-se que sejam um bom inidcador do nível corrente de atividade.

O Volume de vendas de combustíveis e lubrificantes inclui não só a venda para o consumidor final mas também a venda com finalidade de produção.Portanto, uma percepção da Petrobrás no aumento da demanda interna(consequentemente aumento do produto) num curto prazo pode ocasionar um crescimento desse índice.além disso pode se justificar que com a percepção de uma demanda maior nos próximos mesmes, a economia tende a girar mais produtos e portanto, os caminhões a serviço das transportadoras circulam mais intensamente.Como essa é uma parcela não insignificante no que diz respeito ao consumo de diesel, masi uma vez é de se esperar que VCL estaja relacionada ao PIB em um pequeno horizonte de tempo.

(4)

3.2.Construção do modelo

Com as séries em mãos primeiramente tratou-se de analisar se se tratavam de séries estacionárias ou não. Como se pode observar dos correlogramas abaixo, são séries que apresentam autocorrelação.

Gráfico 1. Correlograma de BI

(5)

Gráfico 3.Correlograma PIB

Observando a evolução temporal também vemos que algumas delas apresentam sazonalidade e/ou têndencias temporais.

(6)

Gráfico 5.Série temporal VCL

Gráfico 6. Série temporal PIB

Portanto, devia-se tratar esses problemas antes de proceder a regressão.Para tal regrediu-se cada uma das séries em seus valores passados e em uma variável tempo.Utilizando as variáveis significativas, subtraiu-se os valores

estimados dos valores reais e analisou-se os resíduos.

Eliminados então os problemas de não estacionaridade e autocorrelação passou-se à regressão propriamente dita.Os resultados foram:

(7)

ANOVA df SS F Regression 2,00 854,36 35,01 Residual 92,00 1122,44 Total 94,00 1976,80 Coefficients Standard Error P-value Intercept 0,00 0,36 1,00 BI 0,49 0,08 0,00 VCL 0,16 0,09 0,08 Figura1.Regressão de PIB(t+1) em BI e VCL

Desse modo, VCL não era significativo para um nível de confiança de 5%.Isso não era esperado e portanto buscou-se uma explicação.

A correlação entre essas novas séries BI e VCL é de 0,49. Era provável então que o modelo estivesse sofrendo de multicolinearidade e por isso os desvios padrão não seriam válidos e consequentemente, o teste-t também não.

Não podia-se simplesmente eliminar a variável VCL pois, caso ela fosse se fato significativa para o modelo, incorreria-se no erro de omissão de variável significativa, o que implicaria em estimador viesado para o variável BI.

Utilizou-se a restrição linear de que o coeficiente de BI e VCL fossem iguais, obteve-se um modelo satisfatório.Como mostra a tabela abaixo:

Regression Statistics Multiple R 0,63 R Square 0,40 Adjusted R Square 0,40 Standard Error 3,57 Observations 95,00 ANOVA Df SS F Regression 1,00 793,91 62,42 Residual 93,00 1182,90 Total 94,00 1976,80 Coefficients Standard Error P-value Intercept 0,00 0,37 1,00 BI+VCL 0,34 0,04 0,00

Figura 2. Regressão de PIB(t+1) em BI+VCL

(8)

Gráfico 7.Dispersão dos resíduos em função da variável BI+VCL

Além disso o erro apresentava distribuição aproximadamente normal como mostra o histograma abaixo:

Gráfico 8.Histograma do resíduo

Da figura 2 nota-se que o desvio padrão do resíduo é de 3,57 e por contrução dos estimadores OLS, a média do resíduo é 0.

Sendo assim, o intervalo com 99,7% de confiança para o resíduo é -10,71< e <10,71. Como pode-se ver no gráfico 4, não há nenhum ponto fora desse intervalo.

3.3.Monitoramento

Alimentando o modelo obtido com os valores das séries temporais provenientes do conjunto de testes, calculou-se os erros associados.Seguem eles listados abaixo:

(9)

Como era de se esperar o resultado para set/08 não está contido no intervalo de confiança.Isso se deve ao fato de que nesse período houve um choque econòmico causado pela eclosão da crise do Subprime.

4.Conclusão

A técnica de clusterização utilizada foi capaz de distinguir séries teoricamente adequadas ao modelo.Já a técnica de monitoramento aplicada, embora muito simples, foi capaz de detectar um instante em que de fato o modelo não era mais válido.Desse modo, pode-se inferir que os resultados obtidos foram favoráveis a eficácia e utilidade das técnicas.

Contudo, há algumas ressalvas.As séries temporais utilizadas não eram muito extensas, isso torna os correlogramas menos confiáveis e,o mais importante, só havia no conjunto de teste um ponto crítico para o modelo isso diminui a robustez dos resultados aferidos.

5.Agradecimentos

Agradecemos à CNPQ pelo apoio financeiro.

6.Referências

[1] LIAO, T. Warren (2005) Clustering of time series data—a survey. The Journal of Pattern Recognition Society

[2] BCB-Banco Central do Brasil.Disponível em : <http://www4.bcb.gov.br/?SERIESTEMP>

[3] GORR, Wilpen L.; ORD, J. Keith (2009). Introduction to time series monitoring. International Journey of

Referências

Documentos relacionados

No entanto, expressões de identidade não são banidas da linguagem com sentido apenas porque a identidade não é uma relação objetiva, mas porque enunciados de identi- dade

o transferência interna: poderá requerer transferência interna o aluno que esteja regularmente matriculado na Universidade no semestre em que solicitar a transferência e

O enfermeiro, como integrante da equipe multidisciplinar em saúde, possui respaldo ético legal e técnico cientifico para atuar junto ao paciente portador de feridas, da avaliação

Centro Caraívas Rodovia Serra dos Pirineus, Km 10 Zona Rural Chiquinha Bar e Restaurante Rua do Rosário Nº 19 Centro Histórico Codornas Bar e Restaurante Rua Luiz Gonzaga

Nos valores totais para o corpus percebe-se um bom desempenho da ferramenta OGMA, levando em consideração que aproximadamente 1/3 das palavras-chave atribuídas

Em um dado momento da Sessão você explicou para a cliente sobre a terapia, em seguida a cliente relatou perceber que é um momento para falar, chorar, dar risada

Para a realização da análise fatorial, utilizaram-se 37 variáveis (Tabela 1) produzidas para o estudo, o que inclui dados presentes no ambiente pedonal de três bairros da cidade

A espectrofotometria é uma técnica quantitativa e qualitativa, a qual se A espectrofotometria é uma técnica quantitativa e qualitativa, a qual se baseia no fato de que uma