• Nenhum resultado encontrado

Utilização do método de decomposição empírico no processamento de dados de mobilidade urbana

N/A
N/A
Protected

Academic year: 2021

Share "Utilização do método de decomposição empírico no processamento de dados de mobilidade urbana"

Copied!
58
0
0

Texto

(1)

PROGRAMA DE PÓS-GRADUAÇÃO EM MATEMÁTICA APLICADA

JULIANA HUTHER ALBERNAZ CRESPO

UTILIZAÇÃO DO MÉTODO DE

DECOMPOSIÇÃO EMPÍRICO NO

PROCESSAMENTO DE DADOS DE

MOBILIDADE URBANA

(2)

PROGRAMA DE PÓS-GRADUAÇÃO EM MATEMÁTICA APLICADA

JULIANA HUTHER ALBERNAZ CRESPO

UTILIZAÇÃO DO MÉTODO DE

DECOMPOSIÇÃO EMPÍRICO NO

PROCESSAMENTO DE DADOS DE

MOBILIDADE URBANA

Dissertação submetida à Escola de Ma-temática Aplicada como requisito parcial para a obtenção do grau Mestre em Mo-delagem Matemática da Informação.

Orientador: Moacyr Alvim Horta Barbosa da Silva

(3)

Crespo, Juliana Huther Albernaz

Utilização do método de decomposição empírico no processamento de dados de mobilidade urbana / Juliana Huther Albernaz Crespo. - 2018.

57 f.

Dissertação (mestrado) – Fundação Getulio Vargas, Escola de Matemática Aplicada.

Orientador: Moacyr Alvim Horta Barbosa da Silva. Inclui bibliografia.

1. Análise de séries temporais. 2. Transporte urbano. 3. Sistema de Posicionamento Global. 4. Telefonia celular. 5. Base de dados. I. Silva, Moacyr Alvim Horta Barbosa da. II. Fundação Getulio Vargas. Escola de Matemática Aplicada. III. Título.

CDD – 519.55

(4)
(5)

Crespo, Juliana Huther Albernaz. Utilização do Método de Decomposição Empírico no Processamento de Dados de Mobilidade Urbana. . 50 f. Dissertação (Mestrado em Matemática Aplicada) - EMAp, Escola de Matemática, Fundação Getulio Vargas, Rio de Janeiro, .

A transformada de Hilbert-Huang é um método relativamente recente para ana-lisar séries temporais. Incentivados por seus resultados positivos em séries temporais de diversas naturezas, decidimos implementar o mesmo em duas bases de dados de mobilidade urbana do Rio de Janeiro, sendo uma de GPS de ônibus e a outra de te-lefonia celular, para encontrar possíveis ciclos, sazonalidades e tendências, ao longo dos anos, devido a mudanças significativas nas vias exploradas.

Palavras-chave: Palavra-chave 1, Palavra-chave 2, Palavra-chave 3.

(6)

Figura 2.1: exemplo de uma série temporal. . . 3

Figura 2.2: na esquerda podemos ver um exemplo de uma serie estacionaria e na direita um exemplo de uma serie não estacionaria. . . 5

Figura 2.3: Processo para encontrar uma possível candidata a IMF. . . 13

Figura 2.4: Aplicando a transformada de Hilbert em um pequeno trecho do Hino do Fluminense, podemos observar nitidamente as notas ini-ciais da melodia. . . 14

Figura 3.1: Adaptação do fluxograma do algoritmo EMD. ESPER (2016) . . 17

Figura 4.1: Trecho selecionado, Avenida Min. Ivan Lins. . . 19

Figura 4.2: Os dados no trecho selecionado, Av. Min. Ivan Lins. . . 19

Figura 4.3: Velocidade média diária calculada do GPS dos ônibus sentido zona sul. . . 22

Figura 4.4: Média móvel observações diárias sentido zona sul, com uma janela de 30 dias. . . 22

Figura 4.5: Numero de viagens observadas saindo da Barra sentido Madureira . 23 Figura 4.6: Média móvel sentido Barra com uma janela de 30 dias. . . 23

Figura 5.1: Transformada de Hilbert-Huang. . . 26

Figura 5.2: frequências instantâneas com a transformada de Hilbert. . . 27

Figura 5.3: médias moveis e resíduo. . . 27

Figura 5.4: zoom da Figura 5.3, nas obras do metrô. . . 27

Figura 5.5: Transformada de Hilbert-Huang. . . 28

Figura 5.6: frequências instantâneas com a transformada de Hilbert. . . 29

Figura 5.7: Média móvel e resíduo. . . 29

(7)

Tabela 4.1: Exemplo dos dados de GPS dos ônibus. . . 20 Tabela 4.2: Exemplo dados finais, pico da manha, sentido barra. . . 20 Tabela 4.3: Exemplo dos dados contendo a quantidade de pessoas que foram

da Barra para Madureira. . . 21 Tabela 4.4: análise dos dados sentido Barra . . . 22 Tabela 5.1: Teste do Dickey-Fuller aplicado aos dados de telefonia celular da

Barra para Madureira. . . 25 Tabela 5.2: Tabela com os valores exatos do lambda e da média de cada IMF. 26 Tabela 5.3: Tabela com os valores exatos do lambda e da média de cada IMF. 28

(8)

1 INTRODUÇÃO . . . 1

2 FUNDAMENTOS TEÓRICOS . . . 3

2.1 Séries Temporais . . . 3

2.1.1 Estacionariedade . . . 4

2.1.2 Teste de Estacionariedade ou Teste da Raiz Unitária . . . 5

2.1.3 Ferramentas para trabalhar com uma série . . . 9

2.2 Transformada de Hilbert-Huang (HHT) . . . 9

2.2.1 Funções de Modo Intrínseco (IMF) . . . 10

2.2.2 Decomposição em Modos Empíricos (EMD) . . . 11

2.2.3 Transformada de Hilbert . . . 13

3 METODOLOGIA . . . 16

4 DADOS . . . 18

4.1 Descrição dos dados . . . 18

4.2 Estatística básica dos dados . . . 21

5 RESULTADOS . . . 25

5.1 Analisando os dados de GPS de ônibus . . . 25

5.2 Analisando os dados de telefonia . . . 28

6 CONCLUSÃO . . . 30

REFERÊNCIAS . . . 32

APÊNDICE A ALGORITMOS UTILIZADOS . . . 34

APÊNDICE B GRÁFICOS DADOS DE GPS DE ÔNIBUS . . . 35

APÊNDICE C GRÁFICOS DADOS TELEFONIA CELULAR . . . 47

(9)

1 INTRODUÇÃO

Neste trabalho temos como objetivo medir o impacto de intervenções das infraestruturas de transporte na mobilidade urbana. Outro objetivo é analisar se esses impactos podem ser observados com a transformada de Hilbert-Huang.

Faremos a análise de dois conjuntos de dados, os dados públicos de GPS de ônibus e os dados privados de localização de chamadas de celular, utilizando a transformada de Hilbert-Huang. O intuito é encontrar possíveis ciclos, sazonalidades e tendências. Além dos ciclos intuitivos de 7 e 30 dias, por se tratar de dados diários, observa-se ciclos de 4 e de 15 dias. É possível observar também um aumento do fluxo, tanto na velocidade média dos ônibus quanto no número de pessoas encontradas nos dados de telefonia celular, coincidente as melhorias feitas nas vias ao longo dos anos referentes aos dados.

No capitulo de fundamentos teóricos iremos encontrar uma breve introdução sobre séries temporais, estacionariedade e teste da raiz unitária, seguidos da trans-formada de Hilbert-Huang, onde estão especificadas as funções de modo intrínseco, a decomposição em modos empíricos e a transformada de Hilbert.

No capitulo 3 encontra-se a metodologia. No capitulo 4 uma descrição deta-lhada dos dados de GPS de ônibus e dos dados de telefonia celular, junto com uma breve análise dos mesmos.

Nos capítulos 5 e 6 encontramos os resultados e a conclusão das análises realizadas neste trabalho. Neles podemos observar que os resultados foram muito favoráveis para a transformada de Hilbert-Huang, revelando que o mesmo é uma

(10)
(11)

2 FUNDAMENTOS TEÓRICOS

2.1 Séries Temporais

Série temporal é um conjunto de observações de uma variável feitas sequenci-almente ao longo de um período de tempo, gersequenci-almente ocorre em intervalos unifor-mes. Nestas, as observações vizinhas são dependentes e por isso a ordem dos dados é fundamental para a análise.

Figura 2.1: exemplo de uma série temporal.

Os modelos utilizados para descrever séries temporais são processos estocás-ticos, que são processos controlados por leis probabilísticas. Existem muitas formas diferentes de descrever o comportamento de uma dada série. A construção destes modelos depende de vários fatores, dos quais os principais são a tendência, o ciclo e a sazonalidade.

(12)

A tendência de uma série indica o seu comportamento “de longo prazo”, isto é, se ela cresce, decresce ou permanece estável, e qual a velocidade destas mudanças. Nos casos mais comuns trabalha-se com tendência constante, linear ou quadrática.

Os ciclos são caracterizados pelas oscilações, de forma suave e repetida, ao longo da tendência.

A sazonalidade em uma série corresponde às oscilações que ocorrem sempre em um determinado período do ano, do mês, da semana ou do dia. A principal dife-rença entre as componentes sazonais e cíclicas é que a primeira possui movimentos facilmente previsíveis, ocorrendo em intervalos regulares de tempo, enquanto que movimentos cíclicos tendem a ser irregulares.

2.1.1 Estacionariedade

Uma série temporal é dita estacionária, ou convergente, quando ao longo do tempo ela tem um comportamento aleatório ao redor de uma média constante, ou seja, quando suas propriedades estatísticas não variam no tempo, gerando uma forma de equilíbrio estável. Na prática, a maioria das séries reais que encontramos apresentam algum tipo de não estacionariedade, como por exemplo, uma tendência ou sazonalidade.

Como a estacionariedade é uma suposição subjacente a muitos procedimentos estatísticos utilizados na análise de séries temporais, os dados não estacionários são muitas vezes transformados para tornarem-se estacionários. A causa mais comum de violação da estacionariedade, como dito anteriormente, é a tendência, que pode ocorrer devido à presença de uma raiz unitária (definição na seção 3.1.2) ou de uma tendência determinista. No primeiro caso, o de uma raiz unitária, os choques

(13)

esto-Figura 2.2: na esquerda podemos ver um exemplo de uma serie estacionaria e na direita um exemplo de uma serie não estacionaria.

cásticos têm efeitos permanentes. No último caso, o de uma tendência determinista, o processo é chamado de processo estacionário de tendência, e os choques estocásti-cos têm apenas efeitos transitórios, após os quais a variável tende para uma média determinante (não constante).

2.1.2 Teste de Estacionariedade ou Teste da Raiz Unitária

Seja ym um modelo autorregressivo de ordem 1, definido como:

ym = ⇢ym 1 + um (2.1)

onde, ym é a variável de interesse, m é o índice de tempo, ⇢ é o coeficiente

e as variáveis independentes um (ruído), são iid, com E[um] = 0 e 2[um] > 0. Se

⇢ = 1, o processo ym não é estacionário. Se |⇢| < 1, o efeito de um decai com o

tempo e o processo ym é estacionário.

Podemos observar que

(14)

pode ser reescrito como yt = y0+ t X i=1 ui+ a0t (2.3)

onde a0té uma tendencia determinística e y0+Pti=1ui é um termo de

inter-cepção estocástica, resultando numa tendência estocástica. (ENDERS, 2004)

Dizemos que Y é estacionário de sentido amplo se:

E[Y [n] ˜Y [m]] = R[n, m] = RY[n m] (2.4)

Dada a equação de um processo estocástico autorregressivo linear, se 1 for uma raiz da sua equação característica, esse processo tem uma raiz unitária, o que o torna um processo não estacionário. HAMILTON (1994)

yt+m = ⇢1yt+m 1+ ⇢2yt+m 2+ ... + ⇢myt+ um (2.5)

Temos um processo estocástico de tempo discreto ut, t = 0, ...,1, com media

zero e variância constante. Se |r| = 1 for uma raiz da equação característica:

rm rm 1⇢1 rm 2⇢2 ... ⇢m = 0 (2.6)

(15)

Se as outras raízes da equação característica estiverem dentro do círculo uni-tário, isto é, tenham o valor absoluto inferior a um, então a primeira diferença do processo será estacionária. Caso contrário, o processo precisará ser diferenciado várias vezes para se tornar estacionário.

Se uma raiz da equação característica do processo for maior do que 1, então ela é chamada de processo explosivo, mesmo se esse processo, por vezes, seja chamado de processo de raiz unitária erroneamente. (MARGARIDO MARIO ANTONIO, 2006)

A presença de uma raiz unitária pode ser testada usando um teste de raiz unitária. Dessa forma, utilizamos testes de hipóteses que de uma forma geral, possui as seguintes hipóteses:

H0 =Existe pelo menos uma raiz dentro do círculo unitário

H1 =Não existem raízes dentro do círculo unitário

Existem vários testes para a raiz unitária, entre eles o teste de Dickey-Fuller, o teste de Phillips-Perron e o Teste KPSS. Iremos utilizar o teste de Dickey-Fuller nesse trabalho.

O modelo de regressão pode ser escrito:

ryt= (⇢ 1)yt 1+ ut= yt 1+ ut (2.7)

onde, r é o primeiro operador de diferença. Este modelo pode ser testado e estimado por uma raiz unitária, o que é equivalente a testar = 0. Uma vez que o teste é feito sobre o termo residual ao invés dos dados brutos, não é possível fazer uma distribuição t padrão para fornecer os valores críticos. No entanto esta estatística t tem uma distribuição simples e conhecidas, chamada teste de Dickey-Fuller.

(16)

Existem três versões para esse teste:

1. Teste de uma raiz unitária:

ryt= yt 1+ ut (2.8)

2. Teste de uma raiz unitária com drift:

ryt= a0+ yt 1+ ut (2.9)

3. Teste de uma raiz unitária com drift e uma tendencia do tempo determinística:

ryt= ao+ a1t + yt 1+ ut (2.10)

Cada versão do teste tem um valor crítico, que vai depender do tamanho da amostra. Porém, a intuição é de que, se y estiver estacionaria (ou com tendencia estacionaria), ela tende a retornar a uma media constante. Portanto, grandes valores tendem a ser seguidos por valores menores e valores pequenos por valores maiores. Consequentemente, o nível da série será um preditor significativo da mudança do próximo período, e terá um coeficiente negativo. Se, por outro lado, a série estiver integrada, então ocorrerão com probabilidades que não dependem do nível atual da série. Em uma caminhada aleatória, onde se esta agora, não afeta o caminho que será seguido.

A principal crítica em relação aos testes de raiz unitária é que quando o tamanho da amostra é muito pequeno, o teste não consegue distinguir um processo estacionário de outro quase estacionário (ou com raiz característica muito próxima da região de fronteira não estacionária).

(17)

2.1.3 Ferramentas para trabalhar com uma série

Dentre os vários métodos para estudar séries, destacamos:

• Transformada de Fourier;

• Transformada de Fourier com janelas; • Transformada de Wavelet;

• Transformada de Hilbert-Huang;

Quando a série é estacionaria, a ferramenta mais utilizada é a transformada de Fourier.

A transformada de Fourier decompõe uma série em suas componentes elemen-tares seno e cosseno, trabalhando no domínio frequência. Isso torna a representação da série mais simples e esclarecedora.

Como a nossa série não é estacionaria e não encontramos nenhum estudo relacionado a transporte utilizando a Transformada de Hilbert-Huang, surgiu um grande interesse em estudar esse método.

2.2 Transformada de Hilbert-Huang (HHT)

A transformada de Hilbert-Huang (HHT) é a junção da decomposição em modo empírico (EMD) e da análise espectral de Hilbert (HSA) dessas componentes. É um método adaptativo de análise projetado especificamente para análise de dados

(18)

de processos não-lineares e não-estacionários. A parte principal do HHT é o método EMD, com o qual qualquer conjunto de dados pode ser decomposto em um nú-mero finito de componentes mais simples, chamados de funções do modo intrínseco (IMF). A transformada de Hilbert é usada para calcular a frequência instantânea de cada IMF. A apresentação final dos resultados é uma distribuição tempo-frequência-energia, designada como o espectro de Hilbert. HUANG; WU; LONG (2008)

2.2.1 Funções de Modo Intrínseco (IMF)

Um sinal oscilatório simples é aquele que oscila em torno do zero e o número de máximos e mínimos locais são iguais ao número de cruzamentos no zero. Estes sinais são mais fáceis, em geral, de serem analisados. Por isso, seria interessante ter um método prático para decompor o sinal em alguns componentes que satisfaçam todas as condições exigidas. Pensando nisso, Huang propôs uma classe de funções chamadas Funções de Modo Intrínseco. KLINGSPOR (2015)

O IMF representa um modo oscilatório simples como contrapartida da fun-ção harmônica simples, mas é muito mais geral, em vez de amplitude e frequência constantes em um componente harmônico simples, um IMF pode ter amplitude e frequência variáveis ao longo do eixo do tempo. Esta deve satisfazer as seguintes condições:

• Em todo o conjunto de dados, o número de máximos junto com o número de mínimos deve se igualar ou diferir em no máximo um elemento do numero de zeros-crossing, que é o número de vezes que a função cruza o zero.

• Em qualquer ponto, o valor médio do envelope definido pelos máximos locais e o envelope definido pelos mínimos mínimos é zero.

(19)

• A IMF gerada não pode ter nenhum máximo local abaixo de zero e nenhum mínimo local acima de zero.

Como o primeiro IMF geralmente tem os componentes de maior frequência, ou seja, os mais oscilantes, ele pode ser rejeitado para remover ruído aleatório, dentre outras coisas. Por definição, um IMF é qualquer função com o mesmo número de cruzamentos extremos e zero, cujos envelopes são simétricos em relação a zero. HUANG et al. (1998) Esta definição favorece um a transformada de Hilbert bem comportada do IMF.

2.2.2 Decomposição em Modos Empíricos (EMD)

O método EMD tem como finalidade reduzir qualquer dado a uma coleção de funções de modo intrínseco (IMF), através das características temporais do sinal, e por fim decompor os dados de acordo com essas características, para as quais a análise espectral de Hilbert pode ser aplicada.

Com os dados selecionados, deve-se começar o procedimento de extração das IMF’s, mais conhecido como peneiração (sifting), que se resume a encontrar todos os extremos locais, interpolando todos os máximos locais por uma spline cúbica, formando então o envelope superior. O mesmo procedimento é feito para os mínimos locais, encontrando o envelope inferior.

Com os dois envelopes, é possível encontrar a média m1(t) entre eles, que

subtraindo dos dados da amostra y(t), forma a primeira candidata a IMF h1:

(20)

Idealmente, o componente h1 deve satisfazer a definição de um IMF, o sinal

não deve ter nenhum máximo local abaixo de zero ou um mínimo local acima de zero HUANG; WU; LONG (2008). Caso não satisfaça, deve-se repetir o procedimento de peneiração, utilizando o candidato a IMF no lugar dos dados iniciais, até que o componente atinja as condições necessárias para ser uma IMF:

hk(t) = hk 1(t) mk(t) (2.12)

A próxima IMF pode ser encontrada, através da subtração da IMF já extraída dos dados iniciais e da repetição do processo descrito acima.

O processo termina quando o número de zero-crossings e o de extremos são iguais (diferem no máximo de um) ou é atingido um número S de peneirações pre-viamente definido. Outros critérios de parada do algoritmo são estudados em HU-ANG N. E.; SHEN (1999)HUHU-ANG N. E.; WU (2003).

(21)

(a) Pontos da amostra. (b) Localizar máximos e mínimos.

(c) Definição dos envelopes de máximo e

de mínimo e a media. (d) A diferença entre a amostra inicial e amedia entre os envelopes.

Figura 2.3: Processo para encontrar uma possível candidata a IMF.

2.2.3 Transformada de Hilbert

A Transformada de Hilbert é uma operação linear, onde dada função analítica F (x) = u(x) + iv(x), a sua parte imaginária v(x) é a transformada de Hilbert da parte real u(x) BRACEWELL (2000). Sendo assim, a transformação de Hilbert é uma maneira prática de se obter a conjugada de uma função real qualquer f(x). A transformada de Hilbert pode ser definida como KLINGSPOR (2015):

˜ f (x) = H[f (x)] = 1 ⇡ Z 1 1 f (⌧ ) ⌧ xd⌧ (2.13)

Para a integral estar bem definida, é necessário calcular o valor principal de Cauchy. Para sinais discretos esta preocupação não é necessária, já que a operação de integração passa a ser de somatório OPPENHEIM; SCHAFERE (1975).

(22)

Figura 2.4: Aplicando a transformada de Hilbert em um pequeno trecho do Hino do Fluminense, podemos observar nitidamente as notas iniciais da melodia.

Propriedades da transformada de Hilbert:

• Um sinal f(x) e sua transformada de Hilbert ˜f (x) têm o mesmo espectro de amplitudes. A potência e a transformada de Hilbert são iguais.

• Se ˜f (x) é a transformada de Hilbert de f(x), então, f(x) é a transformada de Hilbert de ˜f (x).

• A transformada de Hilbert é uma transformação linear.

• Um sinal f(x) e sua transformada de Hilbert ˜f (x) são ortogonais.

O teorema de Bedrosian E (1963) estabelece uma relação entre a transfor-mada de Hilbert do produto de dois sinais e as transfortransfor-madas dos sinais, no caso em que um dos sinais, a(x), tenha frequências relativamente baixas e o, b(x) outro relativamente altas de modo a não haver sobreposição espectral de sinais. O teorema

(23)

diz que, sob esta hipótese, vale a igualdade:

H[a(x)b(x)] = a(x)H[b(x)] (2.14)

A amplitude do sinal pode ser modelado como uma função de baixas frequên-cias a(x), modulando uma função de alta frequência cos(✓(x)):

f (x) = a(x) cos(✓(x)) (2.15)

Aplicando o teorema de Bedrosian, a transformada de Hilbert de f(x) pode ser escrita na forma:

˜

f (x) = a(x) sin(✓(x)) (2.16)

Isso nos permite extrair a amplitude e a frequência instantânea.

a(x) = q f2(x) + ˜f2(x) (2.17) ✓(x) = arctanf (x)˜ f (x) (2.18) ✓0(x) = f˜ 0(x)· f(x) f (x)˜ · f0(x) a2 ✓0(x) = f˜ 0(x)· f(x) f (x)˜ · f0(x) f2(x) + ˜f2(x) (2.19)

(24)

3 METODOLOGIA

Fizemos uma breve análise dos dados fornecidos, de forma a entender melhor os seus comportamentos como séries temporais, onde esperávamos que estas fossem séries não estacionárias o que comprovamos com o teste da raiz unitária.

Posteriormente analisamos os dados utilizando a transformada de Hilbert-Huang, buscando obter as tendências e os ciclos das séries. Para isto implementamos esta transformada em Python, com os métodos de detecção de IMF, a decomposição EMD e a transformada de Hilbert.

E por último aplicamos a transformada de Hilbert. Com essas análises espe-rávamos obter as tendências das séries, da mesma forma que foram observadas no exemplo do hino do Fluminense.

(25)
(26)

4 DADOS

4.1 Descrição dos dados

Neste trabalho foram utilizados dois conjuntos de dados distintos referentes a transportes. Um conjunto é o de dados públicos de localização de GPS de ônibus e o outro é o de dados privados de localização de chamadas por telefonia celular. A seguir detalhamos estes conjuntos de dados.

Dados de GPS de ônibus

Os primeiros dados utilizados foram fornecidos pelo CEFET/RJ, podemos encontrar os dados em OGASAWARA (2018) e constam com informações, captura-das a cada minuto dos GPS dos ônibus do Rio de Janeiro. Dentro do mesmo, foram selecionado todos os ônibus que passaram por um trecho na entrada da Barra da Tijuca, a Av. Min. Ivan Lins, como podemos observar na figura 2.1. Esses dados foram obtidos no período entre Abril de 2014 e Dezembro de 2017.

Na figura 2.2 é possível observar a Avenida com todas as observações en-contradas pelo GPS de todos os ônibus que passaram por essa avenida no período coletado.

Os nossos dados são compostos pelas colunas,’DATAHORA’ que é o dia, hora, minuto e segundo da visualização, ’ORDEM’ que é o número de identificação dos ônibus, a ’LINHA’ do ônibus, ’LAT’ latitude onde o veiculo se encontra, ’LONG’ a longitude em que o veiculo se encontra e ’VELOC’ que é a velocidade do veículo.

(27)

Figura 4.1: Trecho selecionado, Avenida Min. Ivan Lins.

Figura 4.2: Os dados no trecho selecionado, Av. Min. Ivan Lins.

A velocidade fornecida pelo GPS é instantânea, sendo assim, não é a infor-mação mais adequada para o nosso estudo. Pode ocorrer que o ônibus esteja parado em um ponto ou na velocidade máxima da via, então não nos fornece a velocidade média do mesmo na via. Resolvemos encontrar as observações sequenciais da via, desde que tenham uma diferença de no máximo 40 minutos e calculamos a nova velocidade de acordo com a distancia ao longo da via e o tempo percorridos entre a primeira e a ultima visualizações obtidas, mantendo como parâmetro nos dados a data e hora da primeira visualização. Sendo que através das latitudes e longitudes dos mesmos, conseguimos encontrar o sentido que o ônibus se encontra, se o ônibus está indo para a zona sul ou se está voltando para a Barra.

(28)

Tabela 4.1: Exemplo dos dados de GPS dos ônibus.

DATAHORA ORDEM LINHA LAT LONG VELOC

0 2016-03-04 12:45:56 A27501 548.0 -23.0097 -43.3026 61.0 1 2016-03-04 14:10:56 A27501 548.0 -23.0112 -43.3009 65.0 2 2016-03-04 14:11:56 A27501 548.0 -23.0119 -43.2915 69.0 3 2016-03-04 16:54:56 A27501 548.0 -23.0092 -43.2866 6.0 4 2016-03-04 16:55:56 A27501 548.0 -23.0103 -43.2880 36.0

A partir dessas informações obtivemos uma média da velocidade diária, assim como uma média dos picos da manhã (entre as 7:00 e as 10:00 horas da manhã) e o pico da tarde (entre as 16:00 e as 20:00) de todos os ônibus que passaram por esse percurso.

Tabela 4.2: Exemplo dados finais, pico da manha, sentido barra.

DATA VELOC 0 2014-04-16 16:00:29 0.607202 1 2014-04-16 16:02:41 26.457937 2 2014-04-16 16:05:39 44.870802 3 2014-04-16 16:12:43 4.734353 4 2014-04-16 16:12:53 23.928814 Dados de telefonia

O outro conjunto de dados utilizados são oriundos dos resultados da tese de CHAVES (2018). A parcela dos dados utilizados no presente trabalho foram obtidos diretamente com o autor. Contém uma estimativa do número de pessoas em deslocamento entre Barra e Madureira e vice-versa. Os dados contam o numero de usuários que efetua ao menos 2 chamadas em menos de 4 horas, uma em cada local. Esses dados são referentes ao ano de 2014.

Os dados são compostos pelas colunas, ’dia’ que diz a data da ligação telefô-nica, ’origem’ onde foi observada a primeira chamada da pessoa, ’destino’ onde foi observada uma nova chamada e a coluna ’estimados’ contém o número estimado de

(29)

indivíduos que fizeram esta viagem origem-destino. Para uma descrição da metodo-logia desta estimativa ver CHAVES (2018).

Tabela 4.3: Exemplo dos dados contendo a quantidade de pessoas que foram da Barra para Madureira.

dia origem destino estimados

0 2013-12-31 Barra da Tijuca Madureira 6692.0 1 2014-01-01 Barra da Tijuca Madureira 13968.0 2 2014-01-02 Barra da Tijuca Madureira 10578.0 3 2014-01-03 Barra da Tijuca Madureira 8119.0 4 2014-01-04 Barra da Tijuca Madureira 9593.0

4.2 Estatística básica dos dados

Nesta subseção apresentamos algumas estatísticas descritivas dos conjuntos de dados do estudo.

De GPS dos ônibus:

• Numero de observações: 1356 • Data inicial: 2014-04-16 • Data final: 2017-12-31

Quantidade média de observações por dia:

• sentido barra : 528.0390 • sentido zona sul: 437.1928

(30)

Tabela 4.4: análise dos dados sentido Barra

VELOCIDADE Dia inteiro Parte manhã Parte tarde

mean 41.1358 51.2672 34.9914 std 8.9733 8.5358 12.0166 min 7.5653 16.6993 8.5384 25% 34.0816 45.7782 23.5819 50% 41.6672 50.3655 35.6435 75% 47.2036 55.3479 44.5344 max 69.7573 95.8104 74.1650

Figura 4.3: Velocidade média diária calculada do GPS dos ônibus sentido zona sul.

Figura 4.4: Média móvel observações diárias sentido zona sul, com uma janela de 30 dias.

De telefonia:

1. Dados origem Barra da Tijuca

(31)

• Data inicial: 2013-12-31 • Data final: 2015-01-01 • Média de pessoas: 6981.4836 • máximo de pessoas: 13968.0 • minímo de pessoas: 3968.0

Figura 4.5: Numero de viagens observadas saindo da Barra sentido Madureira .

Figura 4.6: Média móvel sentido Barra com uma janela de 30 dias.

2. Dados origem Madureira

• Numero de observações: 367 • Data inicial: 2013-12-31 • Data final: 2015-01-01

(32)

• Média de pessoas: 7504.2997 • máximo de pessoas: 16274.0 • minímo de pessoas: 3987.0

(33)

5 RESULTADOS

Usando o teste de Dickey-Fuller para verificar a estacionariedade ou não-estacionariedade dos nossos dados, obtivemos os resultados expostos na tabela 5.1. Nela observamos que não podemos rejeitar a hipótese nula, de não-estacionariedade. Tabela 5.1: Teste do Dickey-Fuller aplicado aos dados de telefonia celular da Barra para Madureira. ADF Statistic: -0.760921 p-value: 0.830333 Critical Values: 1%: -3.449 10%: -2.571 5%: -2.870

5.1 Analisando os dados de GPS de ônibus

Iremos mostrar os resultados com base nos dados sentido Barra no período da manhã. Todos os outros resultados estarão anexados no apêndice, pois geraram resultados muito similares.

A figura 5.1 representa os IMF’s e o resíduo gerados pelo algoritmo implemen-tado em Python, que se encontra anexado no apêndice A. Nela podemos observar os ciclos encontrados, que serão analisados a seguir com a transformada de Hilbert.

Na figura 5.2 podemos observar a frequência média encontrada em cada IMF e dessa forma calcular o período de tempo típico de um ciclo oscilatório, que foi gerado nessa IMF (tabela 5.2 e figura 5.1). O período de tempo correspondente ao comprimento médio da onda em dias foi calculado por:

(34)

Figura 5.1: Transformada de Hilbert-Huang.

= 1 ¯

w (5.1)

Onde ¯wé a frequência instantânea média em hertz.

Tabela 5.2: Tabela com os valores exatos do lambda e da média de cada IMF. média

imf 1 3.6950 0.2706 imf 2 6.6149 0.1511 imf 3 13.6983 0.0730 imf 4 31.5398 0.0317

Como podemos observar na figura 5.3, o resultado obtido com a transformada de Hilbert-Huang ficou muito próximo à media móvel calculada, porem com muito mais precisão e sem precisar prever a janela.

Aproximando o gráfico das médias móveis e do resíduo, figura 5.4, podemos observar o término das obras do metrô, em meados de Maio, onde teve um aumento significativo do fluxo dos carros, no inicio de Outubro teve uma alteração nas linhas

(35)

Figura 5.2: frequências instantâneas com a transformada de Hilbert.

Figura 5.3: médias moveis e resíduo.

de ônibus, o fluxo só veio a normalizar com o final do período letivo escolar, meados de Dezembro, onde a velocidade média dos ônibus decaiu consideravelmente.

(36)

5.2 Analisando os dados de telefonia

Iremos utilizar os dados referentes ao sentido barra e direção Madureira. o sentido contrário, por ser muito similar, estará anexado no apêndice C.

Figura 5.5: Transformada de Hilbert-Huang.

Na figura 5.6 podemos observar a frequência média encontrada em cada IMF e dessa forma calcular o , período de tempo de uma onda, que foi gerado nessa IMF, figura 5.5, da mesma forma que foi dito anteriormente com os dados de GPS de ônibus. A tabela 5.3 nos mostra o resultado desse para cada média encontrada nas IMF’s anteriores.

Tabela 5.3: Tabela com os valores exatos do lambda e da média de cada IMF. média

imf 1 4.1253 0.2424 imf 2 7.2247 0.1384 imf 3 16.4255 0.0608 imf 4 36.3499 0.0275

Comparando o resultado do resíduo, utilizando o EMD com a média móvel, figura 5.7, podemos observar que os resultados foram bem próximos.

(37)

Figura 5.6: frequências instantâneas com a transformada de Hilbert.

Figura 5.7: Média móvel e resíduo.

É possível observar que houve um aumento do número de pessoas que saíram da Barra e foram para Madureira, a partir da metade do ano de 2014, momento da inauguração do BRT.

(38)

6 CONCLUSÃO

Este trabalho mostrou, em ambas as bases de dados, ciclos de 4 dias, se-parando os dias da semana (segunda, terça, quarta e quinta) dos finais de semana (sexta, sábado e domingo) onde claramente podemos observar uma mudança do comportamento populacional, ciclos de 7 dias, que mostram um comportamento pa-drão ao longo das semanas. Ciclos de 15 dias e ciclos de 30 dias, aproximadamente, o que possivelmente tem uma forte correlação com a forma de pagamento, seja ele mensal ou quinzenal.

Nos dados de GPS de ônibus conseguimos observar todos os impactos, tanto no aumento como na diminuição da velocidade média do fluxo dos carros a partir de meados do ano de 2016, onde ocorreram obras na Avenida Armando Lombardi, para a duplicação do viaduto, abertura da linha 4 do metrô. Podemo observar também os impactos no trânsito no período das olimpíadas.

Nos dados de telefonia celular podemos observar um maior fluxo de pessoas saindo da Barra e indo para Madureira, a partir do mês 6 de 2014, o que tem uma forte correlação com a introdução do brt Transcarioca. Pode não só indicar que as pessoas começaram a ir mais para Madureira, mas com a melhora do tempo, ficou mais eficiente fazer escala em Madureira.

A transformada de Hilbert-Huang não tem um retorno muito satisfatório quando se trata das bordas (o inicio e o final) do dados, sendo assim quanto maior os dados, menor a interferência e melhores os resultados. Apesar disso observamos que o resultado foi muito favorável para a transformada de Hilbert-Huang, comprovando que o mesmo tem capacidade de competir com outros métodos do gênero, como as

(39)

médias moveis.

Ao final do processo, caso o número de séries a serem analisadas seja muito grande, ao invés de fazer uma análise direta, como foi o caso desse trabalho, dado ao número reduzido de séries que foram analisadas, poderia ser usado o CUSUM.

O Gráfico de Controle das Somas Acumuladas (CUSUM), é indicado para o monitoramento de processos que estão sujeitos a alterações pequenas porém persis-tentes. Nele, a decisão sobre o estado do processo é baseada na informação acu-mulada das amostras anteriores, sendo possível sinalizar com maior rapidez os pe-quenos desajustes, assim como identificar no tempo o momento em que ocorre uma mudança. CRUZ (2009)MONTGOMERY (2004)HENNING (2009).

(40)

REFERÊNCIAS

BRACEWELL, R. The Fourier Transform And Its Applications. [S.l.: s.n.], 2000. 359-367p. v.3rd. Edition.

CHAVES, J. C. ESTIMATIVA DE MATRIZES DE ORIGEM-DESTINO A PARTIR DE REGISTROS DE CHAMADAS DE TELEFONIA CE-LULAR. 2018.

CRUZ, A. C. d. A aplicação de gráficos de controle de Soma Acumulada (CUSUM) para monitoramento de um processo de usinagem. , [S.l.], 2009.

E, B. A Product theorem for Hilbert Transform. [S.l.: s.n.], 1963. 868-869p. ENDERS, W. Applied Econometric Time Series (Second ed.). Hoboken: John

Wiley & Sons, [S.l.], 2004.

ESPER, N. B. Utilização de Métodos de Decomposição Empíricos no Pré-Processamento de Dados de Ressonância Magnética Funcional. 2016. HAMILTON, J. Time Series Analysis. [S.l.: s.n.], 1994.

HENNING, E. Análise de um Projeto de Ensino Utilizando Gráfico de Controle de Soma Cumulativa. , [S.l.], 2009.

HUANG, N. E. et al. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis. Proceedings of the Royal Society A: Mathematical, Physical and Engineering Sciences, [S.l.], v.454, n.1971, p.903–995, mar 1998.

HUANG N. E.; SHEN, Z. L. S. R. A new view of nonlinear water waves: the hilbert spectrum. Annu Rev Fluid Mech, [S.l.], v.31, n.1, p.417–457, 1999.

(41)

HUANG N. E.; WU, M.-L. C. L. S. R. S. S. S. Q. W. G. P. F. K. L. A. confidence limit for the empirical mode decomposition and hilbert spectral analysis. The Royal Society, [S.l.], v.459, n.2037, p.2317–2345, 2003.

HUANG, N.; WU, Z.; LONG, S. Hilbert-Huang transform. Scholarpedia, [S.l.], v.3, n.7, p.2544, 2008.

KLINGSPOR, M. Hilbert Transform: mathematical theory and applications to sig-nal processing. PESQUISA & DEBATE, SP, [S.l.], 2015.

MARGARIDO MARIO ANTONIO, e. M. J. H. d. Teste para mais de uma raiz unitária: uso do software sas na elaboração de uma rotina para o teste de dickey-pantula. PESQUISA & DEBATE, SP, [S.l.], v.17, n.1 (29), p.149–170, 2006. MONTGOMERY, D. C. Introdução ao controle estatístico da qualidade/ Douglas

C. , [S.l.], v.ed. reimpr, n.4, 2004.

OGASAWARA, E. Data Rio DataSet. 2018.

OPPENHEIM, A. V.; SCHAFERE, R. W. Digital Signal Processing. [S.l.: s.n.], 1975. 337-375p. v.1.

(42)

APÊNDICE A ALGORITMOS UTILIZADOS

1 def imf (t ,y):

2 Max = [[] ,[]]

3 Min = [[] ,[]]

4 zero_crossing = 0

5

6 for k in list(range(1 ,999) ):

7 if y[k] >= y[k -1] and y[k] >= y[k +1]:

8 Max [0]. append (k)

9 Max [1]. append (y[k ])

10 if y[k] <= y[k -1] and y[k] <= y[k +1]:

11 Min [0]. append (k)

12 Min [1]. append (y[k ])

13 if (y[k] < 0 and y[k +1] > 0) or (y[k] > 0 and y[k +1] < 0) or y[k] == 0:

14 zero_crossing = zero_crossing + 1

15

16 Spline_max = interpolate . CubicSpline ( np . array ( Max [0]) , np . array ( Max [1]) , bc_type =’ natural ’)

17 Spline_min = interpolate . CubicSpline ( np . array ( Min [0]) , np . array ( Min [1]) , bc_type =’ natural ’)

18

19 s_meio = ( Spline_max (t) + Spline_min (t)) /2 20 y2 = np . asarray (y) - s_meio

21

22 return( y2 )

Listing A.1: Algoritmo para encontrar as IMF’s

1 while x < 4:

2 if abs( zero_crossing - (len( Max [0]) +len( Min [0]) )) <= 1:

3 imfs . append ( y2 )

4 y2 = imf (t ,( np . asarray (y) -sum( imfs )). tolist () )

5 x = x + 1

6 else:

7 y2 = imf (t , y2 . tolist () )

8 x = 0

(43)

APÊNDICE B GRÁFICOS DADOS DE GPS DE

ÔNIBUS

Barra dia inteiro:

Figura B.1: Dados.

(44)

Figura B.3: Frequências instantâneas.

(45)

Barra pico da manha:

Figura B.5: Dados.

(46)

Figura B.7: Frequências instantâneas.

(47)

Barra pico da tarde:

Figura B.9: Dados.

(48)

Figura B.11: Frequências instantâneas.

(49)

Zona sul dia inteiro:

Figura B.13: Dados.

(50)

Figura B.15: Frequências instantâneas.

(51)

Zona sul pico da manha:

Figura B.17: Dados.

(52)

Figura B.19: Frequências instantâneas.

(53)

Zona sul pico da tarde:

Figura B.21: Dados.

(54)

Figura B.23: Frequências instantâneas.

(55)

APÊNDICE C GRÁFICOS DADOS TELEFONIA

CELULAR

sentido Barra/Madureira:

Figura C.1: Dados.

(56)

Figura C.3: Frequências instantâneas.

(57)

sentido Madureira/Barra:

Figura C.5: Dados.

(58)

Figura C.7: Frequências instantâneas.

Referências

Documentos relacionados

Little e Amyra El Khalili; também foi dissertado sobre a Agroecologia, entendida como um caminho para uma agricultura mais sustentável; sobre a ciência homeopatia e sua aplicação

Bom, eu penso que no contexto do livro ele traz muito do que é viver essa vida no sertão, e ele traz isso com muitos detalhes, que tanto as pessoas se juntam ao grupo para

Muitas vezes o agricultor quer tirar a soja o quanto antes da lavoura, pois segundo Holtz e Reis (2013), o maior tempo de permanência da soja na lavoura, traz um aumento das

int *pi // variável “pi” é ponteiro para inteiro float *pc // variável “pc” é ponteiro para float char *xy // variável “xy” é ponteiro para caracter. unsigned long int

duplamente encadeada com este valor caso o mesmo ainda não exista na lista, em ordem CRESCENTE, ou seja, sempre entre um nó contendo um valor menor e outro contendo um valor

 São TADs representados através de listas sequenciais.. (fixas) ou encadeadas (dinâmicas), em que a seguinte regra deve

função recursiva, mais recursos de memória são necessários para executar o programa, o que pode torná-lo lento ou. computacionalmente

 Caminho simples que contém todas as arestas do grafo (e,. consequentemente, todos os