• Nenhum resultado encontrado

UNIVERSIDADE FEDERAL DE SANTA CATARINA CENTRO TECNOLÓGICO DE JOINVILLE CURSO DE ENGENHARIA DE TRANSPORTES E LOGÍSTICA LUÍZA MOREIRA BEZERRA

N/A
N/A
Protected

Academic year: 2021

Share "UNIVERSIDADE FEDERAL DE SANTA CATARINA CENTRO TECNOLÓGICO DE JOINVILLE CURSO DE ENGENHARIA DE TRANSPORTES E LOGÍSTICA LUÍZA MOREIRA BEZERRA"

Copied!
66
0
0

Texto

(1)

CURSO DE ENGENHARIA DE TRANSPORTES E LOGÍSTICA

LUÍZA MOREIRA BEZERRA

COMPARAÇÃO DE MÉTODOS DE APRENDIZADO DE MÁQUINA PARA PREVISÃO DE DEMANDA NO TRANSPORTE PÚBLICO URBANO

Joinville 2021

(2)

COMPARAÇÃO DE MÉTODOS DE APRENDIZADO DE MÁQUINA PARA PREVISÃO DE DEMANDA NO TRANSPORTE PÚBLICO URBANO

Trabalho de Conclusão de Curso apresentado como requisito parcial para obtenção do título de Bacharel em Engenharia de Transportes e Logística, no curso Engenharia de Transportes e Logística da Universidade Federal de Santa Catarina, Centro Tecnológico de Joinville. Orientador: Prof. Dr. Pablo Andretta Jaskowiak

Joinville 2021

(3)

 

COMPARAÇÃO DE MÉTODOS DE APRENDIZADO DE MÁQUINA PARA  PREVISÃO DE DEMANDA NO TRANSPORTE PÚBLICO URBANO 

   

Este  Trabalho de  Conclusão  de  Curso  foi  julgado adequado para obtenção do título  de  bacharel  em  Engenharia  de  Transportes  e  Logística,  na  Universidade  Federal  de  Santa  Catarina,  Centro  Tecnológico de Joinville.     Joinville (SC), 04 de maio de 2021.    Banca Examinadora:        ________________________  Dr. Pablo Andretta Jaskowiak  Orientador/Presidente      ________________________  Dr.(a) Vanina Macowski Durski Silva  1º Membro  Universidade Federal de Santa Catarina      ________________________  Dr. Benjamin Grando Moreira  2º Membro  Universidade Federal de Santa Catarina   

(4)
(5)

Uma das informações mais importantes para o planejamento operacional de um sistema de transporte público urbano é a previsão de demanda de passageiros. Um instrumento muito conhecido para execução do planejamento de médio a longo prazo é o Modelo de Quatro Etapas, que inclui outras ferramentas para o cálculo da demanda futura. Porém, para empresas que fornecem serviço de transporte público é necessário o planejamento a curtíssimo prazo, para que haja ajustes na oferta do serviço, evitando a saturação ou ociosidade. Uma alternativa para realizar esta previsão é a utilização de métodos de Aprendizado de Máquina (AM). Além da escolha do método e de seus respectivos parâmetros, o conjunto de atributos utilizado para descrever o problema possui grande influência nos resultados finais da previsão. O objetivo deste trabalho é avaliar e comparar quantitativamente diferentes métodos de AM para a previsão de demanda de passageiros utilizando dados de uma linha do sistema de transporte público urbano da cidade de Joinville. O trabalho também investigou o efeito da quantidade de dados utilizados durante o processo de treinamento dos modelos, a fim de determinar qual o tamanho apropriado do conjunto de treinamento. As avaliações realizadas mostraram que o menor conjunto de dados de treinamento gerou melhores resultados, especialmente no caso de Árvores de Regressão. De maneira geral, o método que obteve melhores previsões foi a Árvore de Regressão, enquanto a Regressão Linear gerou maiores erros.

Palavras-chave: Previsão de Demanda. Aprendizado de Máquina. Regressão.

(6)

Agradeço aos meus pais, pela base e apoio que me deram e por terem sonhado comigo para que este momento chegasse.

Agradeço aos meus avós, Moacyr e Therezinha, pelo apoio e carinho de sempre e por serem exemplos na minha vida.

Agradeço ao Henrique (meu lindo!) que divide a vida comigo, me aguenta em momentos que nem eu me aguento e me apoia em todas as decisões.

Agradeço aos meus amigos, em especial ao Natan e ao Kolling, que sempre estiveram ao meu lado quando eu precisei, e até mesmo quando não precisei, para os momentos bons e ruins.

Agradeço ao professor Pablo pela paciência e dedicação ao longo desse tempo. Sou sua fã!

Agradeço à banca, não só por ter aceitado o convite, mas também por compartilhar deste momento comigo.

Agradeço a todos os professores que tive oportunidade de conhecer ao longo desta jornada, que contribuíram para que eu chegasse até aqui. Em especial, agradeço à professora Vanina e à professora Sílvia, que me ajudaram a abrir portas na minha vida e se tornaram, mais que professoras, amigas.

Agradeço, de maneira geral, a todos os colaboradores da UFSC, que me receberam de braços abertos, e aos meus colegas de trabalho, que me ajudam diariamente no meu desenvolvimento profissional e acreditam no meu potencial.

Agradeço à toda minha família e à família do Henrique por terem acreditado no meu potencial e me ajudado em todo o processo.

"Obrigado a todas as pessoas que contribuíram para meu sucesso e para meu crescimento como pessoa. Sou o resultado da confiança e da força de cada um de vocês." (Augusto Branco)

(7)
(8)

Figura 1 – Queda de demanda de passageiros nos sistemas de transporte

público por ônibus . . . 13

Figura 2 – Ciclo dos Transportes . . . 15

Figura 3 – Fluxograma básico de planejamento de transportes . . . 19

Figura 4 – Estrutura do Modelo Sequencial de transportes . . . 20

Figura 5 – Etapas do processo KDD . . . 30

Figura 6 – Relação da Mineração de Dados com outras áreas . . . 32

Figura 7 – Estrutura da Árvore de Decisão . . . 35

Figura 8 – Exemplo de RNA multicamadas típica. . . 37

Figura 9 – Itinerário da Linha 0700 Sul-Centro . . . 40

Figura 10 – Trecho dos dados utilizados . . . 41

Figura 11 – Janela deslizante . . . 44

Figura 12 – Tendência da demanda de passageiros por subconjunto . . . 48

Figura 13 – Resultados por método para o Subconjunto 1 . . . 53

Figura 14 – Resultados por método para o Subconjunto 2 . . . 53

Figura 15 – Resultados por método para o Subconjunto 3 . . . 54

Figura 16 – Resultados por método para o Subconjunto 4 . . . 54

Figura 17 – Medidos x Previstos com menores valores de RM SE . . . 56

Figura 18 – Medidos x Previstos com maiores valores de R2 . . . . 57

(9)

Tabela 1 – Atributos da base de dados . . . 41

Tabela 2 – Atributos explicativos de cada subconjunto . . . 42

Tabela 3 – Quantidade de janelas avaliadas . . . 45

Tabela 4 – Total de cenários diferentes avaliados . . . 46

Tabela 5 – Ranking médio dos resultados por janela em relação ao RM SE e R2 48 Tabela 6 – Resultados por método por subconjunto . . . 50

Tabela 7 – Oferta versus demanda por base de dados . . . 51

Tabela 8 – Oferta versus demanda nos melhores resultados por subconjunto . 52 Tabela 9 – Melhores resultados de RM SE e R2 por método . . . . 58

Tabela 10 – Ranking médio dos resultados por método em relação ao RM SE e R2 58 Tabela 11 – Resultado final . . . 60

(10)

R2 Coeficiente de Determinação RM SE Root Mean Squared Error AM Aprendizado de Máquina IA Inteligência Artificial

KDD Knowledge Discovery in Databases kNN k-Nearest Neighbors

MLP Multilayer Perceptron RBF Radial Basis Function ReLU Rectified Linear Unit RNA Rede Neural Artificial SVM Support Vector Machines SVR Support Vector Regression

(11)

1 INTRODUÇÃO . . . . 12 1.1 Objetivos . . . . 16 1.1.1 Objetivo Geral . . . 16 1.1.2 Objetivos Específicos . . . 16 1.2 Estrutura do trabalho . . . . 16 2 PLANEJAMENTO DE TRANSPORTES . . . . 17

2.1 Modelo de Quatro Etapas . . . . 18

2.1.1 Geração de Viagens . . . 20

2.1.2 Distribuição de Viagens . . . 22

2.1.3 Divisão Modal . . . 23

2.1.4 Alocação de Tráfego . . . 24

2.2 Demanda por transportes . . . 25

2.3 Considerações Finais . . . . 26

3 DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS . . . 27

3.1 Pré-processamento de dados . . . . 30

3.2 Mineração de Dados . . . . 31

3.2.1 Métodos de Aprendizado de Máquina . . . 33

3.2.1.1 Regressão por Vizinho Mais Próximo . . . 34

3.2.1.2 Regressão Linear Múltipla . . . 34

3.2.1.3 Árvores de Regressão . . . 35

3.2.1.4 Regressão por Vetores de Suporte . . . 36

3.2.1.5 Redes Neurais Artificiais . . . 37

3.3 Pós-processamento de dados . . . . 37 3.4 Considerações Finais . . . . 39 4 MATERIAIS E MÉTODOS . . . . 40 4.1 Dados . . . . 40 4.2 Janela deslizante . . . . 43 4.3 Métodos . . . . 45

4.3.1 Avaliação dos Métodos . . . 46

5 RESULTADOS . . . . 47

5.1 Análise dos resultados por tamanho de janela . . . . 47

5.2 Análise dos resultados por subconjunto . . . . 49

(12)

5.3.1 Análise dos métodos segundo o RM SE e R . . . 55

5.3.2 Comparação entre os resultados por método . . . 58

5.4 Análise final dos resultados . . . . 59

6 CONCLUSÕES . . . . 62

(13)

1 INTRODUÇÃO

Com o desenvolvimento urbano, maior é a necessidade de deslocamento dos cidadãos. Atividades essenciais da vida urbana somente são possíveis por meio do deslocamento de pessoas e produtos. A facilidade com que este deslocamento é feito depende de características do sistema de transportes de passageiros, que influenciam na qualidade de vida da cidade e seu grau de desenvolvimento econômico e social (FERRAZ; TORREZ, 2004).

Para Hoel, Garber e Sadek (2011), a finalidade do transporte é fornecer um mecanismo para troca de bens, informações, deslocamento de pessoas e apoiar o desenvolvimento econômico da sociedade. As constantes melhorias nos sistemas de transporte têm colaborado para a melhoria da qualidade de vida e aumenta as oportunidades na busca da felicidade, proporcionando às pessoas um grau de mobilidade único.

O transporte público urbano é parte integrante da infraestrutura urbana, impactando tanto o uso do solo como a qualidade de vida das pessoas. A expansão dos limites da cidade idealmente deve se aliar ao aumento da velocidade de deslocamento, além de características da viagem, como custo, tempo e conveniência (HOEL; GARBER; SADEK, 2011). Além de possuir aspecto social e democrático, uma vez que representa o único modo motorizado seguro e cômodo acessível às pessoas de baixa renda, é uma importante alternativa para quem não pode ou não quer dirigir. Outro aspecto relevante do uso massivo do transporte público é uma ocupação e uso mais racional do solo urbano, contribuindo para tornar as cidades mais humanas e eficientes no tocante ao transporte, sistema viário e infraestrutura de serviços públicos (FERRAZ; TORREZ, 2004).

Ferraz e Torrez (2004) afirmam que o índice de mobilidade, ou seja, a quantidade de viagens urbanas realizadas e a distribuição entre os vários modos de transporte dependem de vários fatores, dos quais se pode destacar: nível de desenvolvimento socioeconômico do país e da cidade, tamanho e topografia da cidade, clima, cultura, existência ou não de políticas de restrição ao uso do transporte individual, disponibilidade, custo e qualidade do transporte público e semipúblico e facilidade para locomoção a pé e de bicicleta.

Segundo a Associação Nacional de Transportes Públicos (ANTP, 2018), a maior parte das viagens no Brasil são realizadas a pé (41%), seguidos dos meios de transporte individual motorizado (29%) e de transporte público (28%). Porém, a maior

(14)

parte das distâncias é percorrida nos veículos de transporte público, representando cerca de 53,5% do total de quilômetros percorridos por ano.

Um levantamento feito pela Associação Nacional das Empresas de Transportes Urbanos (NTU, 2019) mostrou que houve queda de cerca de 30% na demanda por ônibus entre 2014 e 2019 e da perda de fluidez – ônibus que antes faziam 10 viagens, hoje realizam seis ou sete. Entre abril de 2018 e abril de 2019, 12,5 milhões de brasileiros deixaram de se deslocar por ônibus urbano, uma redução de 4,3% na demanda, fenômeno agravado pelo surgimento recente de tecnologias de mobilidade, como os serviços de transporte por aplicativo.

Outro fator que afetou fortemente a quantidade de passageiros do transporte público coletivo foram as medidas de limitação da circulação de pessoas para conter a propagação do COVID-19. O transporte público está entre os setores mais afetados pelas medidas de isolamento social. As empresas de transporte coletivo por ônibus estão operando com uma redução média de mais de 75% dos passageiros desde o início das medidas de isolamento social (LIMA et al., 2020). Uma pesquisa realizada pela consultoria de inteligência de mercado Globo, que entrevistou 1,5 mil pessoas, mostrou que a preocupação com o distanciamento social tem afastado os brasileiros do transporte público. Antes da pandemia, 60% sinalizaram sua preferência pelos modais comunitários. Já em 2020, apenas 40% dessa amostra renova sua predileção pelo transporte público (BARROS; OLIVEIRA; BEDNARSKI, 2020).

O transporte por ônibus urbano teve uma redução diária em torno de 30 milhões de passageiros e prejuízo de R$ 3,72 bilhões, de março a junho de 2020, de acordo com a Associação Nacional das Empresas de Transportes Urbanos (NTU, 2020). Os dados abrangem 26 capitais, o Distrito Federal, 14 regiões metropolitanas e 295 municípios. A Figura 1 apresenta percentuais de queda de demanda de passageiros nos sistemas de transporte público por ônibus para algumas cidades brasileiras.

Figura 1 – Queda de demanda de passageiros nos sistemas de transporte público por ônibus

(15)

Com demanda menor que a oferta, muitas empresas de ônibus fecharam e outras estão correndo risco de encerrar suas atividades. Mas o coronavírus não é o único culpado, ele só agravou a crise no setor, que vem perdendo passageiros ano após ano, por causa da falta de políticas públicas. Entre 2013 e 2017, a queda foi de 25% e, entre 2018 e 2019, 12,5 milhões de pessoas deixaram de usar o ônibus (LIMA et al., 2020).

Lopes (2017) observa que as grandes metrópoles estão cada vez mais populosas, porém com capacidade limitada em relação à mobilidade, surgindo, assim, a necessidade de planejamento e aperfeiçoamento dos processos e não de aumento. Visto que a saturação de espaço já é alta nos grandes centros, sistemas de transporte bem planejados, eficientes e com baixo custo são pontos importantes para a melhoria da mobilidade urbana. Serviços de transporte de massa (ônibus, metrô e trem) estão cada vez mais populares, mas ainda não conseguem suprir a demanda, então serviços de transporte pessoal privado (como táxi e Uber) passam a ser vistos como opções, tanto pela comodidade, quanto pela rapidez (SALANOVA et al., 2011). Como modo de aumentar esta comodidade de um serviço pessoal de transporte surgiu o E-hailing, onde o cliente requisita o serviço de transporte por meio da internet em dispositivos eletrônicos, substituindo os meios tradicionais (ORTIZ et al., 2016).

Ferraz e Torrez (2004) destacam que o ônibus é o transporte urbano mais utilizado pela população brasileira, representando cerca de 87% da demanda por transporte público. Perante esta alta demanda, várias estratégias para a melhoria da eficiência, com relação à velocidade e capacidade, têm sido utilizadas (como veículos maiores, implantação de faixas ou vias inteiras exclusivas para ônibus, preferência em semáforos e bilhetagem em estações), visto que o transporte público coletivo tende à ineficiência se não cresce na mesma proporção que a demanda.

Campos (2013) discute que a demanda por transporte é considerada uma demanda derivada, já que é uma consequência da necessidade de deslocamento para realização de alguma atividade e, por isso, pode variar com a hora do dia, com o dia da semana, o propósito da viagem e com o tipo de transporte oferecido. Nas áreas urbanas, grande parte da demanda está concentrada, particularmente, nas horas de pico.

A Figura 2 apresenta o ciclo dos transportes, que expressa a interação entre transporte e uso do solo, ou seja, a dinâmica das relações de causa e efeito de mudanças que ocorrem nestes elementos.

(16)

Figura 2 – Ciclo dos Transportes

Mudanças no uso do solo

Alteração no valor e da terra

Aumento da acessibilidade e mobilidade

Gera movimentos

Demanda por transporte

Oferta de transporte

Fonte: Adaptado de (CAMPOS, 2013)

Segundo Campos (2013), se a intensidade dessas relações não for acompanhada de um planejamento prévio da estrutura regional e urbana (legislação de uso do solo) e dos sistemas de transportes, pode-se chegar a uma situação caótica, gerada pelo desequilíbrio entre oferta e demanda, resultando em constantes congestionamentos e dificuldades na circulação de pessoas ou de mercadorias.

Dentre as ferramentas que auxiliam no planejamento urbano, destaca-se o Modelo de Quatro Etapas, que leva em consideração a geração de viagens em uma de suas etapas. Porém, para empresas de transporte público, por exemplo, é importante um planejamento de curto prazo, onde se busca conhecer a demanda futura para equilíbrio da oferta, evitando, tanto a saturação do sistema, quanto a ociosidade. Dentre as alternativas que podem ser empregadas para este planejamento a curto prazo, destaca-se o Aprendizado de Máquina (AM), visto que demanda menor conhecimento prévio sobre o tráfego, possui menor restrição nas tarefas de previsão e pode se ajustar melhor aos dados de tráfego passados (CHOWDHURY; APON; DEY, 2017).

Neste contexto, o presente trabalho apresenta um estudo comparativo de métodos de Aprendizado de Máquina para previsão de demanda de passageiros de uma linha do transporte público coletivo por ônibus na cidade de Joinville. Para explicitar a importância do estudo, é importante saber que o deslocamento por ônibus é o principal modo de transporte público coletivo, representando 24% das viagens realizadas dentro da cidade, segundo dados do Instituto de Pesquisa Catarinense (IPPUJ/IPC, 2010). Procedimentos de análise e previsão da demanda, subsidiando tomadas de decisão de curto prazo quanto a mudanças no sistema de transporte, são de grande utilidade, principalmente considerando a população de 597.658 habitantes de Joinville, que é a maior do Estado de Santa Catarina (IBGE, 2020).

(17)

1.1 Objetivos

Os objetivos geral e específicos deste estudo são discutidos a seguir. 1.1.1 Objetivo Geral

O objetivo geral do presente trabalho é comparar e avaliar quantitativamente métodos de Aprendizado de Máquina para previsão de demanda de passageiros em uma linha específica de transporte público coletivo da cidade de Joinville.

1.1.2 Objetivos Específicos

Os objetivos especificos do presente trabalho são:

a. Estimar a demanda de passageiros por dia na Linha 0700 Sul-Centro da rede de transporte coletivo de Joinville utilizando diferentes métodos de Aprendizado de Máquina, a saber: Redes Neurais Artificiais, Árvores de Regressão, Regressão por Vizinho mais Próximo, Regressão por Vetores de Suporte e Regressão Linear; b. Investigar qual o tamanho de conjunto de treinamento mais apropriado e seu

respectivo impacto para o cenário de avaliação estudado;

c. Avaliar o comportamento de cada método e comparar seus desempenhos relativos com o uso de métricas apropriadas, considerando diferentes tamanhos de conjunto de treinamento e bases de dados.

1.2 Estrutura do trabalho

Visando alcançar os objetivos propostos, este trabalho foi organizado da seguinte maneira. Os Capítulos 2 e 3 apresentam o referencial teórico do trabalho. Neles são apresentados os conceitos necessários de planejamento de transportes e Mineração de Dados, respectivamente, bem como os métodos que serão avaliados. No Capítulo 4 é apresentada a metodologia adotada para realização das análises. No Capítulo 5 são expostos os resultados dos métodos de Aprendizado de Máquina avaliados para previsão da demanda de passageiros. Por fim, no Capítulo 6 são apresentadas as considerações finais do trabalho.

(18)

2 PLANEJAMENTO DE TRANSPORTES

Oppenheim (1995) define viajar como uma atividade que ocorre de um determinado local geográfico para outro, por meio de uma rede de transporte. Segundo Senna (2014), transporte requer planejamento, já que sua infraestrutura em uma região possui papel preponderante em seu desempenho, sendo condição básica para a realização de trocas econômicas entre locais espacialmente dispersos. Alguns aspectos básicos do planejamento de transportes englobam conhecer a origem, destino, os volumes (de viagens e de passageiros), a natureza e o propósito dos movimentos, bem como as novas exigências impostas pelo ambiente de crescente competição.

O processo de planejamento de transportes envolve a definição dos objetivos, do prazo para implantação e da sua duração, devendo ser uma visão sistêmica que englobe o desenvolvimento e as características da região de estudo, contemplando a forma de ocupação, a situação econômica atual e futura, e a sua inter-relação com outras regiões (CAMPOS, 2013).

O sistema de transportes e o planejamento do uso e ocupação do solo precisam estar ligados, uma vez que a distribuição do uso do solo afeta a demanda de viagens, e os investimentos no sistema de transportes afetam as decisões de uso do solo. Daí a necessidade de serem estabelecidas diretrizes conjuntas de planejamento urbano e de transportes, para direcionar o desenvolvimento urbano integrado (SENNA, 2014).

Senna (2014) explica que um sistema de transportes adequadamente planejado e gerido é fundamental para a qualidade de vida na cidade e para o desenvolvimento da economia urbana. Também ressalta que o planejamento do sistema de transportes deve incluir o estudo da oferta e da demanda de viagens que considere a cidade como um todo, devendo ser realizado em conjunto com o planejamento urbano, do uso e ocupação do solo, da habitação e meio ambiente. Deve também levar em conta a acessibilidade universal e as necessidades especiais de locomoção.

A concepção do plano de transportes deve estar fortemente embasada na realidade econômica, social, cultural e financeira da cidade. Neste sentido, o plano deve considerar as limitações institucionais da administração pública, dentro de uma estratégia de desenvolvimento local e regional, já que são exigidos recursos importantes a serem investidos (SENNA, 2014).

De acordo com Ortuzar e Willumsen (2011), o mundo, incluindo o transporte, está mudando rapidamente, mas ainda são encontrados muitos dos mesmos problemas do passado, como congestionamentos, poluição, acidentes e déficits financeiros.

(19)

Ortuzar e Willumsen (2011) observam que modelos de planejamento de transporte por si só não resolvem problemas de transporte. Para serem úteis, eles devem ser utilizados dentro de um processo de decisão adaptado ao tomador de decisão escolhido. O modelo clássico de transporte foi desenvolvido originalmente para uma abordagem normativa idealizada da tomada de decisões. Seu papel no planejamento de transporte pode ser apresentado como uma contribuição para as principais etapas de uma estrutura de tomada de decisão racional.

O fluxograma apresentado na Figura 3 representa as etapas do processo de planejamento. Este deve ser dinâmico, ou seja, a partir da definição e validação dos modelos e das soluções, deve-se voltar e verificar quais os impactos que as soluções propostas podem trazer à demanda com a implantação das mesmas (CAMPOS, 2013).

Segundo Campos (2013), no processo de planejamento de transporte, para elaboração de um plano de médio e longo prazo faz-se uso do Modelo Sequencial, também denominado Modelo de Quatro Etapas, o qual se relaciona com as características socioeconômicas da região. Este modelo será discutido na próxima seção.

2.1 Modelo de Quatro Etapas

Ortuzar e Willumsen (2011) definem um modelo como uma representação simplificada de uma parte do mundo real - o sistema de interesse - que enfoca certos elementos considerados importantes de um ponto de vista particular. No entanto, a modelagem de transporte é apenas um elemento no planejamento de transporte. Além disso, a modelagem de transporte e a tomada de decisão podem ser combinadas de diferentes maneiras, dependendo da experiência, tradições e conhecimentos locais.

Segundo Senna (2014), a demanda de mercado é a soma das demandas dos consumidores individuais. No caso de transportes, existe uma estruturação clássica para definir a demanda, que está baseada no denominado Modelo de Quatro Etapas. Antes da modelagem em si, algumas ações são também necessárias, como a coleta de dados e o estabelecimento de zoneamentos, bem como a definição da rede na área de estudo. A coleta de dados visa conhecer basicamente as características socioeconômicas da população no ano-base e nos anos chamados de horizontes de projeto (SENNA, 2014).

Campos (2013) aborda que o Modelo de Quatro Etapas compreende as seguintes etapas: Geração, Distribuição, Divisão Modal e Alocação de Viagens. Embora as decisões de viagens não precisem ser realizadas necessariamente nesta ordem de etapas, a denominação sequencial se deve ao fato do processo de estudo da demanda se desenvolver numa sequência de análise cujo resultado de uma etapa é o ponto de partida da etapa seguinte, como apresentado na Figura 4.

(20)

Figura 3 – Fluxograma básico de planejamento de transportes Formulação do problema Coleta de dados Construção e calibração do modelo analítico Geração de alternativas de projetos Validação do modelo e simulação dos impactos

dos projetos

Avaliação dos projetos e escolha do(s) melhor(es)

Implementação da solução

escolhida

Predição de variáveis

Fonte: Adaptado de (ORTUZAR; WILLUMSEN, 2011)

De acordo com a Figura 4, após o processo de coleta de dados, inicia-se o modelo sequencial pela etapa de geração de viagens. Campos (2013) explica que nesta etapa estima-se a quantidade de viagens geradas (produzidas e atraídas) em cada zona de tráfego. A partir do total de viagens geradas em cada zona, verifica-se a distribuição destas entre as demais zonas de tráfego, chegando a uma matriz de origem e destino das viagens. Em seguida, para cada conjunto de viagens realizadas entre pares de zonas de tráfego estima-se a quantidade de viagens nos vários modos de transporte. E, finalmente, na etapa de alocação, também considerada como uma

(21)

Figura 4 – Estrutura do Modelo Sequencial de transportes

Dados atuais e projeções futuras

Geração de viagens

Distribuição de viagens

Alocação das viagens Divisão modal

Alternativas de transporte

Fonte: Adaptado de (CAMPOS, 2013)

análise do equilíbrio entre a oferta e a demanda, faz-se a distribuição da quantidade de viagens por cada modo de transporte. Com o resultado da etapa de alocação de viagens, faz-se um estudo sobre as alternativas de transportes a serem propostas, visando atender à demanda futura (CAMPOS, 2013). As etapas do Modelo de Quatro Etapas serão discutidas nas próximas seções separadamente.

2.1.1 Geração de Viagens

Segundo Senna (2014), nesta etapa da modelagem de transportes define-se a demanda global a ser atendida nos diversos anos-horizonte de um estudo. Campos (2013) afirma que o objetivo desta etapa é fazer uma estimativa do número total de viagens que se iniciam ou terminam em cada zona de tráfego da região de estudo, para um dia típico do ano de projeto. O número de viagens que são produzidas ou atraídas em cada zona de tráfego está relacionado com as atividades desenvolvidas nestas e com as características socioeconômicas dos viajantes.

Os modelos de geração de demanda relacionam as variáveis que descrevem a população ou a atividade econômica de cada zona e as que caracterizam o seu padrão de uso e ocupação do solo, com o potencial da zona como unidade produtora (modelos de produção de viagens) e consumidora/atratora (modelos de atração de

(22)

viagens) (SENNA, 2014). Campos (2013) ressalta que, no conceito mais usual, viagens produzidas numa zona de tráfego são aquelas que se iniciam, ou sejam, que têm como origem a zona de tráfego, e viagens atraídas são aquelas que têm como destino a mesma.

Para estimativa das viagens geradas faz-se necessário a elaboração de um modelo matemático que represente a demanda de transporte de acordo com a realidade estudada. Definido o modelo a ser utilizado, este é calibrado utilizando observações, relativas ao ano-base, obtidas por meio das diferentes pesquisas (CAMPOS, 2013). Campos (2013) explica que o processo de geração de viagens compreende:

• Identificação dos dados/variáveis determinantes do ano-base; • Determinação do modelo a ser utilizado;

• Calibração do modelo;

• Projeção dos dados do modelo para o ano de projeto; • Aplicação do modelo calibrado;

• Determinação das viagens futuras.

Ainda segundo Campos (2013), os modelos mais usuais de geração de viagens são:

• Fator de Crescimento: associa um crescimento uniforme para toda a área, ou crescimentos proporcionais para cada zona específica (SENNA, 2014). Ortuzar e Willumsen (2011) destaca que seu maior problema é relacionar o método de estimação a variáveis como população, renda e posse de carro, por exemplo. • Taxas de Viagem: determina o número de viagens por tipo de ocupação do solo.

Para cada tipo de atividade define-se uma taxa de produção e/ou atração de viagens. Esta taxa, na maioria das vezes, relaciona o número de viagens por unidade de área construída ou de utilização do solo por atividade (CAMPOS, 2013).

• Classificação Cruzada: baseado em técnicas estatísticas simplificadas, em que abre-se mão de modelos mais complexos para poder utilizar uma análise mais desagregada (SENNA, 2014). Também conhecido como Análise de Categorias, este modelo pode ser entendido como uma extensão de um modelo de taxas de viagens, utilizando, neste caso, dados desagregados por tipo de residência (CAMPOS, 2013).

• Regressão: visa construir uma função linear ou não linear entre o número de viagens existentes (variável dependente) e os vários fatores que influenciam as viagens (variáveis independentes) (CAMPOS, 2013).

Algumas características dos modelos descritas por Campos (2013) são: • Os coeficientes e constantes são encontrados por calibração utilizando os dados

(23)

do ano-base de todas as zonas de tráfego;

• Algumas variáveis explicam melhor as viagens atraídas, outras as produzidas; • A variável dependente pode dar uma estimativa das viagens produzidas (ou

atraídas) na zona, se este é um modelo que utiliza dados agregados, ou uma taxa de produção (ou atração) de viagens por tipo de residência, se este é um modelo desagregado de base residencial (não residencial);

• Usualmente quatro variáveis independentes no máximo são suficientes;

• Cada termo da equação de regressão pode ser interpretado como uma contribuição da variável independente para a variável dependente.

2.1.2 Distribuição de Viagens

Segundo Senna (2014), o objetivo da distribuição é estimar os intercâmbios de viagens entre as zonas de tráfego na área de estudo e no seu entorno, utilizando as estimativas de produção e atração por zona de tráfego e algum tipo de informação sobre a estrutura da distribuição de demanda. O resultado da aplicação de um modelo de distribuição é uma matriz de demanda, em que cada célula contém uma medida da intensidade do intercâmbio entre um dado par de zonas.

Oppenheim (1995) diz que esta etapa consiste em distribuir entre vários destinos cada viagem gerada, obtida na primeira etapa. Normalmente, não há feedback entre as duas fases, ou seja, a geração de viagens não é afetada pelos atributos da distribuição, ou qualquer etapa posterior. Além disso, esse procedimento é realizado separadamente para cada zona de origem.

Senna (2014) explica que a ideia básica dos procedimentos incorporados nesses modelos é a de que a demanda produzida em cada zona seja distribuída entre as zonas.

A abordagem tradicional da distribuição de viagens usa modelos baseados em analogias com modelos que descrevem fenômenos que não sejam viagens urbanas. Um dos mais usados é o Modelo Gravitacional, adaptação da lei gravitacional de Newton (OPPENHEIM, 1995).

Além do modelo gravitacional, Senna (2014) cita mais duas classes muito utilizadas de modelos de distribuição, diferenciadas em função do tipo de informação sobre a estrutura da interação entre as zonas. São eles os modelos de fator de crescimento e de Fratar. Uma breve definição dos modelos será dada a seguir.

O modelo de fator de crescimento utiliza uma matriz atual (ou de um período anterior) como base para realizar a projeção da distribuição da demanda. Essa matriz é fatorada (sucessivamente corrigida), utilizando-se fatores de crescimento baseados na evolução estimada das produções e atrações em cada zona, da situação base para o ano-horizonte. Nestes casos, a estrutura da matriz base influencia decisivamente na solução final. A principal vantagem deste método é a sua relativa simplicidade

(24)

computacional, além da quantidade reduzida de informações. Sua maior desvantagem refere-se ao fato de ser pouco sensível a alterações na oferta de transporte. Pares de zonas que apresentem um nível reduzido de intercâmbio na matriz base terão esta situação replicada no futuro, mesmo que venham a ter condições de acessibilidade melhoradas (SENNA, 2014).

Já o modelo gravitacional é baseado na estrutura da matriz de distribuição de demanda projetada em informações sobre a oferta de transportes prevista. Esta é descrita, em geral, em termos dos tempos ou custos associados ao deslocamento entre cada par de zonas. É comum se adotar uma combinação desses fatores, denominada genericamente de impedância ou custo generalizado. Uma das principais vantagens dos modelos gravitacionais para distribuição de demanda, segundo Senna (2014), é a sua estrutura flexível e sua sensibilidade a alterações localizadas do sistema de transportes. A maior desvantagem deste tipo de modelo é a necessidade de um procedimento de calibração, além de exigir informações que descrevam a oferta de transportes, tanto para seu desenvolvimento, quanto para sua aplicação.

Por fim, o modelo de Fratar, desenvolvido com o objetivo de anular algumas desvantagens inerentes ao método do fator de crescimento, baseia-se em pressupostos básicos como: proporcionalidade entre a distribuição de viagens futuras de uma dada zona de origem e a distribuição de viagens existentes da zona; modificação na distribuição das viagens futuras através do fator de crescimento da zona para onde essas viagens são atraídas. Senna (2014) explica que esses pressupostos levam em consideração o efeito de localização de uma dada zona em relação a todas as outras zonas. O método envolve a estimativa do número total de viagens que se origina e termina em cada zona de tráfego, na data em que se quer determinar a distribuição de viagens, e a distribuição de viagens futuras de uma zona para todas as outras zonas na área de estudo, na proporção da distribuição atual de viagens, modificada pelo fator de crescimento da zona para a qual as viagens são atraídas.

2.1.3 Divisão Modal

Nesta etapa é estimada a demanda por modo de transporte a ser utilizado nos deslocamentos previstos na etapa de distribuição de viagens (CAMPOS, 2013).

Segundo Senna (2014), a divisão modal atribui a cada modalidade de transporte a parcela provável da demanda que irá absorver. Nesta etapa devem ser distinguidos os fluxos que, em função de suas características, são cativos de certos modos de transporte, daqueles considerados competitivos, ou seja, que podem escolher entre alternativas modais.

A informação resultante desta etapa consiste em uma série de matrizes de viagens, para cada modo considerado, tipo de fluxo e período (SENNA, 2014).

(25)

2.1.4 Alocação de Tráfego

A alocação de tráfego finaliza o processo de modelagem do sistema de transportes. Nesta etapa é realizada a interação entre a demanda, representada pelas matrizes de fluxos, e a oferta, descrita pela rede de transportes, que representa a capacidade de transportes fornecida pelos meios disponíveis (SENNA, 2014).

Segundo Vuchic (2005), o objetivo desta etapa é alocar todas as viagens para caminhos específicos, obtendo assim estimativas de volume de tráfego para cada seção da rede de transportes. Campos (2013) acrescenta que a demanda por cada modo é obtida na etapa anterior de divisão modal. Na fase atual faz-se a distribuição das viagens por modo entre as zonas nos sistemas de transporte.

A determinação de caminhos através da rede, entre pares de zonas, é um pré-requisito para o procedimento de alocação de tráfego existente entre zonas. Os métodos de alocação de tráfego a redes de transporte variam quanto a sua aplicabilidade e complexidade. A importância dos efeitos de congestionamentos é determinante na definição do método de alocação adequado (SENNA, 2014).

Vuchic (2005) destaca que, para executar a alocação, o planejador deve decidir quais critérios melhor representam o comportamento real da tomada de decisões do usuário da rede de transporte e quais dados estão disponíveis para ele. Normalmente, os critérios mais importantes para a seleção de rotas são, em sequência, menor tempo de viagem, menor distância de viagem e custo mínimo de viagem.

Os modelos de alocação têm como objetivo avaliar a distribuição do fluxo de viagens nos sistemas de transporte existentes e/ou em novas alternativas de transporte. Isto significa fazer uma verificação do equilíbrio entre a oferta e a demanda para cada sistema. Os métodos desenvolvidos têm como foco principal a alocação do fluxo de veículos nas vias urbanas em função das viagens realizadas por transporte individual. Esta alocação também pode ser feita em relação aos outros modos de transporte, ou seja, os transportes coletivos (CAMPOS, 2013).

Vuchic (2005) explica que os modelos de alocação de viagens são calibrados na rede atual e depois usados para estimar o volume de viagens na rede futura. Além disso, Vuchic (2005) define três métodos principais de alocação:

• Método tudo-ou-nada - atribui todo o tráfego a uma rota com base no critério selecionado (por exemplo, tempo mínimo de deslocamento);

• Método de Curvas de Atribuição - atribui uma parcela do tráfego a cada rota com base nos valores comparativos dos critérios entre as melhores e as próximas melhores rotas;

• Método de Restrição de Capacidade - atribui tráfego com base nos tempos de viagem e nas capacidades das rotas disponíveis e atribui uma parte do tráfego a rotas alternativas à medida que a rota principal se aproxima da capacidade.

(26)

Os dois modelos de restrição de capacidade usados com mais freqüência são o Modelo Estocástico e o Modelo de Equilíbrio do Usuário.

Esta etapa é, portanto, a quarta e última etapa do Modelo de Quatro Etapas. Continuando a discussão acerca da geração de viagens, a próxima seção tratará sobre a demanda por transportes.

2.2 Demanda por transportes

Ortuzar e Willumsen (2011) afirmam que a demanda por transportes é derivada, não é um fim em si mesma. Com exceção do turismo, as pessoas viajam para satisfazer uma necessidade (trabalho, lazer, saúde) realizando uma atividade em locais específicos. Para entender a demanda de transportes, deve-se entender primeiro como essas atividades são distribuídas no espaço, tanto no contexto urbano quanto regional. Um bom sistema de transporte amplia as oportunidades para satisfazer essas necessidades; um sistema fortemente congestionado ou mal conectado restringe opções e limita o desenvolvimento econômico e social.

De acordo com Senna (2014), a demanda é uma relação multivariada, isto é, determinada por vários fatores de forma simultânea. Alguns dos determinantes importantes da demanda do mercado de um produto ou serviço são o seu próprio preço, a renda dos consumidores, preços de outros produtos/serviços correlatos, gosto dos consumidores, distribuição de renda, população total, riqueza dos consumidores, disponibilidade de crédito, políticas governamentais, histórico dos níveis de demanda, e histórico dos níveis de renda. Ortuzar e Willumsen (2011) acrescentam que a demanda por serviços de transporte é altamente qualitativa e diferenciada, por hora do dia, dia da semana, finalidade da jornada, tipo de carga, importância da velocidade e frequência. Senna (2014) diz que o propósito fundamental da teoria da demanda é determinar os vários fatores que afetam a demanda. Segundo Oppenheim (1995), o objetivo final da modelagem da demanda de viagens urbanas é fornecer uma ferramenta com a qual se possa prever ou estabelecer padrões de viagens urbanas sob várias condições. Essas condições podem, por exemplo, representar o estado esperado ou planejado da rede de transporte ou da própria área urbana, em um momento futuro. Os desafios colocados pelo grande tamanho dos sistemas que modelos que descrevem o comportamento humano replicam, buscando medir ou prever algum processo, (por exemplo, redes de transporte com dezenas de milhares de links e as dificuldades de obter dados completos e precisos sobre eles) são significativos (OPPENHEIM, 1995). No entanto, Oppenheim (1995) ressalta que a modelagem da demanda de viagens urbanas fez progressos substanciais, sendo possível representar uma estrutura comportamental unificada e coerente com modelos integrados que prevêem as principais dimensões da demanda de viagens, como a demanda de origem,

(27)

de destino, cruzada (origem-destino) e de rota, por todos os modos de viagem. Segundo Senna (2014), a teoria tradicional da demanda tem se concentrado em quatro desses determinantes: preço do produto/serviço, outros preços, renda e gosto.

A teoria tradicional da demanda inicia com a análise do comportamento do consumidor, uma vez que a demanda do mercado é assumida como a soma das demandas dos indivíduos consumidores. Um dos principais pressupostos da teoria é que o consumidor, dada sua renda e os preços do mercado de vários serviços ou produtos, planeja seu gasto de forma a obter o máximo possível de satisfação. Este é o axioma de maximização da utilidade (SENNA, 2014).

2.3 Considerações Finais

Neste capítulo foi discutido o Modelo de Quatro Etapas, uma ferramenta de previsão de demanda de passageiros de médio a longo prazo. Tendo em vista que o Modelo de Quatro Etapas não é adequado para previsões a curto e curtíssimo prazo e o objetivo deste trabalho é prever a quantidade de passageiros por dia para uma semana, considerando os valores observados nos últimos dias, torna-se necessário para este estudo a busca de outros meios de previsão. Com isso, no próximo capítulo, serão discutidos métodos de previsão de demanda utilizando Mineração de Dados.

(28)

3 DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS

Frawley, Piatetsky-Shapiro e Matheus (1992) discutem que a automação das atividades de negócios produz um fluxo cada vez maior de dados, já que até transações simples, como uma ligação telefônica, o uso de um cartão de crédito ou um exame médico, são normalmente gravados em um computador, gerando uma crescente lacuna entre a geração e a compreensão de dados. Por isso, métodos de análise e apresentação dos dados são recursos valiosos, que geram vantagem competitiva. Sendo assim, observa-se o potencial das tecnologias de Inteligência Artificial (IA), aliadas à utilização de ferramentas de Aprendizado de Máquina (AM), como componente de análise de dados em grande escala. Para Brachman e Anand (1994), a ideia de extrair informações implícitas, previamente desconhecidas, de grandes quantidades de dados é atraente e intuitiva, porém extremamente desafiadora e difícil.

Fayyad, Piatetsky-Shapiro e Smyth (1996) explicam que, para uma ampla variedade de campos, dados são coletados e acumulados em um ritmo intenso. Os bancos de dados estão aumentando de tamanho de duas maneiras: pelo número de registros ou objetos e pelo número de campos ou atributos de um objeto. Com o aumento dos dados armazenados, a análise manual se torna impraticável, visto que é um processo, lento, caro e subjetivo, havendo a necessidade da geração de teorias computacionais e ferramentas que auxiliem na extração de informações úteis (conhecimento) a partir dos dados digitais. Tais teorias e ferramentas estão inclusas no campo de Descoberta de Conhecimento em Bases de Dados (em inglês, Knowledge Discovery in Databases - KDD). O KDD envolve o desenvolvimento e aplicação de métodos e técnicas que buscam dar sentido e/ou extrair conhecimento dos dados. Um problema comumente abordado é o mapeamento de dados brutos (normalmente volumosos e difíceis de entender) em outras formas mais úteis, como por exemplo, um conjunto de dados sumarizado ou um modelo preditivo para estimar valores futuros em uma determinada aplicação. No centro do processo está a aplicação de métodos específicos de Mineração de Dados para descoberta e extração de padrões.

Tan, Steinbach e Kumar (2006) explicam que o KDD é o processo geral de conversão de dados brutos em informações úteis. Portanto, inclui, desde informações sobre como os dados são armazenados e acessados, quanto a forma como os algoritmos podem ser escalados para conjuntos de dados massivos e ainda executados com eficiência, além de como os resultados podem ser interpretados e visualizados de

(29)

maneira útil (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996).

Em muitas aplicações de KDD, um ponto chave é encontrar subconjuntos da dados que se comportam da mesma forma e merecem, por isso, uma análise particular. Assim, é importante saber qual subconjunto se deseja analisar e restringir, se necessário, os atributos descritivos usados, para que variáveis que não sejam úteis para a análise não atrapalhem o processo. É importante notar que a Descoberta de Conhecimento em Bases de Dados envolve implicitamente o trabalho de um analista que possua conhecimento prévio sobre o domínio. A engenharia deste conhecimento para entrada em uma ferramenta de análise inteligente também faz parte do processo (BRACHMAN; ANAND, 1994).

No gerenciamento de banco de dados, uma coleção integrada de dados é mantida em um ou mais arquivos e organizada de forma a facilitar o armazenamento eficiente e a modificação ou recuperação de informações relacionadas. Um sistema de gerenciamento de banco de dados é uma coleção de procedimentos para recuperar, armazenar e manipular dados em bancos de dados. Em AM, o termo banco de dados normalmente se refere a uma coleção de instâncias ou exemplos mantidos em um único arquivo. Um algoritmo de aprendizagem utiliza as informações do conjunto de dados como entrada e retorna os resultados da aprendizagem como saída. A saída é o conhecimento descoberto que pode ser direcionado ao usuário ou de volta ao sistema como um novo conhecimento de domínio (FRAWLEY; PIATETSKY-SHAPIRO; MATHEUS, 1992).

A entrada fundamental para um sistema de descoberta são os dados brutos presentes em um banco de dados. Uma das preocupações sinalizadas por Frawley, Piatetsky-Shapiro e Matheus (1992) inclui a quantidade de informações do banco de dados. Idealmente, deve-se filtrar as informações adequadas para que os algoritmos não precisem lidar com informações irrelevantes, levando assim a resultados interessantes. Uma característica importante para alguns bancos de dados é que seus conteúdos estão em constante mudança, podendo ser sensíveis ao tempo (por exemplo, perdendo relevância com o passar do tempo). Outra característica que deve ser observada é a relevância dos dados, ou seja, o dado deve ser relevante para o atual foco de descoberta. Além disso, deve ser considerada a aplicabilidade de um atributo a um subconjunto de dados, a presença ou ausência de valores para atributos de dados relevantes, o ruído (ou incerteza), e a exatidão inerente ou esperada dos dados. Especialmente no que diz respeito aos dados numéricos, a precisão dos dados pode ser um fator impactante na descoberta.

O Processo de Descoberta de Conhecimento em Bases de Dados é, portanto, o processo não trivial de identificar padrões de dados válidos, novos, potencialmente úteis e, em última análise, compreensíveis. Aqui, os dados são um conjunto de fatos e o padrão é uma expressão em alguma linguagem que descreve um subconjunto de

(30)

dados ou um modelo aplicável ao subconjunto. Portanto, extrair um padrão também significa ajustar um modelo aos dados, encontrar estruturas nos dados, ou, em geral, fazer qualquer descrição de alto nível de um conjunto de dados (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996).

O termo processo implica que o KDD compreende muitas etapas, que envolvem, conforme explicado por Fayyad, Piatetsky-Shapiro e Smyth (1996), a preparação dos dados, a busca por padrões, a avaliação do conhecimento extraído, e seu refinamento, todos repetidos em várias iterações. Ou seja, não é um cálculo direto de quantidades predefinidas. Os padrões descobertos devem ser: válidos em novos dados com algum grau de certeza; potencialmente úteis, ou seja, devem levar a algum benefício para o usuário ou tarefa e; compreensíveis, se não imediatamente, então após algum pós-processamento. Algoritmos de descoberta para grandes bancos de dados devem lidar, também, com a questão da complexidade computacional, sendo a amostragem de dados uma forma de diminuir o problema de escalabilidade (FRAWLEY; PIATETSKY-SHAPIRO; MATHEUS, 1992).

Segundo Fayyad, Piatetsky-Shapiro e Smyth (1996), o processo KDD é interativo e iterativo, envolvendo várias etapas, que podem ser aplicadas ou não, dependendo das decisões tomadas pelo usuário. Algumas de suas etapas são:

• Compreender o domínio de aplicação dos dados e o conhecimento anterior relevante, identificando o objetivo do processo KDD;

• Selecionar um conjunto de dados e/ou um subconjunto de atributos ou amostras de dados;

• Realizar a limpeza e o pré-processamento dos dados, incluindo a remoção de ruídos, coleta de informações necessárias para o modelo e a definição de estratégias para lidar com campos de dados ausentes;

• Reduzir os dados e transformar sua dimensionalidade, reduzindo o número efetivo de variáveis consideradas;

• Combinar os objetivos do processo de KDD a um método de Mineração de Dados, como, por exemplo, classificação, regressão ou agrupamento;

• Buscar padrões de interesse por meio de técnicas de Mineração de Dados, sendo esta etapa significativamente influenciada pelas etapas anteriores;

• Interpretar os padrões minerados, possivelmente retornando a qualquer uma das etapas iniciais para mais iterações. Esta etapa também pode envolver a visualização dos padrões extraídos;

• Agir sobre o conhecimento descoberto. Este processo também inclui a verificação e resolução de conflitos potenciais.

Fayyad, Piatetsky-Shapiro e Smyth (1996) explicam que o processo do KDD pode conter loops entre quaisquer duas etapas. O fluxo básico das principais etapas é ilustrado na Figura 5. Elas serão discutidas nas próximas seções.

(31)

Figura 5 – Etapas do processo KDD Seleção Transformação Pré-processamento Mineração de Dados Interpretação / Avaliação

Dados Dados alvo

Dados pré-processados Dados transformados Padrões Conhecimento

Fonte: (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996)

3.1 Pré-processamento de dados

Os dados de entrada podem ser armazenados em uma imensa variedade de formatos e podem residir em um ou mais repositórios de dados, centralizados ou distribuídos. O objetivo do pré-processamento é transformar os dados de entrada brutos em um formato apropriado para análise subsequente. As etapas envolvidas no pré-processamento incluem fusão de dados de várias fontes, limpeza destes para remoção de ruído e observações duplicadas e seleção de registros que são relevantes para a tarefa de Mineração de Dados em questão (TAN; STEINBACH; KUMAR, 2006).

A descoberta de conhecimento em bancos de dados levanta preocupações adicionais, visto que bancos de dados são frequentemente dinâmicos, incompletos, com ruídos e extensos. Estes fatores tornam a maioria dos algoritmos de aprendizagem ineficazes (FRAWLEY; PIATETSKY-SHAPIRO; MATHEUS, 1992). De acordo com Fayyad, Piatetsky-Shapiro e Smyth (1996), é de fundamental importância para o KDD uma eficaz manipulação dos dados. Para isso, existem técnicas que auxiliam no acesso eficiente aos dados, operações de agrupamento, ordenação e otimização de consultas. Relacionado ao banco de dados está seu armazenamento, coleta, limpeza, disponibilidade para análise e suporte à decisão. Ainda segundo Fayyad, Piatetsky-Shapiro e Smyth (1996), o armazenamento adequado dos dados auxilia o processo do KDD de duas maneiras importantes:

(32)

variedade de informações, necessitando que seja estabelecida uma convenção de nomenclatura, representação e forma de lidar com dados ausentes, bem como tratamento de ruído e erros.

2. Acesso aos dados: métodos devem ser criados para auxiliar no acesso aos dados, fornecendo caminhos de acesso aos dados que eram historicamente difíceis de obter (por exemplo, dados armazenados offline).

Goldschmidt e Passos (2005) explicam que a etapa de pré-processamento prepara os dados para a etapa de mineração. Conforme discutido por Fayyad, Piatetsky-Shapiro e Smyth (1996), o processo KDD envolve a aplicação iterativa de métodos de Mineração de Dados. Os objetivos de descoberta de conhecimento são definidos pelo uso pretendido do sistema. Pode-se distinguir os objetivos em dois tipos:

1. Verificação: o sistema verifica a hipótese do usuário;

2. Descoberta: o sistema, de forma autônoma, descobre novos padrões. Este objetivo pode ser subdividido em:

• Previsão: o sistema encontra padrões para prever o comportamento futuro de algumas entidades;

• Descrição: o sistema encontra padrões para apresentar ao usuário de forma compreensível.

A seção a seguir tratará das particularidades da etapa de Mineração de Dados.

3.2 Mineração de Dados

Segundo Fayyad, Piatetsky-Shapiro e Smyth (1996), a Mineração de Dados envolve a aplicação de algoritmos específicos para extrair padrões dos dados. As etapas adicionais no processo KDD, como preparação, seleção e limpeza dos dados, incorporação de conhecimento prévio adequado, e a interpretação adequada dos resultados da mineração, são essenciais para garantir que o conhecimento é derivado dos dados, pois a aplicação cega dos métodos de mineração pode levar facilmente à descoberta de padrões inválidos. O objetivo, então, é extrair conhecimento de alto nível de dados de baixo nível no contexto de grandes conjuntos de dados. A Mineração de Dados é, portanto, a etapa do processo KDD que analisa os dados por meio da aplicação de algoritmos de descoberta que, sob determinada eficiência computacional, produzem padrões (ou modelos) sobre os dados. Os métodos de mineração podem ser categorizados em diferentes tarefas, dentre as quais destacam-se: classificação, agrupamento e regressão. Os algoritmos tendem a diferir, principalmente, no critério de adequação usado para avaliar o ajuste do modelo. A previsão, um dos principais objetivos da Mineração de Dados, envolve o uso de algumas variáveis, ou campos no banco de dados para prever valores futuros ou estimar valores desconhecidos de outras variáveis de interesse. A regressão se baseia no aprendizado de uma função

(33)

que mapeia um item de dados para uma variável de predição de valor real (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996).

A Mineração de Dados baseia-se em ideias e técnicas de diferentes áreas, como Aprendizado de Máquina, Inteligência Artificial e Reconhecimento de Padrões. A Mineração de Dados também adotou rapidamente ideias de outras áreas, incluindo otimização, computação evolutiva, teoria da informação, processamento de sinais, visualização e recuperação de informações (TAN; STEINBACH; KUMAR, 2006). Uma série de outras áreas também desempenham papéis importantes de apoio. Em particular, os sistemas de banco de dados são necessários para fornecer suporte para armazenamento, indexação e processamento de consulta eficientes. As técnicas de computação de alto desempenho (paralela) são frequentemente importantes para lidar com o tamanho massivo de alguns conjuntos de dados. As técnicas distribuídas também podem ajudar a resolver o problema do tamanho e são essenciais quando os dados não podem ser reunidos em um local (TAN; STEINBACH; KUMAR, 2006). A Figura 6 mostra a relação entre a Mineração de Dados e outras áreas.

Figura 6 – Relação da Mineração de Dados com outras áreas

Estatística

Inteligência Artificial Aprendizado de Máquina Reconhecimento de padrões Mineração de Dados

Fonte: Adaptado de (TAN; STEINBACH; KUMAR, 2006)

Segundo Tan, Steinbach e Kumar (2006), as tarefas de Mineração de Dados são geralmente divididas em duas categorias principais:

• Tarefas preditivas: o objetivo destas tarefas é prever os valores de um determinado atributo com base nos valores de outros atributos. O atributo a ser previsto é comumente conhecido como variável dependente, enquanto os atributos usados para fazer a previsão são conhecidos como variáveis explicativas ou independentes.

• Tarefas descritivas: o objetivo é derivar padrões (correlações, tendências, grupos, trajetórias e anomalias) que resumem os relacionamentos subjacentes nos dados. Tarefas descritivas de Mineração de Dados são frequentemente de natureza exploratória e frequentemente requerem técnicas de pós-processamento para validar e explicar os resultados.

(34)

especificamente, modelos de regressão, que são utilizados para realizar a previsão de variáveis contínuas. Os métodos utilizados neste estudo serão discutidos a seguir. 3.2.1 Métodos de Aprendizado de Máquina

O aprendizado consiste na capacidade de melhorar o desempenho na realização de alguma tarefa por meio da experiência. Em AM, computadores são programados para aprender com a experiência passada. Assim, algoritmos de AM aprendem a induzir uma função ou hipótese capaz de resolver um problema a partir de dados que representam instâncias do problema a ser resolvido (FACELI et al., 2015).

Segundo Russell e Norvig (2013), existem três tipos principais de aprendizagem: supervisionada, não supervisionada e por reforço. No aprendizado supervisionado, foco deste trabalho, um método ou algoritmo recebe como entrada pares de entrada e saída e aprende uma função que faz o mapeamento da entrada para a saída, derivando um modelo. Mais formalmente, ainda de acordo com Russell e Norvig (2013), a tarefa de aprendizagem supervisionada consiste em, dado um conjunto de treinamento de n pares de exemplos de entrada e saída na forma:

(x1, y1), (x2, y2), ..., (xn, yn),

onde cada yi foi gerado por uma função desconhecida y = f (x), descobrir uma função hque se aproxime da função verdadeira f .

Neste contexto x e y podem ter qualquer valor, não necessariamente números. A função h obtida é chamada de hipótese. A aprendizagem é uma busca através do espaço de hipóteses possíveis por aquela que terá um bom desempenho, mesmo em novos exemplos, além do conjunto de treinamento fornecido para sua obtenção. Para medir a precisão de uma hipótese, fornecemos um conjunto de testes de exemplos que são distintos do conjunto de treinamento. Dizemos que uma hipótese generaliza se ela prevê corretamente o valor de y para novos exemplos (RUSSELL; NORVIG, 2013).

Russell e Norvig (2013) explicam que, quando y for um número, o problema de aprendizagem é chamado deregressão. Portanto, a solução de um problema de

regressão é encontrar uma expectativa condicional ou valor médio de y, visto que a probabilidade de se achar exatamente o número de valor real certo para y é 0. A regressão é uma metodologia que possibilita obter uma relação funcional entre variáveis dependentes e variáveis independentes. Em outras palavras, consiste no cálculo de valores por meio de uma função obtendo uma resposta (no caso, uma predição) através das variáveis preditoras (VASCONCELOS et al., 2017).

Os métodos de regressão abordados neste trabalho incluem a Regressão Linear Múltipla, Redes Neurais Artificiais, Árvores de Regressão, Regressão por Vizinho Mais Próximo e Regressão por Vetores de Suporte. Estes são discutidos a seguir.

(35)

3.2.1.1 Regressão por Vizinho Mais Próximo

O algoritmo do Vizinho mais Próximo (k-Nearest Neighbors - kNN) é um exemplo de aprendizado baseado em instâncias. Métodos de aprendizado baseados em instâncias não tentam generalizar a partir de dados de treinamento para elaborar uma hipótese que combine com todos os dados de entrada, mas, em vez disso, armazenam os dados de treinamento e usam estes dados para realizar previsões para novas observações (COPPIN, 2013).

Russell e Norvig (2013) explicam que o método mais simples de aprendizagem baseada em exemplo é a pesquisa em tabelas, onde todos os exemplos de treinamento são colocados em uma tabela e, quando h(x) for solicitado, deve-se observar se x está na tabela, devolvendo o y correspondente em caso positivo e retornando algum valor default (padrão) quando negativo. A clara limitação, neste caso, é que o método só funciona bem para exemplos já vistos, ou seja, não generaliza. A fim de permitir generalização, a técnica de k-vizinhos mais próximos funciona da seguinte forma. Dada uma consulta xq, encontram-se k os exemplos armazenados mais próximos de xq. Uma vez que os vizinhos foram encontrados, para realizar a regressão, pode-se tirar a média ou mediana dos k vizinhos. Outra alternativa é resolver um problema de regressão linear sobre os vizinhos encontrados (RUSSELL; NORVIG, 2013).

Segundo Faceli et al. (2015), métodos baseados em distância, como o algoritmo dos vizinhos mais próximos, têm seu desempenho afetado pela medida ou função de distância utilizada. O problema está no fato de diversos problemas possuírem atributos em escalas de valores diferentes, fazendo com que alguns recebam mais importância do que outros. Para minimizar o problema, os atributos são usualmente normalizados.

Outros dois pontos que devem ser considerados dizem respeito à escolha da medida de distância e o número de vizinhos. Uma medida de distância popular e muito utilizada, de acordo com Faceli et al. (2015), é a distância euclidiana. Já em relação a determinação do valor de k mais apropriado para um problema não há uma regra ou escolha padrão. Tal valor é definido pelo usuário e, frequentemente, é um número pequeno e ímpar, como k = 3, 5, ... (FACELI et al., 2015).

3.2.1.2 Regressão Linear Múltipla

De acordo com Vasconcelos et al. (2017), a regressão linear múltipla é a generalização da regressão linear simples, onde, a partir das variáveis independentes, obtém-se a variável dependente. O cálculo para obter a variável dependente envolve a adoção de coeficientes de regressão e de um , que é o erro que mede a discrepância entre o valor predito e o valor observado.

A diferença entre a regressão linear simples e a múltipla está na quantidade de variáveis explicativas consideradas. No caso da regressão simples, assume-se que há

(36)

uma relação linear entre uma variável dependente y e uma independente (preditora) x, enquanto na regressão múltipla são consideradas duas ou mais variáveis explicativas (independentes). As variáveis independentes são chamadas de variáveis explicativas pois explicam a variação de y (RODRIGUES, 2012).

3.2.1.3 Árvores de Regressão

Segundo Menezes (2011), uma Árvore de Decisão é um modelo capaz de descrever conceitos, de forma aproximada, através de regras que mapeiam um objeto em um valor específico. Tais regras são representadas através de um grafo do tipo árvore, onde cada nó interno corresponde a um teste. O mapeamento de um objeto é feito atravessando-o ao longo da árvore, partindo-se da raiz até chegar em uma folha. Ao alcançar um nó interno, o objeto é confrontado com o teste associado àquele nó e o resultado do teste determina o próximo nó da travessia. Finalmente, ao chegar em uma folha, o objeto recebe um valor de acordo com uma função associada à mesma. No grafo em forma de árvore, cada nó é associado a um atributo e, cada possível valor deste, fica associado a uma aresta (MENEZES, 2011). Russell e Norvig (2013) acrescenta que os valores de entrada e saída podem ser discretos ou contínuos. A estrutura da Árvore de Decisão está ilustrada na Figura 7.

Figura 7 – Estrutura da Árvore de Decisão

Dia útil

Chuva Demanda baixíssima

SIM NÃO

Demanda alta

SIM NÃO

Volume de chuva

Demanda média Demanda normal

ALTO BAIXO

Demanda de passageiros no transporte público coletivo

Fonte: Autora (2021)

Menezes (2011) discute que as árvores de regressão são utilizadas quando se deseja aprender um conceito numérico, tendo duas metas desejáveis ao final do processo: predizer o mais corretamente possível o atributo alvo (variável dependente) a partir dos demais atributos (variáveis independentes/preditivas) observados em um

(37)

novo exemplo e; explicar a relação existente entre as variáveis independentes e o atributo alvo. Menezes (2011) também ressalta que as árvores de regressão preservam a interpretabilidade das árvores de decisão, ou seja, através da estrutura de árvore, que codifica as regras, as relações entre as variáveis preditivas e a variável dependente podem ser humanamente interpretadas.

O processo de construção (indução) de árvores de regressão é bastante similar ao das árvores de classificação. Porém, alguns itens devem ser devidamente ajustados à natureza numérica do atributo alvo, são eles: a heurística para avaliar a qualidade de um atributo como candidato a teste; o modelo preditivo armazenado nas folhas e; as métricas de qualidade do modelo gerado (MENEZES, 2011).

Uma Árvore de Regressão tem em cada folha uma função linear de um subconjunto de atributos numéricos, em vez de um único valor. O algoritmo de aprendizado deve decidir quando interromper a divisão e começar a aplicar a regressão linear sobre os atributos (RUSSELL; NORVIG, 2013).

3.2.1.4 Regressão por Vetores de Suporte

Silva et al. (2017) define Máquinas de Vetores de Suporte (SVM, do inglês Support Vector Machines) como um método de aprendizagem supervisionada utilizado para estimar uma função capaz de classificar dados de entrada entre duas classes a partir de um espaço de características de alto valor dimensional. As SVMs são embasadas pela Teoria de Aprendizado Estatístico (TAE) desenvolvida por Vapnik (1995), que estabelece uma série de princípios que devem ser seguidos na obtenção de classificadores com boa capacidade de generalização (FACELI et al., 2015).

A técnica foi desenvolvida originalmente para resolver problemas de classificação, sendo ampliada posteriormente para problemas de regressão. A Regressão por Vetores de Suporte (ou Support Vector Regression (SVR)) é uma técnica de regressão não-linear baseada em SVMs (RUAS et al., 2004). O algoritmo ε-SVR (VAPNIK, 1995) tem como objetivo encontrar uma função que produza saídas contínuas para os dados de treinamento que desviem em no máximo ε de seu valor desejado. Essa função também deve ser o mais uniforme e regular possível (FACELI et al., 2015).

Faceli et al. (2015) acrescenta que a obtenção de um classificador/regressor por meio do uso de SVMs/SVRs envolve a escolha de uma função de kernel, além de parâmetros dessa função e do valor da constante de regularização C. A escolha do kernel e dos parâmetros considerados pode afetar o desempenho do classificador/regressor obtido. Uma função kernel K é uma função que recebe dois pontos no espaço de entradas e calcula o produto escalar desses objetos no espaço de características e sua importância está na simplicidade de seu cálculo e sua capacidade de representar espaços abstratos (FACELI et al., 2015). Alguns dos kernels mais

(38)

utilizados, segundo Faceli et al. (2015), são o polinomial, o de função base radial (Radial Basis Function - RBF) e o sigmoidal.

3.2.1.5 Redes Neurais Artificiais

Segundo Russell e Norvig (2013), uma Rede Neural Artificial (RNA) é composta por nós ou unidades (neurônios artificiais) conectadas por ligações direcionadas. Uma ligação da unidade i para a unidade j serve para propagar a ativação de i para j. Cada ligação também tem um peso numérico associado a ela, que determina a força e o sinal de conexão. Assim como em modelos de regressão linear, cada unidade tem uma entrada fictícia com peso associado. Cada unidade primeiro calcula uma soma ponderada de suas entradas e, em seguida, é aplicada uma função de ativação a essa soma para obter a saída.

Em uma RNA, os neurônios podem estar dispostos em uma ou mais camadas, como explica Faceli et al. (2015). Quando duas ou mais camadas são utilizadas, um neurônio pode receber em seus terminais de entrada valores de saída de neurônios da camada anterior e/ou enviar seu valor de saída para terminais de entrada de neurônios da camada seguinte. Neste caso de multicamadas, a RNA pode ser chamada de Multilayer Perceptron, ou MLP. A Figura 8 ilustra um exemplo de RNA com três camadas. A rede apresentada como exemplo na figura recebe como entrada valores de dois atributos e gera dois valores em sua saída.

Figura 8 – Exemplo de RNA multicamadas típica.

Fonte: (FACELI et al., 2015)

3.3 Pós-processamento de dados

De acordo com Fayyad, Piatetsky-Shapiro e Smyth (1996), o processo geral de KDD inclui, por fim, a avaliação e interpretação dos padrões extraídos para determinar quais podem ser considerados como novo conhecimento. Pode-se definir medidas

(39)

quantitativas para avaliar padrões extraídos. Em muitos casos, é possível definir medidas de certeza (por exemplo, precisão de previsão estimada em novos dados) ou utilidade (por exemplo, economia gerada por melhores previsões) (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996).

Além disso, ainda como abordado por Frawley, Piatetsky-Shapiro e Matheus (1992), processos de descoberta devem ser implementados de forma eficiente. Um algoritmo é considerado eficiente se o tempo de execução e espaço usado são uma função polinomial de baixo grau do comprimento de entrada. Resumindo, então, a descoberta de conhecimento em bases de dados deve apresentar quatro características principais:

• Linguagem de alto nível: o conhecimento descoberto é representado em uma linguagem de alto nível. Não precisa ser utilizado diretamente por humanos, mas sua expressão deve ser compreensível por usuários humanos.

• Precisão: as descobertas devem retratar com precisão o conteúdo da base de dados. O nível de precisão é expresso pelas medidas de certeza.

• Resultados interessantes: o conhecimento descoberto é interessante se está de acordo com as definições feitas pelo usuário, se seus padrões são novos e potencialmente úteis e se o processo de descoberta não é trivial.

• Eficiência: o processo de descoberta é eficiente se os tempos de execução para grandes bases de dados são previsíveis e aceitáveis.

Goldschmidt e Passos (2005) ressaltam que a avaliação de um modelo de conhecimento requer a confrontação deste com dados, visando mensurar as medidas utilizadas como critério. Para que a avaliação seja isenta, os dados utilizados na construção do modelo não devem ser os mesmos utilizados na sua avaliação. Portanto, pelo menos dois conjuntos de dados devem ser utilizados no processo de KDD: um conjunto de treinamento e um conjunto de testes. O conjunto de treinamento deve conter registros (objetos) a serem utilizados na construção do modelo de conhecimento, enquanto o conjunto de testes deve conter os registros a serem utilizados na avaliação do modelo gerado.

Os critérios de avaliação do modelo são declarações quantitativas (ou funções de ajuste) de quão bem um determinado padrão (um modelo e seus parâmetros) atende aos objetivos do processo KDD. Por exemplo, em modelos preditivos os padrões são frequentemente julgados pela precisão da previsão no conjunto de teste. Uma vez que a representação do modelo (ou família de representações) e o modelo de avaliação critérios são fixos, então o problema de Mineração de Dados é reduzido à tarefa de otimização, ou seja, encontrar os parâmetros e modelos da família selecionada que otimiza o critério de avaliação (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996). A etapa de pós-processamento garante, desta forma, que apenas resultados válidos e úteis sejam incorporados ao sistema de suporte à decisão (TAN; STEINBACH; KUMAR,

Referências

Documentos relacionados

intitulado “O Plano de Desenvolvimento da Educação: razões, princípios e programas” (BRASIL, 2007d), o PDE tem a intenção de “ser mais do que a tradução..

Esta dissertação pretende explicar o processo de implementação da Diretoria de Pessoal (DIPE) na Superintendência Regional de Ensino de Ubá (SRE/Ubá) que

No Brasil, a falta de uma fiscalização mais rigorosa é uma das razões que possibilitam que certas empresas utilizem os estágios como forma de dispor de uma mão-de-obra

A presente dissertação é desenvolvida no âmbito do Mestrado Profissional em Gestão e Avaliação da Educação (PPGP) do Centro de Políticas Públicas e Avaliação

Dessa forma, diante das questões apontadas no segundo capítulo, com os entraves enfrentados pela Gerência de Pós-compra da UFJF, como a falta de aplicação de

Janaína Oliveira, que esteve presente em Ouagadougou nas últimas três edições do FESPACO (2011, 2013, 2015) e participou de todos os fóruns de debate promovidos

Neste tipo de situações, os valores da propriedade cuisine da classe Restaurant deixam de ser apenas “valores” sem semântica a apresentar (possivelmente) numa caixa

Em relação a esta primeira etapa do progresso da figura do zombie como elemento narrativo cinematográfico, existem dois filmes que, apesar de não serem os únicos,