RECONHECIMENTO DE PADRÕES DE CONSUMO DIÁRIO DE ÁGUA

(1)

RECONHECIMENTO DE PADRÕES DE

CONSUMO DIÁRIO DE ÁGUA

Carlos Arthur Mattos Teixeira Cavalcante (UFBA ) arthurtc@ufba.br CRISTIANO HORA DE OLIVEIRA FONTES (UFBA ) cfontes@ufba.br ADONIAS MAGDIEL SILVA FERREIRA (UFBA ) adonmagdiel@gmail.com Pedro Icaro dos Santos Ferreira (UFBA ) pedroicaro@outlook.com Liliane dos Santos Vieira (UFBA ) liliane.s.v@hotmail.com.br

O objetivo deste trabalho é obter o reconhecimento de padrões de perfis de demanda de água potável, utilizando uma combinação das técnicas K-Means e Fuzzy C-means. O estudo foi realizado com dados disponibilizados por uma empresa de tratameento e distribuição de água do nordeste brasileiro, referentes ao consumo horário de água, registrado por uma subestação no ano de 2010. Devido à alta diversidade de perfis de demanda de água, um reconhecimento de padrões oriundo das próprias características dos dados, oportuniza um conhecimento exploratório do processo gerador destes dados. O estudo apresenta três etapas: a primeira etapa consiste no tratamento dos dados, seguida pela definição do melhor número de agrupamentos através do método K-means combinado com a análise do índice de silhueta, e na terceira é feito o reconhecimento de padrões através do método Fuzzy C-means. Assim, foi possível reconhecer padrões no consumo de água dentro de um período de 24 horas, tanto para uma faixa de tempo de análise mensal, quanto para uma faixa de tempo de análise anual a partir das próprias características dos dados.

Palavras-chaves: Reconhecimento de padrões, Análise de agrupamento, Perfis de Demannda e Abastecimento de Água.

(2)

2 1. Introdução

A universalização dos direitos de abastecimento de água e tratamento de rede e de esgoto, garantindo a saúde dos brasileiros é assegurada pela Lei do Saneamento Básico, Lei nº 11445, estabelecendo regras para o setor, definindo competências do governo federal, estados e prefeituras para o serviço de saneamento e água, e também a regulamentação da participação de empresas privadas no saneamento básico. O governo federal estabelece diretrizes gerais, formula e apoia programas de saneamento em âmbito nacional; os estados operam e mantém sistemas de saneamento, e estabelecem as regras tarifárias e de subsídios nos sistemas estatais; às prefeituras, compete à prestação - diretamente, ou via concessão a empresas privadas - os serviços de saneamento básico, coleta, tratamento e disposição final de esgotos sanitários. Além disso, as prefeituras também elaboram Planos Municipais de Saneamento Básico (PMSB), que são estudos financeiros para prestação do serviço, definição das tarifas e outros, podendo o município que não faz o plano impedido de contar com recursos federais disponíveis para os projetos de água e esgoto.

O abastecimento de água é formado pelas atividades e instalações necessárias ao abastecimento público de água potável, desde a captação até as ligações prediais e respectivos instrumentos de medição. A empresa em questão é responsável pela prestação dos serviços de água e esgotamento sanitário da capital e interior de um estado do Nordeste, e faz parte de uma das entidades da administração descentralizada da Secretaria do Saneamento e Recursos Hídricos do perante estado. Esta Secretaria tem, como uma de suas funções, a finalidade de executar a política governamental de abastecimento de água e esgotamento sanitário e de aproveitamento global dos recursos hídricos no âmbito estadual.

Devido à alta diversidade de perfis de demanda de água, um reconhecimento de padrões oriundo das próprias características dos dados, oportuniza um conhecimento exploratório do processo gerador destes dados. Para Marambio et al. (2003), é possível fazer um reconhecimento de padrões das suas séries históricas baseada em técnicas de agrupamentos como um meio para a obtenção de uma classificação mais representativa. Neste caso, os padrões resultantes são curvas típicas de tendência central de um grupo reconhecido. O propósito principal das técnicas de agrupamento é reunir objetos em grupos que maximizem a homogeneidade dos seus objetos e maximize a heterogeneidade entre os outros grupos. A

(3)

3 aplicação desses métodos requer antecipadamente o número de grupos que se pretende obter (JAIN et al., 1999; MARAMBIO et al., 2003).

Segundo Johnson (2007), os métodos de agrupamento podem ser aplicados em várias áreas do conhecimento quando se reconhece a necessidade de identificar grupos semelhantes de casos ou variáveis. Witten (2005) e Jain et al. (1999) concordam que seu uso tem crescido ao longo dos anos, em uma vasta miríade de tópicos e áreas.

Para Johnson (2007), os métodos clássicos de agrupamentos podem ser divididos em dois campos: os agrupamentos hierárquicos e os não hierárquicos, sendo que para este último destaca-se duas abordagens: formação de grupos mutuamente excludentes e formação de grupos com níveis de pertinência para cada objetos (agrupamento fuzzy). Ambos baseiam-se nos conceitos de medidas de similaridade e sofrem influência da subjetividade na determinação da quantidade de agrupamentos.

Por seu turno, em relação aos agrupamentos não hierárquicos mutuamente excludentes, segundo Hair et al (2006) o K-means tem tido um uso mais frequente. O objetivo da sua heurística é minimizar a distância dos elementos a um conjunto de K centros dado por C = {x1,x2,...,xk} de forma iterativa. A distância entre um ponto pi e um conjunto de clusters, dada por d(pi,C), é definida como sendo a distância do ponto ao centro mais próximo dele. O algoritmo busca dentro do possível a partição em que os padrões de cada agrupamento estão mais próximos entre si e mais distantes dos padrões de outros agrupamentos. De acordo com Fung (2001), este é um dos métodos mais populares das técnicas particionais. Diferente dos métodos hierárquicos, este não cria uma estrutura em árvore para descrever o agrupamento dos dados, sendo mais adequado para uma grande quantidade de dados. O problema desse algoritmo é a necessidade um número k de clusters definidos a priori pelo usuário (LINDEN, 2009).

A análise de dados por agrupamento remete ao processo de organizar e separar certo número de dados, de forma que a similaridade entre os dados de um grupo é maximizada, enquanto que a similaridade entre dados de grupos diferentes é minimizada. Porém na prática separar dados em grupos pode exigir a consideração de fatores de incerteza e imprecisão, o que abre a possibilidade de um dado ser caracterizado como similar a diversos grupos. Esta situação pode ser abreviada por meio da Teoria dos Conjuntos Fuzzy, transformando o processo de agrupamento clássico em um processo fuzzy. Seguindo esta vertente de estudo, é encontrado

(4)

4 o algoritmo Fuzzy C-means (FCM), utilizado para a realização de agrupamentos fuzzy, como alternativa ao algoritmo de agrupamento clássico C-means (ROCHA et al., 2012).

Um aspecto importante a mencionar que a qualidade dos grupos formados é sensível à definição do número final de grupos. Como Rokach (2007) afirma, muitos dos algoritmos que processam o agrupamento de dados necessitam como argumento inicial o número final de grupos. Um grupo de métodos que utilizam propostas heurísticas bastante simples para esse problema é conhecido como “rule of thumbs”. (MARDIA, 1979 apud WANG J. & WANG X., 2012).

Por sua vez, o método de Elbow faz uso de artifício gráfico para definir este número. Aldenderfer (1984) e Goutte (1999) explicam que deve ser criado um gráfico relacionando o número de clusters e a percentagem de variação interna dos grupos. A partir de determinado momento, percebe-se que a variação interna reduz de magnitude, definindo assim como este o ponto a ser tomado como o número de grupos finais.

Destaca-se ainda outro tipo de procedimento que se baseia no índice de silhueta para a determinação do número ideal de grupos. Rousseeuw (1986) explica que o índice de silhueta indica numa faixa entre -1 e 1 qual a compatibilidade de cada dado com seu respectivo grupo. Valores próximos de 1 indicam que o dado possui uma pertinência muito boa ao seu grupo, enquanto que valores próximos de -1 indicam que o dado possivelmente foi alocado no grupo errado. O valor zero indica que o dado está no meio de dois grupos. Obtendo-se o índice de silhueta de todos os dados presentes na amostra, pode-se tirar uma média de todos esses valores, e assim encontrar em qual número de clusters se obtém a média mais alta, o que determina o número de clusters a ser usado.

No presente trabalho, o método para a determinação do número de grupos a ser usado é o que é baseado no índice de silhueta, com as devidas adaptações para o caso em questão. Isso decorre do fato de essa ferramenta permitir tanto a escolha do número de grupos, como apresentado acima, quanto a sua validação (ROUSSEEUW, 1986).

O objetivo deste trabalho é obter o reconhecimento de padrões de perfis de demanda de água potável, adotando uma combinação dos métodos K-Means e Fuzzy C-means. O estudo foi realizado com dados disponibilizados por uma empresa de tratamento e distribuição de água do nordeste brasileiro, referentes ao consumo horário de água, registrado por uma subestação no ano de 2010.

(5)

5 O artigo está estruturado em quatro partes, incluindo esta introdução. Segue-se uma discussão da metodologia. Em seguida, expõem-se os resultados apresentado as discussões pertinentes, culminando com as conclusões.

2. Metodologia

As curvas de consumo de água são trabalhadas de modo a buscar os pontos de sazonalidade comuns ao longo de um dia. A metodologia aplicada busca realizar o agrupamento das curvas de consumo de água, de modo a obter uma configuração em que as curvas tidas como padrão possam representar com certo nível de confiança todas as curvas que se encontram dentro do grupo.

O estudo apresenta três etapas: a primeira etapa consiste no tratamento dos dados, seguida pela definição do melhor número de agrupamentos através do método K-means combinado com a análise do índice de silhueta, e na terceira é feito o reconhecimento de padrões através do método Fuzzy C-means. Se a homogeneidade e heterogeneidade dos grupos não for satisfatória, pode-se retornar à etapa do tratamento de dados e aumentar o rigor dos critérios de expurgos dos dados que apresentarem discrepância em relação ao geral e segue-se às etapas seguintes até se obter um resultado a contento.

O tratamento de dados é feito em primeira instância buscando encontrar as curvas padrões para consumo dentro de cada mês, para posteriormente encontrar as curvas padrão relativas ao ano completo. Buscou-se ainda descobrir se as curvas que refletem um comportamento anormal dentro de um mês poderiam acarretar em uma grande influência para o agrupamento anual.

Quanto à definição do número de grupos, foram calculados índices de silhueta médios para diferentes números de grupos obtidos a partir da definição deste parâmetro de entrada do método K-means. Este procedimento foi adotado porque cada curva de um grupo possuía seu índice de silhueta. Com isso, selecionou-se a quantidade de grupos que apresentou o valor mais alto do índice de silhueta médio. Com este número identificado, aplicou-se o Fuzzy

C-means, para então obter as curvas características dos meses, assim como a do ano.

Nas obras dos autores já mencionados, o K-means é aplicado sobre os dados, utilizando-se como métrica o quadrado da distância euclidiana. Como o K-means inicia de um ponto aleatório, são feitas repetições deste teste sobre a base, de modo a obter um determinado

(6)

6 agrupamento. Um objeto é consignado ao grupo que apresentar a menor soma de distâncias em relação ao seu o ponto de referência central (centróide). O número de grupos é variado iterativamente, fazendo com que sejam encontrados os centróides para diversas configurações.

Por fim, depois de identificado o número de grupos é utilizado o método Fuzzy C-means, que então reconhece os perfis de curvas como padrões em cada agrupamento. De acordo com Xu & Wunsch (2005), o método FCM funciona visando minimizar uma função que corresponde às distâncias entre os dados e os centros dos grupos aos quais tais dados pertencem com algum grau de pertinência. A minimização dessa função produz melhores agrupamentos do que aqueles produzidos pelo algoritmo C-means clássico (ROCHA et al., 2012).

3. Resultados e discussão

A programação para a análise dos dados foi feita na plataforma computacional MATLAB (Matrix Laboratory). Os dados utilizados foram oriundos de uma estação de tratamento e distribuição de água e, referem-se ao consumo total de água de uma cidade baiana ao longo do ano de 2010. As medições permitiram observar e caracterizar a demanda de água ao longo do dia.

Feito o tratamento prévio dos dados, estes foram submetidos ao programa desenvolvido, e foi obtido como resultado dois grupos de curvas, que forneceram perfis de curvas típicas que representam o comportamento exibido para todo o ano (Figura 1). De um modo geral, percebe-se que há um pico de consumo em torno das 13h, observando-se ainda outro pico menos destacado na faixa entre 20h e 21h, havendo certa continuidade no consumo ao longo das horas (Figura 2).

(7)

7

Fonte: Próprio autor

(8)

8

Fonte: Próprio autor

Na análise feita para cada mês em isolado, encontrou-se em alguns meses uma característica semelhante à encontrada na análise feita para a base completa, enquanto que em alguns outros meses foram encontradas características próprias. Na Figura 3 é possível visualizar os padrões de curvas de cada mês.

(9)

9

Figura 3 - Curvas-padrão mensais

Fonte: Próprio Autor

4. Conclusões

Com aplicação dos métodos de reconhecimento de padrões via agrupamento de dados foi possível identificar influências sazonais horárias e sazonais mensais. Particularmente, foram reconhecidos padrões de demanda de água dentro de um período de 24 horas, tanto para uma faixa de tempo de análise mensal, quanto para uma faixa de tempo de análise anual a partir das próprias características dos dados. Esse resultado permite um melhor entendimento na gerência da rede de distribuição de água potável, podendo ser útil para a tomada de decisões com relação ao abastecimento de água das unidades consumidoras.

Os padrões obtidos a partir do consumo real de água oportuniza uma caracterização mais verossímil dos hábitos de consumo dos clientes. Isto favorece a definições de plano de ações com maiores de chances de sucesso ao combate ao desperdício da água.

(10)

10 No âmbito do uso dos métodos, o K-Means possibilitou, através do critério de validação do índice de silhueta, a determinação da quantidade ótima de agrupamento. Mas, por outro lado, foi considerado o método FCM para a obtenção dos padrões de curvas de cada grupo reconhecido.

O desenvolvimento de metodologias que combinem métodos já consolidas na literatura, incorporando parâmetros usuais do ambiente do problema sob análise, pode permitir avaliações customizadas e mais pertinentes que possam balizar a tomada de decisão de modo mais eficiente e eficaz.

(11)

11 REFERÊNCIAS

FERREIRA, A.M.S.; CAVALCANTE, C.A.M.T.; FONTES, C.H. & MARAMBIO, J.E.S. Um novo método de tipificação de demanda horária de energia elétrica. Belo Horizonte, XXXI Encontro Nacional de Engenharia de Produção, 2011.

WITTEN, I.H. & FRANK, Eibe. Data mining: practice machine learning tools and techniques, 2nd edition. Elsevier: San Francisco. 2005. p. 2-5.

JAIN, A.K.; MURTY, M.N. & FLYNN, P.J. Data Clustering: A review. Columbus. ACM Computing Surveys, Vol. 31, n° 3, Setembro 1999.

JOHNSON, R.A. & WICHERN, D.W. Applied Multivariate Statistical Analysis, 6th edition. Pearson, New Jersey, 2007.

PAN, Tan-Ning; STEINBACH, M. & KUMAR, V. Introduction to Data Mining. Addison-Wesley, Michigan. 2005. p. 487-496.

HAIR, J.F.; ANDERSON, R.E.; TATHAM, R.L. & BLACK, W.C. Análise Multivariada de Dados, 5. ed. Porto Alegre, Bookman. 2006.

ROKACH, L.; MAIMON, O. The Data Mining and Knowledge Discovery Handbook, 1. ed. Springer-Verlag. New York, 2005. p. 321-352

(12)

12 MARDIA, K.V.; KENT, J.T. & BIBBY, J.M. Multivariate Analysis, 1. ed. Michigan. 1979.

WANG, J. & WANG, X. Structural Equation Modeling: Applications Using Mplus, 3. ed. John Wiley & Sons, 2012.

ALDENDERFER, M.S. & BLASHFIELD, R.K. Cluster Analysis. SAGE Publications. Califórnia. 1984.

GOUTTE, C; TOFT, P.; ROSTRUP, E.; NIELSEN, F.A. & HANSEN, L.K. On Clustering fMRI Time Series. Neuroimage, vol. 9, ed. 3. Março, 1999.

FUNG,Glenn. A Comprehensive Overview of Basic Clustering Algorithms. 2001.

LINDEN, Ricardo. Técnicas de Agrupamento. Revista de Sistemas de Informação da FSMA, n. 4, p. 18-36. 2009.

ROUSSEEUW, Peter J. Silhouette: A Graphical Aid to the Interpretation and Validation of cluster analysis. Journal of Computational and Applied Mathematics, n. 20. p. 53-65. 1986.

ROCHA, T.; PERES, S.E.; BÍSCARO, H.H.; MADEO, R.C.B.& BOSCARIOLLI, C. Tutorial sobre Fuzzy C-means e Fuzzy Learning Vector Quantization: Abordagens Híbridas para Tarefas de Agrupamento e Classificação. UFRGS. Revista de Informática Teórica e Aplicada, v. 19, n. 1. 2012.

(13)

13 XU, R. & WUNSCH, D. Survey of clustering algorithms. IEEE Transactions on Neural Networks. v. 16, n. 3. May 2005, p. 645–678.

MARAMBIO, J.E.S.; LUZ, A.D.; FERREIRA, A.M.S.; CHAGAS, E.H.C; C.MUCCINI, M.J.; SOARES JR, F.A. & SANTOS, S.O. Metodologia para Planejamento e Acompanhamento de Programas de GLD em Mercado com Crescimento não Tradicional. II Congresso de Inovação Tecnológica em Energia Elétrica, 2003.

PORTAL BRASIL: Serviços a População. Disponível em: <http://www.brasil.gov.br/sobre/cidadania/servicos-a-populacao>. Acesso em: 23/04/2013, as 22h.

EMPRESA BAIANA DE ÁGUA E SANEAMENTO S.A. - EMBASA: Apresentação. Disponível em: <http://www.embasa.ba.gov.br/institucional/embasa/apresentacao>. Acesso em 24/04/2013, as 08h.

MINISTÉRIO PÚBLICO DO ESTADO DA BAHIA. Disponível em: <http://www.mp.ba.gov.br/atuacao/ceacon/legislacao/agua/lei_ba_2929_1971.pdf> Acesso em: 24/04/2013, as 09h.