Aplicação de técnicas de Big Data Analytics às Smart Grids como forma de descoberta de padrões relevantes

(1)

Departamento de Ciências Exatas e Engenharias

Programa de Pós-Graduação em Modelagem Matemática

Grupo de Automação Industrial e Controle

Aplicação de Técnicas de Big Data Analytics às

Smart Grids como Forma de Descoberta de

Padrões Relevantes

Ivan Eduardo Metz Kühne

Linha de Pesquisa:

Modelagem Matemática e Computacional, Otimização e Controle de Sistemas

Ijuí - RS

Abril de 2020

(2)

Aplicação de Técnicas de Big Data Analytics às Smart

Grids como Forma de Descoberta de Padrões Relevantes

Dissertação de Mestrado submetida ao Pro-grama de Pós-Graduação em Modelagem Ma-temática da Universidade Regional do Noro-este do Estado do Rio Grande do Sul (Unijuí) como parte dos requisitos necessários para a obtenção do grau de Mestre em Modelagem Matemática.

Orientador: Prof. Dr. Paulo Sérgio Sausen

Coorientador: Prof. Dr. Maurício de Campos

Ijuí - RS

Abril de 2020

(3)

(4)

(5)

O presente trabalho foi desenvolvido com apoio da Coordenação de Aperfeiço-amento de Pessoal de Nível Superior (CAPES), além do apoio técnico do Grupo de Automação Industrial e Controle (GAIC) da Universidade Regional do Noroeste do Rio Grande do Sul (Unijuí) e da Companhia Estadual de Distribuição de Energia Elétrica (CEEE-D).

(6)

muns as aproximações, a fecundação entre essas duas disciplinas.”

(7)

Os Sistemas Elétricos de Potência são responsáveis pelo suprimento de energia elétrica aos consumidores, tendo aumentando consideravelmente a sua complexidade ao longo dos anos. Entretanto, em muitos casos a sua infraestrutura ainda é concebida de acordo com padrões que não incorporam as tecnologias modernas de comunicação e computação, o que os torna vulneráveis a ameaças de diversas naturezas. O conceito de Smart Grid incorpora essas tecnologias às redes de distribuição, acrescentando funcionalidades que otimizam a distribuição de energia, minimizam as perdas e proporcionam a capacidade de auto-regeneração. As abordagens tradicionais de análise de dados não conseguem lidar de maneira adequada com o volume, velocidade, variedade, veracidade e valor associados aos dados gerados pelos sensores das Smart Grids. Uma maneira de superar essa limitação é o uso de Big Data Analytics. Nesse trabalho foi aplicada a técnica de Regressão Logística ao banco de dados do sistema de monitoramento de subestações subterrâneas instalado e operado pela CEEE-D na cidade de Porto Alegre - RS com objetivo de desenvolver um modelo matemático e computacional para a detecção de ocorrências de subtensão. O modelo foi testado e validado com dados reais, alcançando resultados satisfatórios.

Palavras-chaves: Big Data; Big Data Analytics; Detecção de Falhas; Modelagem Mate-mática; Regressão Logística; Smart Grids.

(8)

The Electric Power Systems are responsible for supplying electrical energy to consumers, having considerably increased its complexity over the years. However, in many cases their infrastructure is still designed according to standards that do not incorporate modern communication and computing technologies, which makes them vulnerable to many types of threats. The Smart Grid concept incorporates these modern technologies into distribu-tion grids, adding features that optimize power distribudistribu-tion, minimize losses and provide self-regeneraton ability. Traditional approaches of data analysis can not adequately handle the volume, speed, variety, veracity and value associated with data generated by Smart Grids sensors. One way to overcome this limitation is the use of Big Data Analytics. In this work the Logistic Regression technique was applied to the database of the monitoring system instaled and operated by the CEEE-D company in the city of Porto Alegre - Brazil to develop a mathematical and computacional model to detect undervoltage occurrences. The model was tested and validated using real data and the results were satisfatory.

Keywords: Big Data; Big Data Analytics; Fault Detection; Logistic Regression; Mathe-matical Modeling; Smart Grids.

(9)

Figura 1 – Interligação dos sistemas elétricos de potência. . . 19

Figura 2 – Exemplo de extração de valor através de Big Data Analytics. . . . 29

Figura 3 – Framework para aquisição e análise de dados nas Smart Grids. . . . 29

Figura 4 – Metodologia KDD. . . 40

Figura 5 – Metodologia CRISP-DM. . . 42

Figura 6 – Metodologia Foundational Methodology for Data Science. . . . 43

Figura 7 – Localização das subestações monitoradas. . . 50

Figura 8 – Fluxograma da aplicação da metodologia. . . 53

Figura 9 – Primeiro ajuste do modelo: matrizes de confusão para o conjunto de teste.. . . 64

Figura 10 – Primeiro ajuste do modelo: matrizes de confusão para o conjunto de validação . . . 64

Figura 11 – Segundo ajuste do modelo: matrizes de confusão para o conjunto de teste. 66 Figura 12 – Segundo ajuste do modelo: matrizes de confusão para o conjunto de validação. . . 66

Figura 13 – Terceiro ajuste do modelo: matrizes de confusão para o conjunto de teste. 67 Figura 14 – Terceiro ajuste do modelo: matrizes de confusão para o conjunto de validação. . . 68

Figura 15 – Quarto ajuste do modelo: matrizes de confusão para o conjunto de teste. 70 Figura 16 – Quarto ajuste do modelo: matrizes de confusão para o conjunto de validação. . . 70

(10)

Tabela 1 – Relação entre probabilidade, chance e logit. . . . 37

Tabela 2 – Grandezas utilizadas no modelo de regressão logística. . . 55

Tabela 3 – Utilização das bibliotecas da linguagem Python. . . . 59

Tabela 4 – Primeiro ajuste do modelo: valores de β. . . . 63

Tabela 5 – Segundo ajuste do modelo: valores de β. . . . 65

Tabela 6 – Terceiro ajuste do modelo: valores de β. . . . 67

Tabela 7 – Terceiro ajuste do modelo: parâmetros de análise. . . 68

Tabela 8 – Terceiro ajuste do modelo: aplicações do Teorema de Bayes. . . 69

Tabela 9 – Quarto ajuste do modelo: valores de β. . . . 69

Tabela 10 – Quarto ajuste do modelo: parâmetros de análise. . . 71

(11)

AMI Advanced Metering Infrastructure (Infraestrutura Avançada de

Medi-ção)

ANEEL Agência Nacional de Energia Elétrica

API Application Programming Interface (Interface de Programação de Apli-cações)

ARPANET Advanced Research Projects Agency Network (Rede da Agência para

Projetos de Pesquisa Avançada)

CEEE Companhia Estadual de Energia Elétrica

CEEE-D Companhia Estadual de Distribuição de Energia Elétrica

CRISP-DM Cross Industry Standard Process for Data Mining (Processo Padrão

entre Indústrias para Mineração de Dados)

CSV Comma-Separated Values (Valores Separados por Vígula)

DEMEI Departamento Municipal de Energia Elétrica de Ijuí Embrapa Empresa Brasileira de Pesquisa Agropecuária

EPRI Eletric Power Research Institute (Instituto de Pesquisa em Potência

Elétrica)

FSF Free Software Foundation (Fundação para o Software Livre)

GAIC Grupo de Automação Industrial e Controle

GNU GPL GNU General Public License (Licença Pública Geral GNU)

IEEE Institute of Electrical and Electronics Engineers (Instituto de

Engenhei-ros Eletricistas e Eletrônicos)

IEEE Smart Grid IEEE Smart Grid Working Group (Grupo de Trabalho do IEEE

sobre Redes Inteligentes) Internet Rede Mundial de Comptadores

KDD Knowledge-Discovery in Databases (Descoberta de Conhecimento em

(12)

PLC Power Line Communication (Comunicação por Linha de Energia)

PRODIST Procedimentos de Distribuição de Energia Elétrica no Sistema Elétrico Nacional

PSF Python Software Foundation (Fundação Python de Software)

SAD Sistema de Apoio à Decisão

SDAT Sistema de Distribuição de Alta Tensão SDBT Sistema de Distribuição de Baixa Tensão SDMT Sistema de Distribuição de Média Tensão SED Subestação Distribuidora

SEP Sistema Elétrico de Potência

SGDB Sistema de Gerenciamento de Banco de Dados SIN Sistema Interligado Nacional

SMOTE Synthetic Minority Over-Sampling Technique (Técnica de Super-Amostragem

Sintética da Minoria)

SQL Structured Query Language (Linguagem de Consulta Estruturada)

Unijuí Universidade Regional do Noroeste do Estado do Rio Grande do Sul WEKA Waikato Environment for Knowledge Analysis (Ambiente Waikato para

(13)

1 INTRODUÇÃO . . . 13 1.1 Justificativa . . . 15 1.2 Objetivos . . . 16 1.2.1 Objetivo Geral . . . 16 1.2.2 Objetivos Específicos . . . 17 1.3 Estrutura do Documento . . . 17 2 REFERENCIAL TEÓRICO . . . 18

2.1 Sistema Elétrico de Potência . . . 18

2.2 Smart Grid . . . 21

2.3 Big Data Analytics . . . 23

2.4 Aplicações de Big Data Analytics . . . 25

2.5 Técnicas de Análise . . . 32

2.6 Ferramentas Computacionais . . . 37

2.7 Metodologias . . . 39

2.8 Trabalhos Relacionados . . . 45

3 ESTUDO DE CASO E METODOLOGIA . . . 49

3.1 Banco de Dados da CEEE-D . . . 49

3.2 Metodologia . . . 52

3.3 Bibliotecas da Linguagem Python Utilizadas . . . 59

4 RESULTADOS E DISCUSSÃO . . . 63

4.1 Ajuste do Modelo sem Balanceamento e Normalização . . . 63

4.2 Ajuste do Modelo sem Balanceamento e com Normalização. . . 65

4.3 Ajuste do Modelo com Balanceamento e sem Normalização. . . 67

4.4 Ajuste do Modelo com Balanceamento e Normalização . . . 69

4.5 Discussão dos Resultados . . . 71

5 CONCLUSÃO E TRABALHOS FUTUROS . . . 74

(14)

1 INTRODUÇÃO

O termo Smart Grid pode ser definido, conforme o Electric Power Research Institute (EPRI) [1], como a superposição de um sistema unificado de comunicação e controle ao sistema existente de distribuição de energia. Umas das primeiras menções a esse conceito é encontrada no trabalho de Amin e Wollenberg [2], onde foram analisadas as vulnerabilidades atuais dos sistemas elétricos de potência (SEP) e discutidas maneiras de utilizar as tecnologias atuais de computação, controle e comunicação na sua gestão de forma mais efetiva.

Conforme Tleis [3], os SEP são responsáveis pelo suprimento de energia elétrica aos consumidores, abrangendo as fases de geração, transmissão, distribuição e carga. A configuração destes sistemas, segundo Farhangi [4], é um produto da urbanização e desen-volvimento de infraestrutura rápidos ao longo do século vinte e sua topologia básica se mantém inalterada desde a sua concepção, com demarcações claras entre as suas fases.

Assim, segundo Amin e Wollenberg [2], os SEP enfrentam problemas que não foram previstos no seu projeto original e, consequentemente, não possuem condições de resolver, como congestionamentos e fluxos de energia atípicos que provocam a sua sobrecarga. Além disso, a infraestrutura dos SEP está cada vez mais interconectada, o que faz com que perturbações nas condições de funcionamento de um ponto do sistema possam ser propagar para uma área muito maior, com aumento em suas consequências ao longo dessa propagação.

Desta forma, os SEP se tornam vulneráveis a determinados tipos de ameaça que podem se propagar sob a forma de falhas de grande impacto, especialmente quando se considera que diversos setores da economia dependem diretamente de um suprimento energético seguro e confiável. Como exemplos desses setores, os autores citam os trans-portes, as comunicações e as finanças [2]. Conforme o EPRI [1], a adoção do conceito de

Smart Grid pode prover aos sistemas de distribuição funcionalidades que se contrapõe a

essas ameaças, como otimização da distribuição de energia, minimização de perdas e a capacidade de autorregeneração.

O conceito de Smart Grid está ligado também à utilização de um grande número de sensores, que são conceituados pelo INMETRO como elementos de um sistema de medição diretamente afetados por um fenômeno, corpo ou substância que contém grandezas que devem ser medidas [5]. A utilização destes dispositivos permite o monitoramento dos SEP de forma multidirecional, o que se contrapõe à sua configuração tradicional, que Farhangi [4] descreve como um sistema rigidamente hierárquico, onde as estações geradoras, no topo da cadeia, garantem a entrega da energia elétrica aos consumidores que estão em sua base.

(15)

Como desvantagem dessa abordagem tradicional, Farhangi [4] cita que o fluxo de dados ocorre de forma unidirecional, de forma que as estações geradoras não possuem informações em tempo real sobre os parâmetros dos pontos terminais do sistema. Com isso, o SEP deve ser superdimensionado de forma a se antecipar aos picos de demanda, que são eventos raros, o que torna o sistema inerentemente ineficiente. O autor advoga que a abordagem hierárquica deve ser progressivamente substituída por uma estrutura de comando e controle distribuída baseada na utilização de Infraestrutura Avançada de Medição (Advanced Metering Infrastructure - AMI) com capacidade de comunicação bidirecional.

A utilização de AMI e Medidores Inteligentes (Smart Meters), combinada com outras fontes de dados, gera um grande volume de dados heterogêneos em grande velocidade. Segundo Zhou [6], esse fato representa ao mesmo tempo um desafio e uma oportunidade. Como forma de orientar a utilização das Smart Grids, além de debater os desafios e oportunidades relacionadas a elas, o Instituto de Engenheiros Eletricistas e Eletrônicos (Institute of Electrical and Electronics Engineers - IEEE) criou o grupo de trabalho IEEE

Smart Grid Working Group (IEEE Smart Grid) [7].

Conforme apontado pelo IEEE Smart Grid [8], a troca de dados é essencial para o controle, monitoramento e coordenação entre os equipamentos que pertencem a um subsis-tema de uma Smart Grid. Entretanto, as técnicas tradicionais de análise não conseguem processar estes volumes grandes de dados heterogêneos de forma efetiva. Desta forma, o

IEEE Smart Grid [8] e autores como Stimmel [9], Yu et al. [10], Sagiroglu et al. [11], Zhou, Fu e Yang [6] e He et al. [12] apontam a necessidade de utilização de Big Data Analytics no monitoramento e operação das Smart Grids.

O termo Big Data Analytics é definido por Russom [13] e IEEE Smart Grid [8] como a aplicação de técnicas avançadas de análise a conjuntos grandes de dados, portadores das características de volume, velocidade, variedade, veracidade e valor associadas ao conceito de Big Data. Existem diversas técnicas de análise associadas ao conceito de Big Data

Analytics que, conforme compilado por Shearer [14] e Laudon e Laudon [15], podem ser classificadas nas categorias de descrição e resumo dos dados, segmentação (aglomeração), descrição de conceitos, classificação, predição (prognóstico) e análise de dependências (associação ou sequência).

A distribuição de energia elétrica em grande parte do território do estado do Rio Grande do Sul está a cargo da Companhia Estadual de Distribuição de Energia Elétrica (CEEE-D), que teve origem no desmembramento da antiga Companhia Estadual de Energia Elétrica (CEEE) em atendimento à Lei Federal no _{10.848, de 15 de março de}

2004 [16] [17]. Em conformidade com o conceito de Smart Grid, a Unijuí (Universidade Regional do Noroeste do Estado do Rio Grande do Sul) desenvolveu, através do GAIC (Grupo de Automação Industrial e Controle) e em conjunto com a CEEE-D, um sistema

(16)

de monitoramento das subestações subterrâneas localizadas na cidade de Porto Alegre - RS com apoio do Programa de Pesquisa e Desenvolvimento da Agência Nacional de

Energia Elétrica (ANEEL).

O sistema de monitoramento coleta treze variáveis analógicas e dez variáveis digitais, referentes aos parâmetros de funcionamento de cada subestação, com periodicidade de dez segundos. Em seguida estes dados são transmitidos por um sistema de comunicação e armazenados no banco de dados do servidor. Este sistema está funcional desde o ano de 2012 e está sendo ampliado a cada ano. Atualmente a CEEE disponibiliza ao GAIC acesso a uma cópia do banco de dados deste sistema de monitoramento para realização de estudo e pesquisas.

A partir da cópia do banco de dados disponibilizada, foram realizados diversos estudos e nesta dissertação será apresentado o desenvolvimento e validação, com base em dados reais, de um modelo matemático e computacional capaz de prever anomalias no sistema de distribuição de energia elétrica através de Big Data Analytics. Para a caracterização das anomalias, são adotados os critérios definidos pela ANEEL [18] no Módulo 8 do documento Procedimentos de Distribuição de Energia Elétrica no Sistema Elétrico Nacional (PRODIST) [19], que aborda a qualidade da energia elétrica.

1.1 Justificativa

Atualmente muitas atividades estão associadas à geração e armazenamento de volume grandes de dados, que podem ser analisados posteriormente. Dessa forma, é criada a oportunidade de que eles sejam utilizados de forma preditiva, identificando o que tende a ocorrer no futuro, ou prescritiva, indicando a estratégia que deve ser adotada para que seja obtido o melhor resultado possível para o sistema. Entretanto, essas possibilidades só são aproveitadas efetivamente quando os dados são analisados através de técnicas adequadas e com foco na descoberta de padrões que, embora relevantes para a atividade em questão, não se apresentam de forma explícita.

As Smart Grids são equipadas com um grande número de sensores, que muitas vezes são ligadas a sistemas de alarmes que detectam anomalias no momento da sua ocorrência. Essa abordagem, embora eficaz dentro da sua proposta de atuação, não permite que sejam identificados padrões que, por exemplo, apontem tendências de surgimento de uma anomalia no sistema, de forma que os gestores possam se antecipar à sua ocorrência. A aplicação de Big Data Analytics às Smart Grids se mostra um campo promissor, uma vez que os dados gerados são compatíveis com as características de volume, velocidade, variedade, veracidade e valor associadas ao conceito de Big Data.

A aplicação de Big Data Analytics às Smart Grids permite a descoberta de padrões implícitos nos bancos de dados que tendem a permanecer ocultos quando são utilizados os

(17)

métodos tradicionais de análise de dados. Esses padrões descobertos podem ser de interesse para os profissionais envolvidos na gestão dos sistemas de distribuição de energia elétrica, como forma de melhorar a qualidade da energia fornecida aos consumidores finais, reduzir os custos de operação e distribuição de energia, reduzir e direcionar de melhor forma recursos financeiros para a manutenção preventiva dos sistemas, entre outras aplicações.

Existem publicações anteriores em que Big Data Analytics foi aplicado às Smart

Grids, como os trabalhos de Destefani [20] e Moghaddass e Wang [21]. Embora tenham obtido sucesso na confirmação dos problemas que se propuseram a analisar, os autores trabalharam com a descoberta de padrões que já são de conhecimento de profissionais com experiência técnica na área dos sistemas de distribuição de energia elétrica. Desta forma, o potencial da aplicação de Big Data Analytics não foi explorado de forma plena. Como diferencial em relação aos trabalhos citados, nesta dissertação ocorreu a aplicação de Big Data Analytics com foco na identificação de padrões que, embora implí-citos no banco de dados analisado, não podem ser identificados a partir de técnicas de análise tradicionais ou da experiência dos profissionais da área. Pretende-se que os padrões encontrados possuam valor para os profissionais responsáveis pela gestão dos sistemas de distribuição de energia elétrica, sendo relevantes para a execução desta tarefa.

Em relação aos padrões descobertos, espera-se que, ao serem contextualizados no ambiente organizacional, eles sejam capazes de subsidiar ações e tomadas de decisões de forma proativa, superando as ações reativas que são possibilitadas pelos sistemas supervisó-rios atuais. Além do desenvolvimento e validação do modelo matemático e computacional a partir de dados reais, as etapas da metodologia utilizada foram documentadas e explicadas como forma de guiar trabalhos futuros que abordem a aplicação de Big Data Analytics no ambiente das Smart Grids.

1.2 Objetivos

A seguir são apresentados o objetivo geral desta dissertação e a sua divisão em objetivos específicos.

1.2.1 Objetivo Geral

Desenvolver um modelo matemático e computacional para descoberta de padrões relevantes para os profissionais envolvidos na gestão dos sistemas de distribuição de energia elétrica a partir da aplicação de Big Data Analytics ao banco de dados do sistema de monitoramento instalado e operado pela CEEE-D na cidade de Porto Alegre - RS.

(18)

1.2.2 Objetivos Específicos

a) Realizar uma revisão bibliográfica sobre Sistemas Elétricos de Potência e Smarts

Grids;

b) Realizar uma revisão bibliográfica sobre Big Data e Big Data Analytics, bem como técnicas de análise, ferramentas computacionais e metodologias associadas a estes conceitos;

c) Selecionar a metodologia e ferramentas computacional adequadas para aplicação ao banco de dados da CEEE-D;

d) Analisar o banco de dados da CEEE-D de acordo com a metodologia adotada e com base nos critérios definidos no Módulo 8 do PRODIST, como forma de selecionar a técnica de análise adequada;

e) Desenvolver um modelo matemático e computacional para descoberta de padrões relevantes a partir da aplicação da técnica de análise, com auxílio da ferramenta computacional, ao conjunto de desenvolvimento1 _{extraído do banco de dados da} CEEE-D ;

f) Validar os resultados obtidos com dados reais, a partir da aplicação do modelo matemático e computacional ao conjunto de validação extraído do banco de dados da CEEE-D.

1.3 Estrutura do Documento

A organização do restante deste documento é apresentada a seguir. No Capítulo

2 é apresentado o referencial teórico sobre o conhecimento necessário para a elaboração desta dissertação, sendo abordados os conceitos de SEP, Smart Grid, Big Data e Big

Data Analytics, incluindo as aplicações, técnicas de análise, ferramentas computacionais e

metodologias associadas a este último processo. No Capítulo 3 é apresentado o estudo de caso utilizado no desenvolvimento da dissertação e é descrita a metodologia aplicada a ele. No Capítulo 4 são apresentados e debatidos os resultados da aplicação da metodologia ao estudo de caso. No Capítulo 5são apresentadas as considerações finais e possibilidades de trabalhos futuros.

1 _{Nesta dissertação, foi empregado o termo conjunto de desenvolvimento como forma de evitar confusão} com o termo conjunto de treinamento, que é um subconjunto do primeiro.

(19)

2 REFERENCIAL TEÓRICO

Neste Capítulo é apresentado o referencial teórico sobre o conhecimento necessário para a elaboração desta dissertação. Na Seção 2.1são apresentados o conceito de SEP e os órgãos responsáveis pela fiscalização da distribuição de energia elétrica em território nacional. Na Seção 2.2 é apresentado o conceito de Smart Grid.

Na Seção 2.3 são apresentados os conceitos de Big Data e Big Data Analytics. Na Seção 2.4 são apresentadas possibilidades de aplicação de Big Data Analytics, tanto no setor elétrico quanto em outros setores. Na Seção 2.5 são apresentadas técnicas de análise. Na Seção 2.6 são apresentadas ferramentas computacionais. Na Seção 2.7 são apresentadas metodologias propostas para o processo de Big Data Analytics. Na Seção 2.8

são apresentados trabalhos relacionados.

2.1 Sistema Elétrico de Potência

Conforme Tleis [3], os SEP são responsáveis pelo suprimento de energia elétrica aos consumidores, abrangendo as fases de geração, transmissão, distribuição e carga. Farhangi [4] descreve que esta topologia básica dos SEP, com demarcação clara entre as fases, permanece inalterada desde a sua concepção, tendo sido adotada em diversos regiões apesar dos fatores geográficos, econômicos e políticos variados que influenciaram o processo de eletrificação de cada uma delas.

De acordo com a ANEEL [18], o sistema de geração é responsável pela conversão da energia de uma fonte primária em energia elétrica. O sistema de transmissão é constituído pelas linhas de transmissão e pelas subestações integrantes da rede básica. O sistema de distribuição de energia elétrica é composto pelas linhas, subestações e demais equipamentos associados, necessários à interligação elétrica entre o sistema de transmissão ou geração e as instalações dos consumidores finais, que podem ser consumidores residenciais, comerciais, rurais, industriais ou pertencente às demais classes. A interligação destes sistemas é apresentada na Figura 1.

Conforme a ANEEL [18], o sistema de distribuição pode ser classificado em alta, média e baixa tensão. O sistema de distribuição de alta tensão (SDAT) é constituído pelas linhas e subestações que conectam as barras da rede básica ou de centrais geradoras às subestações de distribuição em tensões típicas iguais ou superiores a 69 kV e inferiores a 230 kV. Ele também pode abranger instalações com tensão igual ou superior a 230 kV, quando isso for definido de forma específica pela agência.

(20)

Figura 1 – Interligação dos sistemas elétricos de potência.

Fonte: do Autor.

de distribuição e pelos equipamentos associados em tensões típicas superiores a 1 kV e inferiores a 69 kV. Geralmente a função primordial do SDMT é o atendimento a unidades consumidoras, podendo conter geração distribuída. Por fim, o sistema de distribuição de baixa tensão (SDBT) é constituído pelas linhas de distribuição e de equipamentos associados em tensões nominais inferiores ou iguais a 1 kV.

As subestações são componentes do SEP que compreendem os dispositivos de manobra, controle, proteção, transformação e demais equipamentos, condutores e acessó-rios, abrangendo as obras civis e estruturas de montagem. De acordo com as funções que exercem no SEP, as subestações podem ser definidas como subestações consumidoras, su-bestações distribuidoras (SED) ou susu-bestações transformadoras compartilhadas. A seguir é apresentada a definição de cada um desses conceitos, de acordo com a ANEEL [18].

a) Subestação consumidora: subestação responsável pelo atendimento à unidade con-sumidora atendida em média ou alta tensão de distribuição;

b) SED: subestação conectada ao sistema de distribuição de alta tensão, interligando as redes de distribuição, contendo transformadores de força e que tem como função

(21)

reduzir a tensão no sistema de distribuição;

c) Subestação transformadora compartilhada: subestação de propriedade de dois ou mais agentes de distribuição utilizada para sua conexão no sistema de distribuição.

O PRODIST é uma série de documentos emitidos pela ANEEL que normatizam e padronizam as atividades técnicas relacionadas ao funcionamento e desempenho dos sistemas de distribuição de energia elétrica. Cada um dos módulos do PRODIST aborda um determinado tópico relativo a esses sistemas, sendo que os critérios relativos à qualidade da energia elétrica são apresentados no Módulo 8 [19].

No Módulo 8 do PRODIST são definidos os limites e valores de referência que são considerados aceitáveis nos procedimentos de distribuição. Em relação ao regime transitório, o documento estabelece os critérios para as variações de tensão de curta duração. Em relação ao regime permanente, são estabelecidos os critérios relativos aos fenômenos apresentados a seguir.

a) Tensão em regime permanente; b) Fator de potência;

c) Harmônicos;

d) Desequilíbrio de tensão; e) Flutuação de tensão;

f) Variação de frequência.

O Módulo 8 do PRODIST possui outros objetivos além da definição dos limites e valores de referência para os fenômenos citados. Estes objetivos são apresentados a seguir.

a) Estabelecer aspectos relacionados à instrumentação e à metodologia de medição dos fenômenos da qualidade do produto;

b) Definir procedimento para a gestão das reclamações dos acessantes sobre problemas relacionados à qualidade do produto;

c) Descrever os estudos sobre a qualidade do produto para fins de acesso aos sistemas de distribuição.

No Brasil existe uma interconexão entre sistemas elétricos, por meio da malha de transmissão, denominada Sistema Interligado Nacional (SIN). A coordenação e o controle da operação das instalações de geração e transmissão de energia elétrica SIN estão a cargo

(22)

do Operador Nacional do Sistema Elétrico (ONS), órgão instituído como uma pessoa jurídica de direito privado, sob a forma de associação civil sem fins lucrativos. Os serviços prestados pelo ONS são submetidos a fiscalização e regulação pela ANEEL [22].

O sistema brasileiro de produção e transmissão de energia elétrica é constituído por usinas térmicas, eólicas e hidrelétricas, com predomínio das últimas, pertencentes a diversos proprietários. O SIN interliga estas diversas instalações e é constituído por quatro subsistemas, que atendem a região Sul, regiões Sudeste e Centro-Oeste, região Nordeste e a maior parte da região Norte. Essa interligação permite a transferência de energia entre os subsistemas e a obtenção de ganhos sinérgicos, além de explorar a diversidade entre os regimes hidrológicos das bacias. Desta forma, ela permite o atendimento ao mercado consumidor de forma segura e econômica [23].

2.2 Smart Grid

Conforme o EPRI [1], o termo Smart Grid é conceituado como a superposição de um sistema unificado de comunicação e controle ao sistema existente de distribuição de energia, de forma que seja possível a geração de informações a algum de seus elementos para que possam ser executadas ações adequadas. Uma das primeiras menções ao termo Smart

Grid é encontrada no trabalho de Amin e Wollenberg [2], que defendem a necessidade dos SEP se tornarem inteligentes a partir da sua transformação em uma infraestrutura mais segura, ágil e robusta, capaz de enfrentar as novas ameaças a que estão sujeitos.

Setores críticos como transportes, comunicações e finanças dependem de um supri-mento seguro e confiável para sua operação, de forma que as consequências potencias de falhas nos sistemas de distribuição de energia elétrica nunca foram tão graves. Além disso, as instalações de distribuição de energia modernas estão altamente conectadas, de forma que a alteração das condições de funcionamento em um local pode ter efeito em vários outros, além de poder ter seus efeitos ampliados a medida que essa mudança se propaga pela rede [2].

Conforme Heirman [24], é fundamental para a implementação bem-sucedida do conceito de Smart Grid que todos os componentes do SEP possam se comunicar e operar conjuntamente de forma efetiva, segura e sem a necessidade de intervenção constante, de acordo com o que foram projetados para realizar. O autor ressalta que, para que isto ocorra, primeiro é necessário garantir que cada componente apresente, de forma individual, o funcionamento adequado. Além disso, o sistema deve ser capaz de incorporar os sistemas legados que ainda estão em operação, o que produz a necessidade de padronização de requisitos de produtos e de interfaces.

De acordo com Farhangi [4], a configuração dos SEP é resultado da urbanização e desenvolvimento de infraestrutura que ocorreram de forma rápida em várias partes do

(23)

mundo ao longo do século vinte. Entretanto, a topologia básica dos SEP, com demarcação clara entre as fases de geração, transmissão, distribuição e consumo, permanece inalterada desde a sua concepção. O autor caracteriza esta topologia como um sistema rigidamente hierárquico onde o fluxo de informação ocorre de forma unidirecional, de forma que as estações geradoras não possuem informações em tempo real sobre os parâmetros dos pontos terminais do sistema.

Cerca de 90% dos problemas relacionados aos SEP, como interrupção no forneci-mento de energia elétrica e demais anomalias, têm suas causas relacionadas ao Sistema de Distribuição. Desta forma, a transição da infraestrutura tradicional para uma Smart

Grid deve começar a partir do aumento da utilização de tecnologias como AMI, que possui

capacidade de comunicação bidirecional, nesta fase do sistema. Em seguida, a adoção des-sas tecnologias deve servir de base para a criação de um estrutura de comando e controle distribuída, capaz de substituir progressivamente a topologia hierárquica atual [4].

Segundo Amin e Wollenberg [2], embora os SEP estejam cada vez mais interconec-tados, os seus elementos e princípios fundamentais de operação foram estabelecidos antes da emergência da utilização de redes de computadores e de comunicação1_{. Desta forma,} uma grande parte da coordenação das operações ainda é realizada sem a utilização desses recursos. Em alguns casos a coordenação ocorre através de ligações telefônicas, inclusive durante emergências.

Entretanto, métodos, ferramentas e tecnologias baseados nos avanços na compu-tação, controle e comunicações são capazes de disponibilizar aos SEP a capacidade de auto-regulação de forma local. Essa capacidade inclui a capacidade de reconfiguração em caso de falhas, ameaças ou perturbações. Para a criação de uma rede capaz de auto-regeneração frente a ameaças, o autores afirmam que os componentes individuais da rede de distribuição devem ser tratados como agentes inteligentes e que esses devem competir e cooperar para que se possa atingir a otimização global do sistema [2].

Segundo o EPRI [1], a implementação do conceito de Smart Grid proporciona aos SEP diversas funcionalidades, conforme apresentado a seguir.

a) Melhoria no serviço ao consumidor: alcançada através de manutenção preventiva, maior oferta de energia gerada por fontes renováveis e aumento nas opções de precificação dinâmica e demais serviços de resposta a demanda;

b) Melhoria nas condições operacionais: alcançada através da diminuição de perdas nas linhas de transmissão, controle da tensão, da diminuição dos custos para a realização de leituras e respostas indiretas ao consumidor através de novos sistemas de medição;

1 _{O desenvolvimento da Advanced Research Projects Agency Network (ARPANET), precursora da atual} Rede Mundial de Computadores (Internet), foi iniciado na década de 1960.

(24)

c) Melhoria na resposta à demanda e no controle de carga: alcançada através de econo-mia de energia devido à diminuição dos picos de demanda, facilidade na utilização de fontes renováveis para suprir os picos de demanda e redução na utilização de usinas ineficientes;

d) Transformação no comportamento do consumidor em relação à energia: alcançada através de comunicação direta sobre a utilização de energia com o consumidor através de dispositivos e indireta através do sistema de cobrança;

e) Apoio a novos modelos de empresas de serviços públicos: alcançado através do aumento na eficiência energética e da aceleração da inovação nos dispositivos através da adoção de padrões abertos.

2.3 Big Data Analytics

O termo Big Data vem sendo aplicado desde trabalhos como o de Cox e Ellsworth [25], que o utilizaram para descrever os conjuntos de dados utilizados na visualização científica, cujos volumes extrapolavam a capacidade da memória local e dos sistemas de armazenamento locais e remotos disponíveis na época. Conforme Manyika et al. [26], o conceito de Big Data é associado a conjuntos de dados cujo tamanho impede que sejam coletados, armazenados, geridos e analisados por ferramentas tradicionais de banco de dados.

O modelo do Big Data era inicialmente associado a três "vês", que representam características associadas à maneira como estes conjuntos de dados são produzidos: volume, velocidade e variedade. Posteriormente, foram associadas outras duas características, que são associadas à importância desses dados: a veracidade e o valor. A seguir são apresentadas as definições de cada uma dessas características, conforme compilado por Sagiroglu et al. [11].

a) Volume: existe um número elevado de registros e é necessária uma capacidade de armazenamento muito grande;

b) Velocidade: os dados são gerados e transferidos com uma grande frequência;

c) Variedade: há uma grande diversidade de fontes e formatos de dados, bem como campos multidimensionais;

d) Veracidade: o dados devem ser confiáveis e de qualidade;

(25)

Entretanto, essas características dificultam, ou ao menos não garantem, que os padrões e insights úteis implícitos nestes conjuntos de dados possam ser prontamente disponibilizados às partes interessadas. Em termos práticos, isso significa que mesmo técnicas de análise computacional tradicionais como a utilização de planilhas eletrônicas não são capazes de prover um suporte adequado para a descoberta destes padrões e

insights.

A complexidade dos conjuntos de dados gerados exige a aplicação de técnicas de análise, ferramentas computacionais e metodologias específicas, de forma que os dados possam ser contextualizados na forma de informações e conhecimento em tempo hábil para a sua utilização pelas partes interessadas. Nesse ponto deve ser enfatizada a diferença entre dado, informação e conhecimento, conforme proposto por Davenport e Prusak [27]. Estas definições são apresentadas a seguir.

a) Dado: facilmente estruturável, facilmente capturado por máquinas, frequentemente quantificado e de fácil transferência;

b) Informação: requer unidade de análise, exige consenso em relação ao seu significado e exige necessariamente a mediação humana;

c) Conhecimento: dificilmente estruturado, dificilmente capturado por máquinas, fre-quentemente tácito e de difícil transferência.

Atualmente o processo de coleta, armazenamento e análise de conjuntos de dados associados ao conceito de Big Data é utilizado como método de pesquisa em diversas áreas do conhecimento, abrangendo tanto aplicações puramente acadêmicas quanto aquelas voltadas para a resolução de problemas na área da indústria e do setor de serviços. Devido a essa diversidade de aplicações, é difícil estabelecer um consenso sobre a nomenclatura que deve ser utilizada para definir este processo.

No trabalho de He et al. [12], por exemplo, é utilizado o termo Big Data, que os autores definem como uma abordagem cognitiva baseada em dados, que procura descobrir as correlações estatísticas indicadas por parâmetros de alta dimensão através de um modelo não-paramétrico, à qual é proposta uma formalização matemática. Outros termos podem ser encontrados na literatura, como Análise de Dados (Data Analysis ou Data

Analytics), Aprendizado de Máquina (Machine Learning), Big Data Analytics, Ciência de

Dados (Data Science), Descoberta de Conhecimento em Bancos de Dados (Knowledge

Discovery in Databases - KDD) e Mineração de Dados (Data Mining).

Nesta Dissertação é empregado o termo Big Data Analytics, proposto por Russom [13] e adotado pelo IEEE Smart Grid [8], como sinônimo das diversas nomenclaturas propostas. Essa decisão se deve ao fato do IEEE ser uma entidade de referência tanto na

(26)

Engenharia Elétrica quanto na Ciência da Computação, sendo responsável pela elaboração de diversos padrões que são utilizados atualmente na computação e nas comunicações. Segundo Russom [13] e o IEEE Smart Grid [8], Big Data Analytics é a aplicação de técnicas avançadas de análise a conjuntos de dados associáveis ao conceito de Big Data.

Cabe ressaltar que a utilização massiva de dados para a obtenção de conhecimento relevante é um assunto que precede a utilização de termos como Big Data e Big Data

Analytics e mesmo a adoção generalizada de computadores. Um exemplo histórico é

relatado por Whiting [28], que descreve o desenvolvimento de técnicas sistemáticas de análise de inteligência atribuído ao general alemão Reinhard Gehlen (1902 – 1979) e ao general inglês Sir Kenneth Strong (1900 – 1982) ao longo da Segunda Guerra Mundial2_.

A atividade de inteligência, sob a influência de Gehlen, foi totalmente transformada e passou a ter o seu sucesso atrelado à coleta massiva de informações e ao emprego de analistas especializados, com formação em áreas como economia e ciências políticas. Assim, em substituição ao cenário aventuresco associado anteriormente à atividade de inteligência, agora via-se:

[...] o bacharel elegante de classe média, oficialmente recrutado as gran-des universidagran-des, cuja maior aventura consistia em dirigir diariamente um carro pelas auto-estradas e chegar ao escritório, onde nada de mais perigoso lhe acontecia além de examinar os dados de um computador ou os últimos informes de um "satélite monitor".

Os métodos desenvolvidos influenciaram a forma como a atividade de inteligência passou a ser desenvolvida em todas as agências de inteligência do pós-guerra [28]. Posteri-ormente, a técnicas utilizadas por essas agências foram adaptadas para outros contextos, adquirindo importância no cenário comercial. Um dos resultados dessa adaptação é a criação dos conceitos de inteligência competitiva e inteligência de mercado, que podem ser utilizadas por empresas como forma de guiar o seu planejamento estratégico.

2.4 Aplicações de Big Data Analytics

Autores como Davenport e Prusak [27] e Laudon e Laudon [15] enfatizam o papel relevante que a informação e, principalmente, o conhecimento desempenham nas organiza-ções, se constituindo em diferencial competitivo, permitindo tomadas melhores de decisões, subsidiando o desenvolvimento de novos produtos e serviços e garantindo a sua sobrevi-vência em ambientes sujeitos a concorrência acirrada. Como apresentado anteriormente, a utilização de Big Data Analytics permite que os dados coletados e armazenados pelas organizações possam ser convertidos em informações e conhecimento relevantes.

2 _{Ou seja, antes da colocação em operação do Mark I, protótipo dos computadores atuais, na Universidade} de Harvard no ano de 1944, próximo ao final do conflito [29].

(27)

Big Data Analytics vem sendo utilizado com sucesso em aplicações que

depen-dem da análise de volumes grandes de dados, tanto nos três setores básicos da economia (extração de matérias-primas, indústria e comércio e serviços) quanto no contexto

acadê-mico. Como exemplos dessa utilização no contexto corporativo, podem ser citadas áreas como segurança da informação e agricultura, para as quais foram desenvolvidas soluções computacionais por empresas israelenses.

A empresa israelense SecBI desenvolveu uma plataforma para a segurança da informação que trabalha com Big Data Analytics para correlacionar dados obtidos de toda a infraestrutura computacional da organização de forma automática, o que substitui a análise que tradicionalmente é realizada de forma manual. Com isso, é acelerado o processo de detecção de padrões relacionados a violações de segurança, Dessa forma, as ferramentas que compõe a plataforma proporcionam que as equipes de segurança atuem de forma mais efetiva, conseguindo uma remediação completa e evitando violações de longa duração [30].

A empresa israelense AgriTask desenvolveu uma plataforma de monitoramento para agricultura baseada na reunião e análise de dados, oriundos de diversas fontes, como imagens de satélite, dados sobre o terreno, imagens aéreas e previsão do tempo, sobre as quais é aplicado Big Data Analytics. Essa plataforma é capaz de gerenciar o ciclo de crescimento, bem como otimizar e garantir a segurança da produção. Os sistemas desenvolvidos se propõe a fornecer insights inteligentes e modelos que reduzem despesas, abrangendo desde a economia de pulverizações desnecessárias até a otimização da logística no campo [31].

O sistema desenvolvido pela AgriTask foi adotado pela Empresa Brasileira de Pesquisa Agropecuária (Embrapa) no monitoramento de pragas na produção de maçãs. Conforme o Canal Rural [32], com esse projeto se espera minimização de episódios de reinfestação, redução de prejuízos, diminuição da necessidade de agrotóxicos e melhoria na qualidade para exportação. A utilização da plataforma permite que sejam integrados os dados de diversas fazendas produtoras, que normalmente eram utilizados de forma isolada. Isto aperfeiçoa a capacidade de avaliação da ocorrência de pragas na região e permite a criação de linhas de manejo mais eficientes.

No contexto acadêmico, pode ser citado o trabalho de Krasnov et al. [33], que avaliou dos efeitos de variáveis locais e ambientais na dinâmica da Ceratitis capitata (mosca-das-frutas-do-mediterrâneo, mosca-do-mediterrâneo ou mosca-rajada) nos pomares de frutas cítricas. Como exemplo de fontes utilizadas no trabalho, podem ser citadas a plataforma da AgriTask, para os dados relativos à localização dos pomares, e o senso de Israel, para os dados relativos à localização e limites das comunidades humanas.

Como principal hipótese derivada do trabalho, os autores concluíram que as po-pulações da Ceratitis capitata são afetadas não apenas pela presença dos pomares de frutas cítricas, mas também pela composição da paisagem externa. Eles apontam que os

(28)

resultados do trabalho podem levar a um melhor entendimento sobre a ecologia da espécie e sobre as variáveis que influenciam essa distribuição, de forma que possam ser geradas recomendações sobre a minimização dos anos que a espécie provoca [33].

Especificamente no contexto das Smart Grids, a aplicação de Big Data Analytics é defendida por diversos autores, como a IBM Corporation [34], Stimmel [9], Yu et al. [10], Sagiroglu et al. [11], Zhou, Fu e Yang [6], He et al. [12] e o IEEE Smart Grid [8]. Os autores citados colocam que a utilização de Big Data Analytics não é apenas recomendável, mas necessária, uma vez que os sensores ligados às Smart Grids geram um volume massivo de dados heterogêneos que não é possível de ser analisado adequadamente através de técnicas menos sofisticadas devido à sua complexidade.

Conforme Sagiroglu et al. [11] e o IEEE Smart Grid [8], a aplicação de Big Data

Analytics se faz necessária e oportuna devido a haver conformidade entre as características

de operação das Smart Grids e o modelo dos cinco "vês"do Big Data, conforme apresentado a seguir .

a) Volume: os medidores inteligentes e a tecnologia avançada dos sensores geram um volume grande de dados;

b) Velocidade: os dados são coletados com uma frequência alta, devido à necessidade de análise e monitoramento em tempo real;

c) Variedade: os dados são coletados em formatos estruturados, semi-estruturados e não-estruturados;

d) Veracidade: para a garantia de operação segura e estabilidade do sistema, os dados devem ser confiáveis;

e) Valor: as aplicações obtêm valor dos dados das Smart Grid, através, por exemplo, da previsão da geração e demanda futuras.

Segundo Dang-Ha, Olsson e Wang [35] e o IEEE Smart Grid [8], as análises reali-zadas nas Smart Grids através de Big Data Analytics podem ser classificadas em quatro categorias. São elas: descritiva, diagnóstica, preditiva e prescritiva. A seguir são apresenta-dos os conceitos de cada uma dessas categorias de análise, de acordo com Dang-Ha, Olsson e Wang [35] e o IEEE Smart Grid [8].

a) Análise descritiva: possui o objetivo de fornecer informação sobre o que já ocorreu e se constitui do primeiro passo na tentativa de identificação de dados e informações uteis para processamento adicional. Pode incluir visualização dos dados, mineração de dados e compilação de relatórios;

(29)

b) Análise diagnóstica: possui o objetivo de entender as causas de eventos e o compor-tamento do sistemas, de forma a identificar desafios e oportunidades;

c) Análise preditiva: é utilizada para fazer predições probabilísticas de forma a identi-ficar tendências, com objetivo de determinar o que pode ocorrer no futuro;

d) Análise prescritiva: é aplicada na identificação do melhor resultado possível de eventos, dados os parâmetros do sistema, e na elaboração de estratégias para a gestão de eventos similares no futuro. Utiliza ferramentas como técnicas de simulação e suporte de decisões para explorar estratégias ótimas para que se possa aproveitar uma oportunidade futura ou mitigar um risco futuro.

Conforme o IEEE Smart Grid [8], o objetivo da aplicação de Big Data Analytics às Smart Grids é investigar os volumes massivos de dados produzidos pelos vários com-ponentes das Smart Grids, de forma que possam ser extraídas informações significativas como padrões de operação, tendências de alarmes e detecção de faltas. Exemplos práticos dessas informações significativas , bem como das funcionalidades que elas proporcionam, são apresentados em trabalhos como os de Yu et al. [10] e Zhou, Fu e Yang [6].

Conforme Yu et al. [10], existem funcionalidades possibilitadas pela aplicação de

Big Data Analytics tanto em curto quanto em longo prazo. Em curto prazo, são citadas

detecção do roubo de energia, detecção da integração de painéis solares, desenvolvimento de uma projeção de demanda de carga mais granular, visualização dos sistemas de distribuição de energia, estimativa do estado da rede e diagnóstico dos equipamentos. Em longo prazo são citados o processo de planejamento da transformação do sistema de distribuição e a modelagem do comportamento do consumidor em resposta a várias estruturas de preços e incentivos.

Conforme Zhou, Fu e Yang [6], a aplicação adequada de Big Data Analytics pode proporcionar diversas funcionalidades relacionadas ao apoio efetivo às decisões de todos os produtores, operadores e consumidores envolvidos com as Smart Grids, bem como aos responsáveis pela sua regulamentação. De acordo com Zhou, Fu e Yang [6] e a IBM Corporation [34], essas funcionalidades incluem a otimização da geração e operação de energia elétrica em tempo real, a predição acurada da demanda de energia e resposta rápida a essa demanda, a detecção de falhas e a recuperação após a sua ocorrência, a descoberta de padrões de consumo e o suprimento de energia de forma confiável e econômica.

Na Figura2é apresentado um exemplo de extração de valor para a gestão das Smart

Grids através de Big Data Analytics. Assim, segundo Stimmel [9], os dados de fontes como medidores e dispositivos inteligentes são coletados, pré-processados e analisados, gerando informações que subsidiam ações e tomadas de decisões. Dessa forma, é sistematizado o processo que começa com a adoção massiva de sensores defendida por Amin e Wollenberg

(30)

[2] e leva às funcionalidades relacionadas pela IBM Corporation [34], Yu et al. [10], Zhou, Fu e Yang [6] e o IEEE Smart Grid [8].

Figura 2 – Exemplo de extração de valor através de Big Data Analytics.

Fonte: adaptado de Stimmel [9].

Na Figura 3 é apresentado o framework proposto pelo IEEE Smart Grid [8] para aquisição e análise de dados em Smart Grids. Pode ser observada a coleta de dados a partir de sensores instalados em todas os segmentos do SEP, que são transmitidos para uma infraestrutura de computação em nuvem na qual eles são armazenados e submetidos à aplicação de Big Data Analytics.

Figura 3 – Framework para aquisição e análise de dados nas Smart Grids.

(31)

Entretanto, para que a aplicação de Big Data Analytics às Smart Grids seja feita de forma satisfatória, existem limitações que precisam ser superadas. No trabalho de Cao [36] são apontados problemas que dificultam que as informações obtidas através de Big Data

Analytics sejam aplicadas de forma efetiva nas organizações. Os problemas identificados

pelo autor são apresentados a seguir.

a) Os problemas reais dos negócios são envolvidos frequentemente por ambientes e fatores complexos, que geralmente são filtrados ou extremamente simplificados no processo de Big Data Analytics. Assim, existe uma grande distância entre um sistema sintático e o problema real que ele pretende resolver. Como consequência, os padrões identificados não podem ser utilizados na resolução de problemas;

b) Cada processo de Big Data Analytics envolve muitos fatores como consideração às interações do usuário, fatores ambientais, sistemas conectados e os resultados que devem ser entregues aos responsáveis pelas decisões, indo além da escolha do algoritmo a ser empregado;

c) Frequentemente, o processo se encerra com a descoberta de padrões, o que é uma de-cisão baseada principalmente em critérios técnicos. Assim, os interesses empresariais não são considerados na avaliação dos padrões, levando ao predomínio do interesse técnico;

d) Muitas vezes existem muitos padrões descobertos que não são informativos e trans-parentes para os executivos, que não conseguem obter os padrões realmente interes-santes para os negócios de forma fácil;

e) Uma grande proporção dos padrões identificados pode ser senso comum ou não ser interessante para as necessidades do negócio. Os executivos se sentem confusos sobre porque e como eles devem se importar acerca dessas descobertas;

f) As ações extraídas ou relacionadas através de análise e processamento posteriores sem considerar os interesses empresariais não refletem as expectativas reais das organizações e, assim, não podem oferecer apoio a decisões inteligentes;

g) Frequentemente os executivos não sabem como interpretar os padrões descobertos, utilizá-los e incorporá-los nos sistemas operacionais e nas decisões do negócio, além de não serem orientados sobre como fazer isto;

h) Frequentemente os algoritmos são entregues, mas sem que sejam providenciadas ferramentas efetivas para que esses modelos possam ser executados e operados no ambiente da organização.

(32)

Os problemas que podem ser resolvidos por Big Data Analytics podem ser clas-sificados em seis categorias. São elas análise de dependências (associação ou sequência), classificação, descrição de conceitos, descrição e resumo dos dados, predição (prognóstico) e segmentação (aglomeração). A seguir são descritas cada uma destas categorias, conforme Shearer [14] e Laudon e Laudon [15].

a) Análise de dependências (associação ou sequência): o objetivo dos problemas enqua-drados nesta categoria é o desenvolvimento de um modelo que encontre dependências ou associações significativas entre itens ou eventos presentes nos dados analisados. Assim, podem ser descobertos itens que tendem a ser comprados em conjunto, por exemplo. Como exemplos de técnicas relacionadas a esta categoria de problemas, podem ser citadas análise de correlações, modelos de regressão, regras de associação e visualização de dados;

b) Classificação: nesta categoria de problemas, é assumido que existe um conjunto de amostras que pertencem a classes diferentes, sendo que a classe a que cada amostra pertence é conhecida previamente. Assim, o objetivo das técnicas de classificação é a criação de um modelo capaz de prever corretamente a classe que deve ser atribuída a novas amostras. Como exemplos de técnicas relacionadas a esta categoria de problemas, podem ser citados algoritmos genéticos, árvores de decisão e redes neurais artificiais;

c) Descrição de conceitos: nesta categoria de problemas, o objetivo é a criação de descri-ções compreensíveis de conceitos ou classes. Dessa forma, o objetivo não é a criação de modelos completos para predição com uma boa acurácia, mas a possibilidade de descoberta de insights. Embora essa categoria possua semelhanças com os problemas de classificação, essas categorias diferem quanto à necessidade de serem completas. Os modelo de classificação precisam ser aplicáveis na amostra analisada, enquanto na descrição de conceitos é suficiente que seja descrita uma parcela importante dos conceitos ou classes. Como exemplos de técnicas relacionadas a esta categoria de problemas, podem ser citadas clusterização conceitual e indução de regras de decisão; d) Descrição e resumo dos dados: nessa categoria de problema, as técnicas utilizadas

providenciam uma descrição concisa das características dos dados para fornecer ao usuário uma visão geral sobre eles. Essa técnica pode o objetivo final de um projeto de Big Data Analytics, mas geralmente é um objetivo parcial. Nesse último caso, ela se caracteriza como uma análise exploratória inicial dos dados, que pode ajudar a entender a sua natureza e e subsidiar a formulação de hipóteses sobre as informações ocultas. Além disso, essa técnicas têm um papel importante na apresentação final dos resultados;

(33)

e) Predição (prognóstico): é uma categoria similar à classificação, mas difere delas por trabalhar com variáveis de resposta que são numéricas e contínuas ao invés de categóricas ou numéricas discretas. O objetivo dessa categoria é encontrar o valor da variável de resposta para novas amostras. Como técnicas apropriadas para essa categoria de problema, podem ser citadas redes neurais artificiais, algoritmos genéticos, modelos de regressão e método de Box–Jenkins;

f) Segmentação (aglomeração): conjunto de técnicas que segmentam os conjuntos de dados em classes significativas com características em comum. O analista pode determinar as classes a partir dos resultados das técnicas de descrição e resumo dos dados ou a partir do conhecimento prévio do domínio do problema. Outra forma de determinação das classes é através de técnicas automáticas de aglomeração (clustering), que podem revelar estruturas que estão escondidas nos dados e permitem a sua segmentação. Entre as técnicas apropriadas para essa categoria de análise, estão clusterização, redes neurais artificias e visualização de dados.

Embora geralmente associada na literatura ao termo Aprendizado de Máquina, existe outra classificação importante relativa aos problemas de Big Data Analytics: a distinção entre aprendizado supervisionado e aprendizado não-supervisionado. No aprendi-zado supervisionado, os dados de saída são previamente conhecidos. Nessa categoria estão incluídos os problemas de classificação em que as classes são conhecidas, por exemplo. Por outro lado, no aprendizado não-supervisionado não existe esse conhecimento prévio. Isto inclui, por exemplo, os problemas de clusterização em que os clusters só vão ser conhecidos depois da aplicação da técnica.

2.5 Técnicas de Análise

São encontradas na literatura algumas técnicas de análise associadas ao conceito de Big Data Analytics. Entre elas, podem ser citadas árvores de decisão, redes neurais arti-ficiais, visualização de dados (ou visualização científica), regressão linear simples, regressão linear múltipla e regressão logística. A seguir são apresentas cada uma destas técnicas.

As árvores de decisão são uma técnica de apoio à tomada de decisões baseada na representação gráfica, na forma de árvores binárias, das partições que são feitas nos conjuntos de dados como forma de identificações de subconjuntos que são o mais homogê-neos possível. Matematicamente, essas divisões correspondem ao encontro de pontos de corte que garantem que a divisão dos subconjuntos leve a uma diminuição da entropia de cada um deles, ou seja, ao aumento da tendência de seus elementos serem homogêneos. A partir dos critérios encontrados para as divisões no conjunto de desenvolvimento, pode ser prevista a classe de cada amostra dos novos conjuntos de dados analisados.

(34)

A aplicabilidade das árvores de decisão a conjuntos grandes de dados é debatida por Ho [37]. Conforme o autor, essa técnica apresenta vantagens como ser intuitivamente atraente, possuir um algoritmo de treinamento simples de ser entendido e atingir os seus resultados de forma rápida. Como desvantagem desta técnica, o autor coloca que é difícil a construção de um modelo perfeitamente ajustado ao Conjunto de Desenvolvimento sem que isto signifique uma degradação da sua acurácia na análise de outros conjuntos de dados, devido ao fenômeno do sobreajuste (overfitting). Como forma de superar essa limitação, é proposta uma extensão da técnica, denominada floresta de decisão aleatória, que desenvolve várias árvores de decisão simultaneamente a partir de partições aleatórias do conjunto de desenvolvimento.

As redes neurais artificiais são sistemas que buscam imitar o funcionamento do cérebro humano, através da utilização de nós interconectados baseados no funcionamento dos neurônios. Assim, esses sistemas podem ser utilizados na resolução de problemas complexos, realizando generalizações e inferências sobre os dados que são processados através deles. Atualmente, são utilizados em tarefas como a classificação, o reconhecimento de padrões, o processamento de imagens e o reconhecimento facial.

A criação do conceito de redes neurais artificiais é atribuída a McCulloch e Pitts [38], que propuseram um modelo matemático capaz de representar o funcionamento do cérebro humano. Embora isto não tenha ocorrido de forma imediata, o modelo matemático proposto serviu de base para a criação de circuitos eletrônicos capazes de simular as atividades do cérebro humano, cuja complexidade aumentou de acordo com a evolução do hardware e software disponíveis.

As interconexões entre os nós possuem, cada uma, uma importância relativa, deno-minada peso, que é ajustada de forma iterativa até que a rede neural artificial, de acordo com determinados dados de entrada, seja capaz de produzir dados de saída que simulem o sistema real com uma precisão considerada suficiente. Esse ajuste pode ser guiado tanto por abordagens de aprendizado supervisionado quanto de aprendizado não-supervisionado.

Conforme Gurney [39], os nós que constituem as redes neurais artificiais são ele-mentos que recebem um sinal de entrada e, baseados na avaliação do valor desse sinal, produzem ou não um sinal de saída. Esse sinal de saída, quando ocorre, é propagado para outros nós, de acordo com a forma como as conexões são organizadas, podendo também ser propagado para a entrada do mesmo nó. Quando é usado o algoritmo backpropagation, por exemplo, os sinais referentes ao erro em relação à saída desejada são enviados para os nós anteriores como parte do processo de ajuste dos parâmetros da rede.

Os nós das redes neurais artificiais são organizados em camadas, sendo que a primeira é chamada de "camada de entrada", por receber os sinais de entrada, enquanto a última é chamada de "camada de saída", por fornecer os valores de resposta. Essa é menor quantidade de camadas necessária para que a rede possa ser constituída, podendo

(35)

ser necessária a adição de camadas intermediárias, denominadas "camadas ocultas", para que problemas mais complexos sejam resolvidos. Como forma de se referir a redes neurais artificiais compostas por muitas camadas, é encontrado na literatura o termo aprendizagem profunda (deep learning).

A visualização de dados, ou visualização científica, é uma técnica de análise baseada na representação de conjuntos de dados através de meios visuais, como gráficos, diagramas e mapas, de forma a facilitar a comunicação do seu significado. De acordo com Defanti e Brown [40], cientistas lidam com grandes conjuntos de dados, advindos de fontes como su-percomputadores, satélites, veículos espaciais, sistemas médicos de diagnóstico e conjuntos de instrumentos relacionados a eventos geológicos. Entretanto, o cérebro humano não é capaz de interpretar esses grandes volumes de dados, de forma que uma parte considerável dos dados é desperdiçada.

Assim, conforme os autores, os cientistas precisam de uma alternativa às repre-sentações numéricas, de forma que os dados possam ser interpretados de forma efetiva e as descobertas possam ser comunicadas a outras pessoas. Os autores apontam o uso da Visualização de Dados como um método computacional capaz de gerar uma represen-tação visual de dados complexos, permitindo que os cientistas visualizem padrões que permaneceriam ocultos caso os dados fossem representados de outras formas [40].

Regressão linear simples, conforme Seltman [41], é uma técnica de modelagem matemática utilizada na análise da relação entre uma variável de resposta quantitativa e uma única variável explicativa, sendo o método de análise mais comum de ser utilizado neste caso. A suposição implícita nesta análise é que existe uma relação linear entre a variável explicativa e a a variável de resposta, conforme apresentado na Equação 1, que pode ser encontrada a partir da aplicação de métodos como o dos mínimos quadrados aos dados do conjunto de desenvolvimento.

E(y|x) = β0+ β1· x; (1)

Onde:

• x: variável explicativa; • y: variável de resposta;

• y|x: valores possíveis de y quando a variável x assume um determinado valor; • E(): valor esperado, ou seja, a média da população;

• β0: parâmetro da interceptação do eixo y, que representa a média dos valores

(36)

• β1: parâmetro que representa o incremento esperado na média dos valores de y por

unidade de incremento no valor de x.

A regressão linear múltipla difere da regressão linear simples por trabalhar com n variáveis preditivas ao invés de uma, conforme apresentado na Equação 2. Neste caso, a aplicação do método de ajuste permite o encontro do valor do coeficiente β0, que representa

a interceptação do eixo Y, e de outros n valores de β associados às variáveis explicativas

x1, x2, ..., xn utilizadas no desenvolvimento do modelo. O valor de cada coeficiente β representa o incremento esperado na média dos valores de Y por unidade de incremento no valor da variável explicativa associada quando é considerado que as demais são mantidas constantes [41].

E(y|x1, x2, ..., xn) = β0+ β1· x1+ β2· x2+ ... + βn· xn; (2)

Onde:

• x1, x2, ... e xn: conjunto de variáveis explicativas;

• β1, β2, ... e βn: valores dos coeficientes associados a x1, x2, ... e xn, respectivamente.

A Regressão Logística é uma técnica que permite a modelagem e testagem da relação entre n explicativas e uma variável de resposta categórica, à qual são atribuídas classes de valores. Neste sentido, ela difere das técnicas de Regressão Linear que trabalham com variáveis de resposta numéricas. Quando a variável de resposta é binária, com valores do tipo verdadeiro e falso ou sucesso e fracasso, a Regressão Logística permite a estimativa da probabilidade de ocorrência do evento desejado [41]. Esse valor é obtido a partir do cálculo do logaritmo da sua chance de ocorrência (logit), que é representado na Equação 3

logit(y) = β0+ β1 · x1+ β2· x2+ ... + βn· xn; (3)

Onde:

• y: evento desejado;

• logit(y): logaritmo natural da chance de ocorrência do evento y; • x1, x2, ... e xn: conjunto de variáveis explicativas;

• β0: valor do coeficiente de interceptação, que está ligado ao resultado quando os

valores de x1, x2, ... e xn são nulos;

(37)

Por sua vez, a chance do evento y é a proporção entre a sua probabilidade de ocorrência e a sua probabilidade de não ocorrência, conforme apresentado na Equação 4.

C(y) = P (y = 1)

P (y = 0); (4)

Onde:

• C(y): chance de y;

• P (y = 1): probabilidade de ocorrência de y; • P (y = 0): probabilidade de não ocorrência de y.

As relações entre a chance de y e o logit de y são apresentadas nas equações5 e 6.

logit(y) = log(C(y)); (5)

C(y) = elogit(y). (6)

Uma vez que sejam obtidos os valores da chance e do logit de y, pode ser calculada a sua probabilidade de ocorrência, de acordo com as relações apresentadas nas equações

7,8 e 9. P (y) = C(y) 1 + C(y); (7) P (y) = e logit(y) 1 + elogit(y); (8) P (y) = 1 1 + e−logit(y); (9) Onde:

• P (y): probabilidade de ocorrência do evento y.

Como forma de exemplificar as relações apresentadas, os valores da chance e do

logit para alguns valores comuns de probabilidade de ocorrência e não ocorrência do evento y são apresentados na Tabela 1.

(38)

Tabela 1 – Relação entre probabilidade, chance e logit. P(y = 1) P(y = 0) Chance Logit

0 1 0 −∞ 0,1 0,9 1/9 -2,197 0,2 0,8 0,25 -1,386 0,25 0,75 1/3 -1,099 1/3 2/3 0,5 -0,693 0,5 0,5 1 0 2/3 1/3 2 0,693 0,75 0,25 3 1,099 0,8 0,2 4 1,386 0,9 0,1 9 2,197 1 0 ∞ ∞

Fonte: adaptado de Seltman [41].

2.6 Ferramentas Computacionais

Através da revisão da literatura, foram identificadas algumas ferramentas compu-tacionais aplicáveis no processo de Big Data Analytics. A seguir são apresentadas as ferra-mentas MATLAB, Python, R e Waikato Environment for Knowledge Analysis (WEKA), bem como algumas de suas possibilidades de aplicação no contexto de Big Data Analytics. Conforme a MathWorks [42], empresa responsável pelo seu desenvolvimento e co-mercialização, o MATLAB é uma combinação entre uma linguagem de programação capaz de trabalhar diretamente com matrizes e vetores e de um ambiente de desenvolvimento voltado para a análise iterativa. Além disso, conta com pacotes complementares

(toolbo-xes) que são desenvolvidos profissionalmente e são rigorosamente testados e documentados.

Esses pacotes expandem as possibilidades de utilização em campos como Aprendizado de Máquina, Processamento de Sinais e Visão Computacional.

O MATLAB oferece diversas funcionalidades que permitem a sua aplicação no processo de Big Data Analytics. Entre essas funcionalidades, estão o acesso a diversos tipos de fontes de dados, como arquivos, bancos de dados, armazenamento em nuvem, além de fontes em tempo real como dados adquiridos por hardware e relatórios financeiros; capacidade de pré-processamento do dados de forma rápida através de funções de alto nível; e uma grande variedade de modelos de classificação e regressão dos dados, que podem ser comparados e ajustados de forma a se adequarem aos dados analisados [43].

Conforme a Python Software Foundation (PSF) [44], entidade independente e sem fins lucrativos que é responsável pela sua manutenção e detém o seu copyright desde a versão 2.1, o Python é uma linguagem de alto nível de propósito geral, capaz de ser aplicada a diversas classes diferentes de problemas e possuidora de uma sintaxe extrema-mente simples e consistente. Além disso, possui bibliotecas voltada diretaextrema-mente Big Data