http://tede.mackenzie.br/jspui/bitstream/tede/4279/5/DIEGO%20CANDILE%20DALLE%20NOGARE%5B1%5D

Texto

(1)UNIVERSIDADE PRESBITERIANA MACKENZIE. DIEGO CANDILE DALLE NOGARE. ANÁLISE PREDITIVA DE EXPLOSÕES SOLARES – UMA ABORDAGEM BASEADA EM REGRAS DE ASSOCIAÇÃO DE EVENTOS. São Paulo 2020.

(2) DIEGO CANDILE DALLE NOGARE. ANÁLISE PREDITIVA DE EXPLOSÕES SOLARES – UMA ABORDAGEM BASEADA EM REGRAS DE ASSOCIAÇÃO DE EVENTOS. Dissertação apresentada ao Programa de PósGraduação. em. Engenharia. Elétrica. e. Computação da Universidade Presbiteriana Mackenzie, como requisito para obtenção do título de Mestre em Engenharia Elétrica e Computação.. Orientador: Prof. Dr. Ismar Frango Silveira Coorientadora: Profa Dra. Emília Correia. São Paulo 2020.

(3) N774a. Nogare, Diego Candile Dalle Análise preditiva de explosões solares: uma abordagem baseada em regras de associação de eventos / Diego Candile Dalle Nogare – São Paulo, 2019. 94 F.: Il., 30 cm. Metrado (Mestrado em Engenharia Elétrica e Computação - Universidade Presbiteriana Mackenzie - São Paulo, 2019. Orientador: Prof. Dr. Ismar Frango Silveira Bibliografia: F. 89-93. 1. Explosão Solar 2. Mineração de Dados 3. Aprendizagem de Máquina 4. Big Data 5. Predição 6. Satélite GOES; Silveira, Frango Silveira, Orientador. II.Título. CDD 621.47 Bibliotecária Responsável: Maria Gabriela Brandi Teixeira – CRB 8/ 6339.

(4)

(5)

(6) Dedico esta obra à minha família, em especial à minha filha Olivia..

(7) AGRADECIMENTOS Agradeço à minha família por me dar suporte e incentivo, quando até eu mesmo não acreditava mais em mim. Os esforços realizados por eles para me propiciar um ambiente seguro e saudável, com muita educação para que eu seguisse os meus sonhos, é o motivo de eu ter chegado até aqui. Quero deixar um registro em especial para minha esposa Laysa e minha filha Olivia, que foram muito compreensivas nesse período de estudo, entendendo as ausências em eventos sociais e sempre me recebendo em casa com um sorriso no rosto. Amo vocês! Ao Prof. Dr. Ismar Frango Silveira por ter acreditado no potencial deste estudo e ter aceitado me orientar durante este processo. Seus conselhos e direcionamentos foram fundamentais para a conclusão do estudo, evitando que eu surtasse. À Profa. Dra. Emília Correia por ter ajudado na construção dos conhecimentos envolvendo os campos da Astrofísica e Astronomia. Ao Prof. Dr. Leandro Augusto da Silva e Prof. Dr. Marcos Rincon Voelzke por contribuírem com diversas ideias e sugestões para a conclusão deste estudo. Aos demais professores e colegas de pós-graduação, pelas ricas trocas de conhecimento que tivemos durante esse período de aprendizado. A jornada não foi fácil, mas com os ensinamentos trocados, foi mais palatável.. Obrigado a todos, que direta ou indiretamente, estão envolvidos comigo e com este estudo..

(8) RESUMO Por meio de uma Revisão Sistemática de Literatura (RSL) foi possível entender o estado da arte das pesquisas envolvendo predição de explosões solares. Com o resultado da RSL foi descoberto que modelos de Aprendizagem de Máquina utilizando algoritmo de Support Vector Machine (SVM) são os mais utilizados para analisar e predizer as explosões solares. A proposta deste estudo é apresentar uma visão diferente, se baseando em regras de associações entre os eventos de explosões solares. Palavras chaves: Explosão Solar, Mineração de Dados, Aprendizagem de Máquina, Big Data, Predição, Satélite GOES..

(9) ABSTRACT Through a Systematic Review of Literature (SRL), it was possible to understand the state of the art of research involving prediction of solar flares. With the result of the SRL it was found that Machine Learning models using the Support Vector Machine (SVM) algorithm are the most used to analyze and predict the solar flares. This study scope is developing a different approach, based on association rules among the solar flare events. Key Words: Solar Flare, Data Mining, Machine Learning, Big Data, Prediction, GOES Satellite.

(10) SUMÁRIO 1 Introdução_______________________________________________________________ 1 1.1 Justificativa _________________________________________________________________ 4 1.2 Motivação __________________________________________________________________ 5 1.3 Pergunta investigativa ________________________________________________________ 6 1.4 Objetivos ___________________________________________________________________ 6 1.4.1 Objetivo Geral _____________________________________________________________________ 6 1.4.2 Objetivos Específicos _______________________________________________________________ 6. 1.5 Metodologia ________________________________________________________________ 6 1.6 Resultados Esperados _________________________________________________________ 7. 2 Referencial Teórico ________________________________________________________ 8 2.1 O Sol e a Terra _______________________________________________________________ 8 2.1.1 Conhecendo o Sol __________________________________________________________________ 8 2.1.2 Manchas Solares ___________________________________________________________________ 9 2.1.3 Explosões Solares _________________________________________________________________ 11 2.1.3.1 Magnitude das explosões solares ________________________________________________ 15 2.1.4 Relação Sol-Terra _________________________________________________________________ 16. 2.2 Mineração de dados para explosões solares ______________________________________ 20 2.2.1 Big Data _________________________________________________________________________ 20 2.2.2 Mineração de Dados ______________________________________________________________ 21 2.2.2.1 Exploração de Dados Descritiva __________________________________________________ 22 2.2.2.2 Descoberta de Padrões ________________________________________________________ 22 2.2.3 Aprendizagem de Máquina _________________________________________________________ 23 2.2.3.1 Paradigmas da Aprendizagem de Máquina _________________________________________ 23 2.2.4 Aprendizagem Supervisionada_______________________________________________________ 23 2.2.5 Algoritmos de Classificação _________________________________________________________ 24 2.2.5.1 Support Vector Machine - SVM __________________________________________________ 24 2.2.5.2 Métodos de Avaliação de classificação ____________________________________________ 28 2.2.6 Algoritmos de Regressão ___________________________________________________________ 30 2.2.6.1 Support Vector Machine Regression - SVMR _______________________________________ 31 2.2.6.2 Métodos de avaliação de Regressão ______________________________________________ 31 2.2.7 - Algoritmo de Regra de Associação __________________________________________________ 32 2.2.7.1 - Apriori _____________________________________________________________________ 34.

(11) 2.2.7.2 - Métodos de avaliação de associação ____________________________________________ 36. 2.3 O Estado da Arte de predição de explosão solar ___________________________________ 37 2.3.1 Revisão Sistemática de Literatura ____________________________________________________ 37 2.3.2 Levantamento de técnicas pesquisadas _______________________________________________ 43 2.3.3 Análise e Comparação das técnicas computacionais _____________________________________ 51. 3 Arquitetura proposta para Predição de Explosão Solar __________________________ 54 3.1 Experimento _______________________________________________________________ 57 3.1.1 Exploração de Dados ______________________________________________________________ 57 3.1.2 Criação das Regras de Associação ____________________________________________________ 68. 4 Conclusão e trabalhos futuros ______________________________________________ 75 4.1 Conclusão _________________________________________________________________ 75 4.2 Trabalhos futuros ___________________________________________________________ 76. 5 Bibliografia _____________________________________________________________ 77.

(12) LISTA DE FIGURAS Figura 1 - Foto de registro do Buraco Negro Sagittarius A* obtida pelo consorcio EHT ___________________ 3 Figura 2 - Imagens do Sol durante um ciclo solar. O máximo solar ocorreu durante 2001, enquanto 1996 e 2006 estavam próximos do mínimo solar ________________________________________________________ 9 Figura 3 - Ejeção de Massa Coronal capturada pelo SOHO _________________________________________ 13 Figura 4 - Observação do Sol com uso de Coronógrafo ____________________________________________ 15 Figura 5 - Representação do campo magnético terrestre __________________________________________ 17 Figura 6 - Espectro Eletromagnético com os comprimentos de onda variando entre Ondas de Rádio e Raio Gama ____________________________________________________________________________________ 18 Figura 7 - Reflexão das ondas de diferentes comprimentos na Ionosfera _____________________________ 19 Figura 8 - Implementação de Arquitetura Lambda proposta de forma simplificada e macro _____________ 21 Figura 9 - Fronteira de decisão entre as classes linearmente separáveis ______________________________ 25 Figura 10 - Margem máxima da fronteira de decisão entre as classes linearmente separáveis ___________ 26 Figura 11 - Destaque para os Vetores de Suporte do hiperplano ótimo _______________________________ 27 Figura 12 - Hiperplano ótimo entre classes que não são linearmente separáveis _______________________ 28 Figura 13 - Itens possíveis em uma regra de associação ___________________________________________ 33 Figura 14 - Subconjunto de itens frequentes em uma regra de associação ____________________________ 35 Figura 15 - Subconjunto de itens não frequentes em uma regra de associação ________________________ 36 Figura 16 - Arquitetura proposta coleta, limpeza e pré-processamento ______________________________ 54 Figura 17 - Arquitetura proposta para o consumo do modelo ______________________________________ 55 Figura 18 - Arquitetura proposta para o treino do modelo _________________________________________ 56 Figura 19 - Frequência de fenômenos da Classe A por ano _________________________________________ 61 Figura 20 - Frequência de fenômenos da Classe B por ano _________________________________________ 61 Figura 21 - Frequência de fenômenos da Classe C por ano _________________________________________ 62 Figura 22 - Frequência de fenômenos da Classe M por ano ________________________________________ 62 Figura 23 - Frequência de fenômenos da Classe X por ano _________________________________________ 63 Figura 24 - Frequência de fenômenos detalhados da Classe A ______________________________________ 63 Figura 25 - Frequência de fenômenos detalhados da Classe B ______________________________________ 64 Figura 26 - Frequência de fenômenos detalhados da Classe C ______________________________________ 64 Figura 27 - Frequência de fenômenos detalhados da Classe M _____________________________________ 65 Figura 28 - Frequência de fenômenos detalhados da Classe X ______________________________________ 65 Figura 29 - Quantidade de fenômenos nos ciclos 23 e 24, separados por ano __________________________ 66 Figura 30 - Frequência de ocorrência dos fenômenos separados por intensidade ______________________ 67 Figura 31 - Frequência de regras dos fenômenos com suporte mínimo de 0,01 ________________________ 68 Figura 32 - Os 10 fenômenos mais relevantes para acontecer após C1.8 e C2.7 ________________________ 70 Figura 33 - Próximo fenômeno após C1.8 e C2.7 _________________________________________________ 71 Figura 34 - Fenômeno após C1.8, C2.7 e C1.2 ____________________________________________________ 72.

(13) Figura 35 - Outro fenômeno após C1.8 e C2.7 ___________________________________________________ 73 Figura 36 - Fenômeno após C1.8, C2.7 e C1.4 ____________________________________________________ 74.

(14) LISTA DE TABELAS Tabela 1 - Elementos consumidos em conjunto por transação ______________________________________ 34 Tabela 2 - Quantidade de artigos utilizados, separados por anos ___________________________________ 38 Tabela 3 - Quantidade de artigos utilizados, separados por revista _________________________________ 38 Tabela 4 - Algoritmos de Aprendizagem de Máquina e sua utilização ________________________________ 39 Tabela 5 - Tempo de Operação dos satélites GOES _______________________________________________ 57 Tabela 6 - Frequência de ocorrências agrupada por cada tipo de observação _________________________ 59 Tabela 7 - Frequência de ocorrências por intensidade de explosão anualmente _______________________ 59 Tabela 8 - Frequência de ocorrências por intensidade de explosão __________________________________ 67 Tabela 9 - As 10 principais regras com maior suporte e confiança, quando já existem fenômenos C1.8 e C2.7 _________________________________________________________________________________________ 69.

(15) LISTA DE QUADROS Quadro 1 - Definições de McIntosh para os tamanhos das manchas _________________________________ 10 Quadro 2 - Definições de McIntosh para as estabilidades das manchas ______________________________ 10 Quadro 3 - Definições de McIntosh para as complexidades das manchas _____________________________ 11 Quadro 4 - Título, Autores e Descrição dos artigos _______________________________________________ 40 Quadro 5 - Origem dos dados nos artigos ______________________________________________________ 52 Quadro 6 - Ciclos Solares nos artigos __________________________________________________________ 52 Quadro 7 - Algoritmos nos artigos ____________________________________________________________ 52 Quadro 8 - Classes de explosões nos artigos ____________________________________________________ 52 Quadro 9 - Métodos de Avaliação nos artigos ___________________________________________________ 53.

(16)

(17) 1. 1 Introdução Técnicas de Inteligência Artificial (IA) não são recentes, pode-se dizer que a IA começou há mais de 75 anos, com Walter Pitts e Warren McCulloch em 1943, onde se juntou a proposta de funcionamento do neurônio biológico do ganhador do prêmio Nobel de Medicina Camillo Golgi, com a ideia da lógica proposicional de Bertrand Russell e Alfred Whitehead e a Teoria da Computação proposta por Alan Turing (McCULLOCH & PITTS, 1943). Em 1943 os pesquisadores criaram um sistema neural artificial onde interpretaram sinais binários como ligado e desligado, e defendiam a ideia de que era possível representar quaisquer funções matemáticas com uma certa combinação destes neurônios. Pouco depois, em 1950, Marvin Minsk e Dean Edmonds construíram o primeiro computador neural, simulando o comportamento de 40 neurônios durante seus estudos em Harvard. Ainda em 1950 Alan Turing apresentou seu trabalho conhecido como Teste de Turing. O teste propunha a criação de um sistema de Inteligência Artificial capaz de responder questionamentos por escrito de um interrogador humano. O sistema de IA seria considerado satisfatório se o interrogador não conseguisse diferenciar quais respostas foram dadas pelo computador e quais foram respondidas por outro ser humano. Em 1958, John McCarthy criou a linguagem LISP dentro do Massachusetts Institute of Technology (MIT), que foi a principal linguagem de programação para trabalhar com IA por pelo menos os 30 anos seguintes. Também em 1958 Frank Rosenblatt propôs o Perceptron, que era uma nova abordagem para se trabalhar com uma representação de redes neurais artificiais. Em 1959 surgiram as primeiras implementações de algoritmos genéticos, que eram chamados de evolução automática naquela época. Seu propósito era implementar pequenas mutações nos sistemas e observar se havia melhora significativa. Os experimentos utilizaram mutações aleatórias e registraram os resultados que pareciam úteis. Não houve muito sucesso com os experimentos realizados naquela época. Os algoritmos genéticos de hoje em dia são muito mais performáticos e funcionais. Na década de 60 os primeiros sistemas inteligentes para tradução de texto começaram a tomar relevância, principalmente para traduzirem conteúdos escritos em russo sobre o Sputnik, o Programa Espacial Russo. Até aproximadamente 1966 os resultados não eram satisfatórios e os pesquisadores desacreditavam das possibilidades de tê-los funcionando. No começo dos anos 1970 havia uma onda de pesquisa propondo o uso de elementos racionais mais simples para compor um elemento mais complexo, a abordagem ficou conhecida como Métodos Fracos ou IA Fraca. Apesar de serem gerais, não podiam se utilizar de métodos escalonáveis ou difíceis. Estas pesquisas abriram espaço para os conhecidos Sistemas Especialistas, que se propunham.

(18) 2 a resolver problemas específicos de forma muito satisfatória. Ao estender os sistemas especialistas para outras áreas do conhecimento, como a área médica, foi percebida a necessidade de o sistema refletir também a incerteza do modelo, e então iniciaram avaliações de Fatores de Incerteza nas decisões que eram apresentadas pelo sistema de IA. Ainda em meados da década de 70 os pesquisadores voltaram a investir tempo em sistemas de interpretação e linguagem natural, para habilitar a IA a trabalhar com tradução. Um esforço grande foi feito para entender a linguagem em si, e como era a construção da linguagem. Foram propostas algumas linguagens de programação para refletir essa ideia da representação de raciocínio e lógica, e talvez a mais famosa tenha sido a linguagem Prolog. O início da década de 80 deu ainda mais ênfase aos sistemas especialistas, e grande parte das empresas dos Estados Unidos tinha um (ou algumas dezenas, podendo chegar a centenas de) sistema especialista. Na segunda parte de 1980, as redes neurais voltaram a ter relevância nas pesquisas e no mercado. Existiam alguns grupos voltando a estudar a evolução do Perceptron de Múltiplas Camadas que havia sido proposto em 1969, porém desta vez com o uso de retro propagação. As coisas começaram a melhorar para essa área de pesquisa. Em 1988 uma nova função de ativação para redes neurais foi sugerida, era uma função radial proposta por David Broomhead e David Lowe e ficou mundialmente conhecida com Radial Bases Function (RBF). Já em 1998 um grupo de pesquisadores formado por Yann LeCun, Léon Bottou, Yoshua Bengio e Patrick Haffner aplicaram técnicas de convolução em redes neurais de múltiplas camadas, para extrair características de imagens, e as possibilidades de uso dos dados não estruturados chegou a outro patamar. Então, com a Convolutional Neural Network (CNN), foi dado início ao que é chamado de Deep Learning hoje. (NORVIG & RUSSELL, 2014) A unificação destas técnicas multidisciplinares, combinando Ciência da Computação e Astrofísica, permitiu realizações reais que antes ficavam no âmbito da simulação. Um exemplo do resultado deste esforço em conjunto foi o registro de uma fotografia de um buraco negro, o 𝑆𝑎𝑔𝑖𝑡𝑡𝑎𝑟𝑖𝑢𝑠𝐴 ∗, que está a aproximadamente 55 milhões de anos luz da Terra. A foto pode ser acompanhada na Figura 1 e foi publicada no primeiro semestre de 2019. O feito foi realizado pelo projeto de nome Event Horizon Telescope (EHT). O EHT foi um consórcio entre diversos centros de pesquisa espacial ao redor do mundo, permitindo que as fotos fossem capturadas por aproximadamente 10.000 horas, e fossem armazenadas em paralelo em um conjunto de até 32 discos com capacidades entre 6 e 10 Terabyte (TB) cada. O resultado desta parte instrumental e sua volumetria que chega a ter 15 Petabyte (PB) de dados está publicado no portal do consorcio. (AKIYAMA et al., 2019).

(19) 3 Figura 1 - Foto de registro do Buraco Negro Sagittarius A* obtida pelo consorcio EHT. Fonte: AKIYAMA et al., 2019 O acompanhamento de atividade de corpos celestes e seus possíveis impactos na Terra são estudados há séculos. O Sol, em específico, foi foco de diversos estudos habilitados principalmente pelos lançamentos de satélites para a camada externa da atmosfera Terrestre. (SOUZA, 2009) A radiação emitida pelo Sol pode ser prejudicial para a vida na Terra interferindo em infraestrutura, instrumentos de medição e as pessoas no espaço, com base nisso a previsão de explosões solares se faz necessária. (FLORIOS et al., 2018) Existem diversos estudos que buscam prever as explosões, porém, mesmo com bastante estudo é complexo predizer os fenômenos solares e nenhum modelo encontrou o mecanismo completo ou os recursos físicos fundamentais para se utilizar em uma predição de explosões solares. (LIU et al., 2017) Atualmente existem duas linhas de pesquisa básica onde há esforço para predizer as explosões solares com antecedência. Uma das linhas busca prever a ocorrência e o momento da explosão, e a outra linha de pesquisa busca entender a configuração dos campos magnéticos da explosão solar e estimar seu tempo de impacto na Terra. (GREEN et al., 2018).

(20) 4 Diferente de um telescópio óptico que recebe a imagem do objeto diretamente, o rádio telescópio, recebe a informação de intensidade, fase e polarização do sinal de rádio do objeto observado. Diversos elementos que afetam a observação são constatados em rádio telescópios, como por exemplo, a interferência eletromagnética, além de falhas de antena e alimentação de energia, confusão de canal, instabilidade do sistema, falha do receptor, entre outros. Uma das tarefas importantes em rádio observação é a capacidade de descobrir, sinalizar e excluir esses dados de ruído. (HUI-MEI et al., 2017) Cada satélite GOES possui dois sensores que coletam Raio-X solares para bandas de canal curto, com comprimento de onda entre 0,5 e 4 𝐴̊, lê-se Angstroms (Ångström), e de canal longo que o comprimento é entre 1 e 8 𝐴̊. As medições são realizadas a partir de sinais que chegam em duas câmaras de íons cheias de gás, uma para cada banda. (NOAA/GOES, 2019), (REEP & KNIZHNIK, 2019) Equipamentos terrestres também permitem estudos, que podem ser realizados na faixa da luz visível ou faixa rádio entre 500 MHz e 50 GHz. A aplicação de técnicas avançadas de ciência da computação nos dados obtidos permite descobrir e reconhecer os padrões comportamentais do sinal Raio-X, e observando as características de sinal Raio-X que antecederam as explosões solares ocorridas no passado se pretende desenvolver modelos de Aprendizagem de Máquina para que, ao apresentar novas entradas de dados capturados em tempo real pelo satélite, seja possível predizer a ocorrência de explosões com o máximo de antecedência possível.. 1.1 Justificativa Para realizar predições das explosões solares são trabalhados elementos multidisciplinares avançados de Ciência da Computação nas sub-áreas de Big Data, Mineração de Dados e Aprendizagem de Máquinas. Nos tópicos relacionados à Big Data são analisados principalmente a vertente voltada ao Volume pois com um satélite é possível de se capturar dezenas de registros de dados por segundo. A aplicação de técnicas de descoberta de conhecimento em bases de dados e processos de exploração de dados descritiva são elementos estudados em Mineração de Dados. É esperado que utilizando estas técnicas seja possível reconhecer possíveis padrões que precedem uma explosão solar e qual sua intensidade..

(21) 5 Após encontrar estes padrões é realizada busca de outras ocorrências semelhantes na base de dados histórica para rotular suas características. A predição faz parte da área de Aprendizagem de Máquinas, onde a proposta é alertar com antecedência quando uma explosão irá ocorrer e qual a sua intensidade, tendo como base de dados as explosões detectadas em Raio-X pelo satélite GOES nos últimos 2 ciclos de atividade solar (entre 1999 e 2018).. 1.2 Motivação Pode-se considerar a Astronomia a ciência mais antiga, com evidências de observações na época dos povos pré-históricos. Os sumerianos, na Mesopotâmia, já utilizavam Astronomia para sustentar suas profecias. A China também se utilizava de conhecimentos de Astronomia há tempos remotos, mesmo com a ordem imperial em 213 A.C. de queimar todos os livros, ainda restaram documentos do século IX A.C. que apresentava contextos sobre Astronomia, principalmente eclipses lunares. O Egito também teve papel importante na Astronomia, principalmente nos estudos que tratavam sobre agricultura e enchentes do rio Nilo, principal fornecedor de água para a região. Na Grécia, berço da academia, diversos pensadores se utilizavam de evidências matemáticas e de geometria para explicar o céu à época, incluindo o experimento realizado por Eratóstenes para medir a circunferência da Terra, utilizando a sombra do Sol sobre Alexandria e Siena, no mesmo horário do dia e calculando a diferença encontrada na sombra das estacas instaladas nas duas cidades. Já na Europa alguns estudos correlacionam Stonehenge e Carnac, como monumentos antigos de observação solar e lunar, isso ainda no período pré-histórico. Avançando nos anos para a idade média, pode-se encontrar o primeiro estudo ocidental sobre a Astronomia em pouco após de 1100 D.C. e que foi atualizado e reeditado diversas vezes até os tempos de Galileu. Nesta época muitos cientistas europeus contribuíram para os estudos de Astronomia como Nicolau Copérnico, Galileu Galilei, Johannes Kepler, Tycho-Brahe, Isaac Newton, Johann Carl Friedrich Gauss, e muitos outros. A Astronomia moderna já envolve experimentos realizados com ajuda de instrumentos de precisão, e grandes mentes como Albert Einstein e Stephen Hawking. (MOURÃO, 2002) Com o avanço tecnológico vivenciado no último século, foi possível estimar as composições químicas de diversos objetos celestes. Os estudos realizados a partir de dados da Nossa Estrela permitiram um entendimento mais profundo de como é a relação entre o Sol e a vida na Terra, e como essas diferentes forças afetam as nossas vidas. Pela quantidade de dados gerados por equipamentos de medição que coletam sinais destes objetos, e o poder computacional existente nos dias de hoje, é possível combinar as vertentes.

(22) 6 da Ciência da Computação e da Astrofísica para propor um sistema computacional que avalie os sinais coletados em tempo real e faça uma classificação de qual fenômeno solar foi observado.. 1.3 Pergunta investigativa A pergunta que norteia este trabalho pode ser entendida como: Considerando o comportamento das explosões solares em Raio-X entre 1999 e 2018, como podemos prever a ocorrência de uma explosão, e qual intensidade, considerando-se o padrão de ocorrência das explosões observadas no passado?. 1.4 Objetivos 1.4.1 Objetivo Geral O presente estudo tem como objetivo geral desenvolver um modelo preditivo de Aprendizagem de Máquina que possibilite prever com antecedência a ocorrência e a intensidade de uma explosão solar em Raio-X, buscando o máximo de antecedência, por meio de análise e processamento de explosões observadas em Raio-X com o satélite GOES. 1.4.2 Objetivos Específicos a). Identificação de padrões de explosões em Raio-X por meio de mineração de dados;. b). Aplicação de transformações nos dados para melhorar a descoberta de padrões;. c). Modelagem de algoritmo de predição.. 1.5 Metodologia Para direcionar o caminho desta pesquisa, foi realizada uma Revisão Sistemática de Literatura (RSL) com publicações que envolvem Explosões Solares e Aprendizagem de Máquina nos últimos cinco anos. Com o resultado da RSL foi observado que o algoritmo de classificação Support Vector Machine (SVM) é o algoritmo mais utilizado para fazer predição de explosões solares, em pesquisas que envolvem os termos buscados nesse período de recorte. Com acesso aos dados obtidos pelo satélite, será desenvolvido um modelo propondo o uso de um sistema de regras de associação, em uma abordagem inovadora e original, sem base de comparação encontrada na RSL. Para a proposta deste estudo foram utilizados dados do Space Weather Prediction Center (SWPC), através da National Oceanic and Atmospheric Administration (NOAA), coletado pelo.

(23) 7 satélite Geostationary Operational Environmental Satellite (GOES). Os dados utilizados foram dos Ciclo 23, que se iniciou em Maio/1996 e durou até Dezembro/2008 e Ciclo 24, iniciado em Janeiro/2009 e se encerrando em Dezembro/2019. (ZERBO et al., 2013. EROGLU, 2019). 1.6 Contribuições do Trabalho Com a RSL foi possível entender como são realizadas as pesquisas sobre predição de explosões solares, o presente estudo se propõe a trabalhar com uma abordagem diferente do que já foi feito, utilizando um algoritmo baseado em regras de associação..

(24) 8. 2 Referencial Teórico O desenvolvimento do referencial teórico do presente estudo está dividido em três sub-itens, possibilitando o acompanhamento dos assuntos de forma independente. O primeiro sub-item apresenta o Sol, seu funcionamento e como suas atividades podem impactar a vida na Terra. Em seguida, são apresentados os elementos utilizados nesta pesquisa no que se correlacionam com as áreas da Ciência da Computação, como Big Data, Mineração de Dados e Aprendizagem de Máquina. No último sub-item é apresentada uma Revisão Sistemática de Literatura (RSL) com pesquisas que envolvem temas contendo Explosões Solares e também Aprendizagem de Máquina.. 2.1 O Sol e a Terra 2.1.1 Conhecendo o Sol A temperatura da fotosfera varia em torno de 6.000 Kelvin, e em conjunto com a distância de 1UA (aproximadamente 150.000.000 km) entre Sol e Terra, permite que a vida, como conhecemos, exista. A radiação emitida pelo Sol viaja no vácuo a aproximadamente 300.000 quilometro por segundo (velocidade da luz) e demora aproximadamente 8 minutos e 30 segundos para chegar até a Terra. O Sol, em seu núcleo, transforma centenas de milhões de toneladas de Hidrogênio em centenas de milhões de toneladas de Hélio a cada segundo. Mesmo após 13,7 bilhões de anos, que é o tempo estimado do universo, o Hidrogênio ainda é o elemento mais abundante encontrado e o mais fácil de se queimar. Isso possibilita que estrelas em seus estágios iniciais possam fundir Hidrogênio e criar Hélio, chegando à criação de elementos mais pesados durante sua vida, até o momento que cessem essas reações termonucleares e as estrelas cheguem a sua morte, transformando a estrela em uma anã branca ou uma estrela de nêutrons. Estima-se que estrelas que possuem massa acima de 0,1 Massa Solar são capazes de fundir Hidrogênio em seu núcleo. (ARANY-PRADO, 2006) A massa da estrela durante seu nascimento determinará como será sua morte. É previsto que o Sol terá aproximadamente dez bilhões de anos de vida, sendo que está na metade deste período. Com o passar dos anos, a queima de Hidrogênio vai diminuindo por causa da fusão termonuclear e a pressão dos elementos internos para alcançar o espaço interplanetário vai ser maior do que a força gravitacional do Sol, fazendo com que ele se expanda. O estágio seguinte transformará o Sol em uma gigante vermelha e seu tamanho será tão grande que engolirá a órbita terrestre (percurso que a Terra faz hoje em seu movimento de translação ao redor do.

(25) 9 Sol). Em seguida o Sol se tornará uma nebulosa planetária e terminará sua vida como uma anã branca. Isso nos próximos cinco bilhões de anos. (ARANY-PRADO, 2006) As atividades solares possuem ciclos de aproximadamente 11 anos. Em média, estes ciclos apresentam variação nas atividades solares e na quantidade de manchas que são expostas. Este período também causa uma inversão no polo magnético do Sol, alterando o seu sentido (em um período de 22 anos, ocorrem duas inversões e os polos magnéticos voltam como estavam). Outra característica deste ciclo de 11 anos é relacionada a posição do surgimento das manchas solares, onde variam de 5 até 40 graus na latitude, como pode ser visto na Figura 2, muito raramente chegando a pontos mais baixos de 5º no equador solar ou acima de 50º nos polos. Outro fenômeno observado é a intensidade de brilho no comprimento de onda de Raio-X, que varia significantemente entre os períodos deste ciclo de 11 anos, onde o brilho é muito intenso no período de Máximo Solar e baixo no de Mínimo Solar. (VALIO, 2006) Figura 2 - Imagens do Sol durante um ciclo solar. O máximo solar ocorreu durante 2001, enquanto 1996 e 2006 estavam próximos do mínimo solar. Fonte: NASA - https://spaceplace.nasa.gov/solar-cycles/en/solar-cycle2.en.jpg, acessado em Junho/2019 2.1.2 Manchas Solares Para definição de manchas solares é utilizada a classificação McIntosh, que é uma evolução da classificação de Zurique, ambas da década de 60. McIntosh amplia as definições de classe para melhorar a precisão adicionando indicadores de tamanho, que pode ser acompanhado no Quadro 1, estabilidade no Quadro 2 e complexidade no Quadro 3. Elementos estes que se.

(26) 10 correlacionam com as explosões solares. O primeiro processo de definição de grupos separa as manchas entre unipolar e bipolar, segmentando a diferença entre os grupos por topologia magnética, mas não exigindo medições de campos magnéticos para diferenciação. Grupo Unipolar: Percepção de um ponto único, ou um grupo compacto com uma distância máxima de ≤ 3º entre as manchas solares. Para a Classe H, esta distância deve ser medida entre o centro da umbra e a borda mais próxima da penumbra. Grupo Bipolar: Dois ou mais pontos que formam um aglomerado com > 3º de comprimento. É comum haver espaço vazio próximo ao centro do aglomerado, segmentando em duas partes. Grupos com um grande ponto principal devem ter comprimentos >5º, sendo 2.5º + 3º. (McINTOSH, 1990) Quadro 1 - Definições de McIntosh para os tamanhos das manchas Classe Descrição A. Unipolar sem penumbra, representando o estágio formativo ou final de evolução em um grupo de pontos. B. Bipolar sem penumbra em nenhum ponto. C. Bipolar com penumbra em uma das extremidades do grupo, na maioria dos casos o maior da umbrae líder. D. Bipolar com penumbra em pontos nas duas extremidades do grupo e com comprimento <= 10º. E. Bipolar com penumbra em pontos nas duas extremidades do grupo e com comprimento definido sendo > 10º e <= 15º. F. Bipolar com penumbra em pontos nas duas extremidades do grupo e comprimento > 15º. H. Unipolar com penumbra. O ponto principal é geralmente o ponto de líderpermanecendo de um grupo bipolar preexistente Fonte: McINTOSH, 1990 Quadro 2 - Definições de McIntosh para as estabilidades das manchas. Tipo Descrição x. Nenhuma penumbra (grupo é classe A ou B). r. Penumbra que envolve parcialmente o maior ponto observado. Esta penumbra é incompleta, tem formato granular ao invés de parecer um filamento, é mais brilhante que a penumbras mais antigas e se estende por 3 segundos de arco (2200 km) da umbra local.

(27) 11 s. Pequeno, simétrico (como a classe J original de Zurique). A maior mancha parece ser antiga, escura e possui filamentos. Penumbra de forma circular ou elíptica com pouca irregularidade em direção à borda. Aparenta ter uma única umbra, ou um conjunto bem compacto de umbras. O diâmetro norte-sul através da penumbra é <=2.5º. a. Pequeno, assimétrico. A penumbra do maior ponto tem um contorno irregular e várias umbras internas são separadas. O diâmetro norte-sul através da penumbra é <=2.5º. h. Grande, simétrico (como a classe H original de Zurique). Estrutura similar à do tipo ‘s’, mas com diâmetro norte-sul da penumbra > 2.5º e a área deve ser >=250 milionésimos do hemisfério solar. k. Grande, assimétrico. Mesma estrutura do tipo ‘a’, mas diâmetro norte-sul >2.5º e a área deve ser >=250 milionésimos do hemisfério solar Fonte: McINTOSH, 1990 Quadro 3 - Definições de McIntosh para as complexidades das manchas. Tipo Descrição x. Indefinido para grupos unipolares (classe A e H). o. Aberto. Poucos pontos, se houver algum, entre o principal e os secundários. Manchas interiores são bem pequenas. Os grupos das classes E e F da categoria aberta são equivalentes à classe G da Zurich. i. Intermediário.Diversos pontos de difícil definição entre as partes principal e secundárias do grupo, mas nenhum deles possui penumbra definida. c. Compacto. A área entre a extremidade principal e as secundárias do grupo possui muitos pontos fortes, com pelo menos um ponto interior possuindo penumbra madura Fonte: McINTOSH, 1990. 2.1.3 Explosões Solares As explosões solares são um aumento intenso do brilho que ocorre nas regiões ativas que são as estruturas magnéticas na atmosfera solar associadas as manchas solares, que pode durar de 100 a 1000 segundos. Estima-se que a explosão solar se dá pela formação de arcos magnéticos de polaridades inversas que são forçados a entrar em contato entre si, e quando ambos pés do arco entram em reconexão magnética na sua base surge uma reconfiguração energética. Como.

(28) 12 os dois pés do arco possuem energias diferentes, após a reconfiguração uma parte da energia é liberada, causando a explosão solar e a ejeção de massa coronal. (VALIO, 2006) Há estudos propondo um novo método de predição de explosões solares baseada na correlação entre as explosões e as manchas solares com um intervalo médio de 24 horas, onde o local da explosão e sua forma são similares. A ocorrência das explosões de que são categorizadas na Classe X são acompanhadas por reflexo similares observados em Raio-X no dia anterior, que se mostrou mais confiável do que o utilizado pela NOAA, e isso passa a ter uma relevância grande para a predição de explosões. (SHIN et al., 2016) Os dados coletados e classificados do sensor de Raio-X do GOES (XRS) seguem um padrão estabelecido e convencionado mundialmente. As observações e medições de fluxo de Raio-X do GOES captura, em média, a cada 1 minuto, o fluxo em Raio-X moles de ondas curtas entre 0,5 e 4 𝐴̊ bem como ondas longas, entre 1 e 8 𝐴̊. Com base no nível do pico de fluxo na faixa de 1 a 8 𝐴̊ se estabeleceu a seguinte classificação GOES: Classe B > 10−7 𝑊𝑚−2, a Classe C > 10−6 𝑊𝑚−2, a Classe M > 10−5 𝑊𝑚−2 e a Classe X > 10−4 𝑊𝑚−2. (WINTER & BALASUBRAMANIAM, 2015) O estudo das atividades solares permitiu entender os fenômenos das explosões em estrelas, com destaque para os últimos 150 anos onde foi possível dividir em categorias como Erupções Explosivas, Erupções de Filamento e em Ejeção de Massa Coronal. Esta lista de categorias busca explicar as diferentes formas de reconfigurações do campo magnético da superfície solar, resultado no estágio final na EMC que pode afetar a heliosfera. Um exemplo de EMC pode ser visto na Figura 3. (GREEN et al., 2018).

(29) 13 Figura 3 - Ejeção de Massa Coronal capturada pelo SOHO. Fonte: NASA https://sohowww.nascom.nasa.gov/bestofsoho/images/large/CME_EIT_C2_2002.jpg, acessado em Junho/2019 Existem características observáveis que podem indicar uma possível Ejeção de Massa Coronal (EMC), como por exemplo os filamentos que escurecem e aumentam lentamente nos minutos precedentes à uma explosão enquanto abrilhantamentos ocorrem um dia antes de serem ejetadas como massa coronal. Em um estudo realizado em 1995 foi observado que em 19 de 30 erupções, foram reconhecidos uma configuração de campo magnético suportado por alterações nos filamentos e abrilhantamentos surgem em um período de alguns dias antes da EMC. Outra configuração que se deve ter atenção é a aparição de estruturas de emissão coronal em formato da letra S, chamadas de Sigmoides, que podem ser observadas nas imagens e Ultra Violeta Extremo (UVE). Estas aparições formam um subconjunto de regiões para origem de EMC. Entre o momento da aparição de uma estrutura em formato Sigmoide e a EMC o tempo varia entre 5 e 14 horas. Encontrar um fenômeno de formação de dois conjuntos de loops em estrutura em forma da letra J aumentaria o tempo de previsão do EMC em até um dia, ao invés de se trabalhar com apenas algumas horas de previsibilidade a partir da observação de uma estrutura em forma de Sigmoide para predizer qual região terá uma explosão. Uma abordagem.

(30) 14 alternativa oferece estudar a ocorrência e a previsibilidade de erupções solares, a fim de predizer uma EMC. Esta abordagem é relevante devido à correlação entre Explosões Solares e EMCs. Uma das principais características usadas para descrever a atividade magnética de uma região ativa em relação à sua explosão ou EMC, é a linha de inversão de polaridade. As regiões ativas são a fonte das explosões e possuem uma linha de inversão de polaridade com um forte gradiente através dela. Para descrever a potencialidade do campo magnético da região ativa, utilizou-se três novas variáveis, sendo o comprimento do campo através da linha de inversão de polaridade, a corrente elétrica e o grau de torção. É importante destacar que as explosões se concentraram em regiões ativas com uma linha de inversão de polaridade dominante bem definida. (GREEN et al., 2018) Durante o processo de explosão solar, os íons são ejetados primeiro do campo magnético formando um campo de difusão de íons. Somente após um tempo, com o acumulo de mais particulas negativas, os elétrons são então ejetados. Com essa movimentação de íons e elétrons, é formado um campo magnético quadrupolar que se assemelha uma explosão solar durante sua reconexão. (LIN, 2011) Algumas explosões podem liberar matéria (elétrons, prótons e íons) no meio interplanetário por horas. Uma parte destas Ejeção de Massa Coronal (EMC) pode vir em direção a Terra causando problemas em sistemas de navegação, impedir comunicação em sistemas de longas distâncias e danificar equipamentos eletroeletrônicos. (VALIO, 2006) Uma característica do fenômeno da explosão solar observado com um instrumento chamado Coronógrafo, é possível acompanhar seu crescimento radial (mesmo sem saber se a explosão está a caminho da Terra ou se afastando para o sentido oposto), como pode ser visto na Figura 4. (VALIO, 2006).

(31) 15 Figura 4 - Observação do Sol com uso de Coronógrafo. Fonte: ESA http://blogs.esa.int/rocketscience/files/2014/09/SOHO_LASCO_C2_coronagraph_CME_10_ Sept_2014.jpg, acessado em Junho/2019 2.1.3.1 Magnitude das explosões solares Os estudos modernos estão em sintonia ao tratar o nível da EMC e seu impacto na Terra, eles concordam que se deve observar a força do componente sul do campo magnético da EMC (𝐵𝑧 ), 2 a velocidade e a densidade do plasma (𝑉𝑒𝑚𝑐 , 𝑝) e a pressão dinâmica da EMC (𝑝 𝑉𝑒𝑚𝑐 ).. (GREEN et al., 2018) Uma ejeção de partículas do Sol considerada fraca, em geral, tem duração inferior a uma hora e possuem característica de energia leve. Quando há uma ocorrência de elementos mais pesados como Ferro, o fluxo observado geralmente é baixo e podem durar horas, são encontrados em sua maioria nas regiões entre 30º e 60º na longitude do Sol. Estas explosões possuem uma correlação de 99% com o Tipo II de explosão. (LIN, 2011) Já as explosões consideradas poderosas podem durar mais de uma hora. Estas explosões podem conter partículas ionizadas que chegam a se assemelhar aos elementos mais energéticos do.

(32) 16 meio interestelar. Ocorrem geralmente uma vez ao mês durante o período próximo ao do Máximo Solar. (LIN, 2011) As emissões do Tipo III são encontradas em aproximadamente 30% das fases impulsivas de rádio, geralmente são medidos no início da emissão e não duram todo o período dessas emissões. (WHITE et al.,2011) Os diferentes tipos são detectados em diferentes faixas de frequências na faixa rádio (100 a 4000 MHz), e tem diferentes escalas de tempo de duração 𝛥𝑡, os Tipo III são rápidos (poucos segundos) enquanto os Tipo II são mais lentos (com intervalos que variam de minutos a horas). (SOUZA, 2009) 2.1.4 Relação Sol-Terra Assim com o Sol, a Terra também possui ciclos de inversões magnéticas dos polos. No Sol este ciclo ocorre, em média, a cada 11 anos, já na Terra o processo é mais lento, demorando aproximadamente 250 mil anos. Este processo de inversão acontece principalmente por causa da camada de ferro derretida que fica sobre o núcleo de ferro sólido da Terra. Calcula-se que o Polo Magnético se mova a uma taxa de dez quilômetros por ano. (VALIO, 2006) Ao observar uma bússola apontando para o Polo Norte Magnético, é necessário descontar a inclinação do coeficiente angular de aproximadamente 11º, para que a bússola realmente aponte para o Polo Norte Geográfico. como pode ser acompanhado na Figura 5 (BULLARD, 1949).

(33) 17 Figura 5 - Representação do campo magnético terrestre. Fonte: NASA - https://www.nasa.gov/sites/default/files/thumbnails/image/geomagnetic-fieldorig_full.jpg, acessado em Dezembro/2019 Um elétron foi convencionado como sendo uma carga negativa de um elemento. A partir da carga elétrica foi introduzida a noção de atração elétrica e sua descrição diz que elementos podem estar carregados de forma positiva ou negativa, e que cargas de mesmos sinais se repelem e de sinais opostos se atraem. (ARANY-PRADO, 2006) A Terra e o Sol funcionam, isoladamente entre si, como um grande dipolo. Onde as linhas do campo magnético saem de um polo e se conectam ao outro, criando uma camada de linhas magnéticas ao redor de cada um. Ao se analisar o comportamento de uma explosão solar, o material ejetado (que pode alcançar dezenas de diâmetros terrestres de comprimento) segue uma trajetória curva característica de ondas magnéticas. Estes comprimentos de ondas são representados pela letra grega 𝜆 (lê-se Lambda) e este comprimento é medido pela distância do topo de cada crista, ou vale, de onda. Se acompanhar os comprimentos de ondas no espectro eletromagnético, encontram-se ondas que variam de + 109 metros (ondas de rádio) até ondas que chegam a tamanhos de 10−14 metros (ondas de raio gama). Acompanhe na Figura 6 os comprimentos de onda do espectro eletromagnético. (ARANY-PRADO, 2006).

(34) 18 Figura 6 - Espectro Eletromagnético com os comprimentos de onda variando entre Ondas de Rádio e Raio Gama. Fonte: ESA - http://cesar.esa.int/upload/201803/electromagnetic-spectrum_1.png, acessado em Junho/2019 O comprimento de onda é inversamente proporcional à sua frequência, que é representada pela letra grega 𝜈 (lê-se Nu). A letra V indica a velocidade de propagação da onda, e neste contexto pode ser representada por esta equação: 𝜆=. 𝑉 𝜈. Ao se manter uma velocidade de propagação da onda, aumentar o comprimento da onda significa diminuir a frequência. Uma das unidades de frequência mais utilizadas é o Hertz (Hz) e equivale a ciclos de uma ocorrência por segundo. (ARANY-PRADO, 2006) A camada mais superior da Terra é a Ionosfera, nesta camada ficam partículas eletricamente carregadas (diferente das camadas mais inferiores onde as partículas são neutras). Por se tratar de partículas carregadas, existe interação com a onda eletromagnética. Devido a interação onda eletromagnética com os elétrons de um plasma é definida a Frequência de Plasma, e apenas as ondas eletromagnéticas com frequência acima dessa Frequência de Plasma conseguirão atravessar esse meio. Ondas com frequências abaixo serão absorvidas e/ou refletidas, como pode ser acompanhado na Figura 7. O sinal pode ser de origem cósmica ou terrestre, e será refletido da mesma forma, sendo que se for de origem terrestre voltará para a Terra e se for de origem cósmica voltará para o espaço interplanetário. Como a Ionosfera é bastante extensa, cobrindo uma região de aproximadamente 520 km de altura, onde sua camada mais próxima à superfície terrestre encontra-se a aproximadamente 80 km acima do nível do mar e a mais distante a.

(35) 19 aproximadamente 600 km, ela é separada em camadas classificadas como D, E e F, e cada camada reflete um comprimento de onda e frequência diferente, que é inferior à Frequência de Plasma para aquela região. Como as partículas desta região estão eletricamente carregadas e radiações interagem com estas partículas, as explosões solares podem impactar as comunicações de longa distância que se utilizam da reflexão dos sinais disparados para a Ionosfera, fazendo com que algumas mensagens não cheguem para o destinatário. (VALIO, 2006) Figura 7 - Reflexão das ondas de diferentes comprimentos na Ionosfera. Fonte: NASA - https://radiojove.gsfc.nasa.gov/education/educ/radio/tranrec/exerc/images/propo1.gif, acessado em Junho/2019 O impacto destas perturbações interplanetárias também pode gerar problemas na Terra, incluindo em níveis sociais e econômicos como danificar sistemas de satélites, rede elétrica, sistemas de abastecimento de petróleo e gás, comunicação de longa distância, entre outros impactos. (BALAN et al., 2014) Também podem ocorrer outros tipos de problemas, como o monitorado após a grande explosão solar de 28 de Outubro de 2003, no qual foi possível notar que estações de posicionamento que estavam do lado iluminado da Terra (e áreas próximas) tiveram os dados de Global Position System (GPS) não processados pelo sistema causado por perda de sinal. Algumas outras estações que conseguiram processar os dados, apresentaram um aumento significativo nos erros, principalmente na componente vertical. Já as estações que estavam do lado não iluminado pelo Sol durante o impacto da explosão, não apresentaram erros significativos. (RUVIARO et al., 2013) Ou também como o transformador da hidrelétrica de Quebec, no Canadá, que em 13 de Março de 1989 sofreu uma sobrecarga e queimou, deixando a cidade sem energia em um frio de -4.

(36) 20 grau Celsius. Esta sobrecarga foi causada por efeitos de uma explosão solar que havia sido observada por astrônomos três dias antes, mas não foi previsto seu impacto na Terra. (SANTARINE e DOMINGOS, 2014). 2.2 Mineração de dados para explosões solares 2.2.1 Big Data Projetos de Big Data são baseados principalmente em três pilares: Volume, Velocidade e a Variedade. (LANEY, 2001), (ZIKOPOULOS & EATON, 2011) e (CHEN et al., 2014). Existem estudos em algumas outras literaturas apresentando a proposta do uso de diversos outros Vs diferentes de Volume, Variedade e Velocidade (CHEN et al., 2014), mas não serão discutidos no contexto do trabalho aplicado para a predição das explosões solares. Para entender estes três pilares, propostos no início dos anos 2000, do Big Data é necessário olhar isoladamente cada um deles. O pilar da Velocidade do Big Data está relacionado ao dado enviado para armazenamento e processamento. Ao se falar em processamento é comum separar em lote (Batch), Periódico, Próximo ao Tempo Real e por fim, processamento em Tempo Real. (KIRAN et al., 2015) No caso da variedade, ao observar uma base de dados tradicional, ou uma planilha Excel, se sabe a estrutura de dado existente em cada uma das variáveis (ou colunas). A mudança do paradigma tecnológico dos últimos anos permitiu com que as estruturas fossem mais flexíveis, possibilitando centenas de formatos diferentes de dados. Exemplos típicos de variedade de tipos de dados podem ser entendidos como Textos, Fotos, Áudios, Vídeos, Logs, Posicionamento de GPS, Sinais de Sensores, Documentos em Geral, SMS, PDF, Navegação em Redes Sociais, etc. E claro que os tipos de dados tradicionais ainda devem ser contemplados. (CHEN et al., 2014) O volume de dados disponíveis para trabalhar tem aumentado em uma taxa crescente. Como exemplo, considere que um registro lógico em um banco de dados, armazena apenas um bit de tamanho. Quando se deseja armazenar uma imagem, o volume passa a alguns Kilobytes. Para o caso de uma música, o tamanho passa para alguns Megabytes. Um filme completo, necessita de alguns Gigabytes. Outro aspecto relacionado ao volume são as fontes de dados. Antigamente encontrava-se apenas funcionários e sistemas internos gerando dados para a empresa. Nos dias atuais pode-se pensar que outras fontes, inclusive externas à empresa em questão, são possíveis fontes de dados (LYNCH, 2008)..

(37) 21 A arquitetura Lambda permite que o processamento dos dados seja realizado em momentos distintos, dividindo a carga computacional entre processamento em tempo real (ou próximo ao tempo real) e em lote. O sinal que é recebido pela fonte de dados, pelo sistema de mensageria ou até pelo serviço de streaming, permite que ele seja replicado para a estrutura de análise em tempo real, que é chamado de Speed Layer ou para a estrutura de lote, chamada Batch Layer. A saída deste processamento, seja em tempo real ou em lote, pode seguir para o Serving Layer ou direto para um Dashboard. De forma macro e simplificada, a Figura 8 apresenta uma opção de implementação da arquitetura Lambda. (KIRAN et al., 2015) Figura 8 - Implementação de Arquitetura Lambda proposta de forma simplificada e macro. Fonte: KIRAN et al., 2015 2.2.2 Mineração de Dados Mineração de Dados é parte integrante de um processo mais amplo conhecido como descoberta de conhecimento em base de dados (Knowledge Discovery in Database - KDD). Esta terminologia é uma referência à mineração tradicional, onde minas são exploradas em busca de minérios ou pedras preciosas, e para encontrar cada um destes elementos são utilizadas ferramentas específicas. Em mineração de dados pode-se criar um paralelo e dizer que as bases de dados são as minas, os minérios ou pedras preciosas são os conhecimentos extraídos dos dados e as ferramentas específicas são os algoritmos. (CASTRO & FERRARI, 2016) O processo de mineração de dados pode ser dividido em duas grandes vertentes, sendo a primeira Análise Descritiva e a segunda a Análise Preditiva. A Análise Descritiva apresenta as características gerais dos dados, possibilitando que sejam encontrados padrões de comportamento e conhecimento que os usuários nem imaginavam que existiam. Já na Análise Preditiva, são criados modelos formais que permitem estimar, classificar ou agrupar dados, a.

(38) 22 partir de determinados comportamentos que foram aprendidos e encontrados na Análise Descritiva. (CASTRO & FERRARI, 2016) Existem linhas de pesquisa que apontam a mineração de dados como uma vertente da Aprendizagem de Máquina, ambos processos se preocupam em encontrar padrões comportamentais, técnicas e algoritmos também são comuns de se encontrar nas duas áreas. Na tentativa de diferenciar os dois, processos de Aprendizagem de Máquina possuem características de melhorias de desempenho e evolução dos reconhecimentos, enquanto a mineração de dados procura explicar os padrões utilizando técnicas de análise de dados descritiva. (FAWCETT & PROVOST, 2018) 2.2.2.1 Exploração de Dados Descritiva Durante o processo de descoberta do conhecimento é esperado que os resultados sejam facilmente entendidos, permitindo uma compreensão mais apropriada. É comum utilizar elementos gráficos para representar esses conhecimentos descobertos e seus padrões. (GOLDSCHMIDT et al., 2015) A Análise Descritiva permite descobrir padrões e comportamento nos dados, possibilitando um melhor entendimento da base de dados que se está trabalhando. Com esta técnica é possível investigar como está distribuída a frequência de ocorrência dos dados, entender as médias móveis além de calcular as medidas de posição relativa e absoluta. É comum encontrar uma combinação das descrições com representação visual, suportando uma análise gráfica dos dados. (CASTRO & FERRARI, 2016) As representações gráficas permitem um acompanhamento e visualização das características e padrões encontrados nos dados. É comum criar as representações em histogramas, diagramas de caixas, diagrama de dispersão ou gráfico de setores para descobrir o comportamento geral do conjunto de dados como também para habilitar a comparação entre o subconjunto real e os resultados da predição. (DA SILVA et al., 2017) 2.2.2.2 Descoberta de Padrões Padrões são conhecimentos apresentados formalmente, e como são mais simples que os dados propriamente ditos, são apresentados através de uma linguagem formal. Se esse padrão possui uma forma que seja possível de um humano ler e interpretar, ele é considerado um padrão compreensível. Uma das linguagens formais para representar padrão amplamente utilizada é a linguagem de equações. Se deseja somar os valores de duas variáveis, é possível utilizar o.

(39) 23 símbolo de adição e quem for interpretar aquela equação sabe o que o padrão representa. (GOLDSCHMIDT et al., 2015) 2.2.3 Aprendizagem de Máquina Nenhuma aprendizagem é imediata, seja ela biológica ou artificial, e como o conhecimento adquirido é gradual, a evolução da aprendizagem depende de adaptação e interação com o ambiente da qual estão inseridos. Pode-se dizer que sistemas capazes de adaptar ou mudar seu comportamento, de forma automática ou através de exemplos, são considerados sistemas de Aprendizagem de Máquina. (CASTRO & FERRARI, 2016) A Aprendizagem de Máquina, como área de estudo, se preocupa com o desenvolvimento de métodos para suportar e melhorar o conhecimento ou desempenho de um agente inteligente ao longo do tempo, se adaptando às experiências vividas pelo agente no contexto inserido. (FAWCETT & PROVOST, 2018) Em mineração de dados, a aprendizagem se refere ao processo de treinamento do modelo preditivo, seja para sua construção ou ajuste, adaptando-se às regras pré-estabelecidas e se moldando de acordo com o comportamento dos dados ao longo do tempo buscando melhorar seu desempenho. (CASTRO & FERRARI, 2016) 2.2.3.1 Paradigmas da Aprendizagem de Máquina As formas de Aprendizagem de Máquina são definidas, principalmente, entre supervisionadas e não supervisionadas. Abstraindo a complexidade destas diferenças, pode-se separa-las utilizando a variável alvo. Quando existe a variável alvo definida e o modelo tem o objetivo de responder à essa variável, o paradigma de aprendizagem é chamado de supervisionado. Uma condição imprescindível para esse processo de aprendizagem é que devem existir dados que expliquem a variável alvo, e a variável alvo deve conter os rótulos necessários para a resposta da formulação do problema. Quando não há uma variável alvo, todos as outras variáveis que foram utilizadas para criarem o modelo são comparadas por similaridade ou distância, e são encontrados possíveis resultados. Existem situações nas quais os grupos de similaridades não representam o que é desejado encontrar para responder a formulação do problema. Esse comportamento é conhecido como não supervisionado. (FAWCETT & PROVOST, 2018) 2.2.4 Aprendizagem Supervisionada Predição é a nomenclatura da técnica utilizada para criar e consumir um modelo capaz de prever valores, sejam eles discretos ou contínuos, a partir de características de um elemento. Predição de valores discretos são conhecidas como Classificação, pois fazem a predição de.

(40) 24 uma determinada classe (rótulo) conhecido e bem definido. A predição de valores contínuos é conhecida como Regressão (ou Estimação), e seu objetivo é predizer valores numéricos. (CASTRO & FERRARI, 2016) As duas sub-classes principais do paradigma de aprendizagem supervisionada, Classificação e Regressão, se diferem pois o resultado existente na variável alvo é diferente. Algoritmos de regressão resolvem problemas de resposta numérica e algoritmos de classificação resolvem problemas de resposta categórica. É fundamental definir o tipo de abordagem a se trabalhar, e então encontrar as variáveis que tenham influência na variável alvo. (FAWCETT & PROVOST, 2018) 2.2.5 Algoritmos de Classificação Para se construir um algoritmo de classificação é esperado que o conjunto de dados de origem possua dois tipos de variáveis, o primeiro tipo é conhecido como atributo previsor e o segundo é conhecido como alvo. Os atributos previsores são responsáveis por permitirem que os padrões necessários sejam descobertos para responderem ao alvo. É comum que o atributo alvo reprensente um rótulo categórico, que são as classes desejadas de resolução do problema. Os algoritmos de classificação são responsáveis por encontrarem uma função que permita predizer a variável alvo através dos valores existentes nas variáveis previsoras. Quando esse padrão é descoberto é possível aplicar nas novas características das variáveis previsoras e com isso responder qual é a classe que estes dados se encaixam, mesmo que a informação do alvo não exista. (GOLDSCHMIDT et al., 2015) A classificação é um processo que define um elemento em uma classe ou rótulo de forma categórica. Se a definição resultante fosse um valor contínuo, o algoritmo que resolveria o problema seria da família de regressão. A tarefa de ensinar o algoritmo é chamada de Treino do Modelo, durante essa fase é separada uma amostra do conjunto de dados existente, que possui as características previsoras (as variáveis explicativas) e também a variável alvo, e de forma iterativa, os dados são apresentados ao algoritmo com objetivo de fazê-lo reconhecer os padrões. No final desta fase, é esperado que ao se apresentar novos exemplos de dados, o algoritmo seja capaz de predizer qual é a variável alvo que condiz com aqueles elementos previsores. (SILVA, 2015) 2.2.5.1 Support Vector Machine - SVM O Support Vector Machine (SVM) é um algoritmo sofisticado que pode ser utilizado em problemas que envolvam classificação ou regressão. É comum, encontrar implementações de.

(41) 25 SVM em classificadores binários que possuam uma separação visível entre os padrões que definam as classes, e nestas situações o algoritmo encontra onde deve-se designar um hiperplano entre as classes, como mostra a Figura 9, de modo a permitir que as margens sejam otimizadas para encontrar as maiores distâncias possíveis entre os padrões das classes, utilizando os elementos mais próximas entre si, conforme pode ser acompanhado na Figura 10. (HAYKIN, 2001) Figura 9 - Fronteira de decisão entre as classes linearmente separáveis. Fonte: GARETH et al., 2010.

(42) 26 Figura 10 - Margem máxima da fronteira de decisão entre as classes linearmente separáveis. Fonte: GARETH et al., 2010 Estes elementos mais próximos entre si, porém de classes distintas, criam um pequeno subconjunto extraído da base utilizada para treinar o modelo, e são considerados os Vetores de Suporte, que estão ilustrados na Figura 11, e é com base na posição destes elementos que a margem otimizada é descoberta. (HAYKIN, 2001).

(43) 27 Figura 11 - Destaque para os Vetores de Suporte do hiperplano ótimo. Fonte: HAYKIN, 2001 O SVM também pode ser utilizado para elementos que não são linearmente separáveis, ou seja, seu padrão não possui uma fronteira de decisão definida ou também exista sobreposição de elementos. Ao aplicar técnicas de separação linear nos dados, existirá erros na saída da classificação. Como pode ser acompanhado na Figura 12 sendo que na Figura 12 (A) a projeção do ponto 𝑋𝑖 - pertencente à classe X - está do lado correto da fronteira de decisão mas dentro das margens; enquanto na Figura 12 (B) o ponto 𝑋𝑖 - pertencente à classe O - está do lado incorreto da fronteira de decisão, gerando o erro na classificação..

(44) 28 Figura 12 - Hiperplano ótimo entre classes que não são linearmente separáveis. Fonte: HAYKIN, 2001 2.2.5.2 Métodos de Avaliação de classificação Avaliar a performance da descoberta de padrões descritivos e preditivos são diferentes. Cada tipo de paradigma de Aprendizagem de Máquina e seus objetivos de soluções também variam no método de validação. No caso de um Classificador, que faz parte do paradigma de aprendizagem supervisionada, os dados utilizados para treinar o modelo possuem os dados do atributo previsor e também do alvo. O método mais comum é, utilizando a base de treino e teste, comparar os resultados gerados pelo algoritmo com o que existe na variável alvo. Quanto mais o modelo preditivo responder corretamente na comparação com a classe real que está na variável alvo, mais assertivo está o algoritmo. (GOLDSCHMIDT et al., 2015) Depois de se ter o modelo preditivo ajustado, é possível utilizá-lo para predizer exemplares desconhecidos. Estes exemplares não fazem parte da base de dados utilizada para treinar o modelo. A tarefa de teste apresenta os dados conhecidos para o algoritmo e recebe o resultado da classe predita. Esse resultado é comparado com o que existe na variável alvo e é medido o nível de assertividade do modelo. (SILVA, 2015) Em problemas de classificação binária é utilizada uma matriz de tabulação cruzada dos resultados preditos com as classes originais observadas, conhecida como matriz de confusão, buscando entender a relação entre acertos e erros que o modelo apresenta. Esta matriz apresenta o número de Positivo Verdadeiro (True Positive - TP) que significa que a classe prevista e observada originalmente fazem parte da classe positiva, Falso Positivo (False Positive - FP) que significa que a classe predita retornou positivo mas a original observada era negativa,.