Carregamento dos Dados - – Modelo da Entidade ‘media’

Algoritmo 5 – Modelo da Entidade ‘media’

1.4 Metodologia

3.2.3 Carregamento dos Dados

A camada de persistˆencia utilizada ´e o MongoDB, um projeto open source e gratuito. ´

E um banco de dados de alta performance, sem esquemas e orientado a documentos. Lan¸cado em 2009, é escrito em C++ e utilizado por empresas dos mais diferentes portes e segmentos para a cria¸cão de aplica¸cões que demandam baixa latência (latency), alta vazão (throughput) e alta disponibilidade. No MongoDB, as informa¸cões são armazenadas em documentos BSON (Binary JSON) ao invés de tabelas e colunas como num banco de dados relacional.

Armazenar dados em documentos é uma forma de persistência relativamente comum entre os banco não relacionais, sendo o MongoDB um dos mais utilizados entre todos eles. Embora existam diversas e robustas alternativas, como por exemplo o Couchbase, o Redis ou o Amazon DynamoDB, este projeto adota o MongoDB em fun¸cão de sua alta popularidade, como mostra o gráfico da Figura 5, retirado do Developer Survey Results 2018 do Stack Overflow, uma comunidade de desenvolvedores na internet mundialmente reconhecida pelo seu formato de perguntas e respostas.

Figura 5 – Bancos de Dados mais Utilizados no Stack Overflow em 2018

Prezando pela performance, robustez e escalabilidade, este projeto implementa um cluster no MongoDB Atlas, um servi¸co em nuvem que disponibiliza o banco num formato SaaS (Software as a Service) prático e descomplicado. Isso significa que não existe preocupa¸cão com hardware nem com a parametriza¸cão da aplica¸cão do banco: uma vez que o cluster está instanciado, basta estabelecer uma conexão e come¸car a utilizá-lo. Assim como os demais recursos em nuvem consumidos até aqui, este também oferece um n´ıvel de utiliza¸cão gratuito que, ainda com especifica¸cões modestas, atende perfeitamente às necessidades do projeto.

A aplica¸cão, logo ao iniciar, estabelece a conexão com o banco de dados num processo muito simples, utilizando a biblioteca ‘mongoose.js’, para garantir o correto funcionamento do ETL. São necessários apenas quatro parâmetros para completar esta etapa: o usuário, a senha, o cluster e a cole¸cão de documentos, respectivamente representados no código por ‘user’, ‘password’, ‘cluster’ e ‘collection’. Amplamente utilizada em projetos que envolvem Node.js e MongoDB, a biblioteca Mongoose é baseada em schemas que modelam os dados das aplica¸cões, oferecendo nativamente um sistema de conversão de tipos, valida¸cão, cria¸cão de consultas e hooks para lógica de negócios.

Quando a cria¸cão de um dataset é solicitada, o registro da entidade homônima é armazenado imediatamente, contendo detalhes como qual o perfil objeto da análise e data e hora da cria¸cão da entrada. Ao passo em que os perfis dos usuários que interagiram também são rastreados, extra´ıdos e transformados, são armazenados de forma s´ıncrona os registros da entidade ‘profile’ e da entidade ‘media’, como pode ser observado na Figura 4. Os modelos utilizados para a valida¸cão e inser¸cão dos registros no banco de dados estão detalhados nos algoritmos 3, 4 e 5.

Algoritmo 3 Modelo da Entidade ‘dataset’

Algoritmo 4 Modelo da Entidade ‘profile’

Algoritmo 5 Modelo da Entidade ‘media’

4 An´alise Neural

Uma rede neural artificial (RNA) é um modelo computacional capaz de realizar aprendizado de máquina e reconhecimento de padrões. Independentemente do seu tipo, é basicamente representada por um sistema de unidades de processamento interconectadas, que podem a partir de um determinado conjunto de valores de entrada, computar valores de sa´ıda, simulando o comportamento de redes neurais biológicas. Em outras palavras, as RNAs implementam modelos matemáticos inspirados na estrutura neural de organismos inteligentes e que adquirem conhecimento por meio da experiência. Ao passo em que ela pode ter centenas ou milhares de unidades de processamento, o cérebro de um mam´ıfero, por exemplo, pode ter bilhões de neurônios.

Uma RNA é formada por várias unidades de processamento, denominadas simples- mente de neurônios, assim como na natureza. Esses neurônios são geralmente conectados por canais de comunica¸cão que estão associados à um determinado peso. Os neurônios operam apenas no contexto dos seus dados, que são entradas recebidas pelas suas conexões, essas responsáveis pelo comportamento inteligente da rede. O psiquiatra e neuroanatomista Warren McCulloch e o matemático Walter Pitts, em 1943, foram os primeiros pesquisadores a descreverem um modelo artificial para um neurônio biológico no artigo A Logical Calculus of the Ideas Immanent in Nervous Activity, que pode ser sintetizado da seguinte forma:

• Sinais s˜ao apresentados `a entrada;

• Cada sinal é multiplicado por um número (ou peso) que indica a sua influência na sa´ıda do neurônio.

• ´E feita a soma ponderada dos sinais que produz um n´ıvel de atividade;

• Se este n´ıvel de atividade exceder um certo limite o neurˆonio produz uma determinada resposta de sa´ıda.

O modelo descrito em McCulloch e Pitts (1943) é formado por um vetor de entradas e as sinapses são representadas por pesos numéricos. A soma ponderada das entradas é submetida à uma fun¸cão de transferência (também conhecida como fun¸cão de ativa¸cão), que determina se essa é maior que um determinado valor (o limiar do neurônio). Caso positivo, o neurônio é ativado, caso contrário, é desativado. A tarefa do neurônio é responder se a soma recebida é maior que o limiar, obedecendo à lei do ‘tudo ou nada’ e garantindo que sempre estará em um de dois poss´ıveis estados: ativado ou desativado.

Figura 6 – Modelo Artificial para um Neurˆonio Biol´ogico de McCulloch e Pitts

Fonte: (MCCULLOCH; PITTS, 1943)

Redes neurais artificiais contam com regras de treinamento, onde os pesos de suas conexões são ajustados de acordo com os padrões de referência apresentados, o quê em outras palavras significa que elas aprendem por intermédio de exemplos. As arquiteturas das RNAs são tipicamente organizadas em camadas, que são classificadas em camadas de entrada, intermediárias (hidden layers) e de sa´ıda. Na primeira delas, os padrões são apresentados à rede, já na por¸cão intermediária é realizada a maior parte do processamento e, finalmente, na camada de sa´ıda, o resultado é apresentado.

A caracter´ıstica de maior destaque de uma RNA é sua habilidade de aprendizado em um determinado ambiente e sua consequente melhora de desempenho. Isso acontece em fun¸cão do treinamento, um longo processo iterativo de ajustes aplicado aos seus pesos. Constata-se que uma rede está treinada quando esta atinge uma solu¸cão generalizada para uma por¸cão de problemas.

Existem diferentes tipos de algoritmos de treinamento, inclusive espec´ıficos para determinados modelos de redes neurais. Estes algoritmos diferem entre si principalmente pelo modo como os pesos são modificados, levando sempre em considera¸cão a maneira pela qual uma rede neural se relaciona com o contexto em que está inserida. Laconicamente, existem três diferentes paradigmas de treinamento, que estão devidamente detalhados na lista a seguir:

• Supervisionado, quando é utilizado um agente externo que indica à rede a resposta desejada para o padrão de entrada;

• Não supervisionado (auto-organiza¸cão), quando não existe uma agente externo indicando a resposta desejada para os padrões de entrada;

• Por refor¸co, quando um cr´ıtico externo avalia a resposta fornecida pela rede. Em geral é poss´ıvel distinguir três classes fundamentais de arquiteturas: redes feedforward de uma única camada, redes feedforward de múltiplas camadas e redes recorrentes. Este projeto implementa um perceptron de múltiplas camadas, cujo entendimento passa pela rede perceptron, que é a forma mais simples de configura¸cão de uma rede neural artificial, constitu´ıda de apenas uma camada, que nela contém um único neurônio. Nela, o ajuste dos pesos e limiar do neurônio é feito por intermédio do treinamento supervisionado, e como o perceptron é tipicamente utilizado em problemas de reconhecimento de padrões, cada uma das suas poss´ıveis duas sa´ıdas é associada a uma das classes que são objeto da identifica¸cão. É importante destacar que o perceptron se comporta como um t´ıpico discriminador linear, tão logo, conclui-se que a rede se comporta como um classificador de padrões cuja fun¸cão é dividir classes que sejam linearmente separáveis.

Figura 7 – Separa¸c˜ao de Problemas Lineares e N˜ao-lineares

No documento UNIVERSIDADE FEDERAL DE GOIÁS ESCOLA DE ENGENHARIA ELÉTRICA, MECÂNICA E DE COMPUTAÇÃO PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E DE (páginas 49-57)