universidade federal do pará

97 Figura 41 – (a) – Comparação entre gráficos de mapeamento de grupo versus localização do algoritmo SOM para 2 clusters – média com filtro. 98 FIGURA 42 – (a) – Comparação entre gráficos de mapeamento de grupos versus localização do algoritmo SOM para 2 clusters – mediana com filtro. 99 FIGURA 43 – (a) – Comparação entre gráficos de mapeamento de grupos versus localização do algoritmo SOM para 2 clusters – desvio padrão com filtro.

101 FIGURA 45 – (a) – Comparação entre gráficos de mapas de cluster versus localização do algoritmo SOM para 5 clusters – Média filtrada. 102 FIGURA 46 – (a) – Comparação entre gráficos de mapas de cluster versus localização do algoritmo SOM para 5 clusters – Desvio padrão com filtro. 104 FIGURA 48 – (a) – Comparação entre gráficos de mapas de cluster versus localização do algoritmo SOM para 13 clusters – Média filtrada.

Dióxido de silício

Dióxido de titânio

INTRODUÇÃO

Objetivo da Dissertação 1. Objetivo Geral

Objetivos Específicos

Estrutura da Dissertação

Será a análise humana de grandes quantidades de dados impossível sem a ajuda de ferramentas computacionais apropriadas?' (Bramer, 2007). Esta dissertação de mestrado trata de uma das tarefas do processo de mineração de dados: a fase de agrupamento (Larose, 2005). A ideia central do trabalho é realizar agrupamentos em um banco de dados de fornos de redução de uma fábrica de alumínio, com o objetivo de identificar os fornos que possuem comportamento semelhante.

Li, Yang e Song (2009) também criaram um modelo de processo de mineração de dados para eletrólise de alumínio para padronizar o processo de mineração industrial, onde o sistema inteligente aplicado foi usado como alvo de mineração de dados. A ideia deste trabalho é utilizar os resultados do agrupamento para uma melhor seleção dos dados de treinamento de uma rede neural artificial utilizada para modelar o comportamento dinâmico de algumas variáveis em um forno de redução de alumínio. a) Identificar agrupamentos de fornos em uma fábrica de alumínio utilizando técnicas de mineração de dados a) Utilizar técnicas de agrupamento para identificar fornos com comportamento semelhante em uma fábrica de alumínio; O capítulo 1 apresenta o trabalho, explica a ideia da mineração de dados e sua aplicação à indústria do alumínio primário, e o contexto que será discutido ao longo do trabalho.

A PRODUÇÃO DE ALUMÍNIO

REDUÇÃO DO ALUMÍNIO
O FORNO ELETROLÍTICO
VARIÁVEIS MAIS UTILIZADAS EM MODELAGEM E ANÁLISE DE COMPORTAMENTO

Essa quebra da molécula, representada pela Equação 1 abaixo, requer um consumo excessivo de energia, o que exige a adição de alguns elementos químicos no forno de redução de alumínio que ajudam a reduzir a temperatura para facilitar a eletrólise, o que economiza energia (Grjotheim e Kvande, 1993 ). Redução eletrolítica: Para reduzir o alumínio pelo método eletrolítico, barras de alumínio impuras são colocadas como ânodos em um banho de sais de cloro e flúor. A criolita pura possui alto ponto de fusão (1009ºC) e para reduzi-lo são adicionados certos aditivos químicos, principalmente fluoreto de alumínio (AlF3), fluoreto de cálcio (CaF2) e a própria alumina (Al2O3).

A Figura 4 mostra o layout no qual está organizada a área de redução I, que contém os fornos de redução de alumínio da fábrica que deu origem a este trabalho. Após o agrupamento, será possível descobrir regras associativas, ocultas nos dados, que ajudam a explicar o processo de produção do alumínio realizado pela fábrica. Segundo (McFadden et al., 2001), a temperatura está fortemente relacionada com a composição química do eletrólito, que envolve as variáveis Fluoreto de Alumínio (ALF), Fluoreto de Cálcio (CAF) e Óxido de Alumínio (Al2O3).

MINERAÇÃO DE DADOS

Isso significa que antes de iniciar o processo é necessário saber o que se deseja obter como resposta ou resultado, e quais dados facilitarão essa informação na busca pelo objetivo a ser alcançado. Pré-processamento (limpeza de dados): Etapa que antecede a extração dos dados, onde são retiradas as informações consideradas desnecessárias. Esta etapa consiste na limpeza dos dados considerados “sujos”, que são dados incompletos, onde faltam valores de atributos; ruído, que é o valor incorreto ou inesperado; e dados inconsistentes, que contêm valores e atributos com nomes diferentes.

Esta etapa é necessária para que dados considerados sujos (falsos) não contribuam para uma análise imprecisa, ocasionando resultados incorretos. Mineração de dados: Esta fase do processo consiste na busca de padrões de interesse e na utilização de algoritmos capazes de obter conhecimento a partir deles.

Mineração de dados: Esta etapa do processo consiste na busca dos padrões de interesse e no emprego de algoritmos capazes de obter conhecimentos a partir dos

ANÁLISE DE AGRUPAMENTO

Neste tópico de mestrado será utilizada aprendizagem não supervisionada, uma vez que agrupamento de dados ou análise de cluster é uma prática de mineração de dados que visa encontrar semelhanças entre n amostras de um banco de dados, utilizando um algoritmo de aprendizagem não supervisionada. Vale ressaltar que a extração de dados possui diversas etapas, a saber: agrupamento, classificação, avaliação e predição; no entanto, esta dissertação abordará apenas a fase de agrupamento. A análise de cluster (em inglês, cluster analysis) é uma técnica multivariada que permite agrupar casos ou variáveis de um arquivo de dados de acordo com o grau de similaridade entre eles.

Representa matematicamente e ilustrativamente todo o procedimento de agrupamento através de uma estrutura em árvore (Everitt et al., 2001). As técnicas de análise de cluster exigem que seus usuários tomem uma série de decisões independentes, que exigem conhecimento das propriedades dos diversos algoritmos disponíveis e que podem representar diferentes clusters. Porém, enquanto a análise discriminante realiza a classificação tomando como referência um critério ou uma variável dependente (grupos de classificação), a análise de cluster permite descobrir o número ideal de grupos e sua composição, de acordo com a semelhança entre eles.

AGRUPAMENTO UTILIZADO NO FORNO DE REDUÇÃO DE ALUMÍNIO 1. AGRUPAMENTO DE FORNOS VIA AFFINITY PROPAGATION

TÉCNICA DE AGRUPAMENTO VIA AFFINITY PROPAGATION
AGRUPAMENTO DE FORNOS USANDO O MAPA AUTO–ORGANIZÁVEL DE KOHONEN (SOM)

MÉTODOS DE PROJEÇÃO MULTIDIMENSIONAL
MEDIDAS DE QUALIDADE E PRECISÃO DO MAPA
TÉCNICA DE AGRUPAMENTO VIA REDE NEURAL ARTIFICIAL (RNA)

AGRUPAMENTO DE FORNOS USANDO FUZZY C–MEANS (FCM)

TEOREMA FUZZY C–MEANS (FCM)
VALIDAÇÃO DO CLUSTER
TÉCNICA DE AGRUPAMENTO VIA FUZZY C–MEANS (FCM)

AGRUPAMENTO DE FORNOS VIA K–MEANS

ETAPAS DO ALGORITMO K–MEANS

Esta técnica é responsável por selecionar um determinado número de clusters de acordo com a base de dados existente. Para definir o erro total de um mapa com determinados parâmetros, é possível utilizar outra metodologia diferente chamada leave–k–out, que consiste em dividir o conjunto de dados em k partes, onde k– é utilizado para se tornar 1 para treinamento e 1 para teste; o procedimento é repetido para as k partes nas quais o conjunto de treinamento está dividido. A BMU e seus vizinhos (no sentido topológico) movem-se perto do vetor x no espaço de dados.

Este algoritmo tenta manter relações topológicas, assim como o algoritmo denominado mapa de Sammon, algoritmo que projeta um conjunto bidimensional de dados n–dimensionais, e mantém relações métricas, ou seja: o que está próximo em n–. Normalmente, o número de dados é maior que o número de neurônios e o erro de precisão é sempre diferente de 0. O algoritmo de treinamento da rede é o Mapa Auto-Organizável de Kohonen, cujo acrônimo SOM significa Mapa Auto-Organizado. e foi desenvolvido um programa na linguagem R para leitura da matriz de dados de um arquivo CSV (Valores separados por vírgula), que separava os dados por vírgulas.

Uma das tarefas da mineração de dados é a identificação de grupos ou clusters naturais em conjuntos de dados. Isso ocorre devido à frequência relativa com que um determinado conjunto de dados apresenta características que pertencem a diferentes grupos e, como resultado, não são facilmente classificados. Outra função humana importante que também ocorre na análise de dados é a seleção de atributos para tarefas de agrupamento e classificação.

Neste estudo, a medida de similaridade é sempre aplicada para medir o quão semelhante é um vetor de dados a um vetor que representa uma classe ou grupo. Também foi desenvolvido um programa em linguagem R para ler a matriz de dados de um arquivo CSV, realizar a normalização dos dados entre 0 e 1 e executar o algoritmo FCM para encontrar grupos (Clusters) de fornos de redução de alumínio, conforme código –. A ideia principal é definir K centróides (um para cada grupo) e então pegar cada ponto do banco de dados e colocá-lo na classe do centróide mais próximo.

A razão pela qual o algoritmo K – Means é usado múltiplas vezes no mesmo conjunto de dados é tentar minimizar este efeito mencionado acima e obter melhores resultados sabendo que os centros iniciais estão o mais distantes possível.

METODOLOGIA

SELEÇÃO E EXTRAÇÃO DOS DADOS
ESCOLHA DA MEDIDA DE ASSOCIAÇÃO

O conjunto de dados não filtrados considera apenas amostras que possuem valor maior que zero. Acontece que este conjunto de dados consiste em mais de dois milhões de amostras no total. O conjunto de dados filtrados exclui dados atípicos, ou seja, registros em que pelo menos uma variável está fora da faixa operacional normal.

Utilizando a tabela 8 é possível verificar a quantidade de dados por ano, levando em consideração a filtragem. Quando são feitas comparações entre dois conjuntos de dados diferentes, verifica-se que os dados com filtros possuem uma faixa de valores menor do que aqueles sem filtros, contribuindo para uma melhor distribuição dos valores. Além de definir dois tipos diferentes de conjunto de dados, foram utilizados três cálculos estatísticos (média, mediana e desvio padrão) para os dados filtrados e não filtrados, resultando em seis combinações diferentes de experimentos listados na Tabela 9.

Em outras palavras, para agrupar indivíduos é necessário definir uma medida de similaridade ou dissimilaridade. Há um grande número de coeficientes de similaridade e/ou dissimilaridade para caracteres binários disponíveis na literatura. Segundo Clifford & Stephenson (1975), tais coeficientes podem ser facilmente convertidos em coeficientes de desigualdade: se a igualdade for chamada s, a medida da desigualdade será o seu complemento (1 – s).

A maioria dos métodos de análise de cluster exige uma medida de similaridade ou dissimilaridade entre os elementos a serem agrupados, geralmente expressa como uma função de distância ou métrica (Doni, 2004). Quando a distância é escolhida como medida de conectividade (por exemplo, distância euclidiana), os grupos formados conterão indivíduos semelhantes, portanto a distância entre eles deve ser pequena. Por outro lado, quando se escolhe uma medida de similaridade (por exemplo, o coeficiente de correlação), os grupos formados conterão indivíduos com alta similaridade entre si.

Vale ressaltar que neste trabalho foi utilizada a distância euclidiana como medida de associação, para agrupamento de 2, 5 e 13 clusters segundo as técnicas dos algoritmos de Kohonen, do SOM, do algoritmo Fuzzy C–Means, K–Means, e o algoritmo Affinity Propagation, que não leva em consideração o número de clusters a priori.

RESULTADOS

AFFINITY PROPAGATION
K–MEANS
COMPARAÇÃO ENTRE OS RESULTADOS

CONCLUSÕES E PROPOSTAS PARA TRABALHOS FUTUROS

A partir da análise dos experimentos realizados, conclui-se que não é possível descrever qual técnica possui o melhor agrupamento, uma vez que os algoritmos Affinity Propagation, Kohonen Self-Organizing Map, Fuzzy C–Means e K–Means possuem métodos diferentes. de grupos cujas características e peculiaridades diferem entre si. Disponível em:

Tutorial sobre Fuzzy-c-Means e Quantização de Vetores de Aprendizagem Fuzzy: Abordagens Híbridas para Tarefas de Clustering e Classificação. Dissertação de Mestrado - Programa de Pós-Graduação em Engenharia Elétrica - Universidade Federal do Maranhão, 2009.