Pré-processamento de dados - MATERIAIS E MÉTODOS

4 MATERIAIS E MÉTODOS

4.2 Pré-processamento de dados

Os dados utilizados para desenvolvimento do modelo devem ser tratados previamente com o objetivo de ajustar o vetor a ser utilizado para cada uma das entradas (ajuste o delay time ou tempo de residência), identificar os outliers, valores em branco e padronizar os dados.

O melhor refinamento dos dados a serem utilizados no modelo contribui para uma modelagem mais rápida (menor tempo de convergência do modelo) e diminuição do erro do modelo. A seguir são apresentadas as etapas tratamento dos dados na etapa denominada pré- processamento de dados utilizadas no presente trabalho.

4.2.1 Ajustando delay time dos dados

No que tange ao tempo necessário para que a carga atinja o nível das ventaneiras, é importante que os dados para utilização em modelos levem em consideração esse delay para obtenção do vetor correspondente entre os dados de entrada e respectivas saídas, evitando falhas na modelagem pretendida relativas à correspondência entre dados de entrada e saída.

Como informado no capitulo 3, valores típicos apontam que leva aproximadamente de 5 a 6 horas para que o material carregado atinja o nível das ventaneiras e de 5 a 10 segundos para que o gás atinja a parte superior do alto-forno, porém tais tempos variam de acordo com as dimensões e características de operação dos fornos, sendo necessário aplicação de metodologia baseada nos dados de operação para definição dos tempos de forma adequada.

Nessa perspectiva, Han et al. (2018) realizaram a análise do delay time entre cada uma das variáveis de entrada por meio de sua correlação com uma variável de saída, utilizando o maior valor correlação entre a variável de entrada e a de saída para determinar o delay time daquela variável. Foi considerado no estudo citado uma variação de 0 a 5 horas na determinação dos delays para desenvolvimento de um modelo de predição de silício para o gusa.

Mesma metodologia havia sido proposta e utilizada por Ge (1999) no desenvolvimento de modelo para previsão de silício do gusa, sendo utilizado um intervalo de 0 a 7 horas.

Assim, tal procedimento foi utilizado no desenvolvimento do modelo, comparando cada uma das variáveis de entrada com a variável de saída fuel rate, aplicando um intervalo de 0 a 8h.

4.2.2 Identificação dos outliers

Outlier é a denominação dada para pontos que podem ser considerados anomalias dentro do conjunto que forma o dataset a ser avaliado para a construção do modelo e, consequentemente, prejudicar a generalização do modelo se não tratados de forma adequada.

Outliers podem ocorrer de forma legitima, quando a medição está correta, mas é incomum, que é uma forma de detecção de fraudes, por exemplo, ou indicando uma falha crítica no processo ou pode ser oriunda de uma falha de medição, devendo assim ser descartado (KOTU, 2019). Assim, alguns outliers são de fácil identificação, por exemplo, não haverá dados de produção de gusa com consumo de combustível igual a zero ou não haverá produção de gusa sem aporte de matéria-prima. Entretanto, alguns casos a identificação de um outliers pode ser complexa, sendo importante a utilização de técnicas específicas para uma adequada avaliação do conjunto de dados a ser usado no desenvolvimento do modelo.

As técnicas de tratamento de outliers tem sido aprimorada nos últimos anos e, dentre as existentes, destaca-se o algoritmo Local Outlier Factor (LOF) proposto por Breunig et al. (2000) por meio do artigo LOF: identifying density-based local outliers.

Conforme destacado por Oliveira Campos (2015, p.10-11) o método de Local Outlier Factor é aplicado a partir de 3 definições:

1. Seja D uma base de dados. Para qualquer inteiro positivo k, a k_distance de um objeto p, definida como k_distance(p), é a distância d(p,o) entre p e um objeto o ∈ D tal que: i) no mínimo k objetos o’ ∈ D \ {p} têm-se d(p,o’) e ii) no máximo k-1 objetos o’ ∈ D\{p} têm-se d(p,o’)<d(p,o). 2. Dada a k_distance(p), a vizinhança k_distance de p contém cada objeto

cuja distância para p não é maior que k_distance(p). Assim, Nk_dist(p) = {

q ∈ D \ {p} | d(p,q) ≤ k_distance(p) }.

3. Seja k um número natural, a distância de alcance (reachability distance) de um objeto p para um objeto o é definida como reach_distk(p,o) = max{

k_distance(o), d(p,o) } (OLIVEIRA CAMPOS, 2015, p. 10-11).

A partir de tais definições é calculada a densidade da região (lrd) onde se encontra o ponto p, equação 4.1. A determinação se o ponto p será um outlier é realizada a partir da comparação da densidade da região que ele se situa e as demais, conforme equação 4.2.

𝑙𝑟𝑑 (𝑝) = 1/ ∑ _∈ ( )𝑟𝑒𝑎𝑐ℎ (𝑝, 𝑜) 𝑁 (𝑝) (4.1) 𝐿𝑂𝐹 (𝑝) = ∑ ∈ ( ) ( ) ( ) 𝑁 (𝑝) (4.2)

Assim, o Local Outlier Factor é baseado na avaliação de quantos pontos vizinhos (k) um dado ponto (p) do conjunto de dados (D) tem em uma vizinhança abrangida por um raio (r). Assim, os pontos que tiverem uma baixa densidade relativa de vizinhos são considerados outliers. De forma esquemática, a partir da Figura 36 e considerando k = 4, o algoritmo baseado no

Local Outlier Factor tem o seguinte procedimento:

i. determina um raio de vizinhança para cada um dos pontos, de forma a cada um deles ter 4 vizinhos;

ii. verifica a densidade relativa da área formada por cada um dos círculos (lrdk(p));

iii. determina as densidades relativas que serão caracterizadas como outliers em função do baixo valor (LOFk(p)), sendo que para LOFk(p) ≈ 1 o ponto é inlier e para LOFk(p) >> 1 o ponto é um outlier.

Figura 36: Representação do Local Outlier Factor na determinação da vizinhança, para k=4.

(Adaptado de WENIG, 2018).

4.2.3 Padronização dos dados

Considerando a variedade de características dos dados a serem obtidos, podendo haver dados a serem utilizados por faixa de tempo, binários ou de magnitudes diversas, realizou-se a padronização dos dados.

A padronização das variáveis visa sua otimização durante a modelagem, diminuindo o tempo de convergência do modelo. Estudo realizado por Anysz, Zbiciak e Ibadov (2016) sobre o efeito da padronização dos dados em modelos de redes neurais, indicou diminuição nas taxas de erro quando da utilização da técnica.

A padronização de uma dada variável x, com média xm e desvio padrão  é dada por (4.3):

𝑍 = (𝑥 − 𝑥 )/𝜎 (4.3)

Dessa forma, Zi será adimensional com média igual a zero e variância igual a um. Os dados binários ou aqueles que utilizam classificação por faixa alimentam o modelo sem realização do procedimento supra.

A vantagem de utilizar a padronização dos dados, além de melhorar a convergência do modelo, é reduzir o tempo e recurso computacional no desenvolvimento.

No documento Redes neurais artificiais para modelagem de altos-fornos. (páginas 84-87)