• Nenhum resultado encontrado

Al´em dos ru´ıdos, ausˆencia de valores nos atributos e inconsistˆencias, as bases de dados podem sofrer de um outro problema: dados n˜ao padronizados ou dados pouco padronizados. Os dados tamb´em podem sofrer com a n˜ao uniformidade dos atributos, isto ´e, alguns atributos s˜ao num´ericos enquanto que outros, dentro da mesma base, s˜ao categ´oricos. Alguns algoritmos de minera¸c˜ao s´o utilizam dados num´ericos enquanto que outros, s´o dados categ´oricos. Da´ı a necessidade de padronizar e tratar os dados antes das tarefas de minera¸c˜ao, que depende do algoritmo selecionado. Al´em disso, alguns algoritmos podem ser negativamente afetados se houver grande varia¸c˜ao entre valores m´aximo-m´ınimo entre os atributos; da´ı a conveniˆencia de transformar dados antes de

efetuar as tarefas de minera¸c˜ao (SILVA; PERES; BOSCARIOLI, 2016).

2.2.1 Padroniza¸c˜ao de Dados

Alguns dos problemas envolvendo a padroniza¸c˜ao de dados s˜ao, por exemplo, a capi-taliza¸c˜ao de cadeias de caracteres -strings- de dados nominais, isto ´e, a convers˜ao entre mai´usculas e min´usculas e vice-versa, problemas com acentua¸c˜ao e presen¸ca de caracteres especiais, formatos de datas diversos e convers˜ao de unidades. Esses podem ser resolvidos rodando alguma rotina que converta os dados, padronizando-os antes de serem usados para tarefas de minera¸c˜ao (CASTRO; FERRARI, 2016).

Al´em da convers˜ao de unidades para uma unidade padr˜ao, um problema t´ıpico em c´alculos de regress˜ao em s´eries econˆomicas ´e o da padroniza¸c˜ao da moeda corrente e a utiliza¸c˜ao de n´umeros ´ındices para deflacionar ou inflacionar os dados em fun¸c˜ao do tempo (ENDO, 1988).

2.2.2 Normaliza¸c˜ao da Base de Dados

Os atributos de uma base podem conter valores num´ericos ou categ´oricos. Os valores num´ericos podem se encontrar na forma ordenada e podem estar no dom´ınio dos n´umeros naturais, inteiros, racionais ou reais. Os atributos tamb´em podem ser categ´oricos, isto ´e, n˜ao apresentarem n´umeros, mas um conjunto de valores enumer´aveis, na forma de cadeias de caracteres- strings. Utiliza-se o processo de normaliza¸c˜ao de dados para adequ´a-los `a aplica¸c˜ao de determinado algoritmo de Minera¸c˜ao de Dados. Por exemplo, algoritmos de redes neurais ou algoritmos que utilizam m´etodo do c´alculo de distˆancias n˜ao trabalham com dados categ´oricos; por isso, os dados tˆem de ser transformados (CASTRO; FERRARI, 2016),(HAN; KAMBER; PEI, 2011).

Menciona-se, em seguida,alguns m´etodos de normaliza¸c˜ao, sem entrar em detalhes (SILVA; PERES; BOSCARIOLI, 2016),(CASTRO; FERRARI, 2016):

ˆNormaliza¸c˜ao Max-Min, dado por a0 = maxa−mina

a−mina, onde a s˜ao os valores de um atributoAna base de dados,minaemaxas˜ao, respectivamente os valor m´ınimo e m´aximo do atributoA;

ˆNormaliza¸c˜ao pelo score z, referida anteriormente na equa¸c˜ao 17, quando foi falado

sobre redu¸c˜ao de algoritmos usando a t´ecnica de PCA (ver 2.1.7);

ˆNormaliza¸c˜ao pelo escalonamento decimal, dado por a0 = 10aj, onde j ´e o menor inteiro tal que max(kak<1);

ˆNormaliza¸c˜ao pelo range interquartil, dado por a0 = (a−Q2)

Q3−Q1, onde Q1 , Q2 e Q3

s˜ao, respectivamente, os valores do primeiro, segundo e terceiro quartil do atributo A e a o valor que se deseja normalizar (CASTRO; FERRARI, 2016), (SILVA; PERES;

BOSCARIOLI, 2016).

A normaliza¸c˜ao pode ser usada quando temos atributos de dados que possuem varia¸c˜ao muito grande entre os valores m´ınimo e m´aximo do seu dom´ınio. Esses atributos podem ter forte influˆencia sobre os demais, caso n˜ao forem normalizados, conduzindo `a distor¸c˜oes nos resultados, conforme foi visto anteriormente na t´ecnica de redu¸c˜ao de atributos, usando PCA.

2.2.3 Discretiza¸c˜ao de dados

J´a se mencionou anteriormente que os valores de atributos de um objeto podem ser de natureza categ´orica ou num´erica. Mencionou-se tamb´em que alguns atributos trabalham com argumentos categorizados, ao passo que outros algoritmos somente trabalham com valores num´ericos. Quando um determinado algoritmo de minera¸c˜ao s´o opera com dados categorizados, ´e necess´ario discretizar os atributos. No caso de atributos com valores cont´ınuos, o processo de discretiza¸c˜ao tem como efeito a redu¸c˜ao da quantidade de valores, facilitando o processo de minera¸c˜ao (CASTRO; FERRARI, 2016),(HAN; KAMBER; PEI, 2011),(PYLE, 1999),(PYLE, 1999).

Uma das maneiras de se discretizar os valores de algum atributo ´e dividir o dom´ınio em um n´umero predeterminado de intervalos iguais. Tamb´em ´e poss´ıvel utilizar o m´etodo do encaixotamento (tamb´em conhecido por binning- ver 2.1.4 para detalhes) , an´alise de histograma, agrupamento e discretiza¸c˜ao baseada em entropia (CASTRO; FERRARI, 2016),(SILVA; PERES; BOSCARIOLI, 2016).

Na discretiza¸c˜ao por histograma, s˜ao utilizadas faixas de valores do histograma. Os valores do atributo original s˜ao substitu´ıdos de acordo com a faixa na qual estes atributos se encontram (CASTRO; FERRARI, 2016),(TAN; STEINBACH; KUMAR, 2009).

Na discretiza¸c˜ao por agrupamento, utilizam-se algoritmos de agrupamento para parti-cionar os valores dos atributos em grupos de valores. Os valores originais s˜ao substitu´ıdos por um prot´otipo, cujo valor representa o grupo. Outra t´ecnica de discretiza¸c˜ao de dados

´e o uso de entropia. Esse conceito foi abordado anteriormente na subse¸c˜ao 2.1.7 e n˜ao ser´a explicado aqui, de modo que somente o emprego da t´ecnica ser´a mostrado a seguir (HAN; KAMBER; PEI, 2011),(TAN; STEINBACH; KUMAR, 2009).

Para o entendimento da discretiza¸c˜ao usando a entropia, considere-se um conjunto de dadosDcomnobjetos ou vetores, commatributos cada e seja um dos atributos o alvo ou atributo r´otulo da classe. Supondo que esse atributo seja C e que possa assumirs valores distintos, de modo que C = {c1, c2, ...., cs}, ent˜ao,seleciona-se um atributo particular A deste conjunto de modo a realizar uma segmenta¸c˜ao da base de dados; dessa forma, o subconjunto D1 possui todos os objetos tais que o valor de A < a e o subconjunto D2 possui todos os objetos tais que o valor deA≥a. Obviamente, D1∪D2 = D. De modo mais formal,

ˆSeja Oi um objeto da base de dados D, tal queOi ∈D

ˆOi(A) o valor do atributo A para o objeto i

ˆSeja T um valor de limiar para o atributo A de modo que A ≥T ouA < T. Dessa forma, particionamos nossos objetos Oi em dois subconjuntos D1 e D2 de modo que D1∪D2=D e que Oi ∈D1⇐⇒Oi(A)< T e Oi ∈D2⇐⇒Oi(A)≥T

ˆSeja a entropia do subconjunto 1 definida como:

E(D1) =− classes s do r´otulo C; assim pode-se reescrever a equa¸c˜ao 63 como:

E(D1) = − e|D1| o n´umero de objetos dentro do subconjunto D1.

como:

Em seguida, emprega-se o conceito de Informa¸c˜ao I(D, T),entre a parti¸c˜ao D e o limiarT, sendo

I(D|T) = |D1|

|D| ∗E(D1) + |D2|

|D| ∗E(D2), com D1 ∪D2 =D (66) notando que essa fun¸c˜ao corresponde exatamente ao conceito de entropia condicional, como visto em 2.1.7

O limiar selecionado T, onde T ´e um valor do atributo A ´e escolhido de tal forma que o ganho IG(D, T) seja maximizado. Na pr´atica, o limiar ´e recursivamente calculado e uma nova parti¸c˜ao ´e obtida at´e que algum crit´erio de parada seja atingido, tal como:

IG(D|T) = E(D)−I(D, T)< δ (67) onde IG(D|T) ´e o ganho de informa¸c˜ao obtido ao se particionar o conjunto de dados, E(D) ´e a entropia do conjunto de dados e I(D, T) ´e a informa¸c˜ao conjunto de dados quando o atributoA´e particionado com o limiarT ou a entopia condicional da parti¸c˜aoD quando o limiarT ´e dado (CASTRO; FERRARI, 2016),(SILVA; PERES; BOSCARIOLI, 2016),(HAN; KAMBER; PEI, 2011).

O processo todo ´e repetido em cada sub parti¸c˜ao obtida at´e que algum processo de parada seja atingido. Al´em da discretiza¸c˜ao, esse processo tamb´em reduz o tamanho dos dados da amostra original, uma vez que os valores s˜ao substitu´ıdos pelo valorT de cada subparti¸c˜ao (FAYYAD; IRANI, 1993),(PYLE, 1999).

A estat´ıstica descritiva fornece ferramentas simples, mas poderosas para verifica¸c˜ao da qualidade de um conjunto de dados. Nas pr´oximas se¸c˜oes, enumerar-se-´a algumas dessas t´ecnicas, que ser˜ao usadas na elabora¸c˜ao dos indicadores de qualidade de dados, que constituem a proposta deste trabalho.