• Nenhum resultado encontrado

2 Fundamentação Teórica

2.3.1 Teoria da Informação

A Teoria da Informação representa um campo da ciência responsável por estudar a quantificação e armazenamento da informação contida em dados. Inicialmente proposto por (SHANNON, 1948), os fundamentos da teoria da informação foram utilizados, prima- riamente, em aplicações de processamento de sinais. No entanto, nos últimos anos alguns descritores propostos na teoria da informação têm sido aplicados em métodos computaci- onais com o objetivo de quantificar informação em problemas de aprendizado, como por exemplo em (BROWN et al., 2012), onde técnicas baseadas em Informação Mútua foram utilizadas para selecionar subconjuntos de atributos em diferentes conjuntos de dados.

Técnicas baseadas em descritores da Teoria da Informação, trazem como principal bene- fício a capacidade em quantificar relações não-lineares, que são amplamente encontradas em dados provenientes de aplicações do mundo real. Nesse sentido, as subseções seguintes apresentam dois descritores da Teoria da Informação utilizados como medida de avaliação no contexto de seleção de atributos desta dissertação, Informação Mútua e Divergência de Kullback-Leibler.

2.3.1.1 Informação Mútua

A medida de informação mútua (MI, do inglês Mutual Information) calcula a quan- tidade de informação compartilhada por duas variáveis aleatórias. Em outras palavras, ela quantifica a quantidade de informação obtida por uma variável, através de outra (SHANNON, 1948). Sejam X (um atributo, no contexto de AM) e Y (um rótulo de classe) variáveis aleatórias e p seja a função probabilidade. Baseado nisso, a Informação Mútua pode ser definida como:

I(X, Y ) = X y∈Y X x∈X p(x, y) log  p(x, y) p(x)p(y)  (2.1) 2.3.1.2 Divergência de Kullback–Leibler

A divergência de Kullback-Leibler (KD, do inglês Kullback-Leibler Divergence) é uma medida que define a diferença entre duas distribuições de probabilidade. Assim sendo, a divergência de KD pode ser vista como a como a quantidade de incerteza de observar uma distribuição de probabilidade f (x) (um atributo) usando outra distribuição g(x) (um rótulo de classe) (KULLBACK; LEIBLER, 1951). Logo, a divergência de KD pode ser definida como: DKL(F ||G) = X i f (x) logf (x) g(x) (2.2)

2.3.2

Medidas de Correlação

De acordo com (JIANG; WANG, 2016), um coeficiente de correlação pode ser concei- tuado como "uma medida que quantifica até que ponto duas variáveis tendem a mudar juntas, descrevendo a força e a direção do relacionamento entre elas". Assim como as

medidas de Teoria da Informação, diversas medidas baseadas em correlação foram utili- zadas na proposição de seletores de atributos na literatura (JIANG; WANG, 2016; SAEYS; ABEEL; PEER, 2008). Em geral, valores de correlação entre duas variáveis (atributo e atributo-classe) são representados entre -1 e 1, onde quanto maior forem esses valores, mais correlacionadas são as variáveis (negativamente ou positivamente, respectivamente). Valores próximos de -1, indicam uma correlação negativa, que implica dizer que as variá- veis tendem a crescer em direções opostas, enquanto que se esse valor for mais próximo de 1, indica forte crescimento de ambas as variáveis na mesma direção (SAEYS; ABEEL; PEER, 2008). Nem sempre medidas de correlação são capazes de quantificar de maneira precisa a relação entre duas variáveis, nesse sentido diversas medidas de correlação são encontradas na literatura com objetivo de medir diferentes relações acerca da natureza dos dados (relações lineares e não-lineares), como por exemplo: Coeficientes de Pearson, Kendall e Spearman (SAEYS; ABEEL; PEER, 2008). A subseção abaixo descreve a medida de correlação de Spearman utilizada nesta dissertação.

2.3.2.1 Correlação de Spearman

A Correlação de Spearman (SP, do inglês Spearman Correlation) é um teste não- paramétrico que mede a força e a direção da associação monotônica entre o ranking de duas variáveis aleatórias, sendo capaz de medir relações de natureza não-linear entre as variáveis (SAEYS; ABEEL; PEER, 2008). A equação que descreve a correlação de SP é definida como:

SP = 1 − 6P d

2

n(n2− 1) (2.3)

Onde n é a quantidade de pares de amostras (instâncias) das variáveis (atributo e atributo-classe) e coeficiente P d2 é dado pelo seguinte cálculo (SAEYS; ABEEL; PEER,

2008):

• Organize os dados das duas variáveis em questão em duas colunas (Dados 1 e 2); • Na terceira coluna (Ranking 1), calcule o ranking da primeira variável (Dado 1),

atribuindo 1 ao menor valor, 2 ao segundo menor e assim sucessivamente;

• Repita o processo para a segunda coluna (Dado 2), criando uma quarta coluna (Ranking 4) para armazenar os valores dos rankings;

• Caso exista algum valor repetido dentro da mesma coluna de ranking (colunas 3 ou 4), substitua-os pela sua média. Por exemplo, se existem dois valores com ranking 3, substitua por 1.5;

• Na quinta coluna (d), calcule a diferença entre os pares correspondentes das colunas de ranking (colunas 3 e 4)

• Na sexta coluna (d2), eleve os valores da quinta coluna (d) ao quadrado;

• Ao final, some todos os valores da sexta coluna (d2), esse é valor do coeficiente P d2

da equação de correlação.

2.4

Otimização Multiobjetivo

A otimização simultânea de funções de objetivo concorrentes tende a não ser solu- cionada pela otimização de funções únicas, pois raramente admite uma solução única e perfeita (FONSECA; FLEMING, 1995). No contexto de seleção de atributos, se levarmos em consideração que o cálculo da relevância dos atributos pode ser visto como uma função objetivo, seletores tradicionais, em geral, consideram uma única medida de avaliação ou consideram grupos de medidas separadamente em seu processo. Dessa forma, claramente o processo de utilização de mais de uma medida de avaliação para calcular a relevância de atributos em conjuntos de dados pode ser visto como um problema de otimização. A medida que o número de objetivos concorrentes aumenta (uso de múltiplas medidas de avaliação simultaneamente) e todos são considerados, o problema rapidamente se torna complexo (FONSECA; FLEMING, 1995; MARLER; ARORA, 2004;DEB, 2014).

De acordo com (PEREZ, 2012):

A Otimização multiobjetivo pode ser definida como um vetor de variáveis de objetivos com dimensão n, y = {y1, y2, ..., yn} no espaço de busca Y . Neste

caso, o objetivo é encontrar um vetor y∗ ∈ Y que minimizem as funções obje- tivo f (x∗) = {f1(x∗), ..., fn(x∗)}. As soluções que minimizam todos os objetivos

são chamadas pareto-ótimas ou não dominadas.

Nesse sentido, a aplicação de técnicas utilizadas na otimização multiobjetivo no pro- cesso de seleção de atributos, tornam-se uma ferramenta eficaz para selecionar atributos relevantes dado diferentes critérios. Logo, a técnica empregada nesta dissertação para

realizar a escolha automatizada dos atributos é chamada de Fronteira de Pareto, sendo descrita na subseção a seguir.

Documentos relacionados