• Nenhum resultado encontrado

4.2 Ciclo de um Sistema RBC

4.2.5 Similaridade Entre Casos

O objetivo de um sistema de RBC é recuperar, de sua Base de Casos, os casos que sejam o mais similar possível ao problema atual a ser resolvido. Esses casos recuperados não necessitam ser idênticos à situação atual, porém quanto maior o seu nível de similaridade, melhor será a solução ou tomada de decisão (ERVATTI; ANDRADE; SILVA, 2010). Esses casos recuperados tendem a ser facilmente adaptados para a situação atual ou até possuírem a mesma solução, a partir das semelhanças nas características observadas (MENDES,

Capítulo 4. RACIOCÍNIO BASEADO EM CASOS 50

Várias métricas diferentes de similaridade podem ser utilizadas na comparação de casos distintos, sendo elas que determinam, numericamente, o grau de semelhança, comparando os atributos que caracterizam os casos.

SegundoWangenheim, Wangenheim e Rateke (2013), o grau de similaridade serve para determinar uma ordem parcial, entre os casos na memória, quanto à sua utilidade na resolução do problema atual.

Dois tipos de funções de similaridade são utilizadas com a finalidade de promover esse ordenamento parcial: medidas de similaridade local e medidas de similaridade global. Apresentaremos algumas dessas medidas nas próximas seções.

4.2.5.1 Medida de Similaridade Local

As medidas de similaridade local tratam da semelhança dos casos no nível de atributos, individualmente. Segundo Wangenheim, Wangenheim e Rateke (2013), tais medidas saõ definidas de acordo com o tipo de cada atributo, podendo ser numéricos, simbólicos, strings, entre outros tipos, além de normalmente necessitarem de adequações para cada tipo de aplicação de RBC.

Apresentaremos algumas das principais medidas de similaridade local a seguir, considerando diversos tipos de atributos, como os explicitados acima.

Similaridade Entre Atributos Numéricos

Para os atributos numéricos, a medida da distância local entre dois números pode ser utilizada como parâmetro do cálculo da similaridade. O valor calculado pelo módulo da diferença entre os dois valores pode ser utilizado para diferentes tipos de funções que determinam a similaridade local (MENDES, 2012b).

Na Função Escada, após a definição de um limiar

S

, a similaridade será conside- rada como 1 se o módulo da diferença entre os dois atributos for menos ou igual a

S

, ou 0 se essa diferença for maior. A função escada pode ser representada pela equação:

sim(xi, yi) =    1 |xi− yi| ≤ S 0 |xi− yi| > S (4.1)

Já na Função Linear, quanto menor a distância entre dois atributos, maior será a similaridade entre eles. Essa função também considerá o tamanho do intervalo de domínio e pode ser definida pela equação abaixo, tendo

li

como limite inferior e

ls

como limite superior do domínio: sim(xi, yi) =    1 xi = yi 1 − |xi−yi| ls−li xi 6= yi (4.2)

Capítulo 4. RACIOCÍNIO BASEADO EM CASOS 51

Similaridade Entre Strings

Atributos em casos podem assumir valores textuais correspondentes a um número variável de palavras. Sempre que possível, é aconselhável substituir os valores textuais por valores simbólicos, pois o cálculo de similaridade com strings é uma tarefa árdua, computacionalmente (MENDES, 2012b). Para Ervatti, Andrade e Silva (2010), alguns enfoques para o cálculo de similaridade entre strings são:

• Correspondência exata: as strings são consideradas similares se e somente se forem escritas da mesma forma, exatamente;

• Correção ortográfica: a similaridade é calculada quando se divide o número de caracteres iguais pelo total de caracteres de uma string; e

• Contagem de palavras: o grau de similaridade se dá pela divisão do quantitativo de palavras idênticas pelo total de palavras da consulta realizada.

4.2.5.2 Medida de Similaridade Global

Diferentemente do cálculo realizado pelas medidas de similaridade local, o cálculo da similaridade global entre casos leva em consideração todos os atributos dos casos, de modo a verificar a semelhança entre esses casos.

Distância do Vizinho-mais-Próximo

Utiliza cálculos bem simples e considera cada caso como um ponto num espaço multidimensional, no qual a dimensão é calculada pelo número de atributos. Cada atributo assume um determinado índice, então a similaridade pode ser calculada pela distância espacial entre esses pontos (MENDES, 2012b).

sim(C, Q) =

n

X

i=1

f (Ci, Qi) (4.3)

A função

f

determina uma medida de similaridade local entre os casos

C

e

Q

. Distância do Vizinho-mais-Próximo Ponderada

Variação da distância do vizinho-mais-próximo que leva em consideração a impor- tância de cada um dos atributos de um caso. Dessa forma, pode ser determinado qual ou quais os atributos que terão maior peso no cálculo da similaridade (MENDES,2012b).

sim(C, Q) =

n

X

i=1

f (Ci, Qi) × wi (4.4)

A função

f

determina uma medida de similaridade local entre os casos

C

e

Q

, e

w

i indica o peso desse atributo no cálculo da similaridade.

Capítulo 4. RACIOCÍNIO BASEADO EM CASOS 52

Distância Euclidiana

Na distância euclidiana é realizado o cálculo da distância real entre dois pontos em um dado espaço, no qual a dimensão também é determinada pela quantidade de atributos válidos na mensuração da similaridade (ERVATTI; ANDRADE; SILVA,2010).

Dado um problema, representado por

Q

, e um caso, representado por

C

, esses são compostos pelos índices

Q = (q1, q2, ..., qn)

e

C = (c1, c2, ..., cn)

.

d(Q, C) = v u u t n X i=1 (qi− ci)2 (4.5)

É possível a Inserção de pesos no cálculo da distância real entre dois pontos. A determinação de maiores pesos nos atributos de um caso estará diretamente associada a importância daquele atributo para o cálculo da similaridade do caso em geral (ERVATTI; ANDRADE; SILVA, 2010).

Distância Manhattan

SegundoMendes(2012b), a distância Manhattan também utiliza aspectos geométri- cos para o cálculo da similaridade, que seria a distância entre dois pontos que representam casos do sistema de RBC. Além de considerar todos os atributos de forma homogênea, tal métrica segue um modelo de quarteirões urbanos co ruas perpendiculares, dessa forma, o grau de similaridade é dado pelo menor caminho possível entre os pontos.

d(Q, C) = n X i=1 |qi− ci| (4.6) Modelo de Vetor

Essa métrica também é uma medida de similaridade que considera um espaço geométrico, representando todos os atributos relevantes do caso no formato de um vetor. Para tanto, os atributos do tipo string são normalizados para que um descritor numérico seja obtido (MENDES, 2012b).

Se considerarmos o vetor

c = [c

1

, c

2

, ..., c

n

]

como o vetor do caso atual, e o vetor

q = [q

1

, q

2

, ..., q

n

]

como o vetor do caso a ser comparado, a similaridade pode ser obtida pela seguinte fórmula:

sim(c, q) = c.q |c|.|q| = n X i=1 (ci, qi) v u u t n X i=1 c2i v u u t n X i=1 qi2 (4.7)

Capítulo 4. RACIOCÍNIO BASEADO EM CASOS 53

Somente com todas as definições preliminares sobre o domínio, representação dos casos, forma de indexação e medida de similaridade, a execução, de fato, do ciclo de etapas do RBC pode ocorrer. As etapas do ciclo do RBC serão apresentadas nas seções seguintes desta pesquisa.

Documentos relacionados