4.3 A Base de Faces Humanas
5.1.1 O Processo de Recuperação
Uma vez descrito o problema, o processo de recuperação faz uma busca nos casos com maior similitude no banco de casos. Para que esta busca seja eficaz é necessário que haja uma eficiente indexação dos casos. São características desejáveis dos índices de uma indexação: (i) previsibilidade, (ii) generalidade para permitir seu uso em outros casos e (iii) objetividade para que este possa ser associado facilmente com algum caso no futuro. Tanto processos manuais como automáticos têm sido usados para a seleção de índices. Apesar da crença de Janet Kolodner [Kolodner, 1993] de que indivíduos tendem a escolher melhor os índices do que algoritmos, os métodos de indexação automáticos são objeto de constantes pesquisas e avanços.
O processo de recuperação envolve os seguintes processos distintos: i. Identificação das características através da indexação.
ii. A busca do caso similar propriamente dita, a qual em geral é realizada por um modelo de busca serial, hierárquica ou paralela.
iii. A avaliação de similitude entre os casos. iv. Seleção do caso mais próximo.
Ao contrário das buscas em bases de dados onde se tem um alvo bem determinado, a recuperação de dados em CBR deve usar heurísticas capazes de fazer um casamento parcial,
visto que em geral um novo caso não obrigatoriamente será completamente semelhante ao anterior. O resultado deste processo pode ser a seleção de mais de um caso que são suficientemente próximos ao novo caso. Na seção 5.2 são abordados com detalhes os mecanismos de avaliação de similitude entre os casos.
5.1.2 O Processo de Reutilização
Nesta etapa, os casos anteriores e atuais são combinados resultando em uma “solução sugerida”. A reutilização volta-se para as diferenças entre o caso anterior e o novo caso, e que partes do caso antigo poderão ser transferidas para o novo caso. Este processo envolve a cópia das características semelhantes e a adaptação do novo caso.
5.1.3 O Processo de Revisão
No processo de revisão a solução sugerida é avaliada através de problemas reais e/ou analisada por um “professor” , podendo sofrer correções se seu desempenho se não atingir os níveis preestabelecidos. Em caso de sucesso o resultado é apresentado como “solução confirmada”. Este processo é composto de duas etapas:
i. Avaliação da solução adotada com base na reutilização do caso anterior.
ii. Adaptação da solução do caso se a avaliação da solução não satisfizer. Uma vez que um caso é recuperado, o sistema de RBC deve adaptar o caso escolhido para as necessidades do corrente problema. O processo de adaptação considera as diferenças entre os dois casos e aplica regras ou fórmulas que consideram estas diferenças junto ao novo caso.
Observa-se que quando a solução de um problema obtida através da reutilização de um caso não é satisfatória abre-se uma oportunidade para aprender com os erros.
5.1.4 O Processo de Retenção
Finalmente o processo do RBC se completa pela retenção do conhecimento gerado no ciclo e inclusão destas informações na base de dados para uso futuro. O armazenamento dos casos é um fator importante para o desempenho de um sistema de RBC. A base de dados deve ser estruturada de forma a permitir uma eficiente busca durante o processo de recuperação de casos.
5.2 Cálculo da Similitude
Uma das condições necessárias para o uso do RBC é que o espaço de dados esteja em um espaço métrico. A escolha de um caso semelhante para a solução de problemas exige o uso de alguma ferramenta que diga quão próximo a suposta solução está do caso sob análise. A medida de proximidade entre um caso a e um caso b é chamada de medida de similitude
S (a,b) . Esta função associa a todo par de dados do conjunto U um valor real não negativo tal
que d (a ,b ) : U —» 9 T . Assim V a,b e U as propriedades da similitude são definidas como:
i. Assertividade: d (a ,b ) = 0 se a = b .
ii. Simetria: d (a ,b ) = d (b ,a ).
iii. Desigualdade triangular: d ( a ,c ) < d ( a ,b ) + d ( b , c ) .
Dado um conjunto de pontos pode-se definir várias funções distância formando vários espaços métricos diferentes. Assim podem ser usadas na avaliação de similitudes entre casos as funções que calculam as seguintes distâncias: (i) Distância Euclidiana, (i) Distância de Hamming, (iii) Distância de Mahalanobis, (iv) Distância de Minkowski, (v) Distância de Camberra e outras. Se a distância Euclideana é usada tem-se o espaço Euclidiano e é neste espaço que são válidos os teoremas apresentados no célebre livro "Os Elementos’ de Euclides. Este espaço tem grânde motivação para muitos por coincidir com a geometria a que estamos acostumados em nosso dia corrente. A de Minkewski define o espaço de mesmo nome e é pouco intuitivo por ser o da teoria da relatividade. O de Hamming é também pouco intuitivo mas em geral implica num mínimo de cálculos acelerando bastante algoritmos de busca em CBR simbólico. A escolha da função de distância é importante, pois cada uma delas possui características particulares que serão refletidas nos resultados do cálculo [Duda et al., 2000]. As duas mais conhecidas são a distância de Hamming ou Manhattan e a distância Euclidiana.
5.2.1 A Distância Euclidiana
É adequada para o tratamento de classes cujos elementos tendem a se agrupar em tomo da média, ou seja, com pequena variância, é o caso de sistemas de reconhecimento de caracteres impressos em cheques [Kimura e Shridhar, 1999] e [Shridhar e Badreldin, 1999], O cálculo da distância Euclidiana é indicado também para problemas onde as classes apresentam comportamento semelhante quanto à forma da função de distribuição de probabilidades e valores de variância [Machado, 1994]. A função da distância Euclidiana pode ser vista na equação 5.1:
d E = j £ { a i - b , ) 2 (5.1)
Onde:
dE = distância Euclidiana;
a¡ = Dados da forma de face de referência;
b¡ = Dados da forma de face sob teste;
i = i-ésimo termo dos conjuntos de dados.
5.2.2 A Distância de Hamming
A distância de Hamming utiliza somente a soma dos módulos da diferença ao invés da raiz quadrada da soma quadrática das distâncias como na Euclidiana. Isto lhe confere um menor custo computacional [Barreto, 2001], aliado à vantagem de que os valores extremos (outliers) não são amplificados como no caso da distância Euclidiana onde estas diferenças são elevadas ao quadrado.
A distância de Hamming é dada por.
d H {a ,b ) = Y \ a i - b t\ (5.2)
i
Onde:
dH = distância de Hamming;
ai = dados da forma de face de referência;
bi = dados da forma de face sob teste;
i = i-ésimo termo dos conjuntos de dados.
A figura 5.3 mostra esquematicamente como são calculadas as distâncias entre duas formas de faces.
Figura 5.3 Visualização do cálculo de distâncias entre duas formas de faces.