Document Images Retrieval Based on Multiple Features Combination
Gaofeng Meng et. Al.
Document Images Retrieval Based on Multiple Features Combination
Gaofeng Meng et. Al.
Dimas Gabriel , Roberto Pinheiro e Tiago Bockholt
Projeto da disciplina de Recuperação Inteligente de Informação 17/11/2009
IEEE International Conference on Document Analysis and Recognition (ICDAR 2007) Universidade Federal de Pernambuco
Centro de Informática
1
Sumário
• Introdução
– Overview e Conceitos Chaves
• Extração de Características
– Histograma da Projeção (PHF)
– Crossings Number Histogram Features (CNHF) – Local Binary Pattern (LBP)
– Density Distribution Feature (DDF)
• Algoritmos de Recuperação para sistemas DIR.
• Algoritmo de Meng (Top N)
• Experimentos
• Análise dos Resultados
• Conclusão
• Referências
2
Introdução
Overview
• Com o progresso da automação nos escritórios e os avanças nas técnicas de processamento de
imagens, as técnicas de recuperação de imagens de documentos estão sendo amplamente
desenvolvidas nos últimos anos.
• O Objetivo da recuperação de imagens de documentos é buscar imagens idênticas ou similares em uma base dado uma imagem de documento como entrada para o sistema.
3
Introdução
Overview
4
• DIRS são sistemas que visam achar documentos relevantes ou similares de uma grande base de documentos digitalizados.
• É comum que documentos sejam convertidos para texto para uma fácil busca por palavras
chaves. Entretanto, a busca utilizando OCR é uma técnica cara computacionalmente e totalmente dependente do idioma em que o documento foi escrito.
Introdução
Conceitos chave
5
Histograma da Projeção
Extração das Características
6
• PHF - Histograma é normalizado Dividindo-se cada um dos
Componentes do histograma pela soma total dos valores do mesmo.
• CNHF- O Crossings Number é o número de
vezes que há variação entre entre fundo
(background) e objeto (foreground).
Histograma da Projeção
Extração das Características
7
LBP - Matriz de pesos usada para calcular valor final a ser incrementado no histograma
DDF- Matriz na qual os componentes são as densidades relativas entre os pixels de foreground e background em cada região formada pelo particionamento
simétrico do print-Core.
• Dada uma imagem de entrada, objetivo é recuperar as imagens mais similares à entrada;
• Abordagem comum: retornar vizinhos mais próximos;
– Dificuldade em modelar um espaço onde duas imagens de documentos próximas entre si são realmente similares em conteúdo.
• Possível solução: utilização de multiplas features para medir a similaridade de dois documentos;
Algoritmo de Recuperação
Estratégia de Busca
• Realiza combinação entre técnicas:
– PHF – CNHF – LBP – DDF
• Composto de duas etapas:
– 1: União de features para gerar a pool original;
– 2: Ranquear todas as imagens da piscina de acordo com o ranking da imagem em cada uma das features.
Algoritmo de Recuperação proposto
Estratégia de Busca
Algoritmo de Recuperação
kNN Cosseno
• Descobrir os k vizinho mais próximo de uma dada instância.
• Vantagem: Não possui processamento na fase de treinamento.
• Desvantagem: Armazenar todos os dados na memória,
uma vez que o vetor de atributos que define cada padrão é necessário para o cálculo da distância.
) ,
cos(
) ,
( x y x y
d
Experimentos
Arcabouço
• Base de Imagens: 160 imagens divididas em 4 categorias
– Diferentes resoluções e tamanhos de imagens e com ruidos originais resultantes do escaneamento.
• Categoria 1:
– 40 imagens de documentos onde só existia texto impresso.
11
Experimentos
Arcabouço
• Categoria 2:
– 40 imagens de documentos com texto misturado com gráficos ou figura.
12
Experimentos
Arcabouço
• Categoria 3:
– 40 imagens de documentos com texto, imagem e figuras.
13
Experimentos
Arcabouço
• Categoria 4:
– 40 imagens de documentos onde existiam imagens dominantes.
14
Experimentos
Resultados – Algoritmo de Meng (TopN)
15
Experimentos
Resultados – Algoritmo de Meng (TopN)
16
Experimentos
Resultados – kNN Cosseno
17
Experimentos
Resultados – kNN Cosseno
18
Análise dos Resultados
Algoritmo de Meng (TopN)
19
Das Tabelas apresentadas anteriormente podemos notar que:
1. o CNHF apresentou taxas de acerto superiores
quando os documentos analisados continham texto de forma predominante mas não se mostrou muito robusto para a ruídos do tipo sal e pimenta.
2. PHF é mais adequado para recuperar documentos com figuras embora seja mais sensível a ruídos , iluminação não uniforme causada pela distorção do documento.
3. LBP é mais útil quando as texturas nas imagens de documentos são bem definidas mas não é muito efetivo para diferenciar categorias de documentos.
4. DDF não obteve um comportamento satisfatório para documentos onde o texto predomina.
Análise dos Resultados
kNN Cosseno
20
• Os testes realizados considerando a base como possuindo apenas 2 categorias apresentaram resultados melhores.
• 98% média de Acertos.
• Este teste serve como comprovação para o fato de que a base de dados
possui categorias muito semelhantes entre si e que quando adotando-se uma
abstração da base, aumentando a distinção entre as categorias, os resultados
tentem a melhorar tanto com o algoritmo proposto por Meng quando pelo
algoritmo KNN utilizando medida de similaridade do cosseno.
Conclusão da Equipe
21
Conclusão 1: As duas novas características propostas são complementares e podem ser utilizadas em conjunto para um melhor resultado.
Conclusão 2: Pela combinação das características de uma maneira multidisciplinar os pontos fracos de uma característica são compensados por outras características e os pontos fortes de cada característica são reforçados . Conclusão 3: O autor comenta que a estratégia de ranqueamento pode apresentar
resultados ineficientes quando as características combinadas são correlacionadas.
Referências Externas
• [1] Cury, M. V. Q. (1999) Modelo Heurístico Neuro-Fuzzy para Avaliação Humanísticas de Projetos de Transporte Urbano. Tese de Doutorado. UFRJ, Rio de Janeiro.
• [2] TAFNER, M. A.; XEREZ, M.; RODRIGUES FILHO, I. W.
Redes Neurais Artificiais — Introdução e princípios de neurocomputação. EKO e FURB, Blumenau. 1995.
22