• Nenhum resultado encontrado

Recupera¸c˜ao de Imagens M´edicas Combinando Metadados e Conte´ udo

2.4 Recupera¸c˜ao de Imagens M´edicas por Similaridade

2.4.5 Recupera¸c˜ao de Imagens M´edicas Combinando Metadados e Conte´ udo

Uma particularidade das imagens m´edicas ´e que elas normalmente tˆem uma riqueza de atributos descritivos associados. Estes metadados provˆem de v´arias fontes, tais como registros de consultas e dados de exames e laudos. Em especial, o padr˜ao DICOM de- fine um amplo conjunto de atributos (tags) descrevendo o conte´udo da imagem, que s˜ao utilizados para responder `a grande maioria das buscas em PACS. Entretanto, v´arias tags DICOM importantes s˜ao preenchidas manualmente pelo operador do equipamento ra- diol´ogico, como, por exemplo, a hip´otese diagn´ostica e as descri¸c˜oes do estudo e da s´erie. Portanto, os valores para estas tags s˜ao sujeitos a erros de digita¸c˜ao e falta de padro- niza¸c˜ao, comprometendo o processo de busca. O mesmo ocorre para metadados de outras fontes (laudos, registros de consulta, etc.). Al´em disso, quando o usu´ario n˜ao sabe definir exatamente o que procura, o que frequentemente ocorre em aplica¸c˜oes para a ´area m´edica, formular corretamente uma consulta torna-se mais dif´ıcil e suscet´ıvel a erros.

Combinar condi¸c˜oes baseadas em metadados e condi¸c˜oes baseadas em similaridade pode melhorar a efic´acia da busca, pois um tipo de condi¸c˜ao complementa o outro. A recupera¸c˜ao baseada em metadados utiliza t´ecnicas consagradas de busca, pois os me- tadados de uma forma geral s˜ao de tipos de dados simples, tais como n´umeros, datas e textos curtos. Contudo, esta abordagem depende da existˆencia de metadados associados

aos dados. Embora a associa¸c˜ao manual de anota¸c˜oes textuais a imagens possibilite uma boa descri¸c˜ao do conte´udo do dado, ´e um processo invi´avel para tratar grandes massas de dados. Al´em de trabalhosa, essa tarefa ´e sens´ıvel `a subjetividade dos respons´aveis pelas anota¸c˜oes. Neste ponto, entram as t´ecnicas de recupera¸c˜ao baseadas em conte´udo, para realizar uma inferˆencia autom´atica do conte´udo da imagem e permitir realizar buscas utilizando padr˜oes visuais.

H´a v´arios trabalhos na literatura que prop˜oem combinar recupera¸c˜ao baseada em metadados e recupera¸c˜ao baseada em conte´udo. Por exemplo, o trabalho descrito em (Kalpathy-Cramer e Hersh, 2010) aplica t´ecnicas para criar anota¸c˜oes autom´aticas para as imagens, que s˜ao utilizadas como atributos textuais para filtrar e ordenar resultados durante a recupera¸c˜ao. Outros trabalhos, tais como (N´ev´eol et al., 2009), permitem aos usu´arios fornecer tanto palavras-chave quanto imagens de exemplo na defini¸c˜ao das consultas. As consultas s˜ao submetidas a dois mecanismos de busca complementares, um que executa uma consulta utilizando as palavras-chave e outro que executa a consulta baseada em conte´udo tomando o exemplo fornecido como referˆencia de consulta. Os resultados parciais dos dois mecanismos de busca s˜ao combinados em um passo posterior, retornando o resultado final ao usu´ario. Esta dicotomia entre busca por metadados e busca por conte´udo tamb´em ocorre em outros sistemas bastante conhecidos na ´area, tais como o projeto IRMA (Image Retrieval in Medical Applications – Recupera¸c˜ao de Imagens em Aplica¸c˜oes M´edicas) (Lehmann et al., 2004) e o SPIRS (Spine Pathology & Image Retrieval System – Sistema de Recupera¸c˜ao de Patologias de Espinha e Imagens) (Hsu et al., 2009). O uso de mecanismos separados impede a aplica¸c˜ao de otimiza¸c˜oes na estrat´egia de consulta, baseadas nas seletividades de cada tipo de condi¸c˜ao.

Analisando as abordagens de recupera¸c˜ao de imagens m´edicas utilizando metadados e conte´udo verifica-se que, em geral, s˜ao voltadas para conjuntos de dados controlados e relativamente pequenos. A maior parte dos trabalhos encontrados na literatura foram testados utilizando conjuntos contendo uns poucos milhares de imagens. Alguns trabalhos manipulam bancos de dados maiores, por´em ainda armazenando pouco mais de 100.000 imagens (por exemplo, (Hsu et al., 2009) e (Rahman et al., 2010)). Em parte, isto pode ser explicado pelo fato de que para avaliar a efic´acia de uma t´ecnica, em termos de qualidade do resultado, ´e necess´ario considerar um conjunto de dados controlado, que geralmente ´e de tamanho reduzido. Entretanto, aplica¸c˜oes reais de gerenciamento de imagens m´edicas manipulam grandes volumes de dados, pois ´e comum que centenas ou milhares de imagens sejam geradas diariamente em uma institui¸c˜ao de sa´ude. Desta forma, se um sistema de CBIR n˜ao implementa estrat´egias de busca escal´aveis, ele torna-se invi´avel `a medida que o banco de imagens cresce. Este problema ´e conhecido como uma lacuna de desempenho (performance gap) em sistemas de recupera¸c˜ao de imagens m´edicas por conte´udo (Deserno et al., 2009; Traina et al., 2009).

2.5

Considera¸c˜oes Finais

Este cap´ıtulo descreveu v´arios aspectos relacionados `a recupera¸c˜ao de dados complexos por similaridade. Foram introduzidos o problema da representa¸c˜ao de consultas envol- vendo dados complexos e o processo de avalia¸c˜ao de similaridade. Tamb´em foram apre- sentados os principais tipos de consultas por similaridade e uma revis˜ao das abordagens para a recupera¸c˜ao de imagens m´edicas por conte´udo.

O pr´oximo cap´ıtulo apresenta os principais aspectos referentes `a inclus˜ao de consul- tas por similaridade em SGBDs. S˜ao apresentadas as principais abordagens para repre- senta¸c˜ao alg´ebrica das opera¸c˜oes de consulta por similaridade encontradas na literatura, bem como os algoritmos mais difundidos para sua execu¸c˜ao. Tamb´em ´e discutido o suporte oferecido por prot´otipos e SGBDs comerciais existentes para a recupera¸c˜ao de imagens por conte´udo.

3

Inclus˜ao de Consultas por Similaridade

em SGBDRs

Dados complexos n˜ao podem ser acomodados adequadamente em tipos de dados sim- ples. Para dados multim´ıdia, por exemplo, a primeira alternativa ´e trat´a-los apenas como sequˆencias de bytes em um objeto bin´ario grande (BLOB – Binary Large OBject). Nesta representa¸c˜ao, as opera¸c˜oes de inser¸c˜ao, recupera¸c˜ao e remo¸c˜ao s˜ao suportadas de forma trivial pelo SGBD, assemelhando-se `a manipula¸c˜ao simples de arquivos em sistemas de arquivos. Para manipular adequadamente o conte´udo desses objetos bin´arios ´e necess´ario desenvolver fun¸c˜oes de manipula¸c˜ao espec´ıficas, em geral, providas por aplicativos e bi- bliotecas externos ao banco de dados.

Para capacitar um SGBD a realizar recupera¸c˜ao de imagens por conte´udo, ´e preciso ao menos implementar extratores de caracter´ısticas de imagens e fun¸c˜oes de distˆancia sobre as assinaturas geradas para as imagens e o registro dessas fun¸c˜oes junto ao SGBD, para que possam ser chamadas tanto em tarefas de consulta quanto em tarefas de atualiza¸c˜ao. A grande motiva¸c˜ao de se acoplar consultas por similaridade na m´aquina de busca dos gerenciadores ´e fazer proveito dos recursos que os SGBDs provˆem e permitir uma mani- pula¸c˜ao integrada de dados complexos e dados convencionais de maneira eficiente.

Este cap´ıtulo discute os principais aspectos relacionados `a inclus˜ao de consultas por similaridade em SGBDs relacionais. A Se¸c˜ao 3.1 apresenta uma revis˜ao das principais abordagens alg´ebricas para representa¸c˜ao de consultas por similaridade encontradas na literatura. A Se¸c˜ao 3.2 mostra como as buscas por similaridade s˜ao representadas uti- lizando uma nota¸c˜ao de ´algebra relacional estendida com opera¸c˜oes baseadas em simi- laridade. A Se¸c˜ao 3.3 apresenta os principais algoritmos para execu¸c˜ao de buscas por

similaridade em estruturas de indexa¸c˜ao de dados complexos. Por fim, a Se¸c˜ao 3.4 trata do suporte a CBIR oferecido por SGBDs comerciais e sistemas acadˆemicos de busca por similaridade integrados a sistemas de bancos de dados.