• Nenhum resultado encontrado

Discovery em Workflows de Classificação de Imagens

N/A
N/A
Protected

Academic year: 2021

Share "Discovery em Workflows de Classificação de Imagens"

Copied!
7
0
0

Texto

(1)

Discovery em Workflows de Classificac¸˜ao de Imagens

Rodrigo Kuerten1, Daniel dos Santos Kaster1

1Departamento de Computac¸˜ao – Universidade Estadual de Londrina (UEL)

Caixa Postal 10.011 – CEP 86057-970 – Londrina – PR – Brasil

rodkue@gmail.com, dskaster@uel.br

Abstract. This research seeks to establish a comparative study of scientific workflows’ of image classification cases, in the feature selection field focusing on images applied in a distributed architecture. The goal of this research is reach a quality pattern of similarity space using scientific workflows through techniques of discovery and process mining.

Resumo. Esta pesquisa busca estabelecer um estudo comparativo entre conjun-tos deworkflows cient´ıficos de classificac¸˜ao de imagens no campo da selec¸˜ao de caracter´ısticas com enfoque a imagens, aplicados em uma arquitetura dis-tribu´ıda. O objetivo dessa pesquisa ´e alcanc¸ar um padr˜ao de qualidade para definic¸˜ao de espac¸os de similaridade usandoworkflows cient´ıficos atrav´es de t´ecnicas de descoberta e minerac¸˜ao de processos.

1. Introduc¸˜ao

O avanc¸o da tecnologia digital tornou praticamente universal a possibilidade de se re-gistrar eventos dos mais variados por meio de imagens. Alguns dos equipamentos que diariamente registram uma infinidade delas que podem ser citados s˜ao as cˆameras digi-tais, celulares, sat´elites, radares rodovi´arios e equipamentos m´edicos. Dentro da ´area m´edica, por exemplo, as imagens s˜ao registradas por meio de radiografias, ressonˆancias magn´eticas, tomografias computadorizadas e ultrassonografias [3].

A grande quantidade de imagens pode dificultar o trabalho de um indiv´ıduo em acessar apenas aquelas que lhe s˜ao relevantes no momento. Isso afeta desde usu´arios que utilizam motores de busca para encontrar imagens a partir de uma descric¸˜ao de seu conte´udo at´e pesquisadores que desejam detectar padr˜oes de atividade solar atrav´es da similaridade existente entre as cerca de setenta mil imagens registradas diariamente [5]. Essa dificuldade decorre do fato de que recuperar imagens com base em seu conte´udo ´e uma tarefa n˜ao trivial para computadores.

Sistemas de recuperac¸˜ao de imagens por conte´udo (Content-Based Image Retrie-val– CBIR) e de classificac¸˜ao dependem de vetores de caracter´ısticas que s˜ao extra´ıdos das imagens. ´E comum que o tamanho destes vetores sejam da ordem de centenas de ca-racter´ısticas. Quanto maior a dimens˜ao do vetor, mais informac¸˜oes irrelevantes e redun-dantes existem que, quando removidas, aumentam o precis˜ao e o desempenho de sistemas CBIR e de classificac¸˜ao [8, 2].

A criac¸˜ao de um espac¸o de similaridade n˜ao ´e uma tarefa trivial por causa de di-versos motivos [1]. O principal motivo ´e devido a variedade de algoritmos que podem ser empregados em cada etapa do processo e decidir qual ´e a mais adequado em dado

(2)

contexto pode exigir testar v´arias combinac¸˜oes diferentes. Como um exemplo, em mui-tas situac¸˜oes ´e apropriado realizar, al´em da extrac¸˜ao de caracter´ısticas propriamente dita, tamb´em a selec¸˜ao ou transformac¸˜ao de caracter´ısticas; operac¸˜oes que manipulam as di-mens˜oes dos vetores de caracter´ısticas.

Tendo isso em vista, o trabalho de [6] prop˜oe uma arquitetura que integra elemen-tos e operadores que possibilitam definir-se um espac¸o de similaridade atrav´es de work-flowscient´ıficos, permitindo trabalhar-se com abordagens para recuperac¸˜ao de imagens por conte´udo de forma intuitiva.

Observando a infinidade de possibilidades e tarefas que um workflow permite, nem sempre ´e poss´ıvel ter um modelo workflow ´otimo para uma determinada consulta. N˜ao s´o isso, outra dificuldade para a escolha das melhores tarefas est´a ligada tamb´em a criac¸˜ao de espac¸os de similaridades, visto que para avaliar se determinado espac¸o de similaridade ´e adequado, um dependˆencia de conhecimento do dom´ınio dos dados ´e necess´aria, o que geralmente exige o envolvimento de um especialista da ´area.

Na arquitetura a ser utilizada, os workflows utilizados geram um registro do pro-cessamento de suas tarefas, o chamado log de eventos. Dessa forma, atrav´es de t´ecnicas de minerac¸˜ao de processos ´e poss´ıvel “descobrir” automaticamente um modelo de workflow apropriado para o processo de definic¸˜ao do espac¸o de similaridade em quest˜ao.

Neste trabalho, ser˜ao comparados estudos de caso de operac¸˜oes em workflows cient´ıficos, modelados para classificac¸˜ao de imagens em consultas por similaridade. O objetivo final ´e alcanc¸ar um espac¸o de similaridade adequado usando workflows eficientes para classificac¸˜ao de imagens atrav´es do uso de descoberta (discovery) em minerac¸˜ao de processos (process mining) e testes de m´ultiplos estudos de casos de workflows.

A Sec¸˜ao 2 apresenta a fundamentac¸˜ao te´orico-metodol´ogica e o estado da arte. A Sec¸˜ao 3 apresenta os objetivos que motivar˜ao a pesquisa e o desenvolvimento do estudo. A Sec¸˜ao 4 descreve como ser˜ao usados os conceitos, m´etodos e t´ecnicas apresentados na Sec¸˜ao 2, para atingir os objetivos do trabalho. A Sec¸˜ao 5 identifica o per´ıodo esti-mado para cada atividade e a Sec¸˜ao 6 apresenta as contribuic¸˜oes esperadas do trabalho resultante.

2. Fundamentac¸˜ao Te´orico-Metodol´ogica e Estado da Arte

Alguns conceitos que ser˜ao usados de base para o desenvolvimento deste trabalho s˜ao apresentados a seguir.

2.1. Recuperac¸˜ao de Imagens com Base em Conte ´udo

Para o contexto desta pesquisa, dados complexos incluem textos de grande extens˜ao, ima-gens, sons, v´ıdeos digitais, dados espaciais, dados geogr´aficos e s´eries temporais. Os m´etodos de consulta tradicionais n˜ao s˜ao aplic´aveis sobre estes dom´ınios de dados, pois os operadores de comparac¸˜ao relacionais n˜ao s˜ao definidos para esse tipo de dado e os de igualdade e desigualdade tˆem pouca utilidade. Em vez disso, para se recuperar dados complexos a abordagem mais utilizada ´e atrav´es de consultas por similaridade. Consultas por similaridade consistem em recuperar elementos de um conjunto de dados a partir de um crit´erio baseado na similaridade entre pares de objetos [11].

(3)

Uma forma de modelar dados complexos em uma representac¸˜ao que permita a realizac¸˜ao de consultas por similaridade ´e atrav´es de vetores de caracter´ısticas, que s˜ao conjuntos de atributos que geralmente sumarizam o conte´udo do dado em uma representac¸˜ao num´erica [10]. Por exemplo, caracter´ısticas visuais de imagens podem ser identificadas usando-se algoritmos de extrac¸˜ao de caracter´ısticas baseados em cor, textura ou forma. Esse processo de extrac¸˜ao gera, ent˜ao, um vetor de caracter´ıstica para cada objeto do conjunto de dados original, e ´e com base nesse conjunto de vetores que as con-sultas por similaridade podem ser feitas a partir de alguma noc¸˜ao de distˆancia computada por uma func¸˜ao definida para o dom´ınio de dados em quest˜ao. Esse par formado por um conjunto de vetores de caracter´ısticas e uma func¸˜ao distˆancia define uma instˆancia de espac¸o de similaridade. Dentro desse espac¸o, objetos s˜ao representados por pontos e a distˆancia entre pontos ´e inversamente proporcional `a similaridade entre os objetos originais.

Focando na ´area de imagens, o trabalho de [6] prop˜oe uma arquitetura que per-mite que usu´arios sem conhecimento pr´evio de programac¸˜ao possam trabalhar no pro-cesso de recuperac¸˜ao de imagens em larga escala, atrav´es de uma abordagem baseadas em computac¸˜ao distribu´ıda e paralela. A arquitetura integra elementos e operadores que possibilitam definir-se um espac¸o de similaridade atrav´es de workflows cient´ıficos, permi-tindo trabalhar-se com abordagens para recuperac¸˜ao de imagens por conte´udo de forma intuitiva.

2.2. Workflows Cient´ıficos

Um workflow cient´ıfico ´e uma ferramenta que foca em facilitar o controle de sistemas computacionais sem a necessidade de programar dentro do sistema diretamente, econo-mizando tempo e permitindo que um usu´ario possa usar uma aplicac¸˜ao complexa igno-rando o n´ıvel de implementac¸˜ao dela [9]. Ela permite o encadeamento de tarefas (cha-madas tasks) de alto n´ıvel, sendo capaz de combinar ferramentas como portas l´ogicas e estruturas b´asicas de programac¸˜ao (loops e estruturas condicionais, por exemplo), como mostrado na figura 1.

A Figura 2 mostra como as bibliotecas e os frameworks usados na arquitetura podem ser organizados dentro de uma vis˜ao hier´arquica. Comec¸ando na camada mais alta, mais pr´oxima do usu´ario final est´a o Taverna Workbench1, um Workflow Management System(WFMS) open-source. O Taverna ´e respons´avel por mapear as tarefas montadas pelo usu´ario. Ele foi escolhido devido a sua interface gr´afica para construc¸˜ao de workflows e suporte ao uso de chamado de servic¸o remoto pela internet.

A execuc¸˜ao das atividades do workflow consistem em chamada de servic¸o pela web, onde o Axis2 Web Service2 ´e usado. Em particular, ele usado pela sua vantagem

em fornecer uma interface baseada em WSDL (Web Services Description Language), a mesma na qual o Taverna ´e configurado para usar. As chamadas recebidas pelo Axis2 s˜ao ent˜ao respons´aveis por ativar as requisic¸˜oes REST para o Spark JobServer3, um sistema

que permite o controle de contexto no Apache Spark atrav´es de uma interface REST.

1https://taverna.incubator.apache.org/

2http://axis.apache.org/axis2/java/core/index.html 3https://github.com/spark-jobserver/spark-jobserver

(4)

O framework Apache Spark4recebe do Spark JobServer toda informac¸˜ao que pre-cisa para processar os dados de acordo com as especificac¸˜oes do usu´ario, incluindo qual dataset a ser usado e qual algoritmo vai aplicar. Os algoritmos usados para o proces-samento de imagens s˜ao da biblioteca ImageJ e o de extrac¸˜ao de caracter´ısticas s˜ao da JFeatureLib5. O Spark ´e o respons´avel por controlar os recursos do cluster e prevenir tolerˆancia a falhas no n´ıvel da aplicac¸˜ao. Finalmente, o Hadoop Distributed File System (HDFS) ´e usado para guardar os dados de maneira distribu´ıda e com tolerˆancia a falhas.

As tarefas montadas pelo usu´ario no Taverna geram um log de eventos; um registro de como se deu o processamento de cada uma das tarefas inclu´ıdas no workflow. Esses registros ser˜ao adaptados e minerados para identificac¸˜ao de processamentos com padr˜ao de sucesso.

Figura 1. Exemplo de Workflow modelado no Taverna Workbench

2.3. Process Mining

A minerac¸˜ao de processos (process mining) ´e um conjunto de t´ecnicas de gerenciamento de projetos de neg´ocios. O objetivo da minerac¸˜ao de processos ´e extrair um modelo expl´ıcito de processo a partir de logs contendo sequˆencias de eventos gerados por um sistema computacional em execuc¸˜ao [12]. Esse conjunto de t´ecnicas ´e dividida em trˆes classes: discovery, conformance check e performance mining.

Para este projeto, ser´a trabalhado a classe de discovery (ou descoberta). A desco-berta na minerac¸˜ao de processos pode ser definida como um procedimento de extrac¸˜ao de conhecimento de fontes de informac¸˜ao, gerando um modelo de processo com base nessas fontes de informac¸˜ao. Atrav´es do log gerado pelos workflows usados na arquitetura, ´e possui aplicar a t´ecnica de discovery para gerar um modelo de workflow base. Um algo-ritmo simples, por´em comumente usado para descoberta em minerac¸˜ao de processo ´e o α-algoritmo (algoritmo alpha) [13].

4http://spark.apache.org/

(5)

Figura 2. Pilha de estrutura da arquitetura.

3. Objetivos

O objetivo final desta pequisa ´e alcanc¸ar um espac¸o de similaridade adequado atrav´es do uso de workflows eficientes para classificac¸˜ao de imagens, utilizando descoberta (dis-covery) em minerac¸˜ao de processos (process mining) para guiar a criac¸˜ao do espac¸o. Tamb´em podem ser considerados objetivos:

• demonstrar que comparac¸˜oes de workflows para imagens devem ser feitas com respeito a um tipo espec´ıfico de imagem.

• avaliar o impacto causado pela adoc¸˜ao de certas atividades (tasks) dentro de um workflow.

4. Procedimentos metodol´ogicos/M´etodos e t´ecnicas

De maneira a atingir o objetivo deste trabalho, ser´a realizado um estudo comparativo de diferentes estudos de casos de workflows de classificac¸˜ao de imagens, aplicando-os em bancos de imagens existente no grupo de pesquisas CROSS, al´em de outros conjuntos de dados tais como alguns dos conjuntos utilizados em [7] e [4].

V´arios estudos de casos de workflows cient´ıficos relevantes para classificac¸˜ao de imagens ser˜ao levantados para serem usados na criac¸˜ao do modelo. Junto a este passo, ser˜ao constru´ıdos workflows cient´ıficos que gerem espac¸os de similaridade alternativos para problemas de CBIR e classificac¸˜ao de imagens.

Conclu´ıda esta etapa, para a utilizac¸˜ao na arquitetura, estes workflows ser˜ao testa-dos, tais como o workflow utilizado em [7], e ser˜ao modelados alguns workflows sint´eticos em conjunto aos estudos de caso, tais como se fossem modelados por um usu´ario da aplicac¸˜ao. Assim, ser˜ao extra´ıdos detalhes do processo decis´orio que sejam relevantes para an´alise de similaridade, incluindo variac¸˜oes de algoritmos e parˆametros.

Ao final dessa etapa, o log de eventos gerado pelos workflows testados passar˜ao pela minerac¸˜ao de processos para a criac¸˜ao de um modelo de workflow a ser refinado e testado. Os logs gerados pelo Taverna, o WFMS em uso, ser˜ao adaptados para o problema se for necess´ario. Os logs para identificac¸˜ao de processos com padr˜ao de sucesso ser˜ao ent˜ao minerados para construir a modelagem do workflow eficiente.

(6)

5. Cronograma de Execuc¸˜ao

As atividades descritas na sec¸˜ao 4 seguir˜ao o cronograma de execuc¸˜ao apresentado na Tabela 1.

Atividades:

1. levantamento de estudos de casos de workflows e conjuntos de dados para testes; 2. aplicac¸˜ao inicial dos workflows aos conjunto de testes;

3. an´alise da eficiˆencia dos diferentes casos quando aplicados as base de dados; 4. minerac¸˜ao dos logs de eventos dos casos de testes aplicados com sucesso; 5. comparac¸˜ao e modelagem de um workflow eficiente atrav´es da minerac¸˜ao; 6. redac¸˜ao do TCC.

Tabela 1. Cronograma de Execuc¸ ˜ao

abr mai jun jul ago set out nov dez jan Atividade 1 X X Atividade 2 X X Atividade 3 X X Atividade 4 X X X Atividade 5 X X X Atividade 6 X X X X

6. Contribuic¸˜oes e/ou Resultados esperados

Espera-se que este trabalho ajude a apontar um modelo eficiente de workflow para classificac¸˜ao de imagem, quais tipos de tarefas s˜ao mais ou menos apropriadas para serem aplicadas em certos bancos de imagens e no estudo de classificac¸˜ao de imagens.

7. Espac¸o para assinaturas

Londrina, quatro de abril de 2018.

—————————————— ——————————————

Rodrigo Kuerten Daniel dos Santos Kaster

Referˆencias

[1] D. S.; RAZENTE H. L.; TRAINA A. J. M.; TRAINA JR C. BARIONI, M. C. N.; KAS-TER. Advanced Database Query Systems: Techniques, Applications and Techno-logies, chapter Querying Multimedia Data by Similarity in Relational DBMS. IGI Global, 2011.

[2] S´ergio Francisco da Silva. Selec¸˜ao de caracter´ısticas por meio de algoritmos gen´eticos para aprimoramento de ranking e de modelos de classificac¸˜ao. PhD thesis, Instituto de Ciˆencias Mat´ematicas e de Computac¸˜ao - USP, 2011.

(7)

[3] Atam P. Dhawan. Medical image analysis. Wiley-IEEE Press, 2011.

[4] Gabriel F. C. Campos, Rafael G. Mantovani, Sylvio Barbon Jr. A meta-learning approach for recommendation of image segmentation algorithms. In 29th SIBGRAPI Confe-rence on Graphics, Patterns and Images, 2016.

[5] Tim Wylie, Patrick McInerney, Rafal A. Angryk, Juan M. Banda, Michael A. Schuh. When too similar is bad: A practical example of the solar dynamics observatory content-based image-retrieval system, chapter IEEE Symposium on Computational Intelligence and Data Mining. Springer, 2014.

[6] Daniel dos Santos Kaster, Luis Fernando Milano Oliveira. Defining similarity spaces for large-scale image retrieval through scientific workflows. In 21st International Database Engineering & Applications Symposium, 2017.

[7] Nektarios A. Valous, Douglas Fernandes Barbin, Luiz Fernando Santos Pereira, Sylvio Barbon Jr. Predicting the ripening of papaya fruit with digital imaging and random forests. Computers and Electronics in Agriculture, 145, 2018.

[8] M. Hall M. Gutlein, E. Frank and A. Karwath. Large-scale attribute selection using wrap-pers. In IEEE Symposium on Computational Intelligence and Data Mining, 2009. [9] Johan Montagnat, Ian Taylor, Malcolm Atkinson, Sandra Gesing. Scientific workflows:

Past, present and future. Future Generation Computer Systems 75, pages 216–227, 2017.

[10] Alberto S. Aguado, Mark S. Nixon. Feature Extraction and Image Processing. Butterworth-Heinemann, 2002.

[11] Vlastislav Dohnal, Michal Batko, Pavel Zezula, Giuseppe Amato. Similarity Search: The Metric Space Approach. Springer, 2006.

[12] Wil M.P. van der Aalst. Process Mining: Discovery, Conformance and Enhancement of Business Processes. Springer, 1st edition, 2011.

[13] Wil M.P. van der Aalst, Ton Weijters, Laura Maruster. Workflow mining: discovering process models from event logs. IEEE Transactions on Knowledge and Data Engi-neering, 16(Issue 9), 2004.

Referências

Documentos relacionados

Nessa situação temos claramente a relação de tecnovívio apresentado por Dubatti (2012) operando, visto que nessa experiência ambos os atores tra- çam um diálogo que não se dá

(grifos nossos). b) Em observância ao princípio da impessoalidade, a Administração não pode atuar com vistas a prejudicar ou beneficiar pessoas determinadas, vez que é

A assistência da equipe de enfermagem para a pessoa portadora de Diabetes Mellitus deve ser desenvolvida para um processo de educação em saúde que contribua para que a

Ninguém quer essa vida assim não Zambi.. Eu não quero as crianças

Este dado diz respeito ao número total de contentores do sistema de resíduos urbanos indiferenciados, não sendo considerados os contentores de recolha

Os doentes paliativos idosos que permanecem nas instituições privadas são encaminhados pelos hospitais em que estavam ou internados pelos próprios familiares

Agreement among measurements of the same quantity is fundamental for validity studies, randomised controlled trials and to ensure efficient delivery of health care. As it

Assim, além de suas cinco dimensões não poderem ser mensuradas simultaneamente, já que fazem mais ou menos sentido dependendo do momento da mensuração, seu nível de