• Nenhum resultado encontrado

Deep Learning para Classificação de Imagens

N/A
N/A
Protected

Academic year: 2021

Share "Deep Learning para Classificação de Imagens"

Copied!
5
0
0

Texto

(1)

Deep Learning para Classificac¸˜ao de Imagens

Vinicius Eiji Martins1, Sylvio Barbon Junior1

1Departamento de Computac¸˜ao – Universidade Estadual de Londrina (UEL)

Caixa Postal 10.011 – CEP 86057-970 – Londrina – PR – Brasil

vini9x@gmail.com, barbon@uel.br

Abstract. Deep Learning is a topic that is becoming highly used in the Machine Learning area thanks to its ability to solve the most diverse problems. Although it is limited by the processing power of the computers of today, with the evolution of resources like GPUs, Deep Learning is becoming more viable for different areas of application. This work explores the use of Deep Learning techniques in the area of image classification and how it can contribute for the resolution of problems with a superior performance compared to current techniques.

Resumo. Deep Learning ´e um t´opico que, atualmente, vem se tornando muito utilizado na ´area de Aprendizado de M´aquina devido a sua capacidade de soluc¸˜ao dos mais diversos problemas. Embora seu uso ´e limitado ao poder de processamento das m´aquinas atuais, com a evoluc¸˜ao de recursos computa-cionais tais como GPUs as t´ecnicas de Deep Learning se tornaram cada vez mais vi´aveis para diferentes nichos de aplicac¸˜ao. Este trabalho explora o uso de t´ecnicas de Deep Learning na ´area de classificac¸˜ao de imagens e como elas podem contribuir para a resoluc¸˜ao de problemas com um desempenho preditivo superior aos atuais conquistados.

1. Introduc¸˜ao

Com a r´apida evoluc¸˜ao da capacidade computacional e problemas cada vez mais com-plexos a serem resolvidos em diversas ´areas, tˆem-se desenvolvido e aplicado diversos m´etodos e sistemas que at´e ent˜ao, n˜ao eram vi´aveis, um deles ´e o Deep Learning, o pro-cesso de uma m´aquina aprender a solucionar um problema sem o cuidadoso propro-cesso de extrac¸˜ao de elementos feito por um humano[5].

Deep Learning ´e um ramo que explora sistemas com a capacidade de resolver problemas complexos sem uma implementac¸˜ao espec´ıfica e cuidadosa para o assunto em quest˜ao, se utilizando de soluc¸˜oes simples e generalizadas. O custo para essa vantagem ´e o alto gasto computacional exigido, que, pelo advento da evoluc¸˜ao tecnol´ogica, tˆem se tornado cada vez menos problem´atico e tornou essa ´area muito ´util atualmente.

Neste trabalho exploramos o uso de Deep Learning na ´area de Vis˜ao Computaci-onal para a tarefa de classificac¸˜ao de imagens, um problema que, embora ´e pesquisado a d´ecadas, ainda n˜ao h´a uma soluc¸˜ao geral e efetiva.

Esse documento ´e organizado da seguinte forma:

• A Sec¸˜ao 2 apresenta os conceitos b´asicos necess´arios para o entendimento deste trabalho;

(2)

• A Sec¸˜ao 4 detalha quais passos e etapas ser˜ao cumpridas para que os objetivos do trabalho sejam alcanc¸ados;

• A Sec¸˜ao 5 detalha o cronograma de execuc¸˜ao do trabalho; • A Sec¸˜ao 6 especifica quais as contribuic¸˜oes esperadas ao leitor.

2. Fundamentac¸˜ao Te´orico-Metodol´ogica e Estado da Arte

Nessa sec¸˜ao ser˜ao apresentados os conceitos necess´arios para o entendimento desse tra-balho assim como evidenciar o estado da arte.

2.1. Vis˜ao Computacional

Vis˜ao Computacional ´e o campo da computac¸˜ao que explora como interpretar e descrever o mundo que vemos em imagens e extrair suas propriedades, tais como formas, cores e iluminac¸˜ao[7]. Embora seres vivos tais como humanos possuem a capacidade de realizar esse processo com certa facilidade, computadores s˜ao muito suscet´ıveis a erros grac¸as a complexidade que essa ´area imp˜oe, algo facilmente esquecido por conta da nossa pr´opria facilidade.

Podemos definir uma imagem como uma matriz bidimensional onde cada valor corresponde a um pixel, um valor num´erico que contˆem informac¸˜oes sobre cor[3]. Em-bora imagens seguem um padr˜ao de representac¸˜ao, o que o seu conte´udo representa, como por exemplo um carro ou uma pessoa, ´e um problema mais abstrato.

2.2. Aprendizado de M´aquina

Aprendizado de M´aquina ´e um campo da Inteligˆencia Artificial que consiste no uso de algoritmos para resoluc¸˜ao de problemas utilizando-se de reconhecimento e classificac¸˜ao de padr˜oes.

Dentro dessa ´area, os m´etodos s˜ao classificados em dois tipos, supervisionado e n˜ao supervisionado. Aprendizado de m´aquina supervisionado se utiliza de uma base de dados provida por um agente humano para o treinamento do modelo, algoritmos n˜ao supervisionados n˜ao possuem essa base e portanto aprendem com os dados reais.

2.3. Redes Neurais Artificiais

De acordo com Yegnanarayana[8] uma Rede Neural Artificial ´e um modelo altamente simplificado da estrutura de uma rede neural biol´ogica consistente de uma colec¸˜ao de unidades de processamento interconectadas.

O modelo geral das unidades de processamento consiste do recebimento dos va-lores de entrada, ajuste desses vava-lores a um peso e a sua soma, essa soma ´e chamada de valor de ativac¸˜ao e um sinal ´e produzido a partir dela na sa´ıda[8]. Esse sinal ´e ent˜ao usado como entrada para outra unidade e o processo se repete.

Como um modelo de aprendizado de m´aquina supervisionado, ele possui um pro-cesso de treinamento de modelo onde a sa´ıda final ´e analisada e determinada sua taxa de erro para ent˜ao ocorrer o reajuste dos pesos de cada unidade de processamento.

(3)

X X X 55 20 10 5 30 10 15 60 20 15 70 40 5 35 30 10 70 10 20 15 10

Figura 1. Um filtro de uma camada de convoluc¸ ˜ao

2.4. Deep Learning

Modelos de Deep Learning s˜ao m´etodos de aprendizado com m´ultiplas camadas de representac¸˜ao, onde m´odulos simples mas n˜ao lineares transformam a representac¸˜ao de um n´ıvel para um n´ıvel maior de abstrac¸˜ao[5].

De uma maneira simplificada, modelos de Deep Learning s˜ao redes neurais com m´ultiplas camadas por onde os dados de entrada navegam. Diferente de modelos de aprendizado de m´aquina tradicionais, que necessitam de arquitetac¸˜ao minuciosa e certo dom´ınio no assunto, modelos de Deep Learning utilizam m´etodos generalizados para aprender automaticamente a representac¸˜ao mais recomendada para o problema a ser re-solvido.

Um dos m´etodos mais utilizados por Deep Learning s˜ao as Redes Neurais Artifi-ciais, que no caso podem ser chamadas de DNN(Deep Neural Network) propostas em [2] originalmente chamadas de ”Neocognitron”.

Foi mostrado em [4] que DNNs s˜ao capazes de atingir resultados recordes em problemas de classificac¸˜ao de imagens.

2.5. Redes Neurais Convolucionais

Redes Neurais Convolucionais(CNN)[6] s˜ao DNNs que se utilizam de camadas de convoluc¸˜ao para a realizac¸˜ao do processo de extrac¸˜ao de features.

Como detalhado em [6], CNNs s˜ao inspiradas no sistema de vis˜ao de mam´ıferos, onde neurˆonios nos campos de recepc¸˜ao detectam elementos visuais b´asicos tais como curvas, linhas e etc. que s˜ao ent˜ao combinadas e utilizadas nas camadas superiores para detecc¸˜ao de elementos de maior ordem.

Esses neurˆonios dos campos de recepc¸˜ao formam na rede neural artificial as ca-madas de convoluc¸˜ao, que usam filtros de determinados tamanhos para a extrac¸˜ao de elementos dos dados de entrada como detalhado na figura 1.

Ap´os essa extrac¸˜ao, os elementos da ´ultima camada de convoluc¸˜ao s˜ao ent˜ao uti-lizados como entrada para camadas totalmente conectadas como em uma rede neural de Deep Learningtradicional.

3. Objetivos

Este trabalho busca explorar a capacidade de soluc¸˜ao de problemas relacionados a vis˜ao computacional oferecida por m´etodos de Deep Learning.

(4)

Especificamente, ´e buscado a aplicac¸˜ao de arquiteturas de Redes Neurais Convo-lucionais na ´area de classificac¸˜ao de imagens, como o estado e alterac¸˜oes nas imagens modifica a taxa de sucesso de uma rede neural e como podemos optimiz´a-las para obter melhores resultados.

4. Procedimentos metodol´ogicos/M´etodos e t´ecnicas

Primeiramente, um estudo dos m´etodos e conceitos utilizados em redes neurais e Deep Learningdeve ser realizado.

Ent˜ao a base ser´a selecionada, aumentada e separada em duas partes, uma para o treino do modelo e outra para a avaliac¸˜ao de sua performance. Esta base ir´a conter trˆes classes de imagens.

A etapa seguinte consiste em criar uma arquitetura de uma Rede Neural Convolu-cional utilizando o framework Tensorflow[1] e test´a-la contra a base provida de Venaturas para a classificac¸˜ao das mesmas. Como arquitetar redes neurais ´e um processo trabalhoso e muitas vezes envolve tentativa e erro, essa ´e possivelmente a etapa mais longa desse trabalho.

Ap´os isso, uma avaliac¸˜ao da arquitetura constru´ıda ser´a feita e um relat´orio dos resultados ser´a escrito levando em conta os fatores de velocidade de treino e teste, a acur´acia e comparac¸˜ao com outros m´etodos de classificac¸˜ao.

5. Cronograma de Execuc¸˜ao

Atividades:

1. Estudo de metodologia;

2. Selec¸˜ao e processamento da base;

3. Prototipagem da arquitetura da Rede Neural; 4. Relat´orio de avaliac¸˜ao da Rede Neural; 5. Escrita do TCC;

Tabela 1. Cronograma de Execuc¸ ˜ao

mai jun jul ago set out nov dez Atividade 1 X

Atividade 2 X

Atividade 3 X X X

Atividade 4 X

Atividade 5 X X X X

6. Contribuic¸˜oes e/ou Resultados esperados

Espera-se que esse trabalho ajude o leitor a entender melhor como os campos de Deep Learninge Vis˜ao Computacional se entrelac¸am, al´em de introduzir Redes Neurais, como as redes neurais profundas se diferem das superficiais e uma de suas variantes mais popu-lares, as Redes Neurais Convolucionais.

(5)

7. Espac¸o para assinaturas

Londrina, 04 de Maio de 2018.

—————————————— ——————————————

Aluno Orientador

Referˆencias

[1] Mart´ın Abadi, Ashish Agarwal, Paul Barham, Eugene Brevdo, Zhifeng Chen, Craig Citro, Greg S. Corrado, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Ian Goodfellow, Andrew Harp, Geoffrey Irving, Michael Isard, Yangqing Jia, Rafal Joze-fowicz, Lukasz Kaiser, Manjunath Kudlur, Josh Levenberg, Dandelion Man´e, Rajat Monga, Sherry Moore, Derek Murray, Chris Olah, Mike Schuster, Jonathon Shlens, Benoit Steiner, Ilya Sutskever, Kunal Talwar, Paul Tucker, Vincent Vanhoucke, Vijay Vasudevan, Fernanda Vi´egas, Oriol Vinyals, Pete Warden, Martin Wattenberg, Martin Wicke, Yuan Yu, and Xiaoqiang Zheng. TensorFlow: Large-scale machine learning on heterogeneous systems, 2015. Software available from tensorflow.org.

[2] Kunihiko Fukushima and Sei Miyake. Neocognitron: A self-organizing neural network model for a mechanism of visual pattern recognition. In Competition and cooperation in neural nets, pages 267–285. Springer, 1982.

[3] R.C. Gonzalez and R.E. Woods. Digital Image Processing. International Edition. Prentice Hall, 2002.

[4] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pages 1097–1105, 2012.

[5] Yann LeCun, Yoshua Bengio, and Geoffrey Hinton. Deep learning. nature, 521(7553):436, 2015.

[6] Yann LeCun, L´eon Bottou, Yoshua Bengio, and Patrick Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324, 1998. [7] R. Szeliski. Computer Vision: Algorithms and Applications. Texts in Computer Science.

Springer London, 2010.

Referências

Documentos relacionados

Coeficiente de partição n-octanol/água Não determinado por ser considerado não relevante para a caracterização do produto Temperatura de auto-ignição Não determinado por

The objectives of this morphometric study of Culex (Culex) saltanensis Dyar, 1928 larvae were to observe the continuous growth of siphon and cephalic capsule length and width in

Após a receção das propostas apresentadas pelos concorrentes acima indicados, o Júri decidiu não admitir a concurso as Propostas do concorrente “Oficina da Inovação, S.A” por

Com o objetivo de avaliar a evolução das características de qualidade de carne durante a maturação, amostras do músculo longissimus dorsi de bovinos Nelore (N) (n=22) e Red Norte

Desde 2012, um grupo de docentes, investigadores e alunos da Faculdade de Ciências Sociais e Humanas da Universidade Nova de Lisboa (NOVA FCSH) têm vindo a desenvolver

Não é permitida a reprodução deste conteúdo, de forma parcial ou total, quer em meio impresso ou digital, nem pode ser disponibilizado na internet sem permissão prévia, dos

Realiza-se então análise da acurácia do modelo em função de sua profundidade, argumentando-se que caso o conjunto de dados seja extenso o suficiente, comportamento análogo

Assista ao vídeo em nosso canal e descubra por que faz muito mais sentido você trazer os seus recursos para uma Entidade com mais de 50 anos de experiência no assunto.. Você