Técnicas de combinação de evidências para problemas de reconhecimento em cenário aberto

(1)

INSTITUTO DE COMPUTAC¸ ˜AO

Manuel Alberto C´

ordova Neira

T´

ecnicas de Combina¸

c˜

ao de Evidˆ

encias para

Problemas de Reconhecimento em Cen´

ario Aberto

CAMPINAS

2015

(2)

(3)

Ficha catalográfica

Universidade Estadual de Campinas

Biblioteca do Instituto de Matemática, Estatística e Computação Científica Ana Regina Machado - CRB 8/5467

Córdova Neira, Manuel Alberto, 1986-

C812t Técnicas de combinação de evidências para problemas de reconhecimento em cenário aberto / Manuel Alberto Córdova Neira. – Campinas, SP : [s.n.], 2015.

Orientador: Ricardo da Silva Torres.

Dissertação (mestrado) – Universidade Estadual de Campinas, Instituto de Computação.

1. Reconhecimento de padrões. 2. Reconhecimento em cenário aberto. 3. Fusão de dados (Computação). 4. Floresta de caminhos ótimos. 5. Programação genética (Computação). I. Torres, Ricardo da Silva,1977-. II. Universidade Estadual de Campinas. Instituto de Computação. III. Título.

Informações para Biblioteca Digital

Título em outro idioma: Data fusion techniques for open set recognition problems Palavras-chave em inglês:

Pattern recognition Open set recognition

Data fusion (Computer science) Optimum-path forest

Genetic programming (Computer science)

Área de concentração: Ciência da Computação Titulação: Mestre em Ciência da Computação Banca examinadora:

Ricardo da Silva Torres [Orientador] Anderson de Rezende Rocha Fernanda Alcântara Andaló

Data de defesa: 26-08-2015

(4)

(5)

Dedico este trabalho a Deus, aos meus pais, à minha irmã e à minha sobrinha. Amo muito vocês. Dedico também à minha noiva Mar´ıa del Cisne. Minha Mashi, você é minha vida, eu te amo muito. Nesta vida, tudo é poss´ıvel.

(6)

(7)

Hoje estou realizando meu sonho de ser mestre em Ciência da Computa¸cão. Durante este tempo, tive o apoio sincero e a motiva¸cão de muitas pessoas a quem quero agradecer por ter estado sempre comigo.

Primeiramente, quero agradecer a Deus pela vida, pela saúde, pelas oportunidades, pelos sonhos. Muito obrigado meu Deus por aqueles sonhos que pareciam inalcan¸cáveis e que se fizeram realidade nestes dois últimos anos.

Quero agradecer aos meus pais, Moises e Olga. Gra¸cas a vocês, eu sou quem sou; gra¸cas a vocês, estou tornando realidade meus sonhos, porque tudo come¸cou com vocês, com seu esfor¸co, seu sacrif´ıcio, seu exemplo, suas dicas, seu amor. Agrade¸co à minha irmã Karina e à minha sobrinha Salomé por sempre acreditar em mim, e pelo apoio e preocupa¸cão constante. A todos vocês, obrigado por me apoiar em tudo, vocês são minha inspira¸cão, amo muito vocês.

Não posso esquecer de agredecer a uma pessoa muito importante na minha vida, minha noiva Mar´ıa del Cisne. Minha Mashi, muito obrigado por tudo, pela sua ajuda, seu amor, seu apoio, por ser minha inspira¸cão, minha for¸ca, minha luz. Apesar da distância f´ısica, você foi sempre o meu apoio, eu te amo muito.

Gostaria também, agradecer ao meu orientador Prof. Ricardo Torres. Prof. Ricardo, durante este mestrado aprendi muito com você. Obrigado pelo apoio, pelas dicas, pela compreensão, pelo seu ensino. Estendo meu agradecimento a Pedro Mendes e Otávio Pe-natti pela ajuda e disponibilidade no desenvolvimento desta pesquisa, e aos professores da Unicamp que foram parte da minha forma¸cão durante este mestrado. Agrade¸co também a todos meus amigos que sempre esteveram me apoiando.

Quero agradecer à Unicamp por ter aberto suas portas para realizar meus estudos, por ser uma universidade que sempre oferece o apoio necessário aos estudantes. Este trabalho também agradece a CAPES, CNPq (Processos # 484254/2012-0 e # 306580/2012-8), FAPESP, AMD e ao Instituto Virtual FAPESP-Microsoft (Processos #2013/50169-1 e # 2013/50155-0) pela viabiliza¸cão da infraestrutura do Laboratório RECOD, onde a pesquisa foi desenvolvida. Finalmente, agrade¸co à “Secretar´ıa de Educación Superior, Ciencia, Tecnolog´ıa e Innovación” do Equador pelo apoio financeiro sem o qual eu não poderia ter realizado este mestrado.

(8)

Na atualidade a maioria das técnicas para classifica¸cão de padrões na área de aprendi-zado de máquina foca a resolu¸cão de problemas de cenário fechado. Nestes problemas, o classificador é treinado com amostras de todas as classes que serão observadas na fase de teste. Em muitas situa¸cões, no entanto, amostras de classes desconhecidas, i.e., classes não encontradas na fase de treino, necessitam ser tratadas. Este tipo de cenário é conhe-cido como um problema de reconhecimento em cenário aberto. Neste trabalho, propomos métodos que combinam diferentes tipos de caracter´ısticas para reconhecimento de obje-tos em cenário aberto. Os métodos são baseados no classificador Optimum-Path Forest (OPF) e utilizam Programa¸cão Genética (GP) e Contagem de Votos (Majority-Voting) como técnicas de combina¸cão de evidências. O OPF é um classificador multiclasse, rápido (especialmente durante a fase de treino) e é baseado em grafos. A GP é uma técnica ins-pirada na evolu¸cão biológica que é usada para a descoberta de fun¸cões de similaridade entre objetos. As fun¸cões de similaridade baseadas na GP combinam diferentes tipos de caracter´ısticas visuais dos objetos (e.g., cor, textura, e forma). O Majority-Voting com-bina diferentes dados operando diretamente nas etiquetas atribu´ıdas por classificadores isolados que utilizam diferentes descritores de caracter´ısticas. Os experimentos realizados considerando dois conjuntos de imagens demonstram que os métodos propostos de fusão de dados produzem resultados eficazes.

(9)

Nowadays, most of the techniques for pattern classification in the machine learning area are focused on solving closed-set problems. In these problems, the classifier is trained with samples of all the classes that will appear in the testing phase. In many situations, however, samples of unknown classes, i.e., classes not present in the training stage, need to be handled. This kind of scenario is known as an Open-set recognition problem. In this work, we propose methods that combine different types of features for object recognition in Open-set problems. Our methods are based on the Optimum-Path Forest (OPF) classifier combined with Genetic Programming (GP) and Majority Voting as data fusion techniques. The OPF is a fast (specially during the training phase) graph-based multiclass classifier. The GP is a technique inspired in the biological evolution, which is used to discover appropriate similarity functions among objects. The GP-based similarity functions combine different kinds of object visual properties (e.g., color, texture, and shape). The Majority-Voting method combines data working directly with the output (label) of isolate classifiers that use different kinds of features. Performed experiments considering two datasets demonstrate that the proposed data fusion approaches yield effective results in Open-set recognition problems.

(10)

2.1 Exemplo de um indiv´ıduo GP t´ıpico. . . 21

2.2 Exemplo de muta¸c˜ao em GP. . . 22

2.3 Exemplo de crossover em GP. As árvores a e b intercambiam sub-árvores para formar a árvore c. . . 23

2.4 Classificador Optimum-Path Forest. No conjunto de dados temos duas classes (azul e verde). (a) Grafo completo, (b) Minimum Spanning Tree (MST) – Sele¸cão de protótipos, os protótipos são as amostras que estão na fronteira e envoltas em linha pontilhada. (c) Classifica¸cão da amostra x que procura o caminho que oferece o menor custo, x é rotulada como da classe verde. . . 25

2.5 Problema de reconhecimento em cen´ario aberto (open set ). . . 26

4.1 Exemplos de imagens do dataset CALTECH-256. . . 38

4.2 Exemplos de imagens do dataset ALOI. . . 39

4.3 Particionamento das amostras em treino e teste. . . 40

4.4 Particionamento Open-GP das amostras do treino. v1, v2, v3 s˜ao os con-juntos validation1, validation2 e validation3, respectivamente. . . 41

4.5 Particionamento Closed-GP das amostras do treino. v1, v2 s˜ao os conjuntos validation1 e validation2, respectivamente. . . 42

4.6 Tukey’s HSD para sele¸cão de parâmetros com 95% de n´ıvel de confian¸ca. Nesta figura é apresentada a diferen¸ca entre as médias de cada par de combina¸cões de parâmetros. Existe diferen¸ca estat´ıstica significativa se a diferen¸ca das médias de cada par não contêm o valor 0. Neste caso, todos os pares contém o valor 0, portanto não existe diferen¸ca estat´ıstica significativa entre nenhum par. . . 46

4.7 Evolu¸cão da acurácia normalizada do GP considerando os melhores 15 in-div´ıduos de cada gera¸cão nos conjuntos: a) validation1, b) validation2 e c) teste. . . 47

4.8 Matriz de confusão para problemas open set utilizada no cálculo das medi-das precision e recall. Exemplo com 4 classes conhecimedi-das e com amostras de classes desconhecidas (U). São considerados os falsos desconhecidos (f ni na coluna U) e falsos conhecidos (f pi na linha U). No entanto, os valores da interse¸cão da coluna U e linha U não são considerados como verdaderos desconhecidos (tp). . . 52

5.1 Resultados dos m´etodos GP no dataset ALOI. . . 54

5.2 Resultados dos m´etodos GP no dataset CALTECH-256. . . 54

5.3 Resultados dos m´etodos avaliados no dataset ALOI. . . 56

(11)

ren¸cas entre as m´edias de cada par de classificadores para 3, 6, 9, 12 e 15

classes conhecidas. . . 62

5.6 Resultados do Teste Estat´ıstico ANOVA – TUKEY’S HSD com 95% de n´ıvel de confian¸ca no dataset CALTECH. Nas figuras, s˜ao apresentadas as diferen¸cas entre as m´edias de cada par de classificadores para 3, 6, 9, 12 e 15 classes conhecidas. . . 66

A.1 Resultados do classificador OSOPF1 _{no dataset ALOI.} _{. . . .} ₇₉

A.2 Resultados do classificador OSOPF1 _{no dataset CALTECH-256. . . .} ₈₁

A.3 Resultados do classificador OSOPF2 no dataset ALOI. . . 82

(12)

3.1 M´etodos open set propostos . . . 31

4.1 Caracteriza¸c˜ao dos datasets utilizados. . . 39

4.2 Openness dos datasets para 3, 6, 9, 12 e 15 classes conhecidas. . . 39

4.3 Valores (Alto e Baixo) dos parˆametros GP avaliados. . . 45

4.4 Modelo fatorial em dois n´ıveis. . . 45

4.5 Efeito dos parˆametros. . . 45

4.6 Configura¸c˜ao GP. . . 46

5.1 Teste Estat´ıstico – Dataset ALOI. cc é o número de classes conhecidas. . . 63 5.2 Teste Estat´ıstico – Dataset CALTECH. cc é o número de classes conhecidas. 67

(13)

1 Introdu¸c˜ao 15

2 Trabalhos Relacionados 19

2.1 Fus˜ao de Dados . . . 19

2.2 Programa¸c˜ao Gen´etica . . . 20

2.3 Floresta de Caminhos ´Otimos (Optimum-Path Forest) . . . 22

2.3.1 Fase de Treinamento . . . 23

2.3.2 Fase de Classifica¸c˜ao . . . 24

2.4 Reconhecimento em Cen´ario Aberto . . . 25

2.5 Reconhecimento em Cenário Aberto Utilizando Floresta de Caminhos Ótimos 28 3 Métodos para Fusão de Dados em Problemas de Cenário Aberto 30 3.1 Open-GP . . . 31 3.1.1 OSOPF1_-OGP _{. . . .} ₃₁ 3.1.2 OSOPF2-OGP . . . 32 3.2 Closed-GP . . . 33 3.2.1 OSOPF1 _Closed-GP _{. . . .} ₃₄ 3.2.2 OSOPF2 Closed-GP . . . 34 3.3 Majority Voting . . . 34 4 Protocolo Experimental 38 4.1 Conjuntos de Dados . . . 38

4.2 Particionamento dos Conjunto de Dados . . . 40

4.2.1 Open-GP . . . 40 4.2.2 Closed-GP . . . 41 4.3 Descritores . . . 42 4.4 Configura¸c˜ao GP . . . 44 4.4.1 Testes Estat´ısticos . . . 45 4.5 Grid Search . . . 46 4.6 Medidas de Avalia¸c˜ao . . . 49

4.6.1 Acur´acia Normalizada . . . 49

4.6.2 F-Measure . . . 49

4.7 Testes Estat´ısticos para Avalia¸c˜ao dos M´etodos Propostos . . . 51

5 Resultados dos Experimentos e Discuss˜ao 53 5.1 Resultados dos M´etodos Propostos . . . 53

5.2 Testes Estat´ısticos . . . 58

(14)

(15)

Introdu¸

c˜

ao

Hoje em dia, a área de Aprendizado de Máquina é um campo de pesquisa muito extenso, que se dedica a estudar técnicas de aprendizagem através da experiência adquirida a partir da realiza¸cão de múltiplas tarefas [20]. Reconhecimento de padrões é parte desta área e tem como objetivo realizar a classifica¸cão de objetos, dando como resultado uma etiqueta ou rótulo (valor alvo) que corresponde à classe dos objetos.

Existem diferentes tipos de aprendizagem: supervisionado, não supervisionado e semi-supervisionado. No aprendizado supervisionado, os vetores de caracter´ısticas do conjunto de dados possuem rótulos que indicam a classe à que pertence cada objeto [9]. No apren-dizado não supervisionado, por sua vez, os vetores de caracter´ısticas dos objetos não estão associados a rótulos, ou seja, neste caso, não se sabem as classes às quais pertencem os objetos [9]. No aprendizado semi-supervisionado, existem vetores de caracter´ısticas com e sem rótulos definidos[52].

Há muitos exemplos práticos em aprendizado de máquina como reconhecimento de ob-jetos, clusteriza¸cão, filtragem de spam, reconhecimento de fala, reconhecimento de escrita, sistemas de seguran¸ca com reconhecimento de padrões, etc. A maior parte dos trabalhos que utilizam técnicas de aprendizado de máquina trabalha em cenário de classifica¸cão fechado, os chamados Closed Sets.

Por exemplo, suponha que uma empresa possui um sistema de reconhecimento de faces para identificar seus funcionários. Nesse tipo de sistema, todas as amostras que aparecem na fase de teste estão associados a uma das faces que formam parte do conjunto de treinamento, porque se sabe que as faces que vão ser reconhecidas pertencem a um dos funcionários da empresa (cenário fechado). Mas, esse tipo de sistema é inadequado no cenário em que um impostor tenta ser reconhecido pelo sistema, porque o sistema retornará como resultado um dos funcionários com os quais foi treinado. Neste caso, um classificador deve ser capaz de rejeitar exemplos, isto é, identificar quando um exemplo não pertence às classes treinadas[63]. Este tipo de cenário é conhecido como cenário aberto (open set ). De fato, quase todos os problemas da vida real estão dentro deste tipo de cenário de reconhecimento.

Em um cenário aberto, na fase de treinamento, não se conhece ou não se tem acesso a todas as classes existentes na fase de teste [15, 38, 63]. Essas classes poderiam, por exemplo, estar associadas a problemas de amostragem, ou poderiam estar mal defini-das ou mesmo serem indeterminadefini-das [19]. Além disso, em um cenário open set, mesmo

(16)

conhecendo todas as classes consideradas como desconhecidas dentro do problema que tentamos resolver, seria muito dif´ıcil obter uma quantidade consider´avel de objetos das classes conhecidas para ter um classificador balanceado [63].

Na atualidade existem muitos classificadores como Support Vector Machine (SVM), na¨ıve Bayes, regressão log´ıstica, redes neurais, Floresta de Caminhos Ótimos (do inglês Optimum-Path Forest – OPF), que permitem realizar classifica¸cão de diferentes tipos de objetos como imagens, texto, áudio, etc. [13, 35]. Em alguns casos, esses classificadores também foram testados em cenários abertos [15, 16, 28, 38, 41, 63].

Há classificadores multiclasse da literatura que são baseados na combina¸cão de classifi-cadores binários utilizando enfoques como One-versus-all (OVA), One-versus-one (OVO) e Error Correcting Output Codes (ECOC)[5, 55]. A eficiência destes tipos de técnicas é afetada pelo número de classes, dado que quanto maior o número de classes, maior será o número de classificadores binários necessários. Desta forma, se o número de classes é muito grande, verificam-se problemas de eficiência no processo de classifica¸cão. Vale ressaltar que o enfoque ECOC apresenta uma melhor eficiência nestes casos[55].

Um dos classificadores com bons resultados na literatura é o OPF [46]. O OPF [46] é um classificador inerentemente multiclasse que é rápido (especialmente na fase de treino) e que pode tratar um certo grau de overlap nas classes no espa¸co de caracter´ısticas [19]. No OPF, o conjunto de treino é modelado como um grafo (geralmente um grafo com-pleto), em que cada nó é um vetor de caracter´ısticas e cada aresta tem um peso (o peso é calculado como uma medida de similaridade entre os nós). No grafo, é utilizado o algo-ritmo Minimum Spanning Tree (MST)[14] para obter um conjunto de protótipos que são representantes das classes. A fase de treino cria um conjunto de árvores (floresta) em que cada árvore tem como raiz um protótipo. Logo, na fase de teste, as amostras avaliadas são conectadas à árvore que oferece o menor custo e são atribu´ıdas à classe do protótipo daquela árvore.

Duas extensões do OPF para reconhecimento em cénario open set foram propostas por Mendes em [41, 42], sendo chamados de classificadores open set OPF: OSOPF1e OSOPF2. O OSOPF1 _{e OSOPF}2 _{possuem a mesma fase de gera¸c˜}_{ao da floresta de caminhos ´}_otimos a partir do conjunto de treino que é utilizada pelo OPF, mas diferem quanto ao critério para rotular as amostras avaliadas na fase de teste. Experimentos reportados em [41, 42] mostram que o OSOPF obteve melhores resultados que outros métodos de cenário aberto da literatura.

Uma outra questão importante a ser considerada quando da concep¸cão de sistemas de classifica¸cão e reconhecimento diz respeito ao uso de bons descritores de dados. De fato, a acurácia dos classificadores depende em grande medida da forma de descrever os dados do problema. Existem vários descritores que descrevem diferentes propriedades visuais dos objetos como cor, forma, textura, etc.[45]. Podem-se combinar estes tipos de carac-ter´ısticas para fazer uma melhor descri¸cão dos objetos [7], mas nem todas as combina¸cões de features oferecem bons resultados [61]. Há técnicas para combinar caracter´ısticas como early fusion e late fusion; entretanto, estas técnicas estão associadas a problemas de alto custo computacional e de armazenamento, ou ainda a problemas relacionados à maldi¸cão da alta dimensionalidade [34]. Duas abordagens que vêm sendo usadas com sucesso para combinar diferentes tipos de carater´ısticas de objetos, e não enfrentam o problema da alta

(17)

dimesionalidade, s˜ao a GP [36] e Contagem de Votos (Majority Voting) [37].

A GP foi introduzida por Koza [36]. A GP é inspirada na evolu¸cão biológica, a partir do uso de opera¸cões genéticas como reprodu¸cão, muta¸cão e intercâmbio genético (crossover ) para evoluir os indiv´ıduos que formam parte de uma popula¸cão. Os indiv´ıduos se adaptam ao longo das gera¸cões ao problema que se tenta solucionar. Cada indiv´ıduo é usualmente representado como uma árvore, em que os nós da árvore são operadores e os nós folha são valores. O uso de GP apresenta muitas vantagens, incluindo uma alta eficácia no descobrimento de fun¸cões de similaridade entre objetos em um espa¸co de busca extenso [3, 7, 12, 28, 72, 73].

Por outro lado, uma técnica que tem melhorado os resultados na área de reconhe-cimento e que tem sido tão eficaz como outras técnicas mais complicadas, é o Majority Voting [37]. Esta técnica é uma das técnicas mais antigas e simples para fusão de in-forma¸cão. A contagem de votos é baseada na utiliza¸cão de vários classificadores, treina-dos para a mesma tarefa, em que cada classificador atribui como resultado uma etiqueta (classe) e a etiqueta final será a classe que tenha sido dada como resultado mais vezes pelos classificadores.

Trabalhos prévios demonstram a efetividade do classificador OPF junto com a GP e Majority Voting. Godoi et al.[28], por exemplo, mostraram que a combina¸cão de OPF e GP obteve bons resultados na solu¸cão do problema da desambigua¸cão de nomes de autores; nesse trabalho o OPF foi testado em conjunto com GP em um problema de cenário aberto. Dos Santos et al.[60], por sua vez, obtiveram bons resultados utilizando OPF e GP no reconhecimento de regiões de sensoriamento remoto com Relevance Feedback (RF). Tavares et al.[72] provaram a efetividade ao utilizar OPF e GP de forma conjunta na recupera¸cão de imagens por conteúdo (Content-based image retrieval – CBIR) usando RF.

Além da GP, o OPF também foi testado em problemas de fusão de dados envolvendo Majority Voting. Ponti e Papa [51], por exemplo, obtiveram bons resultados ao propor um método para combinar classificadores OPF que trabalham com subconjuntos de dados disjuntos e a classifica¸cão final está baseada no esquema Majority Voting. Por outro lado, Ponti e Rossi [50] mostraram a efetividade e eficiência de métodos baseados na contagem de votos, utilizando como classificador base o OPF e manipulando o conjunto de treino para tentar diminuir a quantidade de amostras e, por conseguinte, diminuir o tempo de execu¸cão. Este trabalho, no entanto, considerou um cenário fechado no protocolo experimental.

O objetivo principal desta pesquisa, é utilizar técnicas de combina¸cão de dados para conhecer o impacto ao utilizar diferentes tipos de descritores na resolu¸cão de problemas de reconhecimento em cenário aberto. Neste trabalho, apresentam-se seis classificadores inerentemente multiclasse utilizando o classificador OPF, Programa¸cão Genética (GP) e Majority Voting. Os métodos propostos usam diferentes tipos de caracter´ısticas para obter uma melhor descri¸cão/separa¸cão das amostras e são capazes de rejeitar amostras que pertencem a classes que não foram observadas na fase de treinamento. Até onde se sabe, este é o primeiro trabalho que está focado na combina¸cão de diferentes tipos de dados para reconhecimento de objetos em cenário aberto.

(18)

utilizam os classificadores OSOPF para rotular as amostras. Sendo o OPF um método baseado em grafos, precisa-se de uma medida de similaridade/distância para atribuir os pesos dos arcos entre os objetos. Essa medida é dada por uma fun¸cão gerada pela GP. Em nossa implementa¸cão, a GP procura o indiv´ıduo (árvore) que, utilizado como fun¸cão de distância no classificador, permita uma melhor separa¸cão das amostras das classes. Na gera¸cão das fun¸cões de distância, utiliza-se um conjunto de descritores que geram caracter´ısticas diferentes dos objetos para obter uma melhor descri¸cão de cada amostra. Além da GP, foram propostos métodos emsemble para cenário aberto quem combinam caracter´ısticas dos objetos, cuja rotula¸cão final das amostras no teste é baseada na técnica Majority Voting. A diferen¸ca dos metodos propostos em relacao à implementa¸cão do OPF com GP realizada por Godoi et al.[28] é que a implementa¸cão proposta neste trabalho é uma versão genérica que pode ser utilizada em vários tipos de problemas de reconhe-cimento, enquanto ao trabalho do Godoi et al. é uma implementa¸cão espec´ıfica para o problema de desambigua¸cão de nomes de autores.

Para comparar os resultados dos classificadores neste trabalho foram empregados o Análise de Variância (ANOVA) e o teste Tukey-HSD. Os experimentos executados mos-tram que os resultados obtidos são promissores e que os métodos propostos superam, em alguns casos, os métodos propostos em [41, 42]. Além disso, mostra-se que a combina¸cão de diferentes tipos de caracter´ısticas em cenários abertos permite obter resultados relati-vamente melhores do que aqueles obtidos por métodos em que foi utilizado somente um descritor.

O restante deste trabalho está organizado da seguinte forma. O Cap´ıtulo 2 apresenta a fundamenta¸cão teórica, assim como os trabalhos relacionados. O Cap´ıtulo 3 descreve os métodos propostos de fusão de dados para reconhecimento em cenário aberto. Em seguida, o Cap´ıtulo 4 apresenta o protocolo experimental que foi utilizado neste trabalho. O Cap´ıtulo 5 mostra os resultados obtidos. Finalmente, o Cap´ıtulo 6 discute as conclusões do trabalho e apresenta poss´ıveis dire¸cões para trabalhos futuros.

(19)

Trabalhos Relacionados

Neste cap´ıtulo, apresentam-se técnicas de fusão de dados (Se¸cão 2.1), conceitos e opera¸cões da programa¸cão genética (Se¸cão 2.2), o classificador Optimum-Path Forest (Se¸cão 2.3) e abordagens usadas em problemas de reconhecimento em cenário aberto (Se¸cão 2.4). Por fim, descrevem-se classificadores recentemente propostos para tratar problemas abertos a partir do uso de florestas de caminhos ótimos (Se¸cão 2.5).

2.1 Fus˜

ao de Dados

Na área de reconhecimentos de objetos, a acurácia dos classificadores depende em grande medida da forma de descrever os dados do problema. Diversos descritores vêm sendo propostos visando à descri¸cão de diferentes tipos de propriedades visuais (como cor, forma, textura) dos objetos [45] e cada tipo de descritor descreve os dados de uma forma distinta. Potencialmente existe complementaridade entre alguns tipos de descritores [7], mas nem todas as combina¸cões de features oferecem bons resultados [61].

Dois enfoques populares de fusão de dados são early fusion e late fusion [65]. O early fusion consiste em realizar uma integra¸cão de vários tipos de features antes da intera¸cão com algum algoritmo de aprendizado. Neste tipo de enfoque são extra´ıdos vários tipos de vetores de features de forma independente. Em seguida, todos esses vetores são concatenados em uma única representa¸cão que será utilizada em algum tipo de algoritmo de aprendizado. Uma limita¸cão deste tipo de fusão refere-se ao problema da maldi¸cão da dimensionalidade [34]. Por outro lado, o late fusion também come¸ca com a extra¸cão de diferentes vetores de caracter´ısticas, mas diferentemente do early fusion, este tipo de enfoque utiliza conceitos de aprendizado sobre cada tipo de feature e, em seguida, os resultados parciais obtidos são combinados para obter um resultado final.

Outras técnicas que têm sido usadas para fusão de dados são os métodos ensemble [17]. Os métodos emsemble usam um esquema de voto entre um conjunto de classificadores treinados para a mesma tarefa. O resultado de cada classificador tem um peso associado que será considerado na vota¸cão para rotular uma determinada amostra. Alguns dos algoritmos que usam este tipo de esquema são Bayesian averaging [31], error-correcting output coding (ECOC) [55], Bagging [11] e Boosting [26].

Baseados na id´eia da complemetaridade das features, Lisin et al. [39] propuseram

(20)

dois métodos para combinar caracter´ısticas globais e locais na classifica¸cão de objetos. O primeiro é um método ensemble que executa o SVM com as features globais e locais separadamente e no final combina esses resultados. O segundo método cria uma hierarquia de dois n´ıveis. No primeiro n´ıvel, as classes que estão sendo confundidas (segundo as features globais) formam grupos. Em seguida, o SVM é treinado com G grupos de classes de modo que possa retornar como resultado um grupo de classes gi. No segundo n´ıvel, o metodo utiliza fun¸cões de densidade de probabilidade que são estimadas de forma não paramétrica (NPD) para decidir a classe final que será atribu´ıda dentre as x classes que pertencem ao grupo gi, baseando-se nas features locais.

Alguns trabalhos usaram técnicas de otimiza¸cão (e.g., Particle Swarm (PSO), Har-mony Search (HS) e Programa¸cão Genética (GP)) para combinar diferentes tipos de features. Faria et al. [22], por exemplo, utilizaram Particle Swarm junto ao classificador Optimum-Path Forest (OPF) na classifica¸cão de objetos, combinando linearmente dife-rentes features de forma. O PSO procura a melhor solu¸cão baseado no comportamento da dinâmica social. Cada poss´ıvel solu¸cão é considerada como uma part´ıcula que tenta imi-tar outras part´ıculas segundo a fun¸cão de fitness (acurácia do OPF). Mansano et al. [40] utilizaram também PSO com OPF para combinar features associadas a propriedades de forma, cor e textura de maneira não-linear. Além disso, usaram Harmony Search que é uma técnica baseada no processo de improvisa¸cão dos músicos, em que cada solu¸cão é uma harmonia e cada parâmetro uma nota musical, para procurar a melhor harmonia que maximiza a acurácia do OPF. A GP é uma técnica inspirada na evolu¸cão biológica, cada indiv´ıvuo (solu¸cão) é modelado como uma árvore, em que os nós internos são operadores (×, +, −, /) e os nós folha são valores. Esta técnica foi usada em muitos trabalhos na com-bina¸cão de diferentes features para tratar vários problemas de reconhecimento [58, 59, 60], recupera¸cão de informa¸cão [3, 4, 7, 23, 25, 57, 73], e recupera¸cão multimodal [12].

2.2 Programa¸

c˜

ao Gen´

etica

A programa¸cão genética (GP) é uma extensão dos algoritmos genéticos que foi introduzida por Koza [36]. Está baseada nos princ´ıpios da evolu¸cão biológica e utiliza opera¸cões genéticas na procura da melhor solu¸cão dentro de um espa¸co de busca determinado. A programa¸cão genética tem sido utilizada na gera¸cão de fun¸cões de ranking [3], recupera¸cão de imagens [7, 23, 25, 57, 73], recupera¸cão multimodal de imagens [12], desambigua¸cão de nomes de autores [28], deriva¸cão de ´ındices de vegeta¸cão [4], classifica¸cão em imagens de sensoriamento remoto [58, 59, 60], dentre outras aplica¸cões.

O processo da programa¸cão genética come¸ca com a gera¸cão aleatória de um conjunto de indiv´ıduos em que cada indiv´ıduo representa uma solu¸cão ao problema que se tenta resolver. Cada indiv´ıduo é avaliado na solu¸cão do problema e recebe um score (fitness) que é utilizado como uma estimativa de quão perto o indiv´ıduo está de conseguir resolver o problema alvo. Os indiv´ıduos com melhor fitness são evolu´ıdos com a finalidade de criar melhores popula¸cões ao longo de gera¸cões. O processo é repetido até que algum critério de parada seja alcan¸cado.

(21)

(terminais) estão relacionados com as variáveis e os nós internos representam operadores. Na Figura 2.1, mostra-se um exemplo de um indiv´ıduo em programa¸cão genética. Nesta figura, os nós folha (variables) são d1, d2 e d3; e os nós internos (operadores) são ×, /, + e sqrt. Este indiv´ıduo está portanto associado à fun¸cão (sqrt(d3) + d1) × (d2/d3).

Figura 2.1: Exemplo de um indiv´ıduo GP t´ıpico.

Na programa¸cão genética, utilizam-se operadores genéticos para gerar variabilidade na popula¸cão e tornar poss´ıvel sua evolu¸cão com o objetivo de se obter melhores indiv´ıduos em gera¸cões futuras. As estruturas dos indiv´ıduos são alteradas durante o processo de evolu¸cão utilizando opera¸cões genéticas, com o objetivo de procurar uma combina¸cão ideal de fun¸cões para solucionar o problema alvo. As opera¸cões genéticas comumente utilizadas são: reprodu¸cão, muta¸cão e intercâmbio genético (crossover ).

• Reprodu¸cão: O operador reprodu¸cão seleciona os melhores indiv´ıduos de uma gera¸cão e faz uma cópia deles para a gera¸cão seguinte.

• Muta¸cão: O operador muta¸cão faz mudan¸cas aleatórias nos indiv´ıduos. Na muta¸cão, ´

e selecionado um ponto aleatório no indiv´ıduo (árvore) e essa subárvore é substitu´ıda por outra subárvore gerada, aleatoriamente, conforme ilustra a Figura 2.2.

• Crossover : O operador intercâmbio genético combina material genético de dois pais. Basicamente, troca uma subárvore de um pai com uma parte de outro pai, conforme ilustrado na Figura 2.3.

O Algoritmo 1 apresenta o funcionamento t´ıpico do processo de busca de solu¸cões na programa¸cão genética. Primeiramente, uma popula¸cão de indiv´ıduos é gerada aleatoria-mente (Linha 1). Em seguida, ao longo de gera¸cões, indiv´ıduos são avaliados (Linha 3) e são sujeitos a opera¸cões genéticas (Linha 4). Ao final do processo, o melhor indiv´ıduo, ou seja, aquele que melhor resolve o problema alvo, é selecionado (Linha 6).

(22)

Figura 2.2: Exemplo de muta¸c˜ao em GP.

Algoritmo 1 Programa¸c˜ao Gen´etica

1: P ← Gerar popula¸c˜ao inicial aleat´oria.

2: for cada gera¸c˜ao g de N gera¸c˜oes do

3: Calcular o f itness de cada indiv´ıduo i que pertence a P

4: P ← Gerar nova popula¸cão com os melhores indiv´ıduos da gera¸cão g aplicando: reprodu¸cão, muta¸cão e crossover.

5: end for

6: Retornar o melhor indiv´ıduo i de todas as gera¸c˜oes.

2.3 Floresta de Caminhos ´

Otimos (Optimum-Path

Forest)

Optimum-Path Forest (OPF) é um classificador rápido (especialmente na fase de treina-mento), multiclasse e pode tratar um certo grau de overlapping nas classes [46, 48]. OPF tem sido utilizado com sucesso em vários problemas de classifica¸cão [1, 2, 6, 28, 44, 47, 54, 56, 67, 69, 71].

O classificador OPF é baseado na modelagem do problema de classifica¸cão como um problema de particionamento em grafos. O particionamento é definido por protótipos das amostras, os quais vão ser os representantes das classes. OPF cria um grafo G = {V, E} baseado nos dados de treino, em que V são os nós que representam os vetores de carater´ısticas dos objetos e E é o conjunto de arestas que unem os nós. O peso das arestas pode ser dado por uma medida de similaridade ou distância entre os nós. Para criar o grafo, precisa-se definir uma rela¸cão de adjacência, usualmente definida a partir dos k vizinhos mais próximos (k-nearest neighbors – k-NN) ou grafo completo.

No OPF, as classes são representadas em uma ou mais optimum-path trees, as quais têm como raiz uma amostra que é chamada de protótipo. Os protótipos são amostras que representam cada classe e estão na fronteira de separa¸cão das diferentes classes. Uma amostra dentro do optimum-path tree será da mesma classe que seu protótipo.

(23)

Figura 2.3: Exemplo de crossover em GP. As árvores a e b intercambiam sub-árvores para formar a árvore c.

2.3.1 Fase de Treinamento

Seja G = (D1, A) um grafo completo em que qualquer par de nós define um arco em A = D1× D1. D1 é o conjunto de dados de treinamento e é utilizado para criar o classifi-cador (ver Figura 2.4a). Seja λ(x) a fun¸cão que atribui a etiqueta da classe à amostra x. T ⊂ D1 é o conjunto dos protótipos das classes que são definidos utilizando o algoritmo Minimum Spanning Tree (MST) [14]. Na MST, uma amostra x é considerada protótipo se está conectada a uma amostra y, tal que λ(x) 6= λ(y) (ver Figura 2.4b). A distância entre duas amostras x e y é calculada por d(x, y), em que d(x, y) ≥ 0. Um caminho que termina na amostra x é uma sequência de nós πx = hs, s1, s2, ..., xi que tem um custo dado pela fun¸cão de conetividade f (πx). A concatena¸cão do caminho πx e o arco (x, y), é dada por πx.hx, yi. Um caminho é trivial se πx = hxi. Um caminho πx é ótimo se para qualquer outro caminho ςx, f (πx) ≤ f (ςx). O predecessor de x é definido por P (x).

No OPF, a fun¸c˜ao de conetividade fmax(π) ´e dada pelo maior arco no caminho π:

fmax(hxi) =

0 if x ∈ T, +∞ caso contr´ario

fmax(πx.hx, yi) = max{fmax(πx), d(x, y)}. (2.1) Com a minimiza¸cão de fmax, cada uma das amostras y ∈ D1 terá um caminho ótimo P∗(y) desde o conjunto T , cujo custo minimo C(y) é:

(24)

C(y) = min ∀πy∈(D1,A)

{fmax(πy)} (2.2)

A raiz R(y) ∈ T de P∗(y) pode ser obtida desde P (y) seguindo os predecessores de y ao longo do caminho at´e chegar a um elemento t ∈ T . O custo e a etiqueta de y ´e dado por C(y) e L(y), respectivamente. No Algoritmo 2, apresenta-se a fase de treinamento do classificador OPF; este algoritmo estende o algoritmo Image-Forest Transform (IFT) [21]. Algoritmo 2 OPF: Fase de treinamento

Require: Dados de treino D1, prot´otipos T ⊂ D1 1: for cada x ∈ D1\T do

2: C(x) ← +∞

3: end for

4: for cada x ∈ T do

5: C(x) ← 0; P (x) ← nil; L(x) ← λ(x)

6: Inserir x em Q (Fila de prioridade)

7: end for

8: while Q 6= ∅ do

9: Remover x de Q tal que C(x) ≤ C(y), ∀y ∈ Q

10: for cada y ∈ D1 e x 6= y do 11: cst ← max{C(x), d(x, y)} 12: if cst < C(y) then 13: if C(y) 6= +∞ then 14: Remover y de Q 15: end if

16: C(y) ← cst; P (y) ← x; L(y) ← L(x) 17: Inserir y em Q

18: end if

19: end for

20: end while

2.3.2 Fase de Classifica¸

c˜

ao

Seja D2 o conjunto de avalia¸cão. Para cada amostra y ∈ D2 conecta-se y a todas as amostras x ∈ D1 e procura-se o caminho ótimo baseado na fun¸cão de custo:

C2(y) = min{max{C(x), d(x, y)}}, ∀x ∈ D1. (2.3) Seja s a amostra que oferece o menor custo para y segundo a Equa¸cão 2.3, então a classe atribuida à y será L(y) = L(s) (ver Figura 2.4c). Papa et al. [48] apresentam uma melhoria para OPF chamado EOPF (Enhanced OPF ). Esta extensão evita visitar todos os nós das árvores durante a fase de classifica¸cão. Para isto, é criado um conjunto D0 com todos os nós do conjunto D1 de treino em uma ordem não decrescente da fun¸cão de custo. D0 ajuda na poda dos nós. Ao se evitar visitar todos os nós, a visita termina

(25)

(a) (b) (c)

Figura 2.4: Classificador Optimum-Path Forest. No conjunto de dados temos duas classes (azul e verde). (a) Grafo completo, (b) Minimum Spanning Tree (MST) – Sele¸cão de protótipos, os protótipos são as amostras que estão na fronteira e envoltas em linha pontilhada. (c) Classifica¸cão da amostra x que procura o caminho que oferece o menor custo, x é rotulada como da classe verde.

quando a fun¸cão de custo do nó seguinte em D0 é maior ou igual ao custo m´ınimo que já foi oferecido para a amostra y que está sendo classificada. EOPF é apresentado no Algoritmo 3.

Algoritmo 3 EOPF: Fase de classifica¸c˜ao. Require: Conjunto de avalia¸c˜ao D2.

Require: Dados de treino na ordem n˜ao decrescente da fun¸c˜ao de custo D0.

1: for cada x ∈ D2 do 2: i ← 1

3: menorCusto ← max{C(yi), d(yi, x)}, em que yi ∈ D0 4: L(x) ← L(yi); P (x) ← yi

5: while i < |D0| e menorCusto > C(yi+1) do 6: aux ← max{C(yi+1), d(yi+1, x)}

7: if aux < menorCusto then

8: menorCusto ← aux 9: L(x) ← L(yi+1) 10: P (x) ← yi+1 11: end if 12: i ← i + 1 13: end while 14: end for

2.4 Reconhecimento em Cen´

ario Aberto

A principal diferen¸ca entre a classifica¸cão multiclasse de cenário fechado (closed set ) t´ıpica e o reconhecimento em cenário aberto (open set ) é que no open set o classificador deve ter a capacidade de retornar como resultado uma classe conhecida, ou apontar que um dado objeto de teste é de uma classe desconhecida [63]. No open set, durante a fase de teste

(26)

aparecem amostras de classes que não foram vistas na fase de treino. Para isso, precisa-se de técnicas com forte generaliza¸cão, ou seja, técnicas que sejam capazes de determinar quão longe dos dados de uma classe c, uma amostra y pode estar para ser classificada como da classe c. Além da generaliza¸cão, precisa-se também uma forte especializa¸cão considerando o risco para o desconhecido [41, 63]. Na Figura 2.5 mostra-se um exemplo de um problema de cenário aberto em que se pode ver que existem classes desconhecidas e não somente amostras desconhecidas [41, 42].

Figura 2.5: Problema de reconhecimento em cen´ario aberto (open set ).

Nos últimos anos, foram feitos alguns trabalhos direcionados a problemas open set. Estas técnicas são baseadas em adapta¸cões dos classificadores bem estabelecidos como Support Vector Machine (SVM) [15, 16, 63, 64], Transdu¸cão [38] e Optimum-Path Forest (OPF) [28, 41] para reconhecimento em cenário aberto.

O classificador binário 1-vs-Set Machine é proposto por Scheirer et al. [63] para cenário aberto. Este classificador utiliza um kernel linear, que pode ser aplicado a SVMs binários ou one-class. Scheirer et al. [63] acreditam que no cenário open set, precisa-se minimizar o espa¸co aberto (evitar false positive). O 1-vs-Set Machine trata do reconhecimento open set considerando que os dados de treinamento da classe conhecida representam o “Set ”. Este método, além de um plano P (regula o espa¸co aberto) que separa as amostras positivas das negativas, acrescenta um segundo plano U (regula a generaliza¸cão) para a separa¸cão das amostras das classes não conhecidas. Em seguida, ajusta os planos P e U para procurar o equil´ıbrio entre o risco emp´ırico (medido nos dados de treino) e o risco do espa¸co aberto.

Para saber quão aberto é um problema de reconhecimento, Scheirer et al. [63] propõem a Equa¸cão 2.4 de openness. Para isto, utilizam o número de classes alvo, o número de classes usadas no treino e o número de classes usadas no teste. A equa¸cão é só utilizada no sentido acadêmico, dado que na vida real, não se sabe o número de classes que pode-riam aparecer na fase teste. Quando é um problema completamente fechado (closed set ) o openness é 0% e quando maior for o valor, então mais aberto será o problema (open set ).

(27)

openness = 1 − s

2 × |classes treino|

|classes teste| + |classes alvo| (2.4)

Existem alguns problemas de reconhecimento que foram tratados como de cenário Open Set. Costa et al. [15, 16] propuseram uma solu¸cão para o problema de atribuir uma imagem a uma determinada câmera em um cenário open set. Eles analisam esse caso como open set pois consideram ter acesso a um número limitado de câmeras suspeitas e propõem um classificador SVM binário junto a um processo de busca chamado Decision Boundary Carving (DBC). O DBC procura o melhor valor do parâmetro ε para ajustar o hiperplano calculado pelo SVM e minimizar o risco para o desconhecido (risk for the unknown) baseado na taxa de erro dos dados de treino.

Li e Wechsler [38], por sua vez, propuseram um novo classificador chamado Open Set TCM — KNN (Transduction Confidence Machine – k vizinhos mais próximos) para reconhecimento de faces em cenários open set, no qual, nem todas as faces do teste tinham amostras na fase de treino. Open Set TCM — KNN é um classificador multiclasse com a op¸cão de rejeitar amostras de faces que não foram vistas na galeria (conjunto de treino) em que a transdu¸cão ajuda no problema de poucos dados de treino e teste no reconhecimento de faces.

O reconhecimento de impressões digitais é outro problema em cenário open set. Estes sistemas precisam ser robustos a tentativas de fraude ou falsifica¸cão (spoof ), considerando que na fase de teste, é poss´ıvel que haja falsifica¸cões feitas com materiais novos que não foram vistos no treinamento. Rattani et al. [53], por exemplo, propuseram um esquema para classificar e adaptar os novos materiais de fabrica¸cão de digitais que aparecem na fase de teste. Os sistemas de deteçcão de falsifica¸cão de digitais possuem pouca generaliza¸cão já que o erro aumenta quando na fase de teste são encontradas falsifica¸cões feitas com materiais novos não vistos na fase de treino. Rattani et al. [53] utilizaram Weibull-calibrated SVM (W-SVM) [64] que combina o 1-Class SVM com o SVM binário, ambos com kernels não lineares. W-SVM é relativamente robusto para cenário aberto.

Godoi et al. [28] utilizaram o classificador OPF junto com programa¸cão genética (GP) para tratar o problema de ambiguidade de nomes em referências. Este problema ocorre quando o mesmo autor faz publica¸cões com nomes similares (sinônimos) ou autores dis-tintos fazem publica¸cões com nomes semelhantes (homônimos). Trata-se de um problema open set, em que se conhecem alguns autores (classes) na fase de treinamento, mas não se conhecem todos os autores que podem estar na fase de teste. Durante a fase de treino não é poss´ıvel ter todos os autores, então podem-se enfrentar problemas no reconheci-mento quando uma amostra x pertence a um novo autor. Na proposta deles, usaram um threshold para definir novas subárvores para os novos autores (novas classes). A pro-grama¸cão genética foi utilizada para procurar fun¸cões de similaridade entre referências a autores.

(28)

2.5 Reconhecimento em Cen´

ario Aberto Utilizando

Floresta de Caminhos ´

Otimos

Open-Set Optimum-Path Forest (OSOPF) é uma adapta¸cão do classificador OPF para cenários abertos proposto por Mendes [41, 42]. Os métodos de reconhecimento OSOPF possuem a mesma fase de treino que o classificador OPF (ver Se¸cão 3), na qual é gerada uma floresta de caminhos ótimos (OPF). Entretanto, eles diferem na fase de reconheci-mento. Os métodos OSOPF também utilizam a mesma fun¸cão de custo (Equa¸cão 2.3) que o classificador OPF usa na escolha dos caminhos ótimos. Foram propostos dois métodos OSOPF:

• OSOPF1_{: Dada uma amostra y, OSOPF}1 _{procura os dois melhores caminhos} (me-nor custo) oferecidos pela floresta de caminhos ótimos (OPF) gerada na fase de treino. Em seguida, o método verifica as etiquetas das duas amostras que oferecem esses dois melhores caminhos, se ambas amostras são da mesma classe c, então y é etiquetada com da classe c; caso contrário y pertence a uma classe desconhecida. A fase de reconhecimento com o método OSOPF1 _´_{e apresentada no Algoritmo 4.} Algoritmo 4 OSOPF1 _{fase de reconhecimento.}

Require: OP F floresta gerada na fase de treino. Require: x amostra que vai ser reconhecida.

1: s1 ← amostra que oferece o melhor caminho para x na OPF.

2: s2 ← amostra que oferece o segundo melhor caminho para x na OPF. 3: if L(s1) = L(s2) then

4: L(x) ← L(s1). 5: else

6: L(x) ← “classe desconhecida”.

7: end if

• OSOPF2_{: ´}_{E um m´}_{etodo baseado na compara¸c˜}_{ao de um threshold t que ´}_{e otimizado} durante a fase de treino (grid search) e uma rela¸cão de custo dos dois melhores ca-minhos de diferentes classes. Dada uma amostra y, procura c1 e c2 que são os custos dos melhores caminhos até protótipos de diferentes classes p1 e p2, respectivamente. Em seguida, o metodo calcula r = c1/c2 e se r ≤ t (0 < t < 1), então y é classificada com a classe do protótipo p1; caso contrário, é classificada como desconhecida. A fase de reconhecimento do método OSOPF2 é apresentada no Algoritmo 5.

(29)

Algoritmo 5 OSOPF2 fase de reconhecimento. Require: OP F floresta gerada na fase de treino. Require: x amostra que vai ser reconhecida.

1: t ← threshold procurado na fase de treino.

2: π1 ← melhor caminho para x na OPF.

3: π2 ← segundo melhor caminho para x na OPF tal que L(R(π1)) 6= L(R(π2)). 4: r ← f (π1)/f (π2) 5: if r ≤ t then 6: L(x) ← L(R(π1)). 7: else 8: L(x) ← “classe desconhecida”. 9: end if

(30)

M´

etodos para Fus˜

ao de Dados em

Problemas de Cen´

ario Aberto

Neste cap´ıtulo, apresentam-se seis métodos inerentemente multiclasse para reconheci-mento em cenário aberto baseados nos métodos Open-set Optimum-Path Forest (OSOPF) descritos na Se¸cão 2.5. A idéia principal é combinar diferentes tipos de caracter´ısticas ge-radas por vários descritores utilizando: i) Programa¸cão Genética (GP) e ii) um esquema de contagem de votos (Majority Voting). A idéia geral dos classificadores propostos neste trabalho é procurar uma melhor separa¸cão das amostras das classes, e assim melhorar a generaliza¸cão e especializa¸cão dos classificadores.

Na implementa¸cão GP considerada, cada indiv´ıduo representa uma fun¸cão de distância entre duas amostras usando diferentes tipos de caracter´ısticas. A fun¸cão de distância de-fine os pesos dos arcos das árvores da floresta de caminhos ótimos (OPF). No processo evo-lutivo, procura-se a fun¸cão que melhor se adapta ao classificador na resolu¸cão do problema de reconhecimento. Os classificadores baseados em GP, chamados de classificadores-GP, estão representados pela tupla (γ, δ), em que:

• γ ´e um classificador. Os classificadores utilizados nesta pesquisa s˜ao: OSOPF1 e OSOPF2 _{apresentados na Se¸c˜}_{ao 2.5.}

• δ é um indiv´ıduo (fun¸cão de distância) gerado pela programa¸cão genética.

Para avaliar cada par (γ, δ), e criada uma floresta de caminhos ótimos (OPF) uti-lizando um conjunto de amostras chamado de f itting. Em seguida dois conjuntos de amostras validation1 e validation2 sao utilizados. O conjunto validation1, usado durante as N gera¸cões GP, serve para pré-selecionar os indiv´ıduos com melhor acurácia junto a um determinado classificador. O conjunto validation2, por sua vez, é utilizado para avaliar a capacidade de generaliza¸cão dos classificadores-GP tentando evitar o problema do overfitting. A escolha do melhor par (γ, δ) é baseada na acurácia normalizada média apresentada na Equa¸cão 3.1, em que ac1 e ac2 são as acurácias normalizadas obtidas pelo classificador nos conjuntos validation1 e validation2, respectivamente.

meanAccuracy = ac1+ ac2

2 (3.1)

(31)

Nas Se¸cões 3.1 e 3.2, apresentam-se os métodos que realizam o treino com cenário aberto e cenário fechado, respectivamente. Em um treinamento de cenário aberto, nos conjuntos validation1 e validation2 aparecem amostras que pertencem a classes que não tem representantes no conjunto de f itting; e em um treinamento de cenário fechado todas as classes têm amostras tanto no f itting como nos conjuntos validation1 e validation2. Na Se¸cão 3.3, apresentam-se os classificadores baseados em esquema de contagem de votos (Majority Voting). Os métodos desenvolvidos neste trabalho e o tipo de treino que utilizam cada um deles são apresentados na Tabela 3.1. Os métodos Majority Voting não utilizam conjuntos de valida¸cão.

Tabela 3.1: M´etodos open set propostosa_.

M´etodo Tipo de c´enario no treino

OSOPF1_Open-GP _Aberto

OSOPF1_Closed-GP _Fechado

OSOPF2_Open-GP _Aberto

OSOPF2_Closed-GP _Fechado

Majority Voting OSOPF1 —

Majority Voting OSOPF2 —

a_{Nos m´}_{etodos Majority Voting, n˜}_{ao h´}_{a particionamento das amostras na fase de treino porque n˜}_{ao se}

precisa da otimiza¸c˜ao de nenhum parˆametro.

3.1 Open-GP

A idéia principal dos métodos Open-GP desenvolvidos neste trabalho é procurar o melhor par (γ, δ), considerando-se um cénario aberto durante a fase de treino. Para isto, usa-se o particionamento apresentado na Se¸cão 4.2.1. Dois métodos Open-GP são propostos: OSOPF1_{-OGP e OSOPF}2_-OGP.

Os métodos OGP procuram a generaliza¸cão do classificador na classifica¸cão das amos-tras, isto é, tenta-se saber até quão longe uma amostra poderia estar de uma árvore de amostras de uma classe x para poder ser etiquetada como da classe x.

3.1.1 OSOPF

1

-OGP

OSOPF1 Open-GP (OSOPF1-OGP) procura o melhor par (γ, δ) em que γ = OSOPF1. Procura-se o indiv´ıduo δ que em conjunto com o classificador OSOPF1 tenha a melhor acurácia na fase de treino. Este método é detalhado no Algoritmo 6. Nas Linhas 1 e 2, cria-se um conjunto I para armazenar os melhores indiv´ıduos de cada gera¸cão e gera-se a popula¸cão GP inicial. Nas Linhas 3-11, os indiv´ıduos GP são evolu´ıdos ao londo de Nevolutions gera¸cões. Durante as Nevolutions gera¸cões, nas Linhas 4-7, avalia-se cada in-div´ıduo GP. Para isto, primeiro, na Linha 5, cria-se a floresta de árvores de caminhos ´

otimos utilizando o conjunto f itting utilizando-se cada indiv´ıduo GP como fun¸c˜ao de distˆancia. Em seguida, na Linha 6, avalia-se a floresta gerada na Linha 5 com um conjunto

(32)

de valida¸cão validation1 usando OSOPF1 como classificador. Nas Linhas 8, 9 e 10 são selecionados os melhores NtopIndividuals de cada gera¸cão e a popula¸cão é evolu´ıda usando os operadores de Muta¸cão, Reprodu¸cão e Crossover. Em seguida, nas Linhas 12-16, cria-se a floresta de caminhos ótimos usando o conjunto de f itting e cada um dos me-lhores indiv´ıduos i que foram armazenados no conjunto I, avaliam-se as florestas usando o classificador OSOPF1 _{e calcula-se a acur´}_{acia normalizada m´}_{edia para cada indiv´ıduo i} baseando-se na acurácia normalizada obtida nos conjuntos validation1 e validation2. Na Linha 17, seleciona-se o melhor indiv´ıduo ibest. Depois, na Linha 18, cria-se o conjunto de treino que é formado pelos conjuntos f itting, validation1, validation2 e validation3. Finalmente, cria-se a floresta definitiva com o conjunto training e o indiv´ıduo ibest (Li-nha 19), e avalia-se a floresta gerada no conjunto teste com o classificador OSOPF1 (Linha 20).

Algoritmo 6 Algoritmo OSOPF1_-OGP

Require: f itting, validation1, validation2, validation3 (ver Se¸c˜ao 4.2.1) Require: Nevolutions, NtopIndividuals

1: I ← ∅.

2: A ← popula¸c˜ao inicial.

3: for cada gera¸c˜ao g de Nevolutions do 4: for cada i ∈ A do

5: f orest ← OP F (f itting, i).

6: i.f itnessV alue ← OSOP F1_{(f orest, i, validation}

1) //acur´acia normalizada. 7: end for

8: Ig ← NtopIndividuals de g 9: I ← I ∪ Ig

10: A ← nova popula¸cão (Reprodu¸cão, Crossover e Muta¸cão).

11: end for

12: for cada i ∈ I do

14: f itnessval2← OSOP F1(f orest, i, validation2) //acur´acia normalizada. 15: i.f itnessV alue ← (i.f itnessV alue + f itnessval2)/2

16: end for

17: ibest ← bestIndividual(I)

18: training ← f itting ∪ validation1∪ validation2∪ validation3 19: f orest ← OP F (training, ibest).

20: OSOP F1(f orest, ibest, testing) //classifica¸c˜ao no conjunto de teste.

3.1.2 OSOPF

2

-OGP

OSOPF2 Open-GP (OSOPF2-OGP) utiliza um cenário aberto na fase de treino. O obje-tivo é procurar o melhor indiv´ıduo (δ) para ser utilizado junto ao classificador OSOPF2 (γ). Este método é detalhado no Algoritmo 7.

(33)

é utilizado o classificador OSOPF2 _{ao inv´}_{es de o OSOPF}1_{. Note que o OSOPF}2 _est´_a associado ao parâmetro threshold. Desta forma, na Linha 18, o método OSOPF2_-OGP executa um gridSearch para otimizar o valor do threshold que será utilizado para avaliar o classificador na fase de teste (Linha 21).

Algoritmo 7 Algoritmo OSOPF2_-OGP

Require: f itting, validation1, validation2, validation3 (ver Se¸c˜ao 4.2.1) Require: threshold

Require: Nevolutions, NtopIndividuals 1: I ← ∅.

6: i.f itnessV alue ← OSOP F2_{(f orest, i, threshold, validation}

1) //acur´acia nor-malizada.

7: end for

10: A ← nova popula¸cão (Reprodu¸cão, Crossover e Muta¸cão).

11: end for

14: f itnessval2 ← OSOP F2(f orest, i, threshold, validation2) //acur´acia normalizada. 15: i.f itnessV alue ← (i.f itnessV alue + f itnessval2)/2

16: end for

17: ibest ← bestIndividual(I).

18: bestT hreshold ← gridSearch(OSOP F2, i, validation3) (ver Se¸c˜ao 4.5). 19: training ← f itting ∪ validation1∪ validation2∪ validation3

20: f orest ← OP F (training, ibest). 21: OSOP F2_{(f orest, i}

best, bestT hreshold, testing) //classifica¸c˜ao no conjunto de teste.

3.2 Closed-GP

Os métodos Closed-GP utilizam um cenário fechado na fase de treino procurando o melhor par (γ, δ). O par (γ, δ) selecionado será usado no conjunto de teste (cenário aberto). Dado que na fase de treino trabalha-se sob um cenário fechado, então utiliza-se OPF como classificador nesta fase. O particionamento das amostras é apresentado na Se¸cão 4.2.2.

Os métodos CGP procuram obter uma boa especializa¸cão do classificador na classi-fica¸cão das amostras, isto é, tenta-se melhorar a separa¸cão entre as classes e obter uma melhor compacta¸cão das amostras de uma mesma classe.

(34)

3.2.1 OSOPF

1

Closed-GP

OSOPF1 _{Closed-GP (OSOPF}1_{-CGP) procura o par (γ, δ) com a melhor acur´}_{acia na} clas-sifica¸c˜ao das amostras no treino. Na fase de teste, utiliza-se o melhor indiv´ıduo δ junto com o classificador OSOPF1_.

O Algoritmo 8 detalha este método. Nas Linhas 1 e 2, cria-se um conjunto I para armazenar os melhores indiv´ıduos de cada gera¸cão e gera-se a popula¸cão GP inicial. Nas Linhas 3-11, os indiv´ıduos GP são evolu´ıdos ao longo de Nevolutions gera¸cões. Durante as Nevolutions gera¸cões, nas Linhas 4-7, avalia-se cada indiv´ıduo GP. Para isto, primeiro, na Linha 5, cria-se a floresta de árvores de caminhos ótimos utilizando o conjunto f itting utilizando-se cada indiv´ıduo GP como fun¸cão de distância. Em seguida, na Linha 6, avalia-se a floresta gerada na Linha 5 com um conjunto de valida¸cão validation1 usando OPF como classificador. Nas Linhas 8, 9 e 10 são selecionados os melhores NtopIndividuals de cada gera¸cão e a popula¸cão é evolu´ıda usando os operadores de Muta¸cão, Reprodu¸cão e Crossover. Em seguida, nas Linhas 12-16, cria-se a floresta de caminhos ótimos usando o conjunto de f itting e cada um dos melhores indiv´ıduos i que foram armazenados no conjunto I, avaliam-se as florestas usando o classificador OPF e calcula-se a acurácia normalizada média para cada indiv´ıduo i baseando-se na acurácia normalizada obtida nos conjuntos validation1 e validation2. Na Linha 17, seleciona-se o melhor indiv´ıduo ibest. Depois, na Linha 18, cria-se o conjunto de treino que é formado pelos conjuntos f itting, validation1e validation2. Finalmente, cria-se a floresta definitiva com o conjunto training e o indiv´ıduo ibest, e avalia-se a floresta gerada no conjunto teste com o classificador OSOPF1_.

3.2.2 OSOPF

2

Closed-GP

O método OSOPF2 _{Closed-GP (OSOPF}2_{-CGP) tem como objetivo obter o melhor} clas-sificador (γ, δ) durante a fase de treino. Em seguida, o melhor indiv´ıduo δ é utilizado na fase de teste junto com o classificador OSOPF2. Este método é detalhado no Algoritmo 9. O Algoritmo 9 difere do Algoritmo 8 na Linha 20 em que é utilizado o classificador OSOPF2 _{ao inv´}_{es de o OSOPF}1_{. Note que OSOPF}2 _{precisa do parˆ}_{ametro threshold.}

3.3 Majority Voting

O Majority Voting é uma das técnicas para fusão de informa¸cão mais antiga, simples e que tem sido tão eficaz como outras técnicas mais complicadas. Esta se¸cão apresenta dois classificadores: Voting-OSOPF1_{e Voting-OSOPF}2_{. Estes m´}_{etodos diferem apenas quanto} ao classificador base que é utilizado. Nesta abordagem, cada classificador é definido pelo par (γ, D), em que:

• γ ´e um classificador base (OSOPF1 _{ou OSOPF}2 _{– Se¸c˜}_{ao 2.5).} • D ´e um conjunto de descritores.

No Majority Voting, objetiva-se combinar diferentes tipos de features usando um es-quema de contagem de votos baseado nos r´otulos atribu´ıdos a uma amostra por cada

(35)

Algoritmo 8 Algoritmo OSOPF1-CGP

Require: f itting, validation1, validation2 (ver Se¸c˜ao 4.2.2) Require: Nevolutions, NtopIndividuals

1: I ← ∅.

6: i.f itnessV alue ← OP F (f orest, i, validation1) //acur´acia normalizada. 7: end for

10: A ← nova popula¸cão(Reprodu¸cão, Crossover e Muta¸cão).

11: end for

14: f itnessval2← OP F (f orest, i, validation2) //acur´acia normalizada. 15: i.f itnessV alue ← (i.f itnessV alue + f itnessval2)/2

16: end for

18: training ← f itting ∪ validation1∪ validation2 19: f orest ← OP F (training, ibest).

(36)

Algoritmo 9 Algoritmo OSOPF2_-CGP

Require: f itting, validation1, validation2 (ver Se¸c˜ao 4.2.2) Require: threshold

Require: Nevolutions, NtopIndividuals 1: I ← ∅.

6: i.f itnessV alue ← OP F (f orest, i, validation1) //acur´acia normalizada. 7: end for

10: A ← nova popula¸cão(Reprodu¸cão, Crossover e Muta¸cão).

11: end for

14: f itnessval2← OP F (f orest, i, validation2) //acur´acia normalizada. 15: i.f itnessV alue ← (i.f itnessV alue + f itnessval2)/2

16: end for

18: training ← f itting ∪ validation1 ∪ validation2 19: f orest ← OP F (training, ibest).

20: OSOP F2_{(f orest, i}

(37)

par (γ, Di) em que Di ∈ D. O rótulo definitivo da amostra será aquele que tenha um maior número de votos. No caso de empate, seleciona-se aleatoriamente um dos rótulos empatados.

A abordagem Majority Voting é apresentada no Algoritmo 10. Na Linha 1, inicializa-se F que é utilizado para armazenar a floresta gerada a prtir do uso de cada descritor. Em seguida, nas Linhas 2-5, com o conjunto training, gera-se uma floresta para cada descritor, armazenando-as em F . A atribui¸cão das classes para cada amostra é feita nas Linhas 6-13 (fase de teste). Finalmente, com cada floresta em F , atribui-se um label `

as amostras usando um determinado classificador (OSOPF1 ou OSOPF2) – Linhas 8-11, armazenando-se o resultado em P . Por fim, na Linha 12, ´e atribu´ıdo o label que mais se repete em P . Em caso de empate, seleciona-se aleatoriamente um dos labels das classes para as quais verifica-se o empate.

Algoritmo 10 Algoritmo Majority Voting Require: classif ier

Require: training Require: testing

Require: conjunto de descritores D

1: F (descriptor, f orest) ← ∅.

2: for cada descriptor ∈ D do

3: f orest ← OP F (training, descriptor).

4: F ← F ∪ (descriptor, f orest).

5: end for

6: for cada x ∈ testing do

7: P ← ∅

8: for cada (descriptor, f orest) ∈ F do

9: label ← classif ier(f orest, descriptor, x).

10: P ← P ∪ label .

11: end for

12: x.label ← atribuir o label que mais se repete em P ; em caso de empate atribuir aleatoriamente um dos labels das classes para as quais verifica-se o empate.

(38)

Protocolo Experimental

Este cap´ıtulo apresenta o protocolo experimental usado neste trabalho, descrevendo os datasets utilizados (Se¸cão 4.1), métodos para o particionamento das amostras (Se¸cão 4.2), descritores para extra¸cão das features das imagens (Se¸cão 4.3), configura¸cão dos parâmetros do arcabou¸co GP (Se¸cão 4.4), grid search para otimiza¸cão de parâmetros (Se¸cão 4.5), me-didas de avalia¸cão (Se¸cão 4.6) e os testes estat´ısticos que foram utilizados para comparar os resultados obtidos (Se¸cão 4.7).

4.1 Conjuntos de Dados

Para avaliar as abordagens de fus˜ao de dados que foram desenvolvidas neste trabalho dois datasets foram utilizados: Caltech-256 [29] e ALOI [27].

• Caltech-256 ´e um conjunto de imagens utilizado para reconhecimento de objetos que cont´em 256 classes com um total de 29780 imagens. Possui uma grande varie-dade de objetos naturais e artificiais. Mostram-se alguns exemplos deste dataset na Figura 4.1.

Figura 4.1: Exemplos de imagens do dataset CALTECH-256.

(39)

• ALOI é um dataset de imagens de objetos que contém 1000 classes com um total de 110250 imagens. Cada objeto possui imagens com diferentes ângulos de visão e ilumina¸cão, e cenários nos quais a cor dos objetos é afetada pela ilumina¸cão. Algumas imagens do dataset ALOI são apresentadas na Figura 4.2.

Figura 4.2: Exemplos de imagens do dataset ALOI.

Na Tabela 4.1 caracteriza-se cada dataset, considerando-se o número de classes, número de amostras, além do número m´ınimo, máximo e médio de elementos por classe. O openness (ver Equa¸cão 2.4 da Se¸cão 2.4) de cada dataset para 3, 6, 9, 12 e 15 classes conhecidas é apresentado na Tabela 4.2.

Tabela 4.1: Caracteriza¸c˜ao dos datasets utilizados. DataSet # classes # amostras Imagens por classe

min max m´edia

CALTECH 256 29780 80 800 116

ALOI 1000 110250 108 111 110

Tabela 4.2: Openness dos datasets para 3, 6, 9, 12 e 15 classes conhecidas. # classes conhecidas Openness ALOI (1000 classes) CALTECH-256 (256 classes) 3 0,9452 0,8917 6 0,9225 0,8469 9 0,9051 0,8125 12 0,8905 0,7835 15 0,8775 0,7579

(40)

4.2 Particionamento dos Conjunto de Dados

O particionamento dos conjuntos de amostras ´e baseado na metodologia proposta em [41, 42]. A seguinte metodologia foi adotada:

1. Aleatoriamente s˜ao escolhidas x classes do dataset que ser˜ao consideradas como classes conhecidas. Neste trabalho x = 3, 6, 9, 12 e 15 classes.

2. As amostras das x classes conhecidas s˜ao particionadas de modo que 80% e 20% s˜ao utilizadas no conjunto de treino e teste, respectivamente.

3. Todas as amostras das classes desconhecidas fazem parte do conjunto de teste. A Figura 4.3 mostra como se d´a o partitionamento das amostras no conjunto de treino e teste.

Figura 4.3: Particionamento das amostras em treino e teste.

Para os métodos Majority Voting, não há particionamento das amostras na fase de treino porque não se precisa da otimiza¸cão de nenhum parâmetro, a floresta de cami-nhos ótimos é gerada com todas as amostras do conjunto. Para os métodos Open-GP e Closed-GP foram simulados cenários de treino aberto e fechado, respectivamente. Para isto, foram feitos particionamentos nas amostras do treino, conforme apresentado nas Se¸cões 4.2.1 e 4.2.2. Para todos os métodos, na fase de treinamento, o conjunto completo de amostras do treino é utilizado para gerar a floresta do classificador OPF e o conjunto de teste para avaliar o classificador.

4.2.1 Open-GP

Para os m´etodos Open-GP foi simulado um cen´ario aberto durante a fase de treino. Para isto faz-se o seguinte particionamento das amostras do conjunto de treino:

1. Das x classes conhecidas do treino, toma-se a metade delas como classes conhecidas (y classes) e a outra metade como desconhecidas (z classes).

2. O conjunto de f itting ´e formado pelo 40% das amostras das y classes conhecidas e ´

(41)

3. O conjunto validation1(v1) é utilizado para validar a floresta gerada nas gera¸cões da programa¸cão genética e é composto por 30% das amostras das y classes conhecidas e o 50% das amostras das z classes desconhecidas.

4. O conjunto validation2 (v2) ´e usado para tratar o problema de overfitting. Este conjunto cont´em 20% das amostras das y classes conhecidas e 35% das amostras das z classes desconhecidas.

5. O conjunto validation3 (v3) é utilizado para procurar o melhor threshold no classi-ficador OSOPF2-OGP (Se¸cão 3.1.2). Este conjunto contém 10% das amostras das y classes conhecidas e 15% das amostras das z classes desconhecidas.

O particionamento das amostras do treino para criar um cen´ario aberto ´e apresentando na Figura 4.4.

Figura 4.4: Particionamento Open-GP das amostras do treino. v1, v2, v3 s˜ao os conjuntos validation1, validation2 e validation3, respectivamente.

4.2.2 Closed-GP

Nos métodos Closed-GP é feito um treinamento considerando um cenário de classifica¸cão fechado. Portanto, todas amostras do conjunto de treino foram particionadas conforme ilustrado na Figura 4.5 e descrito a seguir.

• 40% das amostras das x classes conhecidas formam o f itting que ´e usado na gera¸c˜ao da floresta do classificador OPF.

• O primeiro conjunto de valida¸cão (v1 na figura) contém 30% das amostras das x classes e é utilizado para validar a floresta gerada.

• Para tratar o problema do overfitting, utiliza-se um segundo conjunto de valida¸c˜ao (v2 na figura). Este conjunto cont´em 30% das amostras das x classes.

(42)

Figura 4.5: Particionamento Closed-GP das amostras do treino. v1, v2 s˜ao os conjuntos validation1 e validation2, respectivamente.

4.3 Descritores

Neste trabalho, não se buscaram os melhores descritores para cada dataset. Foram utiliza-dos descritores de cor e textura, considerando que são tipos de descritores que contribuem com caracter´ısticas diferentes dos objetos. Os descritores usados para extra¸cão de carac-ter´ıstica foram Border/Interior Pixel Classification (BIC), Color Autocorrelogram (ACC), Color Coherence Vector (CCV), Quantized Compound Change Histogram(QCCH) e Local Activity Spectrum(LAS), sendo os três primeiros de cor e os dois últimos de textura.

• Border/Interior Pixel Classification (BIC) [68]: A id´eia principal do descritor BIC ´

e classificar cada pixel da imagem como pixel de borda ou interior. É um método muito simples, eficiente, não custoso em tempo computacional e gera uma repre-senta¸cão compacta (features) da imagem. Depois da quantiza¸cão dos pixels das imagens, os pixels são classificados como pixels de interior se seus vizinhos têm a mesma cor; caso contrário é classificado como pixel de borda. Para obter a re-presenta¸cão, uma vez classificados os pixels, cria-se um histograma considerando apenas os pixels de borda e um outro considerando apenas os pixels de interior. O tamanho do vetor de features gerado pelo descritor é 128 (64 bins para o histograma de pixels de borda e 64 para o histograma referente aos pixels de interior).

• Color Autocorrelogram (ACC) [33]: Este descritor é utilizado para comparar ima-gens a partir da análise da correla¸cão espacial das cores a diferentes distâncias. É um descritor eficaz, eficiente, rápido e gera um vetor de caracter´ısticas relativamente pequeno. É baseado na probabilidade de encontrar um pixel de cor x a partir de um pixel de cor y a uma certa distância d em uma imagem. Possui tolerância a mudan¸cas em pontos de visão, diferentes tipos de ilumina¸cão e altera¸cões na forma. Os histogramas tradicionais de cor não contemplam nenhum tipo de informa¸cão espacial. O descritor ACC por sua vez considera a correla¸cão espacial local de cor e também a distribui¸cão global da correla¸cão espacial da imagem. O vetor gerado por este descritor possui 256 bins.

• Color Coherence Vector (CCV) [49]: O descritor CCV considera informa¸cão espacial da imagem e classifica cada pixel como coerente ou incorente. Os histogramas de cor não analisam informa¸cão espacial e por isto, existem imagens com aparências totalmente diferentes que podem ter histogramas de cor similares. No descritor