Abordagem de construção de arquitetura homogênea para comitês via meta-aprendizagem

(1)

Abordagem de Construção de Arquitetura

Homogênea para Comitês via

Meta-aprendizagem

Regina Rosa Parente

Orientador: Profa_{. Dr}a_{. Anne Magály de Paula Canuto}

Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em Sistemas e Computação da UFRN (área de concentra-ção: Processamento Gráfico e Inteligência Computacional) como parte dos requisitos para obtenção do título de Mestre em Ciên-cias.

(2)

(3)

Homogênea para Comitês via

Meta-aprendizagem

Regina Rosa Parente

Dissertação de Mestrado aprovada em 21 de maio de 2012 pela banca examinadora com-posta pelos seguintes membros:

Profa. Dra. Anne Magály de Paula Canuto (orientadora) . . . DIMAp/UFRN

Prof. Dr. André Maurício Cunha Campos . . . DIMAp/UFFN

(4)

(5)

Em primeiro lugar, a Deus pelo dom da vida, por tudo que tenho e sou e por ter sonhado comigo este trabalho e providenciado todos os meios necessários para que ele fosse pos-sível.

A minha orientadora, Anne Magály pela atenção, cuidado, confiança e orientação.

À minha família pelo apoio durante esta jornada, de maneira especial a minha mãe que sempre lutou para que eu tivesse acesso a educação.

À Regina Machado, minha segunda mãe, pelo apoio, pelo carinho e todo auxílio que tornaram possíveis as minhas escolhas.

Aos irmãos e amigos da Comunidade Católica Shalom, Amanda Canuto, Enne Karol, Fabiana Santos, Flávio Enilson, Juliana Oliveira, Jussara Lima, Leidiana, Lielson Ca-valcante, Waleska Soraya e a todos os irmãos de célula pelas orações e apoio durante a realização deste trabalho.

Aos amigos, Ana Cláudia, Cristiane Rosa, Débora Rodrigues, Erenildo Rios, Kamilla Uhl, Maxwell Fausto e Marciano Gonçalves e de maneira muito especial a Débora e Marciano pela presença e paciência constantes.

Aos amigos não citados aqui, por serem muitos, mas extremamente caros ao meu coração e que de alguma maneira estiveram presentes durante esta jornada, o meu muito obrigada.

A Bruno Feres de Souza pelas sugestões e disponibilidade.

(6)

No universo cotidiano estamos constantemente realizando ações. Duas dessas ações são frequentes e de grande importância: classificar (distribuir por classes) e tomar decisão. Quando nos deparamos com problemas com um grau de complexidade relativamente alto, tendemos a buscar outras opiniões, geralmente de pessoas que tenham certo conhecimento ou até mesmo, na medida do possível, sejam especialistas no domínio do problema em questão, de forma que nos ajudem no processo de tomada de decisão. Tanto no processo de classificação quanto em um processo de tomada de decisão, somos orientados pela consideração das características envolvidas no problema específico. A caracterização de um conjunto de objetos faz parte do processo de tomada de decisão em geral. Em Apren-dizado de Máquina essa classificação acontece através de um algoritmo de aprenApren-dizado e a caracterização é aplicada às bases de dados. Os algoritmos de classificação podem ser empregados individualmente ou em forma de comitês de máquinas. A escolha dos melhores métodos a serem utilizados na construção de um comitê é uma tarefa bastante árdua. Neste trabalho, serão investigadas técnicas de meta-aprendizagem na seleção dos melhores parâmetros de configuração de comitês homogêneos para aplicações em proble-mas diversos de classificação. Tais parâmetros são: o classificador base, a arquitetura e o tamanho desta arquitetura. Foram investigados nove tipos de indutores candidatos a clas-sificador base, dois métodos de geração de arquitetura e três grupos de tamanho médio para arquitetura, pequeno, médio e grande. Ante um desempenho fraco no processo de meta-aprendizagem foram aplicadas técnicas de redução de dimensionalidade às metaba-ses e seis novos critérios de tamanho médio da arquitetura foram estabelecidos. Cinco métodos classificadores são investigados como meta-aprendizes no processo de escolha dos melhores parâmetros de um comitê homogêneo.

(7)

In the world we are constantly performing everyday actions. Two of these actions are frequent and of great importance: classify (sort by classes) and take decision. When we encounter problems with a relatively high degree of complexity, we tend to seek other opi-nions, usually from people who have some knowledge or even to the extent possible, are experts in the problem domain in question in order to help us in the decision-making pro-cess. Both the classification process as the process of decision making, we are guided by consideration of the characteristics involved in the specific problem. The characterization of a set of objects is part of the decision making process in general. In Machine Learning this classification happens through a learning algorithm and the characterization is applied to databases. The classification algorithms can be employed individually or by machine committees. The choice of the best methods to be used in the construction of a committee is a very arduous task. In this work, it will be investigated meta-learning techniques in se-lecting the best configuration parameters of homogeneous committees for applications in various classification problems. These parameters are: the base classifier, the architecture and the size of this architecture. We investigated nine types of inductors candidates for based classifier, two methods of generation of architecture and nine medium-sized groups for architecture. Dimensionality reduction techniques have been applied to metabases lo-oking for improvement. Five classifiers methods are investigated as meta-learners in the process of choosing the best parameters of a homogeneous committee.

(8)

Sumário i

Lista de Figuras iv

Lista de Tabelas vi

Lista de Abreviaturas vii

1 Introdução 1

1.1 Motivação . . . 2

1.2 Objetivos . . . 3

1.3 Organização do Trabalho . . . 4

2 Aprendizado de Máquina 5 2.1 Paradigma de Aprendizado . . . 6

2.1.1 Paradigma Simbólico . . . 7

2.1.2 Paradigma Estatístico . . . 9

2.1.3 Paradigma Baseado em Exemplos . . . 9

2.1.4 Paradigma Conexionista . . . 10

2.2 Comitês de Máquinas . . . 12

2.2.1 Construção de Comitês . . . 15

2.3 Considerações Finais . . . 24

3 Meta-aprendizagem 25 3.1 Meta-aprendizagem para Recomendação de Algoritmos . . . 26

3.1.1 Caracterização dos Dados . . . 28

3.1.2 Medidas de Avaliação . . . 33

3.1.3 Formas de Sugestão . . . 33

(9)

4.1.1 Problemas de classificação . . . 39

4.1.2 Medidas de Caracterização de Dados . . . 40

4.1.3 Algoritmos de Aprendizagem . . . 40

4.1.4 Aplicação e Avaliação da Meta-aprendizagem . . . 40

5 Análise dos Resultados 43 5.1 Resultados para Classificador Base . . . 44

5.1.1 Nove Candidatos a Classificador Base . . . 45

5.1.2 Seis Candidatos a Classificador Base . . . 47

5.1.3 Quatro Candidatos a Classificador Base . . . 48

5.2 Resultados para Arquitetura . . . 49

5.2.1 Resultados paraBagging . . . 51

5.2.2 Resultados paraBoosting . . . 52

5.2.3 Comparação entreBaggingeBoosting . . . 52

5.3 Resultados Tamanhos da Arquitetura . . . 54

5.4 Resultados da Meta-aprendizagem para Classificadores Base . . . 58

5.4.1 Meta-aprendizagem com Nove Classificadores Base . . . 58

5.4.2 Meta-aprendizagem com Seis Classificadores Base . . . 59

5.4.3 Meta-aprendizagem com Quatro Classificadores Base . . . 60

5.5 Redução de Dimensionalidade . . . 60

5.5.1 Redução por Árvore de Decisão . . . 61

5.5.2 Redução por PCA . . . 61

5.5.3 Redução por Método Randômico . . . 62

5.6 Novos Tamanhos Médios da Arquitetura . . . 62

5.7 Novas Configurações dos Métodos Meta-aprendizes MLP e SVM . . . . 63

5.8 Síntese dos Resultados . . . 64

5.9 Análise Estatística dos Meta-aprendizes . . . 65

5.9.1 Classificador Base . . . 66

5.9.2 Arquitetura . . . 67

5.9.3 Tamanhos de Arquitetura . . . 69

(10)

Referências bibliográficas 73

A Problemas de Classificação 81

A.1 Descrição das Bases de Dados . . . 81

A.2 Características das Bases de Dados . . . 91

B Tabelas de Resultados 95 B.1 Resultados para Classificador Base . . . 96

B.2 Resultados para Arquitetura . . . 101

B.2.1 Resultados paraBagging . . . 101

(11)

2.1 Hierarquia do aprendizado (Rezende, 2003). . . 6

2.2 Processo de Classificação . . . 7

2.3 Ilustração de uma classificação baseada em vizinhança(Nascimento,2009) 10 2.4 Três motivos para se preferir adotar um comitê a um preditor único . . . . 14

2.5 Arquitetura geral de umensemble . . . 17

2.6 Processo de geração de componentes via métodoBagging (Nascimento, 2009). . . 21

2.7 Processo de geração de componentes via métodoBoosting(Nascimento, 2009). . . 23

3.1 Processo de Recomendação de Algoritmos via meta-aprendizagem.(Brazdil et al., 2009). . . 28

3.2 Processo de Recomendação de Algoritmos para comitê via meta-aprendizagem. Adaptado de (Brazdil et al., 2009) . . . 29

4.1 Processo Experimental. . . 38

5.1 Gráfico de distribuição das classes com nove classificadores base. . . 45

5.2 Gráfico Box-Plot com as médias das taxas acerto obtidas pelos classifica-dores base. . . 46

5.3 Gráfico de distribuição das classes com seis classificadores base. . . 48

5.4 Gráfico de distribuição das classes com quatro classificadores base. . . 49

5.5 Distribuição das Classes da Meta-base Gerada na Investigação da Melhor Arquitetura. . . 50

5.6 Gráfico Box-Plot para arquiteturaBagging. . . 51

5.7 Gráfico Box-Plot para arquiteturaBoosting. . . 52

5.8 Comparação do Desempenho Médio entre oBagginge oBoosting. . . 53

5.9 Gráfico de distribuição das classes com 3 tamanhos de arquitetura. . . 54

5.10 Gráfico da acurácia média dos 3 tamanhos de arquitetura. . . 55

5.11 Gráfico de distribuição das classes com 2 tamanhos de arquitetura. . . 56

(12)

5.14 Gráfico da acurácia média dos 4 tamanhos de arquitetura. . . 57 5.15 Comparação entre os Meta-aprendizes ao Avaliarem os Classificadores

Base. . . 66 5.16 Comparação entre os Meta-aprendizes ao Avaliarem as Arquiteturas. . . . 68 5.17 Comparação entre os Meta-aprendizes ao Avaliarem os Tamanhos Médios

(13)

4.1 Medidas de Caracterização . . . 41

5.1 Porcentagem de meta-exemplos rotulados por cada indutor. . . 47

5.4 Meta-exemplos Rotulados: BaggingVersusBoostingpor Algoritmo Base. 53 5.5 Resultados dos Meta-aprendizes (Nove classificadores base, Duas arqui-teturas e três tamanhos). . . 59

5.6 Resultados dos Meta-aprendizes (Seis classificadores base, Duas arquite-turas e três tamanhos). . . 59

5.7 Resultados dos Meta-aprendizes (Quatro classificadores base, Duas ar-quiteturas e três tamanhos). . . 60

5.8 Resultados dos Meta-aprendizes (Quatro classificadores base, Duas ar-quiteturas e três tamanhos) com redução por árvore de decisão. . . 61

5.9 Resultados dos Meta-aprendizes (Quatro classificadores base, Duas ar-quiteturas e três tamanhos) com redução por PCA. . . 62

5.10 Resultados dos Meta-aprendizes (Quatro classificadores base, Duas ar-quiteturas e três tamanhos) com redução por RandonSubSet. . . 62

5.11 Resultados dos Meta-aprendizes (Quatro tamanhos). . . 63

5.12 Resultados dos Meta-aprendizes (Dois tamanhos). . . 63

5.13 Resultados dos Meta-aprendizes - Nova configuração. . . 64

5.14 Resultados dos Meta-aprendizes (Quatro classificadores base, Duas ar-quiteturas e dois tamanhos). . . 65

5.15 Resultados para Teste de Kruskal-Wallis com Student-Newman-Keuls na Avaliação dos Classificadores Base. . . 67

5.16 Resultados para Teste de Kruskal-Wallis com Student-Newman-Keuls na Avaliação das Arquiteturas. . . 68

5.17 Resultados para Teste de Kruskal-Wallis com Student-Newman-Keuls na Avaliação dos Tamanhos da Arquitetura. . . 70

(14)

B.1 Resultados da Média das Taxas de acerto dos Nove Indutores Candidatos a Classificador Base. . . 97 B.2 Resultados da Média das Taxas de Acerto dos Nove Indutores Candidatos

a Classificador Base. . . 98 B.3 Resultados da Média das Taxas de Acerto dos Nove Indutores Candidatos

a Classificador Base. . . 99 B.4 Resultados da Média das Taxas de Acerto dos Nove Indutores Candidatos

a Classificador Base. . . 100 B.5 Resultados da Média das Taxas de Acerto dos Nove Tipos de

Classifica-dor Base quando Gerados pelo MétodoBagging. . . 102

B.6 Resultados da Média das Taxas de Acerto dos Nove Tipos de Classifica-dor Base quando Gerados pelo MétodoBagging. . . 103

(15)

AD - Árvore de Decisão (Algoritmo J48)

AM - Aprendizado de Máquina

DS - Decision Stump

DT - Decision Table

JR - JRip

KNN - K - Nearest Neighbors

MLP - Multi-layer Perceptron

NB - Naïve Bayes

PCA - Principal Component Analysis

PT - PART

RBF - Radial Basis Function

RT - REP Tree

SMO - Sequential Minimal Optimisation

SVM - Support Vector Machine

(16)

(17)

Introdução

No universo cotidiano estamos constantemente realizando ações. Duas delas são frequentes e de grande importância: classificar (distribuir por classes) e tomar decisão. Quando nos deparamos com problemas com um grau de complexidade relativamente alto, tendemos a buscar outras opiniões, geralmente de pessoas que tenham um certo conheci-mento ou até mesmo, na medida do possível, sejam especialistas no domínio do problema em questão, de forma que nos ajudem no processo de tomada de decisão. É importante que os especialistas tenham opiniões diversas para que possam, de forma efetiva, con-tribuir para um aumento da probabilidade de uma decisão final acertada. A tendência a formar grupos ou comitês para auxiliar no processo de tomada de decisão pode ser obser-vada em diversas áreas de conhecimento e níveis da sociedade, desde a escolha de uma fruta na feira até uma eleição para presidência de uma república.

Tanto no processo de classificação quanto em um processo de tomada de decisão, so-mos orientados pela consideração das características envolvidas no problema específico. No caso de escolher uma fruta na feira, a classificação se dá em considerá-la apta ou não apta a ser consumida. No caso das frutas, algumas características observadas podem ser aparência, cor, consistência, tamanho, preço, dentre outras. Ao decidir em qual candidato votar em uma eleição, geralmente, considera-se a proposta de governo do candidato, seus atos ao longo de sua vida pública e suas ideias, por exemplo. A caracterização de um conjunto de objetos faz parte do processo de tomada de decisão em geral.

Na área de Inteligência Artificial, mais precisamente, em Aprendizado de Máquina, a caracterização é aplicada às bases de dados1_{, estas relacionadas aos mais diversos}

problemas encontrados no mundo real. De forma breve, o Aprendizado de Máquina

1_{Conjunto de registros dispostos em estrutura regular que possibilita a reorganização dos mesmos e}

(18)

[Rezende 2003] pode ser definido como sendo um campo de pesquisa fundamentado na Inteligência Artificial e na Estatística que estuda o desenvolvimento de métodos, ou al-goritmos, capazes de extrair conceitos (conhecimento) a partir de amostras de dados, as chamadas bases de dados. Tais algoritmos, no caso deste trabalho métodos classificado-res, podem ser de diversos tipos, como redes neurais artificiais, classificadores baseados em regras, árvores de decisão, dente outros. Os algoritmos de classificação podem ser empregados individualmente ou em forma de comitês.

Comitês são comprovadamente capazes de aumentar a capacidade de generalização e, com isso, de forma geral, o desempenho do sistema [Hansen & Salamon 1990]. O con-ceito de comitês tem sido aplicado em diversas áreas como Aprendizado de Máquina, Reconhecimento de Padrões e Descoberta de Conhecimento, como podemos ver em: [Canuto 2001], [Canuto et al. 2007], [de Souza 2010], [Coelho 2006], [Coelho 2004], [Leite 2007]. Em busca de uma maior eficiência do uso deste conceito, técnicas como meta-aprendizagem têm sido aplicadas [de Souza 2010]. A meta-aprendizagem investiga como os métodos de Aprendizado de Máquina podem aumentar sua eficiência por meio da experiência. O objetivo é entender como o próprio processo de aprendizagem pode se tornar flexível de acordo com a natureza da tarefa considerada [de Souza 2010]. O algoritmo de meta-aprendizagem estabelece a correspondência entre a caracterização dos problemas de classificação e o desempenho dos algoritmos em questão [Leite 2007].

Neste trabalho, serão aplicadas técnicas de meta-aprendizagem na investigação dos melhores parâmetros de configuração no processo de construção de comitês homogêneos para aplicações em problemas de classificação. Tais parâmetros são: o classificador base, a arquitetura e o tamanho desta arquitetura.

1.1 Motivação

(19)

Além do mais, existe um grande número de métodos disponíveis na literatura. Testá-los em busca dos melhores exige o auxílio de algum mecanismo automatizado.

No capítulo sobre meta-aprendizagem, é visto que o principal objetivo desta técnica é a compreensão da interação entre o mecanismo de aprendizagem e os contextos concretos em que esse mecanismo é aplicável [Giraud-Carrier 2008]. Isso se faz através da apli-cação de técnicas utilizadas em aprendizado de máquina na construção de modelos que expliquem o relacionamento entre estratégias de aprendizagem e problemas, observada uma perspectiva em particular. A meta-aprendizagem explora o conhecimento adquirido, de forma acumulada, sobre diversas tarefas e aplica-o na busca de solução em proble-mas que sejam semelhantes àqueles que originaram tais conhecimentos. Na literatura, já podem ser encontrados diversos trabalhos que utilizam meta-aprendizagem para reco-mendação de algoritmos, como ([de Souza 2010], [Soares 2004] e [Kalousis 2002]). O diferencial entre a presente proposta e estes trabalhos é o fato de nesta ser aplicada a nível de recomendação dos parâmetros de comitês de máquinas e não para recomendação de algoritmos de forma individual.

1.2 Objetivos

Como já mencionado, esta dissertação tem como objetivo geral a investigação dos melhores parâmetros de configuração da arquitetura de comitês de classificadores via meta-aprendizagem aplicados a problemas diversos. O conceito de meta-aprendizagem é aplicado na escolha de três parâmetros específicos de um comitê. Os parâmetros e os objetivos almejados são descritos a seguir:

• Classificador base: inicialmente, a meta-aprendizagem será aplicada para reco-mendar qual o melhor algoritmo para compor o nível base de um comitê. Serão investigados 10 diferentes métodos indutores (Árvore de decisão,Decision Stump, Decision Table, Naïve Bayes, K-NN, SVM (Support Vector Machines), REPTree,

JRip, PART e Redes neurais RBF ). Maiores detalhes destes algoritmos podem ser encontrados no capítulo 2 sobre aprendizado de máquina.

(20)

• Tamanho do comitê: será investigado qual o tamanho mais adequado desta arqui-tetura, com quantos componentes, em média, o comitê apresenta melhor desempe-nho. São estabelecidos parâmetros que definem os conceitos de tamanho médio da arquitetura. Detalhes sobre tais parâmetros podem ser encontrados no capítulo que trata dos experimentos.

1.3 Organização do Trabalho

Além deste capítulo, esta proposta de qualificação de mestrado está dividida em mais quatro capítulos e organizada da seguinte maneira:

• Capítulo 2: apresenta conceitos básicos de aprendizagem de máquina, dando ên-fase a comitês. Os paradigmas de aprendizado são descritos. São apresentadas medidas de diversidade em comitês, além dos métodos de geração de componentes.

• Capítulo 3: apresenta conceitos genéricos sobre meta-aprendizagem e sua utiliza-ção para a recomendautiliza-ção de algoritmos. São abordados temas como: caracterizautiliza-ção de bases de dados, medidas de avaliação e formas de sugestão.

• Capítulo 4: apresenta a explicação dos experimentos conduzidos ao longo desta dissertação, além dos resultados empíricos obtidos, bem como a análise dos mes-mos, que servirá como base avaliativa desta proposta. É apresentado também deta-lhes sobre as bases de dados utilizadas.

• Capítulo 5: apresenta os resultados empíricos obtidos, bem como a análise dos mesmos, que servirá como base avaliativa desta deste trabalho.

(21)

Aprendizado de Máquina

O Aprendizado de Máquina pode ser considerado um campo de pesquisa fundamen-tado na Inteligência Artificial cujo intuito é o desenvolvimento de técnicas computacio-nais sobre o conhecimento bem como a construção de sistemas capazes de adquirir co-nhecimento de forma automática [Rezende 2003]. De maneira geral, pode-se considerar diferentes tipos de aprendizado, tais como: indutivo, dedutivo, e o baseado em analogia [Tavares et al. 2007]. O mais estudado atualmente é o baseado no conceito de indução, segundo o qual a partir de fatos ou observações particulares é possível generalizar conclu-sões, ou seja, a indução é a forma de inferência lógica que permite obter conclusões sobre um conjunto particular de exemplos. Ela é caracterizada pelo raciocínio originado em conceito específico e generalizado, da parte para o todo. [Rezende 2003]. Quanto mais representativos do conceito geral forem os dados, melhor a qualidade da modelagem, embora não haja garantias de que as conclusões do raciocínio indutivo sejam sempre ver-dadeiras [Mitchell 1997]. Mesmo assim, a indução representa uma importante ferramenta para a geração de novos conhecimentos. A Figura 2.1 ilustra a hierarquia do aprendizado indutivo.

Como pode ser observado na Figura 2.1, o aprendizado indutivo geralmente ocorre de dois modos distintos: supervisionado ou não-supervisionado. No aprendizado super-visionado, o conjunto de dados de treinamento fornecido ao indutor tem rótulo da classe associada conhecido. Já no aprendizado não-supervisionado isso não ocorre. O indu-tor precisa analisar os exemplos fornecidos e buscar determinar se alguns deles podem ser agrupados de alguma maneira, formando agrupamentos ou clusters [Cheeseman &

Stutz 1996]. O aprendizado supervisionado pode ser aplicado tanto a problemas de clas-sificação, onde o rótulo da classe associada aos exemplos são valores categóricos1, como

(22)

a problemas de regressão, onde o atributo classe é um valor contínuo2_{. Nesta dissertação,}

será trabalhado o aprendizado supervisionado para problemas de classificação.

Figura 2.1: Hierarquia do aprendizado (Rezende, 2003).

2.1 Paradigma de Aprendizado

De maneira geral, o processo de classificação pode ser visualizado na Figura 2.2. O conhecimento sobre o domínio pode ser usado para escolher os dados ou para fornecer alguma informação previamente conhecida como entrada ao indutor. Após a indução, o classificador é geralmente avaliado e o processo de classificação pode ser repetido, caso necessário, adicionando outros atributos, exemplos ou fazendo ajuste nos parâmetros do processo de indução, por exemplo [Rezende 2003].

Durante o processo de classificação, padrões de características extraídos de uma ins-tância são comparados a modelos representativos de características para cada classe can-didata. Neste processo é calculado o grau de similaridade de um padrão desconhecido para cada modelo de classe [Saranli & Demirekler 2001].

(23)

Figura 2.2: Processo de Classificação

Com a crescente complexidade e aplicabilidade de sistemas de reconhecimento de padrões, cresce também o número de investigações detalhadas de muitas abordagens e metodologias. Contudo, nenhum classificador pode ser considerado totalmente satisfató-rio para uma tarefa particular, e, por esta razão, a ideia de combinar diferentes métodos para melhorar o desempenho tem surgido como potencial muito promissor [Canuto 2001].

Existem diversos paradigmas aos quais pertencem os algoritmos de aprendizagem. Em [Mitchell 1997] encontramos alguns conceitos que representam estes paradigmas, tais como: Simbólico, Estatístico, Baseado em Exemplos e Conexionista, os quais farão parte deste trabalho de dissertação. A seguir, é apresentada uma breve descrição de cada um destes paradigmas.

2.1.1 Paradigma Simbólico

Os sistemas de aprendizado simbólico buscam aprender construindo representações simbólicas de um conceito através da análise de exemplos e contra-exemplos desse con-ceito. As representações simbólicas estão tipicamente na forma de alguma expressão lógica, árvores de decisão, regras de produção ou redes semânticas. Dentre os algoritmos de aprendizado de máquina baseados no paradigma simbólico estão o J48,Decision Ta-ble,Decision Stump, REPTree, PART e JRip, os quais serão utilizados nesta dissertação.

(24)

A árvore pode ser representada como um conjunto de regras. Cada regra tem seu início na raiz da árvore e caminha até uma de suas folhas [Baranauskas & Monard 2003]. O J48 está entre os diversos algoritmos utilizados na construção de árvores de decisão. Ele é uma versão melhorada do C4.5 que é considerado um dos algoritmos mais populares [Kuncheva 2004].

O algoritmoDecision Tableé um indutor de modelos baseados em regras que

repre-sentam o conhecimento na forma de tabela [Kohavi 1995]. Uma tabela de decisão é um modelo de representação de uma função. Ela permite uma visão tabular da lógica de decisão de um problema. Indica qual o conjunto de condições que é necessário ocorrer para que um determinado conjunto de ações possa ser executado [Nascimento 2009]. Tal modelo de representação é composto por condições, ações e regras. As condições são variáveis cujos valores devem ser avaliados para a tomada de decisão; ações representam o conjunto de operações a serem executadas condicionadas pelas respostas das condições; regras representam o conjunto de situações que são verificadas em resposta às condições.

O algoritmoDecision Stumpconstrói uma árvore de decisão simples, binária, e produz

classes de probabilidade [Witten & Frank 2005]. Tem como base o ganho de informação, utilizado no algoritmo C4.5, o qual divide os conjuntos de dados tomando como referên-cia o atributo mais informativo. Este ganho de informação mede o erro produzido após a divisão do conjunto de dados de acordo com os valores do atributo utilizado no nó de decisão. A validação cruzada é usada na avaliação do algoritmo e o valor obtido é usado como atributo para caracterizar o conjunto de dados.

O algoritmo REPTreeconstrói de forma otimizada e rápida uma árvore de decisão

ba-seada no ganho de informação [Quinlan 1992]. Os atributos são ordenados durante o trei-namento. Os nós representam decisões que dividem os dados em dois grupos, utilizando-se de todos os atributos ainda não considerados, aumentando o ganho. As folhas da árvore representam pontos em que uma classificação é atribuída. A árvore é então podada, subs-tituindo subárvores por folhas. Se essa substituição reduzir o erro esperado, minimiza-se o

overfittinge a complexidade da árvore. Esta nova árvore é então o modelo de classificador.

(25)

uma nova árvore, e, por conseguinte, uma nova regra. Esse processo é realizado iterativa-mente até que não se tenha mais instâncias a serem utilizadas. Geraliterativa-mente, apresenta um bom desempenho computacional utilizado em problemas de classificação.

O algoritmo JRip é uma implementação em java da versão otimizada do algoritmo IREP (RIPPER) que foi proposto por [Cohen 1995]. É um método baseado em regras. Usa o IREP para obter um conjunto de regras, dando origem a um modelo inicial. Este modelo é simplificado de forma iterativa, através da poda incremental repetida para redução do erro(RIPPER).

2.1.2 Paradigma Estatístico

O Paradigma Estatístico faz uso de modelos estatísticos para encontrar uma apro-ximação suficientemente boa do conceito induzido. Uma variedade desses métodos são paramétricos, assumindo alguma forma de modelo, e a partir daí encontrando valores ade-quados para os parâmetros do modelo a partir dos dados. Entre os algoritmos estatísticos destaca-se o de aprendizado bayesiano que faz uso de fórmulas estatísticas e cálculos de probabilidades para realizar a classificação.

As principais vantagens do aprendizado estatístico, especialmente o aprendizado baye-siano, são: o fato de poder embutir nas probabilidades calculadas o conhecimento de domínio que se tem e o fato da classificação se basear em evidências fornecidas. Por outro lado, a desvantagem reside justamente no seu caráter estatístico, ou seja, muitas probabilidades devem ser calculadas e isto pode ocasionar um alto custo computacional [Santana 2008].

O algoritmo Naïve Bayes [John & Langley 1995] é de cunho probabilístico, sendo

baseado na estatística bayesiana. Ele assume que os atributos são condicionalmente in-dependentes, ou seja, a informação representada por um atributo não é relevante sobre a informação de nenhum outro atributo.

2.1.3 Paradigma Baseado em Exemplos

(26)

exemplos na memória para classificar novos exemplos [Santana 2008]. Podemos citar como exemplo de método representativo deste paradigma o algoritmo IBk, baseado nos conceitos de vizinhança e aprendizado local.

O algoritmo IBk [Aha et al. 1991] é uma implementação da abordagem K - Nearest Neighbors(KNN) e é classificado como um algoritmo de aprendizado preguiçoso, uma

vez que não gera nenhum modelo a partir dos dados, apenas faz uso das próprias instân-cias. Este algoritmo assume que instâncias similares possuam a mesma classificação e dependem fortemente da métrica utilizada como distância. A Figura 2.3 é uma ilustração de uma classificação com base no conceito de vizinhança.

Figura 2.3: Ilustração de uma classificação baseada em vizinhança(Nascimento,2009)

2.1.4 Paradigma Conexionista

(27)

[Haykin 1999], é uma outra categoria das redes neurais forward, ou seja, redes cujas

saídas dos neurônios de uma camada alimentam os neurônios da camada posterior, não ocorrendo a realimentação, as redes neurais artificiais do tipo Multi-Layer Perceptron

(MLP) e as redes neurais RBF(Radial Basis Function). Estes métodos estão entre aqueles

investigados neste trabalho.

As SVM (Support Vector Machines) [Burges 1998], foram primeiramente aplicadas

em classificação de textos no final dos anos 90. De acordo com a teoria deste método, enquanto técnicas tradicionais para reconhecimento de padrões são baseadas na minimi-zação do risco empírico, ou seja, tenta-se otimizar o desempenho sobre o conjunto de treinamento, as SVM minimizam o risco estrutural, ou melhor, busca minimizar a proba-bilidade de classificar de forma errada padrões ainda não vistos por uma distribuição de probabilidade dos dados fixa e desconhecida. De forma direta, este método é um novo princípio de indução que é equivalente a minimizar um limite superior do erro de gene-ralização, dependendo da teoria de convergência uniforme de probabilidade. SVM divide o espaço de termos em hiperplanos ou superfícies, separando as amostras de treinamento positivas das negativas. Algumas vezes estas superfícies são referidas como superfícies de decisão. Então a superfície que provê a maior separação (a maior margem possível entre as amostras positivas e negativas) é selecionada.[Abreu 2006].

Redes Neurais Artificiais do tipo Multi-Layer Perceptron(MLP) [Haykin 1999] são

redes de múltiplas camadas onde cada camada tem uma função específica. A camada de saída recebe os estímulos da camada intermediária e constrói o padrão que será a resposta. As camadas intermediárias funcionam como extratoras de características, seus pesos são uma codificação de características apresentadas nos padrões de entrada e permitem que a rede crie sua própria representação, mais rica e complexa, do problema. Durante o treina-mento com o algoritmobackpropagation, a rede opera em uma sequência de dois passos.

Primeiro, um padrão é apresentado à camada de entrada da rede. A atividade resultante flui através da rede, camada por camada, até que a resposta seja produzida pela camada de saída. No segundo passo, a saída obtida é comparada à saída desejada para esse padrão particular. Se esta não estiver correta, o erro é calculado. O erro é propagado a partir da camada de saída até a camada de entrada, e os pesos das conexões das unidades das camadas internas vão sendo modificados conforme o erro é retropropagado.

(28)

um ponto no espaço de entrada. Sua saída para um exemplo apresentado na camada de entrada depende apenas da distância entre o seu ponto associado e a próprio exemplo de entrada. Quanto maior a distância, maior a força de ativação do neurônio [Haykin 2001]. A camada intermediária utiliza uma função de ativação de base radial para converter a distância em uma medida de similaridade. A camada de saída é responsável por combinar linearmente as saídas geradas na camada intermediária e gerar a estimação final.

2.2 Comitês de Máquinas

Comitês de máquinas é um paradigma de Aprendizado de Máquina que explicita a fusão de módulos independentes de estimação, denominados componentes base ou espe-cialistas, visando uma única solução, baseada nas soluções individuais de cada módulo, e que ofereça uma eficiência maior do que as respostas individuais de cada componente. Em [Hansen & Salamon 1990] o paradigma de comitês de máquinas teve origem através da demonstração da significativa melhoria da habilidade de generalização por meio da composição de várias redes neurais feedforward aplicadas a problemas de classificação

binária e posterior combinação de suas saídas por meio do voto majoritário. Em suma, os autores apontaram que, se as taxas de erro relativas a N modelos disponíveis são todas independentemente distribuídas e menores que 50%, então a probabilidade de que a saída

produzida pela fusão esteja errada é menor que a menor das taxas de erro dos classifica-dores isoladamente. Nenhum classificador pode ser considerado totalmente satisfatório para uma tarefa particular, e, por esta razão, a idéia de combinar diferentes métodos para melhorar o desempenho tem surgido como potencial muito promissor [Canuto 2001].

Ainda que uma gama considerável de abordagens de métodos de aprendizado de má-quina já seja encontrada na literatura, a utilização dos comitês é fortemente recomendada por [Hansen & Salamon 1990], mesmo que inicialmente o comitê apresente uma acurácia igual ou inferior a do estimador atuando isoladamente. Isso se deve ao fato de que um melhor desempenho ainda possa ser alcançado mediante uma combinação mais adequada dos parâmetros de configuração ou promovendo treinamentos individuais com diferentes subconjuntos de dados para cada componente.

(29)

em um espaço H de hipóteses, na tentativa de alcançar uma função objetivo f desejada. Dentre os motivos que justificam a utilização de comitês de máquina estão:

• Motivação Estatística. Ocorre quando o tamanho do conjunto de dados de trei-namento é inferior ao tamanho do espaço de hipóteses. Sem dados suficientes, o processo de síntese do método pode encontrar múltiplas hipóteses em H, com am-bas apresentando o mesmo desempenho diante dos dados de treinamento.

A Figura 2.4(a) ilustra a motivação estática. A região mais externa demonstra o espaço H de hipóteses. A região interna ilustra o conjunto de todos os algoritmos que produzirão um bom desempenho em relação ao conjunto de treinamento. O ponto denominado f é o classificador desejado. Ao utilizar comitês formados de bons classificadores, como as hipóteses sugeridas estão distribuídas em torno de f, o comitê tende a se aproximar de f mais do que qualquer uma das outras hipóte-ses tomadas isoladamente, pois o algoritmo pode realizar uma média das diferentes respostas obtidas pelos classificadores, reduzindo, dessa forma, o risco de escolher hipóteses errôneas [Nascimento 2009].

• Motivação Computacional. Muitos algoritmos de busca em espaços de possíveis soluções trabalham realizando alguma forma de busca local gulosa, ou seja, que implementam localmente modificações junto à solução atual que sempre conduzem a melhorias incrementais de desempenho. Sendo assim, dependendo da condição inicial adotada e/ou de decisões tomadas ao longo da execução da busca , há a possibilidade de convergência para um ótimo local, principalmente quando existe a presença de múltiplos ótimos locais. Ao fazer uso de um comitê construído pela execução de buscas locais iterativas a partir de vários pontos de partida diferentes no espaço de hipóteses H uma melhor aproximação da função objetivo conhecida é proporcionada, como ilustra a Figura 2.4(b).

(30)

Figura 2.4: Três motivos para se preferir adotar um comitê a um preditor único

seja, com um espaço H ilimitado, na prática sempre vão existir limitações vincula-das à capacidade de representação computacional e de exploração global do espaço de busca [de Moraes Lima 2004]. comitês prometem evitar que a representação fique restrita ao conjunto finito de hipóteses.

Para que os comitês sejam capazes de corresponder ao propósito para o qual foram criados, se faz necessário, além de levar em consideração as justificativas acima apre-sentadas, garantir que todos os estimadores tenham perícia na resolução de um tipo de problema específico, e que cada um deles mostre-se diverso em relação aos demais, pois desta forma, haverá algum tipo de contribuição para a composição da decisão final. Neste caso a diversidade se refere à variação do erro apresentado por cada componente de forma a tratar as novas instâncias de entrada [Nascimento 2009].

Na literatura encontrada sobre comitês ouensembles, nota-se que cada autor dá

prefe-rência a uma perspectiva particular da divisão deste paradigma. Adota-se o termo comitê de máquinas para representar tanto abordagens eensembles quanto abordagens

modula-res, afirma [Haykin 1999]. Já na perspectiva de [Bishop 1995] o termo comitê é asso-ciado apenas a ensemble. Desta forma, há a necessidade de um esclarecimento a cerca

das distinções existentes entre a abordagemensemblee a abordagem modular [Sharkey

et al. 1996].

(31)

um conjunto de módulos-especialistas denominados componentes onde os mesmos exe-cutarão a mesma tarefa, ou seja, cada componente representa isoladamente uma possí-vel solução para o problema de classificação ou regressão como um todo [Hansen & Salamon 1990], podendo cada solução ser obtida por meios distintos e independentes en-tre si. Há redundância na resolução das tarefas por parte dos componentes.

Já na abordagem modular, uma tarefa complexa é decomposta em um número finito de sub-tarefas, fazendo com que a solução final da tarefa como um todo seja a contri-buição de todos ou de um subconjunto dos módulos componentes. Com isso, um módulo isoladamente não representa uma possível solução para o problema de classificação ou re-gressão, fazendo-se necessário a composição de todas as soluções das sub-tarefas. Neste trabalho será adotada a perspectiva de [Bishop 1995], que associa o termo comitê apenas a ensemble. Desta maneira, adotaremos o termo comitê para designar abordagens

não-modulares, como é o nosso caso.

Dentro da abordagem de Comitê de máquinas, podemos lançar mão da separação da mesma quanto a estrutura. Em [Haykin 2001] temos a seguinte divisão:

• Estruturas Estáticas - Nesta classe de comitês, as respostas dos diversos estimadores são combinadas por meio de um mecanismo que não recebe o sinal de entrada do sistema. Fazem parte deste grupo vários métodos de comitês, como Bagging e Boosting.

• Estruturas Dinâmicas - O sinal de entrada está adiante envolvido na atuação do me-canismo que integra as saídas dos componentes individuais em uma saída global. Ou seja, os sinais de entrada são utilizados de forma a determinar quais componen-tes são melhores para tratar as novas entradas. Nesta categoria são encontradas as arquiteturas mistura de especialistas e sua versão hierárquica.

Autores como [Kuncheva 2000] e [Valentini & Masulli 2002] consideram as diversas possibilidades de arranjos, inclusive a modular supracitada como variações de comitês.

2.2.1 Construção de Comitês

(32)

têm suas saídas combinadas com a finalidade de alcançar uma solução única para o pro-blema, a qual ofereça ganho de generalização em relação as respostas individuais de cada componente [Sollich & Krogh 1996]. De maneira sintetizada, podemos dizer que o termo

"comitês"refere-se aos diferentes métodos de construção, seleção e combinação de

má-quinas de aprendizado que tem como objetivo gerar soluções redundantes para a mesma tarefa; as condições das configurações de tais máquinas são geralmente dissimilares.

Comitês, geralmente, podem ser construídos em três passos [Coelho 2006]: geração dos componentes, seleção e combinação das saídas propostas pelos componentes. Se-gundo [de Moraes Lima 2004], há uma tendência de ganho de desempenho quando se adota uma metodologia baseada em três passos e não em dois como defendido por alguns autores, onde a seleção de componentes é suprimida. Esta afirmação é confirmada por [Zhou et al. 2002], que mostra que o uso de todos os componentes candidatos disponíveis no comitês pode acarretar uma degradação em seu desempenho.

Devido aos promissores resultados obtidos a partir das técnicas de construção de co-mitês e as diversas linhas de atuação de aprendizado de máquina, têm crescido o interesse por este conceito, de maneira que diversos outros tipos de componentes vem sendo ado-tados para compor o comitês, além de redes neurais artificiais [Sharkey 1999], visto que foi a partir delas que surgiu o conceito de comitês [Hansen & Salamon 1990].

A Figura 2.5 representa uma arquitetura geral de um comitês onde é evidenciado o fato de que todos os M componentes (previamente selecionados de um universo maior) arcam com o mesmo mapeamento de entrada e saída e há a existência de um módulo combinador. Cada novo padrão apresentado a entrada é tratado redundantemente, como citado acima, pelos diferentes módulos-componentes (árvores de decisão, máquina de vetor suporte, algoritmo bayseano etc), os quais produzem suas estimativas individuais. O módulo com-binador, por sua vez, recebe esses resultados, e baseado em algum método (voto, média etc) busca originar à decisão consensual final. Para se combinar as respostas individuais, é comumente utilizado, em problemas de classificação de padrões, o voto majoritário ou ponderado; já em problemas de regressão, a média simples.

(33)

Figura 2.5: Arquitetura geral de umensemble

caracteriza os comitês, é facilmente intuitível que a combinação de múltiplos componen-tes seja vantajosa, já que componencomponen-tes diferencomponen-tes podem representar, de forma implícita, aspectos distintos e, ao mesmo tempo, fortemente relevantes para a solução de um dado problema. Conceitos e técnicas de comitês representam uma das principais direções em pesquisas na área de aprendizado de máquina, como visto em [Canuto 2001], [Coelho 2006], [Nascimento 2009], [de Oliveira 2008] e [Gama 1999].

Contudo, a melhora proporcionada pelos comitês, ou seja, aumento na capacidade de generalização e, consequente, melhora no desempenho total do sistema, se firma na quali-dade e diversiquali-dade do erro apresentado pelos seus componentes [Perrone & Cooper 1993], ou seja, cada um dos componentes em um comitê deve apresentar um bom desempenho quando aplicado isoladamente ao problema e, simultaneamente, cometer erros distintos, quando comparados com os demais componentes. Intuitivamente, pode-se perceber uma necessidade de se haver diversidade do erro entre os componentes, uma vez que, se com-binarmos vários componentes que apresentem erros coincidentes, um mesmo padrão de erro, certamente não teremos ganho de generalização, já que o fato deles errarem para um mesmo subconjunto de estímulos de entrada implica em acertos também coincidentes, o que faz com que sua combinação traga apenas um aumento no custo computacional, não havendo, desta forma, nenhuma contribuição para o sistema como um todo. A questão da diversidade em comitês será tratada na subseção seguinte.

Diversidade em Comitês

(34)

produzem erro. Portanto, é necessário que haja diferença na generalização de cada com-ponente, ou seja, diversidade [Kuncheva 2004], como citado na seção anterior, fazendo com que eles não apresentem erros coincidentes ou correlatos, e sim uma dissimilaridade do erro entre as demais regiões do problema. Desta forma, a diversidade das respostas po-dem contribuir ou influenciar na melhor hipótese. Com isso, quando se fala em comitês a questão da diversidade torna-se obrigatoriamente relevante, tornando-se um fator crucial para o sucesso dos comitês [Kuncheva 2004].

Durante a construção de um comitê várias técnicas para geração de diversidade podem ser aplicadas. Dentre as técnicas existentes, as mais citadas na literatura são aquelas que fazem uso de estratégias como:

• Métodos que atuam sobre o ponto de partida no espaço de hipóteses: os métodos inclusos neste grupo variam os pontos de partida da busca no espaço de hipóteses, influenciando dessa forma o ponto de convergência.

• Métodos que atuam sobre os dados de treinamento: através do fornecimento de conjuntos de dados de treinamento diferentes para cada um dos componentes do comitê, estes métodos buscam gerar componentes que produzam mapeamentos di-ferentes, visto que os estímulos de entrada serão distintos.

• Métodos que manipulam a arquitetura de cada componente: estes métodos variam a arquitetura de cada componente no comitê, de maneira que diferentes conjuntos de hipóteses estejam acessíveis para cada componente, ou seja, como os componentes do comitê possuem arquiteturas diferentes, os conjuntos de hipóteses associados a esses componentes também serão distintos, o que pode contribuir para a diversi-dade. Estes métodos dão origem aos denominados comitês heterogêneos [Canuto et al. 2005].

(35)

• Métodos híbridos: formados por alguma combinação dos métodos acima.

Esta dissertação se propõe utilizar a técnica de geração de diversidade já citada an-teriormente, a qual manipulam os dados de treinamento. Para efetivar a combinação de diversidade serão aplicados os métodos de comitês Bagginge Boosting. Mais detalhes

sobre estes métodos de geração de comitês serão vistos em seções ao longo deste capítulo.

Diversas métricas de avaliação da diversidade em comitês já foram propostas e podem ser divididas em dois grupos[Kuncheva 2004]: as que trabalham com o conceito de pari-dade(pairwise), as quais consistem em tomar a média de uma dada métrica de distância

calculada sobre partes de componentes do comitê e as métricas que não trabalham com conceito de paridade(non-pairwise), baseadas em medidas sobre todo o grupo. Dentre

as medidaspairwisepodemos citar: Estatística-Q , coeficiente de correlação, medida de

desacordo e medida de duplo-falso; dentre as métricasnon-pairwisepodemos citar: a

me-dida de entropia E, a meme-dida de dificuldade T, a variância de Kohavi-Wolpert, a meme-dida de concordância, a diversidade generalizada e a diversidade de falha coincidente.

Entre as medidas estatísticas de relacionamento, a pairwise Estatística-Q uma vez

usada para classificadores estatisticamente independentes, Q assumirá o valor 0. cada classificador k é representado por um vetor binário n-dimensionalAk={Ak1,Ak2, ...,AkN},

Akn, sendo n correspondente ao tamanho do conjunto de exemplos D. Se a instância Di

for classificada corretamente, então Ak1 =1, caso contrário Ak1 =0. A Estatíticas-Q

avalia o grau de divergência entre dois classificadores k e k’ quaisquer mediante a equa-ção 2.1. O valor de N11 corresponde ao número de amostras classificadas corretamente

por k e k’. N00 é o número de amostras classificadas incorretamente por k e k’. N10 é o

número de amostras classificadas corretamente por k e incorretamente classificadas pelo classificador k’ . JáN01corresponde ao número de amostras classificadas incorretamente

por k e corretamente classificadas pelo classificador k’. Quando os classificadores estão propícios a acertar ou errar os mesmos padrões, ou seja, são correlacionados, tendem a possuir valores de Q positivos. Quando os classificadores tendem a acertar ou errar pa-drões diferentes, ficam tendem a possuir valores de Q negativos. Em síntese, procuramos construir comitês que tendam a produzir valores de Q negativos. A Estatística-Q assumirá valores entre[−1,1].

QK.K′= N

11_N00₋_N01_N10

(36)

Na Estatistica-Q, a diversidade do comitêQ(Ω)é dada pela média sobre todos os possí-veis acoplamentos entre pares de componentes [Coelho 2004], sendo calculado segundo a equação 2.2.

Q(Ω) = 2

K(k−1)

k−1

∑

k=1

k

∑

k′₌_k₊₁

Q(K.K′) (2.2)

Na medida de Entropia E, o comitê é mais diverso para umz ∈Z quandoL/2 dos votos

são 0s (1s) e os outrosL − [L/2]são votos 1s (0s). Caso todos sejam 0s ou todos sejam 1s, então todos concordaram e os classificadores não poderão ser consideradas diversos. Uma possível medida de diversidade pode ser obtida através da equação 2.3.

E= 1

N

2

L−1

N

∑

j=1

min{(

L

∑

i=1

yj,i), (L− L

∑

i=1

yj,i)} (2.3)

Os valores da Entropia E variam entre 0 e 1, onde 0 indica não diverso e 1 indica a mais alta diversidade possível.

Métodos de Geração dos Componentes

Na construção de comitês a etapa de geração dos componentes é de suma importância. Uma vez que esta metodologia é sustentada pela necessidade da existência de diversidade entre seus componentes, para que o comitê seja capaz de proporcionar ganho de acui-dade, na construção é preciso garantir que exista dissimilaridade entre eles. É encontrado na literatura vários métodos e técnicas que auxiliam na tarefa de construção de comitês e que trazem em si mecanismos para possibilitar a diversidade entre os componentes. Dentre estes métodos podemos citar oBagging, proposto por [Breiman 1996], e o Boos-ting, proposto por[Freund 1996]. Estes métodos para construção de comitê farão parte

dos objetos de pesquisa desta dissertação. Alguns trabalhos lançaram mão destes méto-dos como objeto de investigação, tais como: [Nascimento 2009],[de Moraes Lima 2004], [Coelho 2004], [Gama 1999] e [Martin 2008].

É importante ressaltar que a maior parte dos trabalhos que fazem uso de algum mé-todo para geração dos componentes de um comitê utiliza os mémé-todosBaggingeBoosting,

(37)

O métodoBagging (bootstrap agregating) ou agregaçãobootstrap [Breiman 1996] é

um dos representantes da técnica de re-amostragem de dados com reposição. Esta técnica gera conjuntos de treinamento distintos, os quais são utilizados para se obter componen-tes de um comitê. O fato dos conjuntos de treinamento serem distintos proporcionam a geração de componentes que generalizam de forma também distinta.

A diversidade provida pela técnica deagregação bootstrap[Efron & Tibshirani 1993]

é a partir da redistribuição aleatória dos dados, ou seja, uma vez dispondo de um único conjunto de treinamento T com n amostras, é gerado, por re-amostragem uniforme, um subconjunto de dados T’ com n’ amostras, onden=n′. A probabilidade de uma amostra

do conjunto T ser escolhida para compor o conjunto T’ é igual para todas. Com isso, todas as amostras dos T’ conjuntos de treinamento gerados estão presentes no conjunto de treinamento T, de modo que a diferença entre os T’ conjuntos gerados está na presença de amostras repetidas e, consequentemente, ausência de algumas amostras que fazem parte do conjunto T. Assim, a probabilidade de uma amostra ser escolhida é de 1−(1− 1/n)n_{, 63.2} _% _{do conjunto de dados T’ gerado é composto por amostradas únicas e o}

restante por amostradas duplicadas [Bauer & Kohavi 1998], não havendo praticamente nenhuma chance dos conjuntos de dados gerados serem idênticos. O processo de geração de componentes através do métodoBaggingé ilustrado na Figura 2.6.

Figura 2.6: Processo de geração de componentes via método Bagging (Nascimento,

(38)

No algoritmo Boosting [Freund 1996], o processo de treinamento ocorre de forma

sequencial, uma vez que o conjunto de treinamento do componente seguinte é gerado com base no desempenho dos demais componentes já gerados. Com isso, a abordagem

Boostingreduz tanto a variância quanto o bias, ao passo que o Bagging reduz apenas a

variância [Friedman et al. 2000]. Isto se deve à atribuição de maior ênfase às amostras responsáveis pela queda de desempenho durante o treinamento, ou seja, as amostras que mais contribuem para o erro de treinamento dos componentes já treinado têm maior pro-babilidade de serem escolhidas para compor o conjunto de treinamento do componente seguinte, fazendo com que os últimos componentes gerados na sequencia possam arcar com as regiões mais difíceis do espaço de atributos [Coelho 2004].

Existem diversas varições da abordagemBoostingoriginal[Schapire 1990]. Segundo

[Haykin 2001] essas variações se distinguem pela implementação. São elas:

• Boostingpor filtragem: originalmente citada por [Schapire 1990], envolve filtrar as

instâncias de treinamento por diferentes versões de um algoritmo de aprendizado fraco. Essa abordagem assume a disponibilidade de uma grande (teoricamente, in-finita) fonte de instâncias, com as instâncias sendo descartadas ou mantidas durante o treinamento. Uma vantagem é a baixa requisição de memória comparada às ou-tras abordagens.

• Boostingpor sub-amostragem: trabalha com uma instância de treinamento de

ta-manho fixo. As instâncias são amostradas novamente durante o treinamento, de acordo com uma determinada distribuição de probabilidade. O erro é calculado em relação à amostra de treinamento fixo.

• Boostingpor ponderação: trabalha com uma amostra de treinamento fixo, mas

as-sume que o algoritmo de aprendizagem fraca pode receber exemplos ponderados. O erro é calculado em relação às instâncias ponderadas. Neste contexto se enquadra oAdaBoost(derivado deAdaptative Boost) [Freund & Schapire 1995].

No algoritmoAdaBoost.M1 [Freund & Schapire 1999], dispondo de um conjunto de

dados de treinamento T com n amostras, cada amostra x recebe um peso inicialwi=1=n.

(39)

classificador que acertar as amostras mais difíceis receberá um peso maior. Esse proce-dimento se repetirá até se completar N componentes (valor informado previamente), ou quandoε_N ≤ 0 ou ε_N ≥ 0.5, sendoε_N o erro agregado. A resposta final do comitê é resultante de um voto ponderado de todos os componentes. Na Figura 2.7 temos a ilus-tração do processo de geração de componentes via algoritmoBoosting.

Figura 2.7: Processo de geração de componentes via método Boosting (Nascimento,

2009).

Em todos os caso, tanto no algoritmo Bagging quanto no Boosting, a grande

vanta-gem em se usar estes métodos de construção de comitê é a questão da diminuição do bias ou polarização [Gama 1999]; [Coelho 2004] e [Breiman 1996], que se constitui de certa forma a escolha efetuada pelos indutores na busca de uma hipótese, ou seja, a pre-dição escolhida pelos algoritmos de forma a generalizar os dados de treinamento.

Seleção de componentes

(40)

Combinação de componentes

A categorização de métodos de combinação de classificadores (conhecida por comitê) , geralmente, é realizada sob duas vertentes complementares [Coelho 2004]: uma baseada em seleção e outra em fusão. O pressuposto no caso da seleção é que cada componente seja um especialista em alguma região local do espaço de atributos. No segundo caso, os métodos eleitos na fusão de classificadores assumem que todos os componentes são bem indicados para lidarem com todo o espaço de entrada e, consequentemente, as respostas de todos devem ser consideradas. O conhecimento implícito nos métodos de combinação pode ser explorado por técnicas de meta-aprendizagem para determinar o melhor método a ser utilizado como meta-classificador. Contudo, neste trabalho este não constitui um objetivo.

2.3 Considerações Finais

(41)

Meta-aprendizagem

O principal objetivo em meta-aprendizagem é a compreensão da interação entre o mecanismo de aprendizagem e os contextos concretos em que esse mecanismo é aplicá-vel [Giraud-Carrier 2008]. Na literatura é possíaplicá-vel encontrar uma variada gama de mé-todos publicados e consagrados, os quais auxiliam na construção, seleção e combinação de comitês, porém não há um único método que seja suficientemente bom para qualquer tipo de problema. De forma geral, pode-se dizer que a meta-aprendizagem tem como foco o interesse na relação entre estratégias de aprendizagem e os problemas [Vilalta et al. 1995]. O estudo na área de meta-aprendizagem busca descobrir como os algorit-mos de aprendizado de máquina podem aumentar sua eficiência mediante a experiência [Vilalta & Drissi 2002]. O processo de exploração de conhecimento sobre o aprendizado possibilita o entendimento e proporciona ganho no desempenho dos algoritmos de apren-dizado.

Os algoritmos de aprendizado de máquina funcionam adaptando seus parâmetros a um ambiente específico [Mitchell 1997]. O que faz com que a meta-aprendizagem seja diferente da aprendizagem de base é o escopo de seu nível de adaptação. A meta-aprendizagem é baseada na escolha da polarização ou bias correto de forma dinâmica

através das múltiplas aplicações de um algoritmo de aprendizado, em oposição à apren-dizagem de base, onde obiasé fixado a priori, ou através de parâmetros, ou seja,

meta-aprendizagem é baseada no acúmulo de experiência, enquanto o aprendizado convencio-nal trabalha sobre um conjunto de dados por vez.

(42)

Meta-aprendizagem tem sido aplicada a diversas categorias de problemas. Dentre as aplicações mais comuns, tem-se o problema de gerar regras que tenham a capacidade de relacionar o desempenho de algoritmos de aprendizado de máquina com as proprieda-des das bases de dados [Brazdil et al. 2009]. Levando em consideração esta aplicação, podemos utilizar tal conceito como forma de ajuda na criação de sistemas que forneçam sugestões sobre que algoritmos utilizar em situações específicas. No caso da presente dissertação, auxiliar na escolha de alguns dos parâmetros de configuração de comitês (classificador base, método de construção e tamanho da arquitetura). Neste contexto, al-guns conceitos e tópicos relacionados a recomendação de algoritmos são relevantes. Estes serão abordados nas seções seguintes deste capítulo.

3.1 Meta-aprendizagem para Recomendação de

Algorit-mos

Na última década, mediante o avanço nas pesquisa em aprendizado de máquina, diver-sas abordagens de métodos e algoritmos tem surgido na literatura. A questão do projetista consiste em que método usar ou em saber qual ferramenta, baseada em qual método, utili-zar para o seu novo problema de classificação representado por um determinado conjunto de dados, de forma que as soluções oferecidas sejam apropriadas. Cada abordagem tem suas considerações em relação a natureza dos dados, precisando, desta maneira, ser esco-lhida cuidadosamente, de acordo com as características da tarefa considerada.

Cada algoritmo possui a chamada superioridade seletiva, a qual pode fazer com que seu desempenho seja melhor do que os seus pares em uma classe de tarefas específi-cas [Brodley 1995]. Uma definição para o problema de seleção de algoritmos é encon-trada em [Rice 1976]. No presente trabalho o processo de recomendação de algoritmos se dará em três âmbitos:

(43)

JRip, PART e Redes neurais RBF ).

• Estrutura do comitê: os possíveis métodos de construção de estrutura serão ( Bag-ging e Boosting). Detalhes destes métodos podem ser encontrados no capítulo 2

sobre aprendizado de máquina.

• Tamanho da Estrutura do comitê: diante da melhor estrutura, a meta-aprendizagem nos auxiliará na escolha do tamanho da mesma. Os possíveis tamanhos médios de estrutura serão, em um primeiro momento, Pequeno1_{, Médio}2 _{e Grande}3_{. Em}

um segundo momento, Pequeno4_{e Grande}5_{e por último quatro grupos: Pequeno}6_,

Médio7, Grande8 e Muito Grande9. Segundo [Kuncheva 2004] mais de 25 com-ponentes em um comitê não gera ganhos significativos. A ideia é categorizar as faixas de tamanhos das possíveis arquiteturas, de maneira que se possa estabelecer um parâmetro de referência para o tamanho mais adequado da arquitetura de um comitê, sem que se faça necessário experimentos com todos os possíveis tamanhos.

A Figura 3.1 ilustra, de maneira geral, o processo de recomendação de algoritmos via meta-aprendizagem.

O processo representado na Figura 3.1 inicia-se com a aquisição de um conjunto de problemas que represente, apropriadamente, os problemas para os quais a recomendação será feita. O próximo passo é, a partir de cada base de dados, avaliar o algoritmo empre-gado e extrair as características, de acordo com as métricas pré-estabelecidas. Obtendo-se essas duas informações (desempenho do algoritmo e características da base) de cada pro-blema, gera-se um meta-exemplo, o qual é formado pelas meta-características de entrada e pela meta-classe10_{, respectivamente. Ao conjunto dos meta-exemplos disponíveis, dá-se}

o nome de meta-dados (meta-data). Com a finalidade de induzir o mapeamento entre as

meta-características de entrada e meta-classes, é aplicado um algoritmo de aprendizado

1_{2 a 10 componentes} 2_{11 a 19 componentes} 3_{20 a 28 componentes} 4_{2 a 15 componentes} 5_{16 a 28 componentes} 6_{2 a 8 componentes} 7_{9 a 15 componentes} 8_{16 a 22 componentes} 9_{23 a 28 componentes}

(44)

Figura 3.1: Processo de Recomendação de Algoritmos via meta-aprendizagem.(Brazdil et al., 2009).

de máquina, o qual é chamado de aprendiz. Por meio dele, é possível utilizar o meta-conhecimento obtido do processo de aprendizagem e gerar a recomendação de algoritmos no contexto de meta-aprendizagem.

Na presente abordagem, a mesma ideia é empregada, porém para recomendar os al-goritmos que serão utilizados como parâmetros de configuração de um comitê. Em um primeiro momento, será realizada a recomendação do algoritmo usado como classificador base. Em um segundo momento, será recomendado o método que gerará os componentes do comitê, formando assim sua estrutura. Por fim, será definido o tamanho da melhor estrutura do comitê. Tal processo é ilustrado na Figura 3.2.

3.1.1 Caracterização dos Dados

(45)

(46)

Considerando-se o fato de que cada algoritmo tem um comportamento específico di-ante da natureza dos dados a ele apresentados, faz-se necessário explorar as propriedades que caracterizam os dados com o intuito de compreender o desempenho dos algoritmos de classificação. Isso é possível através de algumas métricas usadas para explorar a natureza dos dados. Segundo [Soares et al. 2004], tais medidas apresentam informações relevantes para determinar o desempenho relativo entre os algoritmos de classificação e não apenas gerar um custo computacional. A pesquisa em caracterização se divide, atualmente, em 3 áreas [Vilalta et al. 2005]: caracterização direta; caracterização baseada emlandmarking

e caracterização via modelos, as quais serão mostradas de maneira breve nas subseções seguintes.

Direta

O Projeto STATLOG [Michie et al. 1994] foi uma tentativa de gerar relacionamento entre as métricas que caracterizam as bases de dados e o desempenho dos algoritmos. Um dos seus principais objetivos era saber porque alguns algoritmos classificavam bem em alguns domínios e apenas regularmente em outros. É assumido que em problemas semelhantes, o perfil de desempenho dos algoritmos também deverão ser semelhantes. Foram utilizados 23 algoritmos e 21 bases de dados nos experimentos empíricos. Neste projeto as medidas utilizadas na caracterização dos dados foram divididas em três catego-rias:

• Simples: incluem medidas gerais, como número de atributos, números de

instan-cias, número de classes e número de atributos binários;

• Estatísticas: envolvem conceitos estatísticos, como razão média entre desvio

pa-drão dos atributos, correlação média absoluta entre atributos por classe, primeira correlação canônica, proporção de variância explicada pelo 1o_{discriminante}

canô-nico, assimetria média absoluta dos atributos e curtose média dos atributos;

• Baseadas na teoria da informação: utilizadas para caracterizar os atributos

(47)

O Projeto METAL11 _{pode ser considerado uma extensão do Projeto Statlog. O}

ME-TAL colaborou com o desenvolvimento de várias abordagens relacionadas à pesquisa em meta-aprendizagem, inclusive a Data Caracterization Tool, a qual será utilizada como

parte das ferramentas que auxiliarão nos experimentos computacionais. Dentre as abor-dagens para caracterização das bases de dados, buscou estender as medidas utilizadas no Statlog. Tais medidas, separadas por categoria, são:

• Simples: número de atributos nominais e número de atributos numéricos;

• Estatísticas: número de atributos com outliers, Estatística M de Box, graus de

li-berdade da Estatística M, Valor de Lambda de Wilk e Estatística V de Barlett;

• Baseadas na teoria da informação: entropia conjunta de classe e atributos.

landmarking

Outra fonte de caracterização se enquadra no conceito de landmarking [Pfahringer

et al. 2000]. Cada algoritmo tem um tipo de dados em que ele tem um desempenho ra-zoavelmente bom, isso é denominado área de competência ou área de especialização da classe de um algoritmo. A ideia básica da abordagemlandmarkingé que o desempenho

de um algoritmo em uma tarefa descobre informações sobre a natureza da tarefa. Assim, uma tarefa pode ser descrita pela coleção das áreas de conhecimento a que pertence. Desta forma, por meio da aplicação de algoritmos simples, oslandmarkers, seria possível obter

informação importante sobre a natureza do domínio em que eles são aplicados.

Olandmarkingé utilizado para determinar a proximidade de uma base de dados em

relação a outras, por meio da similaridade entre os desempenho dos algoritmos. Forma-se uma vizinhança de áreas de competência, onde bases de dados podem ser representadas. Espera-se que bases de dados de natureza semelhante pertençam às mesmas áreas de com-petência e, consequentemente, os mesmos algoritmos de classificação sejam adequados à elas. O papel dos algoritmos de meta-aprendizagem é explorar quão bem as informações

(48)

doslandmarkerspodem ser utilizadas para localizar as bases de dados no espaço de

com-petências. Em [Bensusan & Giraud-Carrier 2000] é encontrado um exemplo de utilização delandmarkingcomo técnica de caracterização de dados em meta-aprendizagem.

Via modelos

A abordagem de caracterização via modelos [Bensusan et al. 2000] difere da chamada

landmarking[Pfahringer et al. 2000] pelo fato de não considerar as medidas de

desempe-nho do classificador induzido e sim a estrutura do próprio classificador, conhecida como hipótese induzida ou modelo. Esta é uma forma alternativa de representar bases de dados fazendo uso de algoritmos de classificação. Existem várias vantagens na caracterização via modelos, dentre as quais se destacam [Vilalta et al. 2005]: a base de dados é repre-sentada por uma estrutura que contém informações sobre a complexidade e desempenho do modelo e; a representação dos dados nessa forma pode servir de base para explicar o desempenho do algoritmo de aprendizagem.

A utilização de modelos para a caracterização de bases de dados realiza uma mudança no espaço de busca do algoritmo de meta-aprendizagem, passando do espaço de exemplos para o espaço de hipóteses do algoritmo de caracterização [Bensusan et al. 2000]. Uma vez que, o algoritmo, idealmente, é capaz de realizar busca eficiente em seu rico espaço de hipóteses, espera-se que a utilização da hipótese induzida comprima a base de dados original de maneira a proporcionar meta-características que contribuam mais com infor-mações ao algoritmo de meta-aprendizagem.

O algoritmo mais utilizado, dentre os algoritmos de classificação, para realizar a carac-terização de bases de dados via modelos é a árvore de decisão. Evidências empíricas jus-tificam este fato, apontando para a existência de fortes relações entre as propriedades das bases de dados e as estruturas de árvores de decisão sem podas [Bensusan et al. 2000]. Di-versas medidas de uma árvore de decisão podem ser utilizadas como meta-características, tais como [Vilalta et al. 2005]: o número de nós por atributo, a profundidade máxima da árvore, o grau de balanceamento, dentre outras.