Diversidade em Comitês de Classificadores

validação e teste dos classificadores base. As saídas dos classificadores base para os exemplos de validação e teste são utilizadas para realizar o treinamento e teste do combinador, respectivamente.

Já na estratégia de combinação baseada em seleção, a resposta final do sistema é dada pelo classificador base mais capacitado para o padrão de entrada dado. Um método de seleção que tem sido bastante utilizado é o Classificador de Seleção Dinâmica (Dynamic Classifier Selection – DCS) (GIACINTO; ROLI, 1999), que utiliza análise de competência

para cada classificador, dado um padrão de entrada por ele classificado.

Essa análise de competência é dada pela proporção de acertos de cada classificador para os k padrões mais parecidos com o padrão atual e que foram rotulados com a mesma classe pelo classificador em questão. Por exemplo, dado um padrão de entrada x para classificação em um sistema com dois classificadores base e um módulo combinador DCS. O classificador 1 atribui x à classe A e o classificador 2 atribui x à classe B. A competência do classificador 1 será a média de acertos dele para os 10 (por exemplo) padrões mais parecidos com x e que foram rotulados por ele como sendo da classe A. Para o classificador 2 será a média de acertos dele para os 10 padrões mais parecidos com x e que foram rotulados por ele como sendo da classe B.

Dessa forma, o classificador que tiver a maior proporção de padrões classificados cor- retamente é o mais competente segundo o DCS para classificar o padrão de entrada dado.

2.6 Diversidade em Comitês de Classificadores

Como já mencionado, não há nenhum ganho em comitês que são compostos por um conjunto de classificadores idênticos. A situação ideal, em termos de combinação de classificadores, seria um conjunto de classificadores que apresentassem erros não correlacionados. Em outras palavras, o conjunto deve apresentar diversidade entre os membros, a fim de melhorar o desempenho dos classificadores individuais. Diversidade em sistemas de com- binação de classificadores pode ser alcançada quando os classificadores individuais são construídos de diferentes formas, como nas situações seguintes:

2.6 Diversidade em Comitês de Classificadores 28 • Algoritmos de aprendizagem iguais com parâmetros diferentes: Nesta abordagem, a diversidade pode ser alcançada através do uso de diferentes parâmetros de ajuste inicial dos algoritmos de aprendizagem. Sendo assim, mesmo construindo um comitê homogêneo, ou seja, um comitê formado por um mesmo tipo de classificador, pode-se obter um comitê diverso, pois os parâmetros do algoritmo de aprendizagem foram inicializados com valores diferentes, construindo, assim, modelos diferentes. Em uma rede neural, por exemplo, isso significaria variar os pesos e topologia do modelo de rede neural;

• Algoritmos de aprendizagem diferentes: Nesta abordagem, a diversidade pode ser al- cançada através do uso de diferentes algoritmos de aprendizagem, ou seja, diferentes tipos de classificadores, são os chamados comitês heterogêneos. Por exemplo, normal- mente um comitê que é composto de rede neural e árvore decisão é mais diversificado que um comitê composto apenas de redes neurais ou apenas de árvores decisão; • Conjuntos de dados diferentes na construção do classificador: Nesta abordagem, a

diversidade pode ser alcançada através da utilização de estratégias de aprendizagem, tais como Bagging e Boosting que selecionam conjuntos de exemplos distintos para cada classificador ou a utilização de métodos de distribuição de atributos. Dessa forma, os classificadores componentes do comitê generalizarão de forma diversa, visto que os estímulos de entrada são distintos.

Neste trabalho todas as estratégias supracitadas foram aplicadas, tendo como foco principal a seleção de subconjuntos de atributos diversos para cada classificador.

Existem propostas para avaliar quantitativamente a diversidade entre classificadores e isso pode ajudar na escolha dos componentes mais diversos para a construção de um co- mitê. Porém, nenhuma dessas medidas é aceita uniformemente, pois ainda não foi provada nenhuma relação formal entre as métricas e o erro total do comitê. Segundo (KUNCHEVA,

2004) as métricas podem ser divididas em dois grupos:

• Medidas com paridade: São calculadas para cada par de classificadores, sendo a diversidade total do comitê obtida pela média dos pares. Pode-se citar como exemplos

2.6 Diversidade em Comitês de Classificadores 29 a medida de desacordo que mede a probabilidade de dois classificadores discorda- rem de suas decisões e a medida de dupla falta que mede a probabilidade de dois classificadores estarem errados em suas decisões;

• Medidas sem paridade: Mede a diversidade considerando todos os classificadores juntos, calculando diretamente um valor para o comitê. Essas métricas se baseiam em entropia ou na correlação de cada classificador com a saída média de todos os classificadores.

Neste trabalho não foi aplicada nenhuma destas métricas de diversidade, pois como dito anteriormente, apesar de intuitiva, não foi comprovada formalmente sua eficácia.

Capítulo 3

Seleção de Atributos

3.1 Considerações Iniciais

Intuitivamente, quanto maior o número de atributos em uma base de dados, maior o poder discriminatório do classificador e a facilidade de extrair modelos de conhecimento da base, porém, na prática isso nem sempre é verdade, por dois motivos principais. Primeiro porque muitos algoritmos de aprendizagem sofrem da maldição da dimensionalidade, ou seja, o tempo computacional do algoritmo aumenta de forma considerável e indesejável com o aumento no número de atributos, dificultando a construção do modelo. Segundo porque a presença de atributos ruidosos, irrelevantes ou redundantes na base de dados pode confundir o algoritmo de aprendizagem, ajudando a esconder as distribuições de pequenos conjuntos de atributos realmente relevantes, prejudicando, assim, a construção de um classificador acurado (PAPPA, 2002). Isso acontece porque nem sempre uma base

de dados é construída visando uma tarefa específica, como a classificação de padrões, por exemplo, e pode, portanto, possuir atributos que não são importantes e não contribuem para tal tarefa.

3.1 Considerações Iniciais 31 dos dados para sua posterior aplicação em tarefas como mineração dos dados, aprendizado de máquina, reconhecimento de padrões, estatística, etc., tendo como principal objetivo selecionar um subconjunto de atributos relevantes dentre todos os atributos disponíveis para a tarefa proposta.

Neste ponto, a questão é definir o que é um atributo relevante. Em geral um atributo é dito relevante se ele é capaz de distinguir exemplos pertencentes a classes diferentes. Na literatura existem várias definições formais para atributos relevantes, classificando-os como atributos fracamente relevantes ou fortemente relevantes. Em Kohavi e John (1997) são definidas duas notações para relevância:

• Relevância forte: Um atributo xi é fortemente relevante se a sua remoção gera uma

degradação no desempenho do classificador.

• Relevância fraca: Um atributo xi é de fraca relevância se ele não for fortemente rele-

vante e existir um subconjunto de atributos V em que o desempenho do classificador usando V ∪ xi é superior ao desempenho do mesmo classificador utilizado somente

sobre subconjunto V .

Existem ainda atributos que não possuem relevância fraca e nem forte, por isso, denominam-se irrelevantes e não devem ser selecionados. Essa forma de se determinar a relevância dos atributos é feita sob uma avaliação individual dos atributos de uma base de dados e somente remove os atributos irrelevantes, já que espera-se que atributos redundantes tenham a mesma importância na discriminação das classes. Pode-se, porém, avaliar a relevância de um subconjunto de atributos como um todo, e nesse caso, retirar não somente os atributos irrelevantes como os redundantes (HUEI, 2005). Para isso, alguma

medida de avaliação deve ser adotada para determinar se um subconjunto é melhor que outro. Várias medidas foram propostas na literatura para definir a importância dos atributos, quer por avaliação individual, quer por avaliação do subconjunto. Algumas dessas medidas serão comentadas na próxima seção.

O problema de seleção de atributos é intrinsecamente um problema de busca, onde o espaço de busca é o conjunto com todos os atributos disponíveis e deseja-se encontrar um subconjunto representativo dos dados que diminua sua dimensionalidade sem perda de

3.2 Seleção de Atributos como um Problema de Busca 32

No documento Otimização em comitês de classificadores: uma abordagem baseada em filtro para seleção de subconjuntos de atributos (páginas 48-53)