• Nenhum resultado encontrado

Os atributos obtidos na seção anterior são extraídos de cada região identificada na etapa de localização. O conjunto de atributos extraídos das regiões localizadas, rotuladas como texto ou não-texto, formam um conjunto de dados. Tal conjunto de dados necessita de um pré-processamento para o aprendizado de máquina (machine learning), cujo objetivo é transformar da- dos em conhecimento.

A feature selection (FS) - é uma técnica de pré-processamento com o objetivo de selecionar, dentre todos os atributos, um subconjunto capaz de melhorar a predição ou diminuir a dimensão do vetor de atributos sem com- prometer o seu desempenho.

Os principais propósitos da seleção de atributos são: redução de di- mensionalidade, remoção de atributos irrelevantes6 e redundantes7, redução da quantidade de dados necessária ao aprendizado, melhoria do desempenho dos algoritmos preditivos (precisão) e aumentar a compreensão dos modelos obtidos.

Segundo Dash e Liu [18] pode-se modelar os métodos de seleção de atributos em três etapas (Fig.3.22):

1. Geração. 2. Avaliação. 3. Critério de parada.

A etapa de geração é a responsável pelo procedimento de busca. As- sim, tal etapa gera o subconjunto de atributos para a etapa de avaliação. O processo de geração pode iniciar: (i) com nenhum atributo; (ii) com todos os

6Existem diversos conceitos de relevância [36]. O conceito utilizado neste trabalho é: um

atributo xié relevante se a probabilidade da classe é alterada quando eliminamos o conhecimento

do valor de xi.

movidos (backward elimination), enquanto no último caso os atributos podem ser iterativamente adicionados, removidos ou aleatoriamente selecionados.

A etapa de avaliação destina-se, como o próprio nome indica, à avalia- ção da qualidade de um determinado subconjunto de atributos obtido de algum procedimento de geração.

O critério de parada define a regra que determina o término da seleção de atributos, evitando que o processo de busca seja exaustivo ou torne-se per- manente dentro do espaço de subconjuntos. O critério de parada geralmente está relacionado à etapa de geração ou avaliação. Os critérios quanto à etapa de geração mais comuns atuam: (i) se um determinado número de atributos é alcançado; (ii) se um número pré-definido de iterações é alcançado. Quanto à etapa de avaliação, o critério de parada pode atuar: (i) se a adição ou eli- minação de um atributo não produz um melhor subconjunto; (ii) se algum subconjunto ótimo é obtido de acordo com alguma função de avaliação.

Os algoritmos de seleção de atributos podem ser classificados em: fil-

tros, wrappers e embutidos (embedded). Os filtros selecionam um subcon-

junto de atributos baseado na maximização de algum critério de relevância. A seleção é feita completamente independente do classificador a ser utilizado posteriormente. Apesar de possuir um custo computacional inferior às outras duas abordagens, os filtros ignoram completamente os efeitos dos atributos selecionados no desempenho do classificador. Os wrappers são algoritmos que selecionam um subconjunto de atributos “empacotando” o classificador na etapa de avaliação, ou seja, o classificador é utilizado como parte do pro- cesso de avaliação, selecionando, assim, os atributos que proporcionam o me- lhor desempenho para um classificador específico. Os métodos embutidos são aqueles cuja seleção do subconjunto de atributos está embutida no algoritmo de indução.

3.2.1

Seleção de Atributos Proposta

A escolha da abordagem a ser utilizada na seleção de características (filtros, wrappers ou embedded) é um passo fundamental para o desempenho do classificador. Os filtros possuem como vantagem a baixa complexidade computacional e a independência da seleção de atributos em relação ao clas- sificador. Todavia, os filtros baseiam a seleção de acordo com algum critério, em que o subconjunto que maximiza tal critério não necessariamente maxi- miza o desempenho do classificador ao utilizar o subconjunto selecionado. Além disso, vários seletores baseados em filtros não avaliam a interação entre os atributos no poder de classificação; alguns apenas selecionam os atribu-

0 5 10 15 20 25 30 −70 −60 −50 −40 −30 −20 −10 0 10 20 30 a1 a2 (a) 0 2 4 6 8 10 12 14 0 2 4 6 8 10 12 14 k1 k2 (b)

Fig. 3.23: Atributos irrelevantes com capacidade classificatória quando associados a outros atri- butos.

tos de acordo com a correlação entre esses e as classes. Como conseqüência, pode ocorrer a seleção dosk melhores atributos e esses não corresponderem ao melhor conjunto dek atributos para a classificação devido à:

1. Redundância de atributos.

2. Eliminação de atributos considerados irrelevantes, porém com capa- cidade classificatória quando associados a outros atributos [24], como ilustrado na Fig.3.23.

As Figs.3.23(a)e(b)apresentam dados contendo duas classes, repre- sentadas por quadrados vermelhos e asteriscos azuis. Da Fig. 3.23(a), ob- serva-se que os dados de classes diferentes se sobrepõem quando projetados sobre um dos atributos (a1ou a2). Caso a avaliação de relevância do atributo

seja a discriminância entre as classes (ou a informação mútua entre o atributo e a classe) produzida por cada atributo individualmente, os dois atributos (a1

e a2) seriam considerados irrelevantes e eliminados. Contudo, percebe-se que

os atributos associados possuem margem de separação entre as classes. O mesmo ocorre com os atributos k1e k2na Fig.3.23(b).

A abordagem de seleção de atributos wrapper possui como objetivo di- reto a minimização do erro de classificação sobre um classificador específico. Devido a tal característica, geralmente, wrappers resultam em um conjunto de atributos de alto poder classificatório (classificador específico) ao custo de uma alta complexidade computacional e perda de generalidade dos atributos escolhidos para atuação em outros classificadores. Essa perda de generalidade indica que o subconjunto de atributos selecionado pela abordagem wrapper

C las sif ic ador ( SV M) Conjunto de Atributos Subconjuntos de Atributos de Atributos

Não Atributos Selecionados Backward

Elimination

Fig. 3.24: Diagrama de blocos da abordagem wrapper utilizando a técnica backward elimination para a seleção de atributos.

pode resultar em um pior desempenho quando utilizados com outros classifi- cadores.

Neste trabalho, a abordagem wrapper foi escolhida para a seleção de atributos devido:

• ao pequeno número de atributos, tornando viável a utilização da abor- dagem wrapper do ponto de vista de complexidade computacional; • à minimização do erro de classificação sobre um classificador especí-

fico, visto que, neste trabalho, tal conjunto de atributos é utilizado ape- nas pelo classificadorSVM.

Uma vez definida a abordagem wrapper de seleção de atributos, utili- za-se como procedimento de busca (geração) o método backward elimination, por possuir maior poder de captura da interação entre atributos do que a busca

forward [36]. Apesar do algoritmoSVMpossuir um seletor de atributos em- butido, a seleção de atributos para o treinamento é necessária devido à perda de precisão na predição do classificadorSVMquando existem atributos irre- levantes ou redundantes [65].

O método de seleção proposto é inicializado com o conjunto de todos os atributos, como apresentado na Fig.3.24. Inicialmente, X é o conjunto total de atributos e, para tal conjunto, o erro de classificação utilizando o clas- sificadorSVMéeX. A técnica backward elimination geran subconjuntos Q

retirando um atributo por vez do conjuntoX (Fig.3.24). Cada subconjunto de atributosQié então utilizado pelo classificadorSVMe os seus correspon-

dentes erros de classificaçãoeQisão computados. Caso exista algumQicujo

eQi ≤ eX, tal subconjuntoQi é considerado melhor do que o conjuntoX.

Conjunto Backwar d Eli m inati on Conjunto

Fig. 3.25: Seqüência dos subconjuntos de atributos obtidos durante o processo de seleção de atributos utilizando a técnica backward elimination.

alizado. Tal substituição ocorre porque o subconjunto Qi, além de possuir

menos atributos do que o conjuntoX, possui indícios de melhoria na preci- são do preditorSVM. Caso não exista um subconjuntoQicujoeQi ≤ eX, o

processo de seleção de atributos é finalizado e o conjuntoX é considerado o melhor conjunto de atributos para a classificação (Fig.3.24).

Utilizando a seleção de atributos proposta, 11 entre os 16 atributos são selecionados. A Fig.3.25apresenta a seqüência de subconjuntos escolhidos durante o processo de eliminação de atributos (backward elimination), resul- tando na escolha do subconjunto de atributosQfinal. Assim,

Qfinal= {x1,x2,x3,x5,x6,x7,x8,x9,x10,x11,x14}.

Uma vez obtido um subconjunto de atributos de menor dimensionali- dade e de maior relevância para o treinamento, cada imagem do banco de da- dos, com o rótulo correspondente (texto ou não-texto), pode ser representada por um vetor x de atributos selecionados. Esse conjunto de atributos alimenta o algoritmo de aprendizadoSVMe o capacita a criar uma regra de decisão capaz de predizer rótulos a exemplos desconhecidos de imagens, como apre- sentado na Fig.3.1.