• Nenhum resultado encontrado

3.3 Revisão de Características

3.3.8 Características Baseadas em Desvios

3.3.8.1 Desvio de Largura (CDS1)

Sendo N P o número de patches do documento, temos a Largura Média MW dada

por:

MW =

PN P

i=1Wi

N P

O Desvio de Largura é então dado por [4]:

3.3.8.2 Desvio de Altura (CDS2)

Sendo N P o número de patches do documento, temos a Altura Média MH dada por:

MH =

PN P

i=1Hi

N P

O Desvio de Altura é então dado por [4]:

CDS2= |H − MH|

3.3.8.3 Desvio de Área (CDS3)

Sendo N P o número de patches do documento, temos a Área Média MA dada por:

MA =

PN P

i=1Ai

N P

O Desvio de Área é então dado por [4]:

4 Seleção de Características

4.1 Visão Geral

Um fator importante no desenvolvimento de sistemas de reconhecimento é a escolha de um bom com conjunto de características que melhor represente os objetos a serem classificados. Para distinção entre manuscritos e impressos existem várias técnicas para extração de características disponíveis na literatura como as descritas no Capítulo 3. Essas características, entretanto, são escolhidas, na maior parte das vezes, de forma empírica e sem que haja um trabalho que permita determinar o conjunto de características que proporcione resultados semelhantes ou melhores do que os obtidos fazendo uso de todas as características disponíveis.

Desta forma, o processo de seleção de características tem como objetivo não só discriminar os diferentes padrões mas também reduzir a dimensionalidade do pro- blema. O termo "dimensionalidade" é atribuído ao número de características de uma representação de padrões, ou seja, à dimensão do espaço de características (N ) [28]. A redução da dimensionalidade tem como implicações a diminuição do custo computacional e a melhoria da precisão do classificador. Na prática, isto é alcan- çado através da seleção das características mais representativas para o problema em estudo, eliminando, dentro do possível, os valores redundantes ou inúteis.

Em aplicações de processamento de textos, a redução da dimensionalidade é uma questão especialmente importante, uma vez que imagens possuem naturalmente uma dimensionalidade elevada. A priori, uma imagem com largura w e altura h possui uma dimensionalidade N = w x h. Esse pode ser uma valor muito elevado para servir de entrada aos métodos de classificação convencionais. Além disso, esse formato sofre grande influencia de operações como translação, rotação, mudança de escala, etc. Um bom conjunto de características deve sofrer pouca influência sob esse tipo de transformação da imagem.

4.2 A Maldição da Dimensionalidade e o Fenômeno

do Pico

Também conhecido como "Problema da Curva em U", a Maldição da Dimensionali- dade em resumo, trata da observação de que o acréscimo do número de características geralmente degrada o desempenho de um classificador ou regressor se a quantidade de exemplos de treinamento for pequena em relação à quantidade de características [7].

Figura 4.1: Erro observado em função da variação da dimensionalidade

Na Figura 4.1 [7] é possível observar três regiões distintas que comportam-se segundo a dimensionalidade dos dados de entrada:

• RI (Região Inicial): região onde a adição de características também adiciona novas informação e, portanto, há uma redução na taxa de erro.

• RM (Região Média): região onde, pelo fato das informações relevantes já terem sido inseridas através das características anteriores, a taxa de erro se mantem em uma situação de estabilidade ou de diminuição muito discreta com a adição de novas características.

• RF (Região Final): região onde o incremento de características provoca um incremento também na taxa de erro uma vez que não trazem mais informações relevantes para a distinção das classes.

A alta dimensão dos dados observada na região RF manifesta-se através de uma grande quantidade de exemplos e de características descrevendo cada exemplo. À

medida que a quantidade de características incrementa, as técnicas de modelagem tornam-se menos precisas e mais lentas. O tempo do processo frequentemente au- menta em escala exponencial ou polinomial em relação ao incremento da quantidade de características.

Uma outra observação em relação à questão da dimensionalidade é conhecida como Fenômeno do Pico e ocorre quando a taxa de erro atinge o valor máximo para um determinado número de características, mas decrementa quando aumentamos esse número, conforme pode ser visto na Figura 4.2 [7].

Figura 4.2: Fenômeno do Pico

A existência de picos implica em dizer que para cada tipo de problema deve haver uma quantidade ideal de características para um determinado número de exemplos onde a taxa de erro é a menor possível [7].

Por conseguinte, os classificadores frequentemente podem sofrer com o problema da dimensionalidade. Sabe-se que existe uma clara a relação entre o problema e o tamanho do conjunto de treinamento quando o número de exemplos não é grande o suficiente em relação ao número de características. Entretanto há outros fatores que, quando considerados, ofuscam a exatidão dessa relação, tais como a complexidade do classificador e o número de classes.

4.3 Técnicas para Seleção de Características

Como vimos, nem todas as informações existentes em um conjunto de característi- cas são necessariamente relevantes para a construção de um modelo computacional

que represente o problema em estudo. Omitir entradas desnecessárias muitas vezes melhora a precisão dos classificadores e, além disso, é desejável manter o tamanho do modelo tão pequeno quanto possível, para torná-lo mais eficiente em tempo real e mais fácil de analisar.

Nesse contexto, a seleção de atributos apresenta-se como um problema de otimização que busca pelo menor subconjunto com a melhor acurácia no processo de classificação [29]. Em um primeiro momento, pode-se pensar em uma pesquisa exaustiva para obter as melhores características conforme podemos observar na figura Figura 4.3 [30]:

Figura 4.3: Espaço de busca

Na imagem, os círculos representam as características. Quado pretos representam a presença da característica e quando brancos a ausência dela. Cada estado no espaço dos subconjuntos de características especifica quais são os atributos candidatos à aplicação no classificador. Os extremos do grafo representam a ausência e a presença total das características do problema em questão.

Considerando, entretanto, que para dados de entrada descritos por n característi- cas, há potencialmente 2n possibilidades de combinações, a aplicação da abordagem

exaustiva é muitas vezes computacionalmente impraticável devido ao tamanho do espaço de solução. Além disso, se o projeto do classificador depender de condições estocásticas iniciais, não é possível garantir que a melhor solução será encontrada. Desta forma, identificar a priori quais são as características de maior relevância para a obtenção de uma maior precisão e performance nos processos de classificação é uma tarefa bastante complexa que Camargo [7] organiza em 5 subprocessos que resultam na escolha dos seguintes itens:

2. Função de avaliação; 3. Estratégia de busca;

4. Abordagem de funcionamento; 5. Critério de parada.

Nos tópicos seguintes detalharemos uma pouco mais cada um desses subprocessos.

Documentos relacionados