Classifica¸c˜ ao de textos em l´ıngua Portuguesa

Nos últimos anos outros investigadores têm desenvolvido trabalhos sobre classifica¸cão de textos escritos na l´ıngua Portuguesa. De seguida referem-se sucintamente alguns deles.

Langie [2004] e Moraes and Lima [2007] utilizam o algoritmo dos k-vizinhos-mais- próximos num processo de classifica¸cão hierárquica de documentos com uma representa¸cão saco-de-palavras. Ambos utilizam a mesma hierarquia de classes desenvolvida por Langie mas enquanto o primeiro utiliza um corpus com relativamente poucos documentos (2896 textos jornal´ısticos), o corpus do último tem 26606 textos do corpus PLN-BR CATEG.

Oliveira et al. [2007] utilizam redes neuronais com uma representa¸cão saco-de-palavras para classificar um conjunto de 3281 relatórios de objectivos de empresas brasileiras em 764 classes, um subconjunto das actividades económicas reconhecidas pela lei Brasileira. A informa¸cão morfo-sintáctica gerada pelo PALAVRAS é utilizada por Silva and Vieira [2007] na seleçcão de termos de indexa¸cão de documentos da Folha de S. Paulo (o corpus Folha descrito em 7.2.2). Utilizando uma representa¸cão saco-de-palavras comparam algoritmos de árvores de decisão e máquina de vectores de suporte e referem que, ao contrário do primeiro, na máquina de vectores de suporte o aumento do número de termos tem uma influência de cont´ınua redu¸cão dos erros.

Por outro lado, Camargo [2007] utiliza o mesmo tipo de informa¸cão morfo-sintáctica para comparar os algoritmos na¨ıve de Bayes e máquina de vectores de suporte, apli- cando estes algoritmos de aprendizagem aos corpora Folha e Teses. Este último corpus é composto por 475 documentos com o resumo de teses de pós-gradua¸cão que estão distribuidos por 5 classes. Os resultados obtidos indicam que o algoritmo na¨ıve de Bayes gera classificadores com percentagem de erros mais baixas, pelo menos em representa¸cões com um pequeno número de termos; no entanto não foram feitos testes de significância entre as diferen¸cas.

Rigo et al. [2007] classificam documentos relacionados com linguagens de programa¸cão orientada por objectos, utilizando informa¸cão lingu´ıstica descrita em ontologias do dom´ınio. Esta ontologia foi criada manualmente a partir de conceitos sobre a estrutura dos documentos e do próprio dom´ınio; foram identificados os termos mais frequen- tes, além de sinónimos e poss´ıveis hierarquias entre conceitos. Com a utiliza¸cão de heur´ısticas e da ontologia são identificadas as constru¸cões relevantes que permitem a

classifica¸cão de documentos nesse dom´ınio. Para a classifica¸cão foram utilizados 46 documentos: 37 documentos jornal´ısticos da Folha de S. Paulo, 4 de um livro didáctico de ciências e 2 tutoriais sobre linguagens de programa¸cão orientada por objectos. Aires et al. [2004] classificam páginas Web escritas em Português do Brasil num conjunto de 7 classes. Estas correspondem a inten¸cões de pesquisa do utilizador durante a navega¸cão (por exemplo a pesquisa de uma defini¸cão, um estudo ou uma not´ıcia sobre determinado assunto). Utiliza as árvores de decisão da ferramenta WEKA e baseia-se em 46 caracter´ısticas estil´ısticas dos documentos; o corpus é composto por 511 documentos distribuidos equitativamente pelas 7 classes.

Por outro lado, Pavelec et al. [2006] utilizam atributos estilométricos da l´ıngua Portu- guesa para identificar a autoria de documentos digitais. A abordagem utiliza máquinas de vectores de suporte aplicada a um corpus de 150 textos jornal´ısticos escritos por 10 autores. A extraçcão dos atributos estilométricos baseia-se na análise sintáctica, utilizando ocorrências normalizadas de conjun¸cões.

Cap´ıtulo 5

N´ucleos para classifica¸c˜ao de texto

Em CT, e como referido na seçcão 4.3.2, os melhores desempenhos têm sido obtidos pelos classificadores baseados em métodos de estimula¸cão, máquinas de vectores de suporte, métodos baseados em exemplos e métodos de regressão. Algumas varia¸cões do método de Rocchio e de árvores de decisão também apresentaram resultados equi- valentes.

Neste estudo escolheu-se, como algoritmo de classifica¸cão, a máquina de vectores de suporte (MVS). Este algoritmo insere-se num conjunto mais vasto de métodos de análise de padrões1 _{– os m´}_{etodos de n´}_ucleo2_{. Esta aproxima¸cão coloca os dados num}

espa¸co de caracter´ısticas3 _{apropriado e utiliza algoritmos baseados em ´algebra linear,}

geometria e estat´ıstica para descobrir padrões nos dados transformados. Este espa¸co é especificado de forma natural mas indirecta, através de uma fun¸cão de núcleo4_.

A escolha deste algoritmo justifica-se pelos seguintes factos:

• os métodos de regressão e de estimula¸cão são pouco eficientes na fase de constru¸cão do classificador;

• a constru¸cão de uma árvore de decisão embora mais rápida que os métodos ante- riores é muito mais lenta que um classificador baseado em máquina de vectores de suporte;

• os métodos baseados em exemplos são pouco eficientes na fase de classifica¸cão; • o método de Rocchio (modificado) embora possua uma eficiência computacional

Do inglˆes, pattern analysis methods.

Do inglˆes, kernel methods.

Do inglˆes, feature space.

Do inglˆes, kernel function.

equiparada à MVS, é considerado um método com fracas bases teóricas5 _[Joa-

chims 2002; Moschitti 2003b].

Mais ainda, por constituir um método de núcleo, a utiliza¸cão de exemplos estruturados é mais simples já que não exige altera¸cões ao funcionamento do algoritmo.

Este Cap´ıtulo come¸ca por apresentar os métodos de núcleo, enumerando, de seguida, as propriedades teóricas que caracterizam as fun¸cões de núcleo e os espa¸cos de caracter´ısticas induzidos. A seçcão 5.3 introduz as máquinas de vectores de suporte e a seçcão 5.4 mostra como o modelo do espa¸co de vectores desenvolvido pela comunidade de RI pode ser reinterpretado por fun¸cões de núcleo e apresenta núcleos para dados estruturados.

Os conceitos básicos sobre álgebra linear são apresentados no Anexo D; as demons- tra¸cões dos teoremas e propriedades relativos aos núcleos encontram-se em [Shawe- Taylor and Cristianini 2004, Cap´ıtulo 3].

5.1 M´etodos de n´ucleo

A estratégia adoptada pelos métodos de núcleo consiste em mapear os dados para um espa¸co de caracter´ısticas onde os padrões6 _{existentes possam ser descobertos através}

de rela¸cões lineares7_{. Este processo é realizado de forma modular já que cada um dos}

passos ´e realizado por componentes distintos.

A componente de mapeamento dos dados é definida implicitamente através de uma fun¸cão de núcleo. Ela depende dos dados espec´ıficos do problema e do conhecimento acerca dos padrões que se espera encontrar e pode ser constru´ıda a partir de diferentes tipos de dados.

Neste novo espa¸co de caracter´ısticas, são então encontrados padrões lineares através de algoritmos de aprendizagem genéricos, robustos e eficientes. São robustos porque têm bases estat´ısticas firmes que lhe conferem resistência ao sobre-ajustamento e eficientes porque requerem uma quantidade de recursos computacionais de ordem polinomial com o tamanho e número de exemplos, mesmo quando a dimensão do novo espa¸co cresce exponencialmente.

A Figura 5.1 mostra um exemplo entre as rela¸c˜oes existentes nos dados no espa¸co de exemplos e no novo espa¸co de caracter´ısticas.

Do inglˆes, theorically weak method.

Entende-se por padr˜ao, uma rela¸c˜ao existente nos dados, seja ela exacta, aproximada ou estat´ıstica.

Figura 5.1: Através da fun¸cão Φ, os exemplos são mapeados para um espa¸co de caracter´ısticas onde as rela¸cões não lineares se tornam lineares. A fun¸cão de núcleo permite encontrar essas rela¸cões directamente a partir dos exemplos.

A modularidade dos métodos de núcleo torna o desenho de sistemas de aprendizagem simples e elegante: os módulos são combinados entre si para obter um sistema de aprendizagem. Além disso, permite a reutiliza¸cão do algoritmo de aprendizagem e da fun¸cão de núcleo. O mesmo algoritmo pode ser utilizado com qualquer núcleo e, desta forma, em qualquer dom´ınio e a componente do núcleo, que é espec´ıfica para cada tipo de dados, pode ser combinada com diferentes algoritmos para resolver uma completa gama de tarefas de análise de padrões. Entre essas tarefas, destacam-se a classifica¸cão binária e multi-classe, a regressão, a deteçcão de novidades8_{, o agrupamento}9 _{e a}

redu¸c˜ao de dimens˜ao10_{. Shawe-Taylor and Cristianini [2004] apresentam e discutem}

diversos (tipos de) algoritmos de aprendizagem que utilizam métodos de núcleo. A Figura 5.2 mostra as etapas envolvidas na utiliza¸cão de métodos de núcleo. Este constitui o aprendiz da aproxima¸cão de Aprendizagem Automática na classifica¸cão de textos (ver Figura 3.1).

Figura 5.2: Os dados são processados utilizando uma fun¸cão de núcleo para criar uma matriz que, por sua vez, é processada por um algoritmo de aprendizagem que produz uma fun¸cão que reconhece padrões. Esta fun¸cão é utilizada para classificar novos exemplos.

Do inglˆes, novelty detection.

Do inglˆes, clustering.

Do ponto de vista computacional os métodos de núcleo têm duas propriedades im- portantes. Primeiro, permitem o acesso a espa¸cos de caracter´ısticas de muito grandes dimensões e, assim, muito flex´ıveis, com um baixo custo computacional em termos de tempo e espa¸co. Depois, e apesar da complexidade das classes de fun¸cões resultan- tes, uma grande parte dos algoritmos resolve problemas de optimiza¸cão convexa não sofrendo, assim, de m´ınimos locais.

No documento Utilização de Informação Linguística na classificação de documentos em Língua Portuguesa (páginas 80-86)