Tratamento com textos - Análise de Dados Multi-relacional Suportada por Técnicas de Pré-process

Cada t´ıtulo de um artigo possui termos, os quais são extra´ıdos usando técnicas de minera- ¸cão de textos. Técnicas que são muito utilizadas em processamento de linguagem natural envolvendo técnicas com opera¸cões em textos. Neste sentido, para a extra¸cão de termos iniciar-se-á com a “tokeniza¸cão” seguido da elimina¸cão de “stopwords” e “stemming”.

4.2.1 Tokeniza¸c˜ao

A tokeniza¸cão, também conhecida como splitting de palavras, é considerada por mui- tos autores como o primeiro passo para a prepara¸cão de textos [Webster & Kit, 1992] [Fox, 1992] [Grefenstette & Tapanainen, 1994] [Guo, 1997] [Barcala et al., 2002], que ba- sicamente consiste em identificar e separar os textos em tokens, que por sua vez, são palavras dos textos, mantidas em um vetor de palavras tendo como base um conjunto de regras. Neste processo é importante considerar o tratamento de sinais de pontua¸cão, remo¸cão de caracteres especiais e de números e a padroniza¸cão de maiúsculas a minúsculas. O objetivo com este procedimento é deixar o texto o mais limpo poss´ıvel. Um exemplo de tokeniza¸cão em um t´ıtulo é o seguinte:

A 3.4W digital-in class-D audio amplifier.

[A] [3] [.] [4] [W] [digital-in] [class-D] [audio] [amplifier] [.]

Obtendo-se como resultado uma sequência de palavras separadas por delimitadores. Nos t´ıtulos de artigos este procedimento também é importante, haja visto que muito dos t´ıtulos tem este problema, por exemplo, no t´ıtulo número 371479, pode-se notar que tem s´ımbolos que devem ser removidos como se ilustra na Figura4.1.

Figura 4.1: Exemplo de t´ıtulos de artigos que precisam do processo de tokeniza¸c˜ao para a limpeza dos textos.

O conjunto de regras considerados em primeira instância é o seguinte: • Remo¸cão de sinais de pontua¸cão como: [.], [,], [:], [’], [!], [?], [...], etc. • Remo¸cão de s´ımbolos: [#], [\], [α], [β], [γ], [δ], [], [θ], [≈],[ψ], etc. • Remo¸cão de números: [0], [1], [2],..., [9].

• Remo¸c˜ao de s´ımbolos num´ericos (operadores): [+], [−], [∗], [÷], [∪], [∩], [∧], [±], [q], etc.

• O caractere “-”(h´ıfen) representa um sinal de pontua¸cão, que esta associada a uma infinidade de ocorrências lingu´ısticas. Neste caso, ele é mantido, pois lê-se em meio a palavras compostas: Low-Power, Real-Time, Illumination-Balance, field- sequential, Appearance-Based, etc.; elementos sufixados como: anti-Spam, micro- Spatial, micro-Enterprise, macro-Scripts, auto-Tunings, auto-Balancing, contra- Precontinuous, etc.; com palavras com significado de anglicismo, como, por exemplo, e-Mail, e-Commerce, e-Bussines, on-Line, Business-to-Business, e-Procurement, etc.; ou em números compostos, tais como, twenty-five, sixty-four, ninety-two, etc. • Conversão de maiúsculas a minúsculas.

4.2.2 Elimina¸c˜ao de stopwords

Os stopwords são termos que aparecem com grande frequência em documentos, neste caso no conjunto dos t´ıtulos dos artigos, mas eles não apresentam conteúdo semântico que possa ajudar a recupera¸cão dos mesmos. São denominados como palavras irrelevantes, e não podem ser considerados como termos chave (keywords), como corroboram alguns autores [Lo et al., 2005][Blanchard, 2007][Dragut et al., 2009]. Este conjunto de palavras é armazenado em um stoplist, que visa diminuir o volume do texto, ao não considerar as palavras irrelevantes. Desta forma evita-se que elas sejam selecionadas como parte dos experimentos para a análise semântica. Por exemplo no seguinte t´ıtulo de artigo:

Simulation Environment for the Optimization of the Data Retrieval Capabilities of an Agent Based System in a Healthcare Setting.

As palavras for, the, of, an, in, a s˜ao consideradas como palavras irrelevantes ou stopwords.

A elimina¸c˜ao de stopwords consiste em remover os artigos (a, an, in, the, etc.), pre- posi¸c˜oes (about, above, across, after, against, along, among, around, at, before, behind, below, etc), operadores booleanos (and, or, not) e palavras bastante frequentes mas irrelevantes. Usou-se neste trabalho uma stoplist da l´ıngua inglesa de 600 palavras mais comuns. 1

1_WWW:

4.2.3 Stemming

O stemming é uma forma de confla¸cão de palavras, este método tem como objetivo a fusão ou combina¸cão a fim de igualar as variantes morfológicas das palavras. A confla¸cão tem dois tipos de técnicas principais [Sparck Jones & Willett, 1997]: a radicaliza¸cão e a redu¸cão à forma canônica.

O stemming é uma forma de radicaliza¸cão, que é o processo de combinar as diferentes formas de uma palavra em uma palavra representativa comum, que é denominada como radical (stem), sendo eliminados afixos de deriva¸cão ou de flexão (plural, sufixos, etc.). Como por exemplo, nas palavras,network, networks, networking reduz-se à palavra radical network. No caso da palavraimplement,implementation,implementations reduz-se à palavra radical implement. Este procedimento é importante na recupera¸cão de informa- ¸cão, uma vez que reduz os termos a um radical, haja visto que os afixos de um termo não representam a essência semântica da mesma.

Atualmente existem diversos algoritmos de stemming, que reduzem os termos mor- fologicamente relacionados a uma forma comum. Algoritmos baseados em for¸ca bruta (Brute force look up), e tamb´em em suffix and affix stripping, part-of-speech recognition, statistical algorithms (n-grams, HMM). Como s˜ao apresentadas por diversos autores:

[Baeza-Yates & Ribeiro-Neto, 1999]: Retira os afixos mediante uma tabela lookup, varia¸cão do sucessor e N-gramas. Muitas vezes a elimina¸cão de sufixos geram erros, então, neste caso, mantém-se a remo¸cão somente se um sufixo está em contexto correto [Rijsbergen, 1979], ou seja, quando cumpre os seguintes pontos: (1) O cum- primento restante do stem excede a um valor, geralmente o valor é 2. (2) A letra final do stem satisfaz a uma condi¸cão (exemplo: não termine com a letra g).

M´etodo de Lovins (1968): ´E capaz de remover perto de 250 sufixos diferentes em um ´

unico passo. É sens´ıvel ao contexto, também remove como máximo um sufixo por termo.

Stemming de Porter (1980): Baseado em suffix stripping [Porter, 1997], que consegue identificar e substituir as diversas inflex˜oes e deriva¸c˜oes de um mesmo termo por um mesmo radical. Os termos que derivam de um mesmo radical possuem

significados semelhantes, consegue-se reunir em um único token a importância de todas as suas deriva¸cões. O algoritmo de Porter é o método mais amplamente usado e o algoritmo mais efetivo para a l´ıngua inglesa, e recentemente este mesmo algoritmo é adequado para outras l´ınguas como o espanhol [Honrado et al., 2000], Hindi [Pandey & Siddiqui, 2008] ou português [Soares et al., 2009].

No documento Análise de Dados Multi-relacional Suportada por Técnicas de Pré-processamento de texto e Decomposição por Valor Singular (páginas 50-54)