• Nenhum resultado encontrado

Cada t´ıtulo de um artigo possui termos, os quais s˜ao extra´ıdos usando t´ecnicas de minera- ¸c˜ao de textos. T´ecnicas que s˜ao muito utilizadas em processamento de linguagem natural envolvendo t´ecnicas com opera¸c˜oes em textos. Neste sentido, para a extra¸c˜ao de termos iniciar-se-´a com a “tokeniza¸c˜ao” seguido da elimina¸c˜ao de “stopwords” e “stemming”.

4.2.1

Tokeniza¸c˜ao

A tokeniza¸c˜ao, tamb´em conhecida como splitting de palavras, ´e considerada por mui- tos autores como o primeiro passo para a prepara¸c˜ao de textos [Webster & Kit, 1992] [Fox, 1992] [Grefenstette & Tapanainen, 1994] [Guo, 1997] [Barcala et al., 2002], que ba- sicamente consiste em identificar e separar os textos em tokens, que por sua vez, s˜ao palavras dos textos, mantidas em um vetor de palavras tendo como base um conjunto de regras. Neste processo ´e importante considerar o tratamento de sinais de pontua¸c˜ao, re- mo¸c˜ao de caracteres especiais e de n´umeros e a padroniza¸c˜ao de mai´usculas a min´usculas. O objetivo com este procedimento ´e deixar o texto o mais limpo poss´ıvel. Um exemplo de tokeniza¸c˜ao em um t´ıtulo ´e o seguinte:

A 3.4W digital-in class-D audio amplifier.

[A] [3] [.] [4] [W] [digital-in] [class-D] [audio] [amplifier] [.]

Obtendo-se como resultado uma sequˆencia de palavras separadas por delimitadores. Nos t´ıtulos de artigos este procedimento tamb´em ´e importante, haja visto que muito dos t´ıtulos tem este problema, por exemplo, no t´ıtulo n´umero 371479, pode-se notar que tem s´ımbolos que devem ser removidos como se ilustra na Figura4.1.

Figura 4.1: Exemplo de t´ıtulos de artigos que precisam do processo de tokeniza¸c˜ao para a limpeza dos textos.

O conjunto de regras considerados em primeira instˆancia ´e o seguinte: • Remo¸c˜ao de sinais de pontua¸c˜ao como: [.], [,], [:], [’], [!], [?], [...], etc. • Remo¸c˜ao de s´ımbolos: [#], [\], [α], [β], [γ], [δ], [], [θ], [≈],[ψ], etc. • Remo¸c˜ao de n´umeros: [0], [1], [2],..., [9].

• Remo¸c˜ao de s´ımbolos num´ericos (operadores): [+], [−], [∗], [÷], [∪], [∩], [∧], [±], [q], etc.

• O caractere “-”(h´ıfen) representa um sinal de pontua¸c˜ao, que esta associada a uma infinidade de ocorrˆencias lingu´ısticas. Neste caso, ele ´e mantido, pois lˆe-se em meio a palavras compostas: Low-Power, Real-Time, Illumination-Balance, field- sequential, Appearance-Based, etc.; elementos sufixados como: anti-Spam, micro- Spatial, micro-Enterprise, macro-Scripts, auto-Tunings, auto-Balancing, contra- Precontinuous, etc.; com palavras com significado de anglicismo, como, por exemplo, e-Mail, e-Commerce, e-Bussines, on-Line, Business-to-Business, e-Procurement, etc.; ou em n´umeros compostos, tais como, twenty-five, sixty-four, ninety-two, etc. • Convers˜ao de mai´usculas a min´usculas.

4.2.2

Elimina¸c˜ao de stopwords

Os stopwords s˜ao termos que aparecem com grande frequˆencia em documentos, neste caso no conjunto dos t´ıtulos dos artigos, mas eles n˜ao apresentam conte´udo semˆantico que possa ajudar a recupera¸c˜ao dos mesmos. S˜ao denominados como palavras irrelevantes, e n˜ao podem ser considerados como termos chave (keywords), como corroboram alguns autores [Lo et al., 2005][Blanchard, 2007][Dragut et al., 2009]. Este conjunto de palavras ´e armazenado em um stoplist, que visa diminuir o volume do texto, ao n˜ao considerar as palavras irrelevantes. Desta forma evita-se que elas sejam selecionadas como parte dos experimentos para a an´alise semˆantica. Por exemplo no seguinte t´ıtulo de artigo:

Simulation Environment for the Optimization of the Data Retrieval Capabilities of an Agent Based System in a Healthcare Setting.

As palavras for, the, of, an, in, a s˜ao consideradas como palavras irrelevantes ou stopwords.

A elimina¸c˜ao de stopwords consiste em remover os artigos (a, an, in, the, etc.), pre- posi¸c˜oes (about, above, across, after, against, along, among, around, at, before, behind, below, etc), operadores booleanos (and, or, not) e palavras bastante frequentes mas ir- relevantes. Usou-se neste trabalho uma stoplist da l´ıngua inglesa de 600 palavras mais comuns. 1

1WWW:

4.2.3

Stemming

O stemming ´e uma forma de confla¸c˜ao de palavras, este m´etodo tem como objetivo a fus˜ao ou combina¸c˜ao a fim de igualar as variantes morfol´ogicas das palavras. A confla¸c˜ao tem dois tipos de t´ecnicas principais [Sparck Jones & Willett, 1997]: a radicaliza¸c˜ao e a redu¸c˜ao `a forma canˆonica.

O stemming ´e uma forma de radicaliza¸c˜ao, que ´e o processo de combinar as diferentes formas de uma palavra em uma palavra representativa comum, que ´e denominada como radical (stem), sendo eliminados afixos de deriva¸c˜ao ou de flex˜ao (plural, sufixos, etc.). Como por exemplo, nas palavras,network, networks, networking reduz-se `a palavra radi- cal network. No caso da palavraimplement,implementation,implementations reduz-se `a palavra radical implement. Este procedimento ´e importante na recupera¸c˜ao de informa- ¸c˜ao, uma vez que reduz os termos a um radical, haja visto que os afixos de um termo n˜ao representam a essˆencia semˆantica da mesma.

Atualmente existem diversos algoritmos de stemming, que reduzem os termos mor- fologicamente relacionados a uma forma comum. Algoritmos baseados em for¸ca bruta (Brute force look up), e tamb´em em suffix and affix stripping, part-of-speech recognition, statistical algorithms (n-grams, HMM). Como s˜ao apresentadas por diversos autores:

[Baeza-Yates & Ribeiro-Neto, 1999]: Retira os afixos mediante uma tabela lookup, varia¸c˜ao do sucessor e N-gramas. Muitas vezes a elimina¸c˜ao de sufixos geram erros, ent˜ao, neste caso, mant´em-se a remo¸c˜ao somente se um sufixo est´a em contexto correto [Rijsbergen, 1979], ou seja, quando cumpre os seguintes pontos: (1) O cum- primento restante do stem excede a um valor, geralmente o valor ´e 2. (2) A letra final do stem satisfaz a uma condi¸c˜ao (exemplo: n˜ao termine com a letra g).

M´etodo de Lovins (1968): ´E capaz de remover perto de 250 sufixos diferentes em um ´

unico passo. ´E sens´ıvel ao contexto, tamb´em remove como m´aximo um sufixo por termo.

Stemming de Porter (1980): Baseado em suffix stripping [Porter, 1997], que conse- gue identificar e substituir as diversas inflex˜oes e deriva¸c˜oes de um mesmo termo por um mesmo radical. Os termos que derivam de um mesmo radical possuem

significados semelhantes, consegue-se reunir em um ´unico token a importˆancia de todas as suas deriva¸c˜oes. O algoritmo de Porter ´e o m´etodo mais amplamente usado e o algoritmo mais efetivo para a l´ıngua inglesa, e recentemente este mesmo algo- ritmo ´e adequado para outras l´ınguas como o espanhol [Honrado et al., 2000], Hindi [Pandey & Siddiqui, 2008] ou portuguˆes [Soares et al., 2009].

Documentos relacionados