• Nenhum resultado encontrado

3. DESCRIÇÃO DAS FASES DO PROCESSO DE DESCOBERTA DO

3.3 Transformação e Limpeza de Textos Processo Text Mining

O primeiro passo desta segunda fase do processo de descoberta realiza a retirada de palavras que tenha uma considerável freqüência de aparecimentos nos textos, não sendo importantes na identificação do conteúdo dos textos, estando em classes gramaticais: preposições, advérbios, numerais, artigos, etc., chamadas de Stopwords.

A retirada de Stopwords é realizada mediante um programa escrito em linguagem JAVA, o qual realiza as seguintes ações:

1.Checagem da lista de Stopwords em um arquivo com extensão TXT; 2.Checagem das palavras do texto a ser analisado;

3.Comparação entre as palavras do texto e a lista de Stopwords; 4.Retirada das palavras contidas na lista de Stopwords;

5.Geração de novo arquivo com extensão TXT sem as Stopwords.

Estes passos realizados, pelo programa JAVA, são executados da seguinte forma: o programa lê, em um diretório especificado pelo usuário, um texto em formato XML, separando o texto por palavras, lendo em um diretório específico a lista de Stopwords, comparando a palavra do texto lido com a retirada da lista de Stopwords. Caso sejam iguais, o programa retirará a palavra do texto. Por fim, o programa gerará um novo texto com extensão TXT, a fim de subsidiar os processos seguintes.

Este processo é realizado com o objetivo de retirada do texto, as Stopwords, não agregando significado ao texto analisado, visando à redução do vetor de identificação do texto. A lista de Stopwords foi montada com base na obra, escrita por Terra (1993), a qual descreve as palavras e suas classes gramaticais consideradas Stopwords por Moores (1999 apud Gupta, 1997). A figura seguinte ilustra os procedimentos executados nesta fase.

3.3.2 Stemming

O segundo passo desta segunda fase do processo de descoberta do conhecimento envolve a realização da atividade denominada Stemming, a qual permite verificar se o conteúdo do texto analisado retrata o tema escolhido, neste caso o mercado financeiro, em específico à área bancária. Esta verificação é processada por meio de uma comparação entre os radicais primitivos de palavras associadas à área de interesse do usuário e as pertinentes ao texto analisado. Com o resultado, obtém-se a existência ou não de palavras associadas ao campo de pesquisa do usuário. Caso os radicais primitivos sejam identificados no texto, pode-se concluir que o conteúdo do texto esteja direcionado ao tema do usuário.

A proposta deste trabalho, para a realização desta tarefa, envolve um programa em linguagem JAVA, o qual executa as seguintes tarefas:

1.Checagem da lista de Stemming em um arquivo com extensão TXT; 2.Averiguação das palavras do texto a ser analisado;

3.Comparação entre as palavras do texto e lista de Stemming;

4.Verificação da existência de palavras da liste de Stemming no texto analisado; 5.Gerar um arquivo com as palavras verificadas no texto.

Estes passos, realizados pelo programa JAVA, são executados da seguinte forma: o programa lê, em um diretório especificado pelo usuário, um texto em formato TXT, separando o texto por palavras. A seguir, lê, em um diretório específico, a lista de Stemming, executando uma comparação, letra a letra, lida no texto com o Stemming. Caso sejam iguais, o programa montará uma lista com os Stemmings. O programa finaliza sua ação, gerando um arquivo com extensão TXT, o qual contém os Stemming identificados.

O objetivo desta fase está sintetizado na verificação do conteúdo do texto em relação ao assunto pesquisado, ou seja, verifica se o conteúdo do texto está direcionado à linha de pesquisa de quem esteja usando o processo de descoberta de conhecimento. A lista de Stemming, formada para este trabalho, está constituída com radicais primitivos de palavras significativas, retiradas dos textos coletados na fase 1 deste processo, descrita no item 3.2. A figura 11 ilustra os procedimentos executados nesta fase.

Figura 11 – Fase 2 Text Mining Identificação de Stemming

3.3.3 Thesauros

O terceiro passo desta segunda fase do processo de descoberta do conhecimento envolve a verificação de termos com significados semelhantes, por meio de um “dicionário de conceito”, denominado Thesauros. Esta verificação é realizada por intermédio da substituição de palavras do texto analisado por seu conceito. Suponha que palavras como Bradesco, Itaú, Banco Real, Banco do Brasil e outros estejam conceituadas no Thesauros como Banco. Neste caso, existe a substituição das referidas palavras no texto analisado por seu significado: Banco.

A proposta deste trabalho, para a realização desta tarefa, envolve um programa em linguagem JAVA, o qual executa as seguintes tarefas:

1.Checagem da lista de palavras chave junto ao texto a ser analisado, contidas no Thesauros;

2.Substituição de palavras por seu conceito; e

3. Gerar um arquivo com as substituições de palavras por conceitos executados.

Estes passos são executados da seguinte forma: o programa lê, em um diretório especificado pelo usuário, um texto em formato TXT, separando o texto por palavras. A seguir, lê, em um diretório específico, a lista do Thesauros, comparando a palavra do texto com a retirada da lista de Thesauros. Caso sejam iguais, o programa substituirá a palavra do texto pelo seu conceito. Por fim, o programa gerará um novo texto com extensão TXT, já analisado pelo Thesauros.

Esta fase tem por propósito preparar os textos para a fase seguinte do processo de descoberta do conhecimento, cabendo analisar os termos com o objetivo de identificar palavras com conceitos similares, isto significa detectar semelhanças entre textos mesmo com termos diferentes, ou seja, identificar correlações textuais. Além disso, esta fase tem o propósito de “padronizar” os significados das palavras por meio da conceituação existente no Thesauros, isto é, gerando vários textos com um conjunto de palavras similares e induzir a rede neural ART1 a agrupar diferentes textos de um mesmo assunto em um único grupo.