Preparação do arquivo de entrada da RNA

No documento Categorização de documentos a partir de suas citações: um método baseado em redes neurais artificiais (páginas 81-88)

CAPÍTULO 4: DESENVOLVIMENTO DA BASE DE TESTES

4.4. Pré-processamento da base de dados

4.4.2. Preparação do arquivo de entrada da RNA

Cada uma das citações recebeu, durante o respectivo cadastramento, um código numérico para representá-la na entrada da RNA. Este código, presente na representação do artigo, definia a presença desta citação no artigo. Como as citações se repetiam em vários artigos, era fundamental que cada citação estivesse cadastrada com um único código numérico, mesmo que se repetisse em diferentes pontos da tabela, associada a artigos distintos. Para garantir esta condição e associar um único código numérico a uma mesma publicação, mesmo que referenciada por artigos distintos, foi elaborado um programa na linguagem Java. O programa gerava, também, o arquivo que foi utilizado na entrada da RNA.

4.4.2.1 Eliminação de códigos numéricos distintos

Ao executar o programa, muitas das referências foram identificadas como distintas e apresentadas no processamento com as inconsistências definidas na fase anterior. Estas inconsistências, presentes nos títulos destes artigos e nos nomes dos autores, foram

alteradas, manualmente, baseadas nas informações apresentadas pela Biblioteca digital IEEE

Xplore.

A interface inicial do programa elaborado solicita os arquivos com os dados dos artigos selecionados e com os dados das respectivas referências destes artigos. Esta interface pode ser observada na Figura 20.

Figura 20 - Interface inicial do programa

O programa que compara as citações utiliza, inicialmente, o ano de publicação dos trabalhos citados para comparar os trabalhos e constatar se é o mesmo trabalho. A partir desta constatação, o programa verifica o percentual de palavras iguais nos títulos das citações. Se o ano de publicação é igual e se o percentual de palavras repetidas é igual a 100%, o programa substitui o maior código numérico pelo menor, garantindo a presença de um único código para a mesma citação. Se o percentual varia entre 60% e 100%, o responsável pela entrada de dados nas tabelas é consultado, pela interface do programa Java, para que avalie, pela comparação dos títulos e dos autores da obra, se as duas referências selecionadas são equivalentes. Nesta fase do trabalho, todas as diferenças encontradas pelo programa relativas à mesma citação foram eliminadas manualmente. Desse modo, eliminando-se as inconsistências, o próprio programa identificava a semelhança de 100% dos títulos e dos autores sem a necessidade de consultar o usuário pela interface. A janela de interface que compara as citações e consulta o usuário é apresentada na Figura 21.

Figura 21 - Janela de interface com o usuário

Se a resposta do usuário é “No”, como deve ser no exemplo utilizado pela Figura 18, onde os títulos dos trabalhos são diferentes, o programa mantém os códigos numéricos de cada uma das referências e continua sua execução. Em caso de constatada, pelo responsável pela entrada de dados nas tabelas, a existência de duas referências idênticas cadastradas com códigos numéricos diferentes, os títulos dos trabalhos são iguais e a resposta para a pergunta é “Yes”. O código numérico de maior valor é, então, substituído pelo de menor valor de modo que as referências bibliográficas iguais recebam, sempre, o mesmo código numérico na entrada da RNA.

4.4.2.2 Geração do arquivo utilizado pela RNA

Depois de organizada a base de referências e garantida a existência de um único código para a mesma referência, foi necessário gerar o arquivo utilizado pela RNA. Para gerar a sequência de dados utilizada na entrada da RNA, o programa, durante o processamento dos dados das bases de artigos e de referências, gerou um número para cada artigo. Este número, utilizado na entrada da RNA, contém a informação da presença ou da ausência, no artigo, de cada uma das 6015 referências cadastradas.

Na primeira fase de testes, cada uma das referências foi associada a um número 2n-1, na base 2, como nos testes realizados com o protótipo, sendo “n” o código numérico designado à referência na tabela de artigos e na tabela de referências. A presença de cada uma das referências em um determinado artigo foi representada pelo valor 1 na posição relativa ao número designado para a referência e a ausência, pelo valor 0. A Figura 22 apresenta um resultado parcial gerado pelo programa em um dos testes realizados.

Figura 22 - Geração da entrada da RNA

A primeira linha da janela apresentada na Figura 22 pode ser utilizada como exemplo para um melhor entendimento do arquivo gerado pelo programa para ser utilizado na entrada da RNA. A linha caracterizava o primeiro artigo cadastrado, publicado em 2009 e que possuía 43 citações:

A = [2009 2^0 +2^1 +2^2 +2^3 +2^4 +2^5 +2^6 +2^7 +2^7 +2^7 +2^9 +2^10 +2^11 +2^12 +2^13 +2^14 +2^15 +2^16 +2^17 +2^18 +2^19 +2^20 +2^21 +2^23 +2^24 +2^25 +2^26 +2^27 +2^28 +2^29 +2^30 +2^31 +2^32 +2^33 +2^34 +2^35 +2^36 +2^37 +2^38 +2^39 +2^40 +2^41 +2^42;

Cada um dos expoentes representava o código numérico da referência subtraído de uma unidade. Estavam, portanto, associados, ao primeiro artigo, as suas 43 referências, cadastradas com códigos numéricos que variavam de 1 a 43 e que estavam representadas no expoente pelos valores que variavam de 0 a 42.

A validação do software desenvolvido exigiu a utilização de bases que pudessem ser avaliadas manualmente. Foram criadas, assim, bases menores de artigos e de referências para garantir que o softãare desenvolvido funcionasse corretamente, sem a presença de erros

gerados no seu desenvolvimento. Os primeiros testes envolveram os 10 primeiros artigos e suas 456 referências. A segunda etapa de testes foi realizada utilizando-se os 30 primeiros artigos e suas 1226 referências. A cada execução do programa, novas correções das bases foram realizadas, com o objetivo de tornar o processo de identificação de semelhança de citações o mais automático possível e capaz de ser realizado pelo programa sem consultar o usuário. A terceira etapa de testes utilizou a base completa de artigos e suas 6015 referências.

Para trabalhar com as 6015 referências, optou-se por utilizar oito entradas da RNA. As referências foram, então, distribuídas em entradas distintas da RNA, definindo-se, assim, que o código numérico de cada referência não ultrapassasse o número 1000 em cada uma das entradas. A primeira entrada recebia o ano de publicação do artigo, a segunda, as referências cujos códigos numéricos estivessem entre 1 e 1000, a terceira, as referências cujos códigos estivessem entre 1001 e 2000 e, assim por diante, até que a oitava entrada recebesse as referências cujos códigos estivessem entre 6001 e 7000. O programa direcionava a referência para a entrada correspondente, com o código numérico reduzido a um valor entre 1 e 1000.

Os exemplos a seguir ilustram este direcionamento. A referência cujo código numérico era 2003 na tabela de referências era direcionada à entrada 4 com o expoente 2, ou seja, referências entre 2001 e 3000 eram direcionadas à entrada 4 e o expoente 2 era calculado subtraindo-se uma unidade do número 3. A referência de código 5044, era direcionada à entrada 7, com o valor do expoente “n-1” igual a 43. O Quadro 7 sintetiza as informações das entradas da RNA nesta fase de experimentos.

Quadro 7 - Informações relativas às entradas da RNA

Entradas da RNA Dado

1 Ano de publicação

2 Referências cujos códigos numéricos estejam entre 1 e 1000 3 Referências cujos códigos numéricos estejam entre 1001 e 2000 4 Referências cujos códigos numéricos estejam entre 2001 e 3000 5 Referências cujos códigos numéricos estejam entre 3001 e 4000 6 Referências cujos códigos numéricos estejam entre 4001 e 5000 7 Referências cujos códigos numéricos estejam entre 5001 e 6000 8 Referências cujos códigos numéricos estejam entre 6001 e 6015

Ao treinar a RNA, utilizando-se os dados de entrada distribuídos em oito entradas, como descrito anteriormente, observou-se que os resultados obtidos não eram satisfatórios. Optou-se, então, pela utilização de 6016 entradas, que recebiam o ano de publicação do artigo, quando o ano fosse um atributo utilizado pelo teste, e os valores 0 ou 1, representando a ausência ou a presença daquela referência no artigo. A representação do artigo, com a informação da presença de suas referências utilizando a base 2 foi descartada neste instante. Cada artigo foi, então, representado por um código de 6016 posições. A Figura 23 apresenta parte do arquivo que a RNA utilizou em suas 6016 entradas. Nesta figura, podem ser identificadas as primeiras 70 entradas da RNA para os 29 primeiros artigos.

Figura 23 - Parte do arquivo utilizado pela RNA em suas entradas

Na primeira linha do arquivo, podem ser identificadas as características do artigo A1. Avaliando-se esta linha, observa-se o ano de publicação do artigo, 2009, na primeira coluna, designada aqui, coluna 0, e o valor 1 presente nas colunas seguintes, colunas 1 a 43, representando a presença das referências cadastradas com códigos numéricos que variavam de 1 a 43.

Na linha 2, podem ser observadas as informações relativas ao artigo A2. Este artigo, publicado em 2009, possuía 28 referências cadastradas com códigos numéricos que variavam de 44 a 71. Nesta linha, é possível perceber que muitas das colunas entre 44 e 71 foram preenchidas com o valor zero. O programa, nesta fase de geração do arquivo de entrada da RNA, já havia identificado a repetição de referências cadastradas anteriormente e substituía os códigos pelos valores menores, justificando a presença de 0 entre as colunas 44 e 71 e de valores 1 em colunas anteriores à coluna 44. Observa-se que, entre as posições

relativas às referências R44 e R69, apresentadas na Figura 20, cinco referências foram substituídas por códigos numéricos menores.

A linha 3 apresenta o artigo A3, publicado em 2010, cujas 38 referências foram cadastradas com códigos numéricos que variavam de 72 a 109. Nesta linha, também é possível perceber que muitas das colunas anteriores à coluna 72 foram preenchidas com o valor 1, identificando a presença de referências repetidas. A Tabela 2 apresenta um resumo das informações discutidas nos últimos parágrafos.

Tabela 2 - Relação entre os artigos e os códigos numéricos de suas referências

Artigo Número de Referências

Códigos Numéricos das Referências

Códigos Substituídos (Códigos Inseridos) na fase anterior do programa A1 43 R1 a R43 A2 28 R44 a R71 R54(R33), R56(R16), R57(R17), R68(R28), R69(R31), R70(R12) A3 38 R72 a R109 R76(R36), R80(R26), R82(R3), R84(R41), R87(R5), R91(R30), R93(R19), R97(R40), R99(R38), R100(R4), R101(R37), R102(R7), R104(R55)

CAPÍTULO 5: ANÁLISE DAS CARACTERÍSTICAS COMUNS ÀS

No documento Categorização de documentos a partir de suas citações: um método baseado em redes neurais artificiais (páginas 81-88)