Durante a implementação teve-se alguma dificuldade com a linguagem, mas, foram sendo superadas aos poucos. Porém, o tempo para a implementação não foi suficiente, o que acarretou na não conclusão da ferramenta, que não estava fazendo a recuperação adequada dos documentos referentes a uma expressão digitada.
3.4.1 Utilização dos pesos estabelecidos pela Rede Neural Artificial na
Figura 17. Diagrama de seqüência do sistema.
A Figura 18 ilustra o diagrama de Use Case do sistema. Representa a interação do usuário com o protótipo. O usuário digita uma expressão para consulta e o sistema retorna os links encontrados na Web.
Figura 18. Diagrama Use Case do sistema
4 CONCLUSÕES
A idéia inicial para este trabalho era a de se construir uma ferramenta de recuperação de informação voltada para a língua portuguesa e que utilizasse as técnicas da metodologia do DolphinSearch para fazer a recuperação. Porém, ao terminar a primeira fase (TCC I), percebeu-se que o projeto seria muito extenso e não haveria tempo hábil para sua conclusão, por isso, optou-se por desenvolver um estudo de caso da utilização da metodologia DolphinSearch para recuperação de informações.
Para tanto, primeiramente, teve-se que analisar os mecanismos de RI existentes, a fim de colher informações sobre os mesmos para se ter uma compreensão das ferramentas atualmente à disposição.
O próximo passo foi fazer uma análise da metodologia DolphinSearch, que foi a metodologia utilizada para o referente trabalho. Com a análise, pode-se ter uma idéia do funcionamento da metodologia, e dos conceitos utilizados por ela. Com a análise identificou-se que, para ser possível a representação de um cérebro biológico seria necessário à implementação de uma Rede Neural Artificial, a qual foi implementada, primeiramente na ferramenta Matlab, porém a convergência da mesma estava demorando a acontecer, passou-se a utilizar um programa que calcula o backpropagation mais rapidamente. Para a demora na convergência da RNA, concluiu-se que, a função de ativação utilizada, nesse caso, uma função linear, não fosse a ideal para palavras da língua portuguesa, uma vez que o DolphinSearch foi desenvolvido para a língua inglesa.
Após as análises feitas, determinaram-se os requisitos para o desenvolvimento da ferramenta de RI. Foram definidas quais seriam as variáveis de entrada, a variável de saída, o erro quadrático utilizado para o treinamento da RNA. Foram criadas as matrizes de pronomes, verbos de ligação.
Também foram definidas as palavras utilizadas no projeto, que, após vários testes percebeu-se que, talvez, o número de palavras utilizadas tenha sido muito pequeno, pois o universo de palavras da língua portuguesa é muito vasto, isto é, o tamanho do conjunto de treinamento, tanto em relação às palavras selecionadas quanto em relação à quantidade de documentos, tenha sido muito pequeno. O ideal seria escolher por volta de umas mil palavras da língua portuguesa que tenham duplo sentido, e, pelo menos, uns trezentos documentos relacionados com cada significado das palavras.
Como, infelizmente, a ferramenta não funcionou completamente, pois não estava classificando os significados corretamente das palavras, e por isso, a posterior recuperação não estava adequada não foi possível à execução de testes e validações da ferramenta. Com isso, sugere- se para trabalhos futuros a alteração da função de ativação para, por exemplo, uma função tangente ou outra função matemática mais adequada para questão. Sugere-se também a utilização de outro algoritmo de aprendizagem, pois, o algoritmo de backpropagation pode não ser o mais apropriado para palavras da língua portuguesa.
REFERÊNCIAS BIBLIOGRÁFICAS
Alecrim, Emerson. Coluna da InfoWester. 2004. Disponível em: <http://www.infowester.com/
col241004.php>. Acesso em: 10 nov. 2005.
AltaVista. Overture to Acquire Search Engine Altavista. 2003. Disponível em:
<http://br.altavista.com/about/prelease?yr=2003&dt=021803>. Acesso em: 10 nov. 2005.
AltaVista. Visão geral da empresa AltaVista. 2005. Disponível em: <http://br.altavista.com/
about/>. Acesso em: 10 nov. 2005.
Austim, Jim. AURA Project. 2002. Disponível em: < http://www.cs.york.ac.uk/arch/neural/
research/aura/>. Acesso em: 10 nov. 2005.
Azevedo, Fernando Mendes de; Brasil, Lourdes Mattos; Oliveira, Roberto Célio Limão de. Redes Neurais: com aplicações em controle e em sistemas especialistas. Florianópolis: Bookstore Livraria, 2000. 401p. ISBN 8575020056.
Beppler, Márcio Duarte. Text mining aplicado a extração de conhecimento sobre informações jurisprudenciais. 2005. Trabalho de Conclusão de Curso, Universidade do Vale do Itajaí, São José, 2005.
Brin, Sergey; Page, Lawrence. The anatomy of a large-scale hypertextual Web search engine.
Disponível em: <http://www-db.stanford.edu/~backrub/google.html>. Acesso em: 10 nov. 2005.
Braga, Antônio de Pádua; Carvalho, André Ponce de Leon F. de; Ludermir, Teresa Bernarda. Redes Neurais Artificiais: teoria e aplicações. Rio de Janeiro: LTC, 2000.
Cardoso, Olinda Nogueira Paes. Recuperação de Informação. Infocomp Revista de Computação da Ufla, Lavras, v. 1, p. 33-38, 2000.
Fernandes, Anita Maria da Rocha. Inteligência Artificial: noções gerais. Florianópolis: Bookstore, 2003.
Fernandes, Anita Maria da Rocha. Sistema Especialista difuso aplicado ao processo de análise química qualitativa de amostras de minerais. 1995. Dissertação (Mestrado em Ciência da Computação)–Programa de Pós Graduação em Ciência da Computação, Universidade Federal de Santa Catarina, Florianópolis, 1995.
Ferneda, Edberto. Recuperação de Informação: análise sobre a contribuição da Ciência da
Computação para a Ciência da Informação. 2003. Tese (Doutorado em Ciências da Comunicação)–
Escola de Comunicação e Artes, Universidade de São Paulo, São Paulo, 2003.
Google. Por que usar o Google. 2005. Disponível em: <http://www.google.com.br/intl/pt- BR/why_use.html>. Acesso em: 10 nov. 2005.
Haykin, Simon. Redes Neurais: princípios e prática. Porto Alegre: Bookman, 2001. ISBN 0-13-
Librelotto, G. R.; Ramalho, J. C.; Henriques, P. R. Representação de Conhecimento da Semantic Web. Anais do XXV Congresso da Sociedade Brasileira de Computação. Cap. 1, págs. 1210 à 1224, 2005.
Rankings.com.br. Rastreando a web: crawlers, bots, robots, spiders. 2004. Disponível em:
<http://www.rankings.com.br/basico/crawlers.html>. Acesso em: 10 nov. 2005.
Roitblat, Herbert L. DolphinSearch: Proprietary Information. Ventura: DolphinSearch, 2000.
Disponível em: <http://www.dolphinsearch.com>. Acesso em: 15 nov. 2003.
Roitblat, Herbert L. DolphinSearch: Scientific Background. Ventura: DolphinSearch, 2001.
Disponível em: <http://www.dolphinsearch.com>. Acesso em: 15 nov. 2003.
Takao, Eduardo Liquio. Uma análise de modelos e sistemas probabilísticos em Recuperação de Informação em bases textuais. 2001. Dissertação (Mestrado em Ciências da Computação)–
Programa de Pós Graduação em Ciência da Computação, Universidade Federal de Santa Catarina, Florianópolis, 2001.
van Rijsbergen, C. J. Information Retrieval. University of Glasgow, Scotland, 2.ed. 1999.
Yahoo!. The history of Yahoo!: how it all started. 2005. Disponível em:
<http://docs.yahoo.com/info/misc/history.html>. Acesso em: 10 nov. 2005.
APÊNDICES
A RESULTADOS OBTIDOS NO TREINAMENTO DA RNA
Tabela que contém os resultados obtidos após o treinamento da RNA.
Par de
entrada Entrada por neurônio Saída Saída esperada
Entrada1 0,003225806
0 Entrada2 0,1 0,195731970465383 0,01
Entrada3 0,005555556 Entrada1 0,441935484
1 Entrada2 0,9 0,773483428426105 0,9
Entrada3 0,383333333 Entrada1 0,009677419
2 Entrada2 0,1 0,196561723987756 0,1
Entrada3 0,011111111 Entrada1 0,280645161
3 Entrada2 0,7 0,657675338509114 0,7
Entrada3 0,258333333 Entrada1 0,341935484
4 Entrada2 0,6 0,606939148201172 0,6
Entrada3 0,297222222 Entrada1 0,019354839
5 Entrada2 0,1 0,197819091059438 0,1
Entrada3 0,19444444 Entrada1 0,025806452
6 Entrada2 0,1 0,198665856290473 0,1
Entrada3 0,025 Entrada1 0,312903226
7 Entrada2 0,7 0,663054201433448 0,7
Entrada3 0,272222222 Entrada1 0,032258065
8 Entrada2 0,1 0,199519460602626 0,1
Entrada3 0,030555556 Entrada1 0,038709677
9 Entrada2 0,1 0,200379922589433 0,1
Entrada3 0,036111111 Entrada1 0,377419355
10 Entrada2 0,5 0,545185956310273 0,5
Entrada3 0,327777778 Entrada1 0,980645161
11 Entrada2 0,1 0,31600712348373 0,1
Entrada3 0,044444444 Entrada1 0,04516129
12 Entrada2 0,1 0,20124726062806 0,1
Entrada3 0,41666667 Entrada1 0,15483871
13 Entrada2 0,4 0,49613911510916 0,4
Entrada3 1
Entrada1 0,477419355
14 Entrada2 0,9 0,777117886728416 0,19
Entrada3 0,413888889 Entrada1 0,05483871
15 Entrada2 0,1 0,20255119794173 0,1
Entrada3 0,05 Entrada1 0,206451613
16 Entrada2 0,8 0,697768214073589 0,8
Entrada3 0,186111111
Entrada1 1
Par de
entrada Entrada por neurônio Saída Saída esperada
Entrada1 0,64516129
18 Entrada2 0,2 0,255953539590513 0,2
Entrada3 0,58333333 Entrada1 0,180645161
19 Entrada2 0,4 0,41717643960913 0,4
Entrada3 0,144444444 Entrada1 0,70967742
20 Entrada2 0,2 0,256675568159003 0,2
Entrada3 0,58333333 Entrada1 0,074193548
21 Entrada2 0,2 0,257038077505293 0,2
Entrada3 0,58333333 Entrada1 0,235483871
22 Entrada2 0,8 0,702632866879702 0,8
Entrada3 0,205555556 Entrada1 0,77419355
23 Entrada2 0,2 0,257401581902809 0,2
Entrada3 0,058333333 Entrada1 0,280645161
24 Entrada2 0,7 0,657675338509114 0,7
Entrada3 0,258333333 Entrada1 0,974193548
25 Entrada2 0,2 0,384092225084604 0,2
Entrada3 0,058333333 Entrada1 0,367741935
26 Entrada2 0,5 0,605739616119926 0,5
Entrada3 1
Entrada1 0,370967742
27 Entrada2 0,5 0,606252290284287 0,5
Entrada3 1
Entrada1 0,429032258
28 Entrada2 1 0,802920266622478 1
Entrada3 0,372222222 Entrada1 0,064516129
29 Entrada2 0,2 0,255953539590513 0,2
Entrada3 0,058333333 Entrada1 0,193548387
30 Entrada2 0,4 0,421912228371974 0,4
Entrada3 0,169444444 Entrada1 0,080645161
31 Entrada2 0,2 0,25776607973155 0,2
Entrada3 0,058333333 Entrada1 0,083870968
32 Entrada2 0,3 0,322526959127793 0,3
Entrada3 0,075 Entrada1 0,464516129
33 Entrada2 0,9 0,775819773300499 0,9
Entrada3 0,402777778 Entrada1 0,419357839
34 Entrada2 1 0,802117230187739 1
Entrada3 0,36888889 Entrada1 0,970967742
35 Entrada2 0,3 0,456364393669939 0,3
Entrada3 0,075
Par de
entrada Entrada por neurônio Saída Saída esperada
Entrada1 0,090322581
36 Entrada2 0,3 0,323462741455497 0,3
Entrada3 0,075 Entrada1 0,274193548
37 Entrada2 0,8 0,709332983767213 0,8
Entrada3 0,238888889 Entrada1 0,093548387
38 Entrada2 0,3 0,324691191300939 0,3
Entrada3 0,083333333 Entrada1 0,1
39 Entrada2 0,3 0,32614188728452 0,3
Entrada3 0,088888889 Entrada1 0,406451613
40 Entrada2 1 0,801026265405447 1
Entrada3 0,352777778 Entrada1 0,106451613
41 Entrada2 0,3 0,327596844804743 0,3
Entrada3 0,94444444 Entrada1 0,409677419
42 Entrada2 0,9 0,772395452227496 0,9
Entrada3 0,405555556 Entrada1 0,974193548
43 Entrada2 0,9 0,791401870897769 0,9
Entrada3 0,408333333 Entrada1 0,151612903
44 Entrada2 0,4 0,495518486881254 0,4
Entrada3 1
Entrada1 0,112903226
45 Entrada2 0,3 0,329313815606626 0,3
Entrada3 0,102777778 Entrada1 0,119354839
46 Entrada2 0,3 0,330524844600784 0,3
Entrada3 0,105555556 Entrada1 0,425806452
47 Entrada2 1 0,804537020362749 1
Entrada3 0,419444444 Entrada1 0,125806452
48 Entrada2 0,3 0,330968476793614 0,3
Entrada3 0,1 Entrada1 0,358064516
49 Entrada2 0,6 0,610040878921098 0,6
Entrada3 0,305555556 Entrada1 0,361290323
50 Entrada2 0,5 0,541228963788898 0,5
Entrada3 0,313888889 Entrada1 0,319354839
51 Entrada2 0,7 0,664529385306631 0,7
Entrada3 0,280555556 Entrada1 0,151612903
52 Entrada2 0,4 0,413268084229247 0,4
Entrada3 0,155555556 Entrada1 0,129032258
Par de
entrada Entrada por neurônio Saída Saída esperada
Entrada1 0,45483871
54 Entrada2 0,9 0,774828630720457 0,9
Entrada3 0,394444444 Entrada1 0,267741935
55 Entrada2 0,8 0,708238026223481 0,8
Entrada3 0,233333333 Entrada1 0,129032258
56 Entrada2 0,3 0,332735153975909 0,3
Entrada3 0,113888889 Entrada1 0,187096774
57 Entrada2 0,4 0,419681932274 0,4
Entrada3 0,158333333 Entrada1 0,483870968
58 Entrada2 0,3 0,377064306464034 0,3
Entrada3 0,005555556 Entrada1 0,29516129
59 Entrada2 0,8 0,70433729090896 0,8
Entrada3 0,212888889 Entrada1 0,970967742
60 Entrada2 0,3 0,460506533099978 0,3
Entrada3 0,116666667 Entrada1 0,98064561
61 Entrada2 0,3 0,46204531916375 0,3
Entrada3 0,119444444 Entrada1 0,141935484
62 Entrada2 0,3 0,419083052216211 0,3
Entrada3 1
Entrada1 0,14516129
63 Entrada2 0,4 0,4093969083494 0,4
Entrada3 0,127777778 Entrada1 0,448387097
64 Entrada2 0,9 0,774159429746913 0,9
Entrada3 0,388888889 Entrada1 0,25483871
65 Entrada2 0,8 0,706022084578644 0,8
Entrada3 0,222222222 Entrada1 0,261290323
66 Entrada2 0,8 0,707134398881029 0,8
Entrada3 0,227777778 Entrada1 0,393548387
67 Entrada2 0,5 0,5463911617697 0,5
Entrada3 0,313888889 Entrada1 0,158064516
68 Entrada2 0,4 0,412725510277025 0,4
Entrada3 0,138888889 Entrada1 0,39677419
69 Entrada2 0,5 0,54902051275635 0,5
Entrada3 0,313888889 Entrada1 0,170967742
70 Entrada2 0,4 0,416061080750125 0,4
Entrada3 0,15 Entrada1 0,177419355
71 Entrada2 0,4 0,417731181956253 0,4
Entrada3 0,155555556
Par de
entrada Entrada por neurônio Saída Saída esperada
Entrada1 0,222580645
72 Entrada2 0,8 0,700329688291309 0,8
Entrada3 0,194444444 Entrada1 0,229032258
73 Entrada2 0,8 0,701485655949824 0,8
Entrada3 0,2 Entrada1 0,351612903
74 Entrada2 0,6 0,609098967660894 0,6
Entrada3 0,305555556 Entrada1 0,90322581
75 Entrada2 0,4 0,403479913173919 0,4
Entrada3 0,163888889 Entrada1 0,435483871
76 Entrada2 1 0,796933859118595 1
Entrada3 0,211111111 Entrada1 0,2
77 Entrada2 0,4 0,423586648178132 0,4
Entrada3 0,175 Entrada1 0,461290323
78 Entrada2 0,9 0,774965536534392 0,9
Entrada3 0,388888889 Entrada1 0,206451613
79 Entrada2 0,8 0,697584880115359 0,8
Entrada3 0,183333333 Entrada1 0,209677419
80 Entrada2 0,8 0,745373443630782 0,8
Entrada3 1
Entrada1 0,335483871
81 Entrada2 0,6 0,605489614484979 0,6
Entrada3 0,291666667 Entrada1 0,387096774
82 Entrada2 0,5 0,547542853216414 0,5
Entrada3 0,336111111 Entrada1 0,303225806
83 Entrada2 0,7 0,661142133983196 0,7
Entrada3 0,263888889 Entrada1 0,303225806
84 Entrada2 0,7 0,661354680182626 0,7
Entrada3 0,266666667
Entrada1 1
85 Entrada2 0,8 0,748384682592599 0,8
Entrada3 0,1888888889 Entrada1 0,290322581
86 Entrada2 0,7 0,658562557992369 0,7
Entrada3 0,25777778 Entrada1 0,296774194
87 Entrada2 0,7 0,711059878643802 0,7
Entrada3 1
Entrada1 0,383870968
88 Entrada2 0,5 0,544857507275932 0,5
Entrada3 0,313888889 Entrada1 0,241935484
Par de
entrada Entrada por neurônio Saída Saída esperada
Entrada1 0,412903226
90 Entrada2 1 0,801574657827957 1
Entrada3 0,35833333 Entrada1 0,251612903
91 Entrada2 0,8 0,750071724581135 0,8
Entrada3 1
Entrada1 0,974193548
92 Entrada2 0,6 0,668417649371023 0,6
Entrada3 0,3 Entrada1 0,293548387
93 Entrada2 0,5 0,530788822696083 0,5
Entrada3 0,322222222 Entrada1 0,329032258
94 Entrada2 0,6 0,604032413295052 0,6
Entrada3 0,286111111 Entrada1 0,383870968
95 Entrada2 0,5 0,544857507275932 0,5
Entrada3 0,313888889 Entrada1 0,016129032
96 Entrada2 0,1 0,267248909612158 0,1
Entrada3 1
Entrada1 0,280645161
97 Entrada2 0,7 0,656605315678766 0,7
Entrada3 0,244444444 Entrada1 0,4
98 Entrada2 0,5 0,550664610923636 0,5
Entrada3 0,347222222
B MATRIZES UTILIZADAS
Contém as matrizes utilizadas para treinamento e testes da Rede Neural