Conclusão - 2007.1Monografia 2

O presente trabalho propôs a criação de um algoritmo capaz de gerar representações de bases de dados da WEB invisível em forma de Modelos de Linguagem para a utilização em um algoritmo de seleção de bases de dados.

O algoritmo principal desenvolvido foi aplicado a um total final de nove sites, de onde se pôde obter Modelos de Linguagem aceitáveis (contendo termos representativos do conteúdo da base de dados).

Resultados foram obtidos durante o experimento para a determinação da melhor estratégia de seleção de queries, de onde se pôde concluir que a melhor estratégia a ser utilizada é a escolha de termos de forma aleatória.

A princípio imaginou-se que a escolha da estratégia correta influenciaria somente na velocidade com que os termos eram adicionados no Modelo de Linguagem, ou seja, na velocidade com que o Modelo em questão era adquirido.

Com a análise dos resultados, em especial o resultado obtido para a base de dados do site www.noah-health.org, percebeu-se que escolha correta tem um caráter mais importante, o de expandir a quantidade de documentos recuperados, já que a escolha de termos baseados nas maiores freqüências (DFs e TFs) aprisionou o LM em um único contexto.

A determinação de um critério de parada baseado em soluções vistas na literatura que fosse alcançado quando os LMs estivessem com termos representativos da base de dados foi possível.

Diversos desafios tiveram que ser superados para a concretização deste trabalho. Primeiramente foi necessário resolver problemas que não estavam tão ligados ao objetivo final (interação com as bases de dados e remoção de conteúdo indesejado), pois estes eram pré-requisitos e infelizmente não foram identificados no momento da escolha do tema. Em seguida foi necessária a análise de muitas estratégias e critérios, para muitas bases de dados, o que acarretou em uma grande quantidade de experimentação a ser feita. E por fim, foi necessário lidar com a demora na coleta dos resultados, pois as análises de cada alteração simples no código-fonte do protótipo criado levavam de sete a dez dias para serem feitas.

Apesar de todo o trabalho desenvolvido, devido o grande tamanho do assunto abordado, os resultados finais mostram que ainda há muito a ser feito.

Em se tratando do problema da interação com os sites de busca, além de otimizações que podem ser feitas para se obter melhores resultados, características desafiadoras vêm aparecendo devido a popularização da WEB 2.0.

Como otimizações que podem ser realizadas, pode-se citar a identificação de mais características do formulário, por exemplo: se ele realiza o corte de sufixos das palavras (stemming); se ele processa as stop-words; etc, para serem utilizadas na melhora da estratégia de seleção de queries.

Do modo como foi resolvido o problema da interação com as bases de dados, ainda se perde muito conteúdo devido ao fato de que existem sites de busca que dão acesso a diferentes bases de dados (ex.: www.amazon.com), onde a escolha da base cujo conteúdo será retornado é feita geralmente através de COMBOBOXEs. A variação dos valores dos parâmetros dos INPUTs de todos os tipos e respectivas interpretações dos resultados retornados é uma sugestão para trabalhos futuros.

O desafio principal que vem surgindo devido a popularização da WEB 2.0 está no fato de os sites WEB estão utilizando cada vez mais recursos em AJAX (Asynchronous JavaScript And XML). A utilização destes recursos invalida totalmente o modo como foi resolvido o problema, já que as requisições feitas ao servidor utilizando AJAX são por meio de códigos em JavaScript (impossibilitando principalmente a extração do método de requisição e da URL de destino), além disto, a não existência de formulários HTML neste tipo de comunicação dificulta totalmente a identificação dos parâmetros que devem fazem parte da URL de requisição.

É válido ressaltar que nem discussões a respeito deste problema foram encontradas durante toda a pesquisa em que se deu este trabalho e que esta é uma ótima sugestão para trabalhos futuros.

Os resultados finais obtidos para a resolução do problema da remoção de conteúdo indesejado sugerem que nele deve se concentrar a maior parte das pesquisas futuras para que se obtenham resultados melhores, pois a interferência negativa do conteúdo irrelevante das páginas na geração dos Modelos de Linguagem foi pior do que se esperava.

Em se tratando da criação de Modelos de Linguagem em geral, algo que pode ser feito para a melhoria da qualidade é utilizar a localização das palavras encontradas nos documentos

HTML (ex.: nas tags TITLE, H1, H2, B, etc) para contribuir com a freqüência dos termos no Modelo. Para ilustrar, a presença de determinado termo dentro do título da página sugere que este termo possui uma importância superior aos outros que estão simplesmente no corpo, e que tal termo não deve ser tratado com a mesma importância que os demais.

A limitação do protótipo desenvolvido de processar somente documentos dos tipos HTML e TXT, com certeza contribuiu negativamente com os resultados finais. A pesquisa para se desenvolver meios de se processar documentos dos mais variados tipos (ex.: PDF, DOC, DOCX, ODT, etc) é algo bastante sugerido em trabalhos futuros, até porque, acredita- se que os termos que melhor representam o conteúdo das bases de dados mais específicas e exclusivas estão dentro destes tipos de documentos.

O estudo, implementação e análise de técnicas alternativas a serem utilizadas na determinação do critério de parada também faz parte de trabalhos que podem ser feitos futuramente. Atualmente encontra-se em fase de implementação o uso da taxa de retorno de documentos já processados como critério de parada. Os resultados deste experimento serão publicados em forma de artigo para a comunidade científica.

Referências

ADELBERG, B. 1998. NoDoSE a tool for semi-automatically extracting structured and

semistructured data from text documents. 1998.

BARBOSA, L. e FREIRE, J. 2004. Siphoning Hidden-Web Data through Keyword-Based Interfaces.

Department of Computer Science & Engineering, University of Utah. 2004.

BAUMGARTNER, R. FLESCA, S. e GOTTLOB, G. 2001. Visual Web Information Extraction

with Lixto. DBAI, TU Wien. Vienna : s.n., 2001.

BERGHOLZ, A. e CHIDLOVSKII, B. 2003. Using Query Probing to Identify Query Language

Features on the Web. Xerox Research Centre Europe (Grenoble). Meylan, France : s.n., 2003.

BERGMAN, M. K. 2000. The Deep Web: Surfacing Hidden Value. 2000.

CAI, D., et al. 2003. VIPS: a Vision-based Page Segmentation Algorithm. Microsoft Research Asia.

Beijing, P.R.China : s.n., 2003.

CALLAN, J. e CONNELL, M. 1999. Query-Based Sampling of Text Databses. 1999.

CALLAN, J., CONNELL, M. e DU, A. 1999. Automatic Discovery of Language Models for Text

Databases. Computer Science Department, University of Massachusetts. Amherst : s.n., 1999.

COPE, J., CRASWELL, N. e HAWKING, D. 2003. Automated Discovery of Search Interfaces on

the Web. Australian National University. 2003.

DOORENBOS, R. B., ETZIONI, O. e WELD, D. S. 1997. A Scalable Comparison-Shopping Agent

Agent for the World-Wide Web. Department of Computer Science and Engineering, University of Washington. Seattle : s.n., 1997.

FAUCONNIER, S. Deep Web. Wikipedia, the free encyclopedia. [Online] [Citado em: 28 de 02 de

2008.] http://en.wikipedia.org/wiki/Deep_web.

GOSHME. 2006. Goshme White Paper. Goshme - The Web Search Assistent. [Online] 2006. [Citado

em: 28 de 02 de 2008.] http://betagroup.goshme.com/press/goshme_white_paper.pdf.

GRAVANO, L., et al. 1997. STARTS. The Stanford University Infolab. [Online] 19 de 01 de 1997.

[Citado em: 28 de 02 de 2008.] http://infolab.stanford.edu/~gravano/starts.html.

GRAVANO, L., et al. 1997. STARTS: Stanford Proposal for Internet Meta-Searching. Computer

Science Department, Stanford University. 1997.

GRAVANO, L., IPEIROTS, P. G. e SAHAMI, M. 2003. QProber: A System for Automatic

Classification of Hidden-Web Databases. Columbia University. 2003.

HSU, C. e DUNG, M. 1998. Generating Finite-State Transducers For Semi-Structured Data

Extraction From The Web. Department of Computer Science and Engineering, Arizona State universty. Tempe, AZ, USA : s.n., 1998.

KUSHMERICK, N., WELD, D. S. e DOORENBOS, R. B. 1997. Wrapper Induction for

Information Extraction. 1997.

MONROE, G. A, MIKESELL, D. R. e FRENCH, J. C. 2000. Determining Stopping Criteria in the

Generation of Web-Derived Language Models. Department of Computer Science, University of Virginia. 2000.

MORONEY, M. J. 1951. Facts from Figures. Baltimore : Penguin, 1951.

RAGHAVAN, S. e MOLINA, H. G. 2000. Crawling the Hidden Web. Computer Science

Department, Stanford University. Stanford, CA 94305, USA : s.n., 2000.

REIS, D. C., et al. 2004. Automatic Web News Extraction Using Tree Edit Distance. Computer

Science Department, Federal University of Minas Gerais. Belo Horizonte, Brazil : s.n., 2004.

SILVA, F. e DAVID, G. 2003. Searching a Database Based Web Site. Faculdade de Engenharia da

Universidade do Porto. Porto : s.n., 2003.

SONG, R., et al. 2004. Learning Block Importance models for WEB pages. Microsoft Research Asia.

Beijing, P.R. China : s.n., 2004.

VIEIRA, K., et al. 2006. A Fast and Robust Method for Web Page Template Detection and Removal.

Departamento de Ci ência da Computaç ão, Universidade Federal do Amazonas. Manaus, AM, Brazil : s.n., 2006.

ZHAO, H. e YU, C. 2006. Automatic Extraction of Dynamic Record Sections From Search Engine

Result Pages. State University of New York. Binghamton : s.n., 2006.

ZIPF, G. K. 1949. Human Behavior and the Principle os Least Effort. 1949.

2008. Zipf's law - Wikipedia, the free encyclopedia. Wikipedia. [Online] 03 de 04 de 2008. [Citado

No documento 2007.1Monografia 2 (páginas 86-90)