• Nenhum resultado encontrado

Utilizando Texto Livre

N/A
N/A
Protected

Academic year: 2021

Share "Utilizando Texto Livre"

Copied!
6
0
0

Texto

(1)

Preenchimento Autom´atico de Formul´arios Web

Utilizando Texto Livre

Aluno: Guilherme A. Toda Orientador: Altigran S. da Silva

1Departamento de Ciˆencia da Computac¸˜ao – Universidade Federal do Amazonas (UFAM) Manaus – AM – Brasil

{gat,alti}@dcc.ufam.edu.br

Mestrado em Inform´atica

Programa de P´os Graduac¸˜ao em Inform´atica Universidade Federal do Amazonas

Ano de Ingresso: Marc¸o/2008 Etapas Conclu´ıdas: Defesa da Proposta

Previs˜ao de Conclus˜ao: Marc¸o/2010

Resumo. Atualmente na web a soluc¸˜ao mais comum para usu´arios interagirem com aplicac¸˜oes que utilizam banco de dados ´e o uso de interfaces baseadas em formul´arios web compostos por v´arios campos de entrada, como caixas de texto, listas de selec¸˜ao, caixas de marcac¸˜ao, etc. Apesar destes formul´arios serem efetivos e populares, em muitos casos, aplicac¸˜oes com entradas para texto livre s˜ao as preferidas pelos usu´arios. Neste trabalho, discutimos a proposta e a implementac¸˜ao de um m´etodo para preen­ chimento de formul´arios web utilizando dados contidos em textos em formato livre rico em dados. Nosso m´etodo permite utilizar documentos n˜ao estruturados, ou par­ tes desses documentos, para preencher os campos do formul´ario automaticamente evitando que esta tarefa muitas vezes repetitiva e pass´ıvel de erros, tenha que ser realizada manualmente pelos usu´arios. Nosso m´etodo recebe um texto livre como entrada, extrai os valores que estejam implicitamente presentes neste texto e seleci­ ona no formul´ario campos que podem ser preenchidos com estes valores. Para isso, o m´etodo baseia­se em valores utilizados para o preenchimento do campo em sub­ miss˜oes anteriores, os quais, na maioria dos casos, s˜ao facilmente obtidos com o uso cont´ınuo do formul´ario. Experimentos preliminares demonstram que o nosso m´etodo funciona corretamente, mesmo que o n´umero de submiss˜oes ao formul´ario seja pe­ queno.

(2)

1. Introduc¸˜ao

A Web ´e abundante em aplicac¸˜oes como lojas virtuais, bibliotecas digitais e servic¸os de com­ partilhamento de dados (ex. Craiglists1, Googlebase2).Estas aplicac¸˜oes em geral gerenciam o armazenamento e a manutenc¸˜ao de grandes volumes de dados nos chamados Banco de Dados Web. Um dos desafios envolvendo o desenvolvimento deste tipo de aplicac¸˜ao ´e construir in­ terfaces intuitivas que permitam o usu´ario a interagir com os banco de dados. A soluc¸˜ao mais comum nesse contexto ´e modelar uma interface baseada em formul´arios HTML que contˆem campos de entrada de dados, como caixas de texto (text boxes), listas de selec¸˜ao (selection list e radio buttons), caixas de marcac¸˜ao (check boxes) e outros mecanismos de entrada de dados. Apesar dessas interfaces serem populares e efetivas, em muitos casos interfaces que aceitam textos livres ricos em dados, ou seja, documentos n˜ao estruturados ou partes destes documentos que contˆem valores impl´ıcitos como entrada, s˜ao prefer´ıveis em relac¸˜ao a utilizac¸˜ao de for­ mul´arios.

Esta situac¸˜ao ´e muito comum em sites de an´uncios populares de com´ercio eletrˆonico (e­commerce) como eBay e amazon.com que extensivamente usam interfaces baseadas em formul´arios que permitem usu´arios registrarem ofertas. Podem existir diferentes formul´arios dependendo do produto oferecido. Por exemplo, nos experimentos apresentados nesse tra­ balho, diferentes formul´arios foram encontradas nas categorias ”ve´ıculos”e ”celulares”do site de e­commerce TodaOferta.com. Curiosamente, alguns desses sites como eBay e TodaOferta tamb´em permitem que usu´arios entrem com informac¸˜oes utilizando descric¸˜oes gen´ericas em texto livre. Isso se justifica pelo fato de que muitas vezes os usu´arios receiam usar interfaces baseadas em formul´arios. Por outro lado, quando os usu´arios deixam de preencher os dados de forma estruturada nos formul´arios, inviabilizam que estes dados sejam processados e utilizados diretamente por servic¸os como busca, minerac¸˜ao, recomendac¸˜ao e integrac¸˜ao entre ofertas.

Propomos neste trabalho um arcabouc¸o chamado iForm que utiliza uma abordagem probabil´ıstica apoiada por t´ecnicas de Recuperac¸˜ao de Informac¸˜ao (RI) que opera estimando a afinidade de segmentos do texto de entrada com campos de um formul´ario. Isto ´e realizado levando em considerac¸˜ao a similaridade entre os segmentos do texto e os valores tipicamente utilizados para preencher o campo em submiss˜oes anteriores do formul´ario. De fato, nossa abordagem n˜ao se baseia nas caracter´ısticas do texto, mas sim, nas caracter´ısticas dos campos dos formul´arios e seus valores.

Diferente de abordagens tradicionais para extrac¸˜ao de informac¸˜ao de texto livres [Lafferty et al., 2001, Califf and Mooney, 1999], nossa abordagem n˜ao necessita de uma fase de treino para rotular os textos, pois simplesmente utiliza os valores previamente submetidos ao formul´ario. Para desenvolvedores utilizarem nossa abordagem, nenhum esforc¸o extra ser´a necess´ario al´em de modelar os formul´arios. Do ponto de vista dos usu´arios, al´em de economizar esforc¸o utilizando nossa abordagem, usu´arios ser˜ao aptos a verificar a corretude dos resultados obtidos com o iForm, e corrigir poss´ıveis erros, atrav´es do formul´ario preenchido pelo m´etodo.

2. Trabalhos relacionados

V´arias abordagem propostas na literatura recente tˆem tratado o problema de prover alternativas mais intuitivas para usu´arios acessarem banco de dados web do que interfaces baseadas em for­ mul´ario. As soluc¸ ˜oes v˜ao desde a traduc¸˜ao de consultas baseadas em palavras chaves em con­ sultas baseadas em formul´ario [Calado et al., 2002] ou comandos SQL [Agrawal et al., 2002,

1http://www.craigslist.org/ 2http://www.google.com/base

(3)

Figura 1. Vis ˜ao geral de uma simples interface baseada em formul ´ario (a) e o iForm (b).

Mesquita et al., 2007], at´e interfaces de linguagem natural para banco de dados [Li et al., 2005] [Androutsopoulos et al., 1995] e requisic¸˜oes de servic¸o [Al­Muhammed and Embley, 2007] (por exemplo, buscar e marcar uma consulta com um dentista).

Diferente do iForm, essas abordagens necessitam de um cuidadoso e longo processo de configurac¸˜ao para os projetistas da interface e um conhecimento avanc¸ado das especificac¸˜oes da linguagem aceita pela interface. Al´em disso, estas abordagens s˜ao adequadas somente para especificac¸˜ao de consultas enquanto nossa abordagem ´e tamb´em adequada para povoar banco de dados Web que s˜ao acess´ıveis apenas atrav´es do uso de uma interface baseada em formul´arios.

3. Vis˜ao Geral

Nesta sec¸˜ao, apresentamos uma vis˜ao geral do iForm e sua relac¸˜ao com as interfaces baseadas em formul´ario como ilustrada pela Figura 1. Antes de utilizar o iForm, consideramos que os usu´arios utilizem uma interface similar `aquela apresentada na Figura 1a, digitando valores nos campos para interagir com o banco de dados. Os valores manualmente submetidos neste pro­ cesso, nos permitem construir os l´exicos, que armazenam os termos utilizados para preencher cada campo. Uma interface baseada em formul´arios com o iForm, como ilustrado na Figura 1b, permitir´a que usu´arios fornec¸am documentos de texto livre ou partes desse documento como entrada, e o iForm extrair´a os valores para preencher o formul´ario atrav´es do casamento do conte´udo dos textos de entrada com o l´exico de cada campo. Para facilitar a discuss˜ao, docu­ mentos de texto livre ou partes desses documentos ser˜ao chamadas de texto de entrada daqui para frente.

Para extrair os valores dos campos no texto de entrada, primeiramente o texto ´e dividido em segmentos e ent˜ao estimamos a afinidade para cada segmento com o seu respectivo campo. Intuitivamente o valor da afinidade ´e 1 se o segmento ´e encontrado como um valor no dom´ınio do campo (conjunto de todos os valores poss´ıveis para o campo) e 0, caso contr´ario. Como essa soluc¸˜ao ´e intrat´avel em muitos casos, tentamos computar a afinidade estimando o qu˜ao frequente s˜ao os termos que comp˜oem o segmento nos valores de um campo. Para isso, contamos o conjunto de termos representativos para cada campo, isto ´e, a maioria dos valores no dom´ınio do campo apresenta pelo menos um termo desse conjunto. Na pr´atica, consideramos que o ´ındice l´exico cont´em termos representativos suficientes para identificar os valores.

Usu´arios podem querer verificar o formul´ario preenchido pelo m´etodo e realizar correc¸˜oes necess´arias antes de submeter os dados. Ent˜ao, o iForm automaticamente atualiza os l´exicos melhorando a qualidade da extrac¸˜ao. Vale ressaltar que o l´exico ´e constru´ıdo com valores sub­ metidos por v´arias interac¸ ˜oes dos usu´arios com o formul´ario. Dessa forma, ´e esperado que os

(4)

l´exicos cresc¸am rapidamente em relac¸˜ao a diversidade e ao n´umero de termos para cada campo.

4. Experimentos

Nesta sec¸˜ao, apresentamos uma avaliac¸˜ao experimental do iForm utilizando um formul´ario com diversas caracter´ısticas. Conduzimos dois conjuntos de experimentos. No primeiro, utilizamos an´uncios de emprego para comparar o iForm com CRF [Lafferty et al., 2001], o estado da arte em extrac¸˜ao de dados. E no ´ultimo experimento, avaliamos nosso m´etodo com formul´arios reais de diferentes estruturas para submiss˜oes de an´uncio/oferta de Carros e ofertas de telefones celulares.

4.1. Comparac¸˜ao com CRF

Neste experimento, comparamos o iForm e o CRF [Lafferty et al., 2001] para a tarefa de ex­ trair segmentos de um texto de entrada e preencher um formul´ario. Retiramos da colec¸˜ao RISE Jobs [RISE, 1998] um subconjunto de 100 an´uncios de emprego que foram manualmente ro­ tulados. Esses an´uncios de emprego formam um conjunto de treino adequado para o CRF, pois esse m´etodo necessita que os exemplos de valores a serem extra´ıdos aparec¸am dentro do contexto que ocorram. Assim, n˜ao podemos utilizar os 350 an´uncios restantes da colec¸˜ao Jobs [RISE, 1998], pois os valores extra´ıdos s˜ao encontrados separadamente do an´uncio em que ocorrem. Do mesmo conjunto de 100 documentos, retiramos os segmentos rotulados para si­ mular submiss ˜oes a interface baseada em formul´ario de modo que crie os l´exicos para o iForm. Note que diferente do CRF, iForm n˜ao necessita de textos de entradas detalhados para treino.

Depois testamos ambas abordagens utilizando um conjunto distinto de 50 documentos, dos quais os resultados da extrac¸˜ao estavam dispon´ıveis na colec¸˜ao Jobs [RISE, 1998], permi­ tindo verificar automaticamente os resultados. Para todas as comparac¸˜oes relatadas, utilizamos o teste de Wilcoxon [Wilcoxon, 1945] e o Student’s T­Test [Anderson and Finn, 1996] para determinar se a performance foi estatisticamente significativa. Em todos os casos, tiramos con­ clus˜oes apenas de resultados que forem significativos em pelo menos 5% para ambos os testes. Valores n˜ao significativos foram omitidos.

De acordo com os resultados apresentados na tabela 1, iForm teve uma medida­f sig­ nificativamente superior em 7 campos, enquanto CRF teve uma medida­f significativamente superior em apenas 1 campo, como indicado pelos n´umeros em negrito. A baixa qualidade obtida pelo CRF ´e explicado pelo fato de que segmentos a serem extra´ıdos de textos livros de entrada, como os de an´uncio de empregos, podem n˜ao aparecer em um contexto regular, o que ´e requisito importante para o CRF. No caso do iForm, esse contexto ´e menos importante, pois s˜ao consideradas caracter´ısticas relacionadas aos campos ao inv´es de caracter´ısticas do texto de entrada. Al´em disso, o iForm foi concebido para aprender as caracter´ısticas relacionadas ao campo atrav´es das submiss˜oes anteriores. Como vimos, para aplicar o CRF a esse problema, um trabalho intensivo para preparar os dados de treino de uma amostra representativa do texto de entrada ´e necess´ario.

4.2. Experimentos com formul´arios reais

Para avaliar o desempenho de nossa abordagem em cen´ario reais, testamos o iForm em diferen­ tes formul´arios de distintos websites. Primeiro avaliamos nossa abordagem com um formul´ario de Anuncio de Carros do site http://www.classifiedads.com, um formul´ario real de m ´ultiplos campos com 8 listas de selec¸˜ao, 8 caixas de texto e 29 caixas de marcac¸˜ao (check boxes) – um total de 45 campos. O segundo website, http://www.todaoferta.com ´e um popular site de an´uncios brasileiro. Do TodaOferta.com, realizamos experimentos com um

(5)

Campo iForm CRF T­Test Wilcoxon State 0.87 0.79 1.00% 1.00% Language 0.84 0.66 1.00% 1.00% Required Degree 0.82 0.00 3.00% 1.00% Country 0.71 0.85 5.00% ­ Title 0.71 0.44 1.00% 1.00% City 0.70 0.54 1.00% 1.00% Desired Degree 0.57 0.25 ­ ­ Platform 0.49 0.5 1.00% 1.00% Recruiter 0.44 0.21 ­ ­ Company 0.43 0.09 1.00% 1.00% Application 0.34 0.36 ­ ­ Salary 0.33 0.23 2.00% 3.00% Area 0.11 0.23 ­ ­ M´edia 0.57 0.39 1.00% 1.00%

Valores por submiss˜ao 0.58 0.42 1.00% 1.00%

Tabela 1. Medida­f por campo e medida­f por submiss ˜ao para o experimento de comparac¸ ˜ao com o CRF.

formul´ario de ve´ıculos, que contem 5 caixas de texto e 30 caixas de marcac¸˜ao – um total de 35 campos, e o formul´ario de celulares que consiste em 2 caixas de texto e 42 caixas de marcac¸˜ao – um total de 44 campos.

Para o TodaOferta.com, utilizamos ofertas reais submetidas durante Outubro de 2008 para cada interface para criar os l´exicos. Os testes foram realizados utilizando outras 50 ofertas para cada interface, distintas das utilizadas para criar os l´exicos. O resultados est˜ao presentes na Tabela 2.

Uma verificac¸˜ao detalhada sobre as ofertas submetidas por usu´arios nessa interface, revelou que, na maioria dos casos, usu´arios simplesmente copiam e colam especificac¸˜oes de celulares do web site dos fabricantes, ocasionando uma alta uniformidade nos an´uncios de texto livre submetidos as caixas de texto. Isto explica os excelentes resultados obtidos pelo iForm e corrobora nossa afirmac¸˜ao relativa ao frequente reuso de textos ricos em dados para preencher formul´arios na web.

5. Considerac¸˜oes finais

Neste trabalho apresentamos um framework chamado de iForm que utiliza valores de dados impl´ıcitos dispon´ıveis em documentos de texto livre. Propomos um novo m´etodo baseado em RI para identificar valores impl´ıcitos em documentos de textos livres e preencher o formul´ario utilizando os valores. Testamos nossa abordagem com instˆancias representativas do problema e alcanc¸amos melhores resultados que o CRF, o estado da arte em modelo de extrac¸˜ao de dados. Nossos experimentos demonstram que nossa abordagem ´e capaz de lidar com diferentes tipos de campos de entrada como, caixas de texto, caixas de marcac¸˜ao (check boxes), listas de selec¸˜ao (pull­down lists e radio buttons).

Acreditamos que nosso framework ´e adequado por trˆes raz˜oes: (1) qualquer interface baseada em formul´ario pode ser melhorada com o iForm, basta adicionar um l´exico para cada campo do formul´ario; (2) iForm ´e livre de treino, pois apenas necessita de submiss˜oes anteriores para construir tais l´exicos e (3) usu´arios podem facilmente verificar a corretude dos resultados

(6)

Tipo de Campo # Campo Precis˜ao Revocac¸˜ao Medida­F

Caixa de Texto 5 89.00% 76.00% 0.82

Caixa de Marcac¸˜ao 30 78.00% 78.00% 0.78

M´edia 80.00% 77.90% 0.79

(a) Ve´ıculos

Tipo de Campo # Campo Precis˜ao Revocac¸˜ao Medida­F

Caixa de Texto 2 93.00% 68.00% 0.79

Caixa de Marcac¸˜ao 42 99.00% 99.00% 0.99

M´edia 99.00% 97.00% 0.98

(b) Telefone Celulares

Tabela 2. Resultados por campo de ofertas do TodaOferta.

obtidos pelo iForm (corrigindo poss´ıveis erros) no preenchimento do formul´ario.

Referˆencias

Agrawal, S., Chaudhuri, S., and Das, G. (2002). DBXplorer: A system for keyword­based search over relational databases. In Proceedings of the International Conference on Data Engineering, pages 5–16.

Al­Muhammed, M. and Embley, D. (2007). Ontology­Based Constraint Recognition for Free­ Form Service Requests. In Proceedings of the 23rd International Conference on Data Engi­ neering (ICDE 2007), pages 366–375.

Anderson, T. and Finn, J. (1996). The New Statistical Analysis of Data. Springer.

Androutsopoulos, I., Ritchie, G., and Thanisch, P. (1995). Natural Language Interfaces to Databases–An Introduction. Natural Language Engineering, 1(1):29–81.

Calado, P., da Silva, A. S., Vieira, R. C., Laender, A. H. F., and Ribeiro­Neto, B. A. (2002). Searching web databases by structuring keyword­based queries. In CIKM ’02: Proceedings of the eleventh international conference on Information and knowledge management, pages 26–33, New York, NY, USA. ACM.

Califf, M. E. and Mooney, R. J. (1999). Relational learning of pattern­match rules for informa­ tion extraction. pages 328–334. American Association for Artificial Intelligence.

Lafferty, J. D., McCallum, A., and Pereira, F. C. N. (2001). Conditional random fields: Probabi­ listic models for segmenting and labeling sequence data. pages 282–289. Morgan Kaufmann Publishers Inc.

Li, Y., Yang, H., and Jagadish, H. V. (2005). Nalix: an interactive natural language interface for querying xml. pages 900–902. ACM.

Mesquita, F., da Silva, A. S., de Moura, E. S., Calado, P., and Laender, A. H. F. (2007). Labra­ dor: Efficiently publishing relational databases on the web by using keyword­based query interfaces. Inf. Process. Manage., 43(4):983–1004.

RISE (1998). Rise: A repository of online information sources used in information extrac­ tion tasks. [http://www.isi.edu/info­agents/RISE/index.html] Information Sciences Institute / USC.

Referências

Documentos relacionados

Os frutos tratados com 1-MCP apresentaram, nos dois anos de observações, sensivelmente a mesma tendência em cada uma das grandezas analisadas, tanto à saída da câmara

No resultado referente ao mês de abril, já descontados os efeitos sazonais, o índice chegou ao nível de 108,6 pontos, o que representa um avanço de 0,7 pontos na passagem de

Isto justifica alguns estudos que indicam que o cromo se encontra ancorado na superfície das peneiras moleculares através de uma reação de esterificação, deixando duas

A Pró-Reitoria de Assuntos Estudantis, por intermédio da Divisão Multidisciplinar de Assistência ao Estudante (DIMAE/PROAES) torna público o lançamento do presente edital

Mário Jabur Filho, conforme dispõe a legislação vigente, comunica que estarão abertas as inscrições para seleção dos candidatos para preenchimento de vaga para Médico

Diante da dimensão subjetiva do direito à saúde, já tratada no primeiro capítulo, acumulam-se ações judiciais postulando prestações por parte do Estado para

The conventional passion fruit pulp showed methyl butanoate, butyl acetate, hexanal, 1-butanol, butyl butanoate, trans-3-hexenyl acetate, cis-3-hexen-1-ol, butyl hexanoate,

Para até 01 (um) dependente de empregado estudante e mediante o atendimento integral dos requisitos previstos nos parágrafos primeiro e segundo, do plano