Utilizando Texto Livre

(1)

Preenchimento Autom´atico de Formul´arios Web

Utilizando Texto Livre

Aluno: Guilherme A. Toda Orientador: Altigran S. da Silva

1_{Departamento de Ciência da Computação – Universidade Federal do Amazonas (UFAM)} Manaus – AM – Brasil

{gat,alti}@dcc.ufam.edu.br

Mestrado em Inform´atica

Programa de Pós Graduação em Informática Universidade Federal do Amazonas

Ano de Ingresso: Marc¸o/2008 Etapas Conclu´ıdas: Defesa da Proposta

Previsão de Conclusão: Março/2010

Resumo. Atualmente na web a solução mais comum para usuários interagirem com aplicações que utilizam banco de dados é o uso de interfaces baseadas em formulários web compostos por vários campos de entrada, como caixas de texto, listas de seleção, caixas de marcação, etc. Apesar destes formulários serem efetivos e populares, em muitos casos, aplicações com entradas para texto livre são as preferidas pelos usuários. Neste trabalho, discutimos a proposta e a implementação de um método para preen chimento de formulários web utilizando dados contidos em textos em formato livre rico em dados. Nosso método permite utilizar documentos não estruturados, ou par tes desses documentos, para preencher os campos do formulário automaticamente evitando que esta tarefa muitas vezes repetitiva e pass´ıvel de erros, tenha que ser realizada manualmente pelos usuários. Nosso método recebe um texto livre como entrada, extrai os valores que estejam implicitamente presentes neste texto e seleci ona no formulário campos que podem ser preenchidos com estes valores. Para isso, o método baseiase em valores utilizados para o preenchimento do campo em sub missões anteriores, os quais, na maioria dos casos, são facilmente obtidos com o uso cont´ınuo do formulário. Experimentos preliminares demonstram que o nosso método funciona corretamente, mesmo que o número de submissões ao formulário seja pe queno.

(2)

1. Introduc¸˜ao

A Web é abundante em aplicações como lojas virtuais, bibliotecas digitais e serviços de com partilhamento de dados (ex. Craiglists1, Googlebase2_{).Estas aplicações em geral gerenciam o} armazenamento e a manutenção de grandes volumes de dados nos chamados Banco de Dados Web. Um dos desafios envolvendo o desenvolvimento deste tipo de aplicação é construir in terfaces intuitivas que permitam o usuário a interagir com os banco de dados. A solução mais comum nesse contexto é modelar uma interface baseada em formulários HTML que contêm campos de entrada de dados, como caixas de texto (text boxes), listas de seleção (selection list e radio buttons), caixas de marcação (check boxes) e outros mecanismos de entrada de dados. Apesar dessas interfaces serem populares e efetivas, em muitos casos interfaces que aceitam textos livres ricos em dados, ou seja, documentos não estruturados ou partes destes documentos que contêm valores impl´ıcitos como entrada, são prefer´ıveis em relação a utilização de for mulários.

Esta situação é muito comum em sites de anúncios populares de comércio eletrônico (ecommerce) como eBay e amazon.com que extensivamente usam interfaces baseadas em formulários que permitem usuários registrarem ofertas. Podem existir diferentes formulários dependendo do produto oferecido. Por exemplo, nos experimentos apresentados nesse tra balho, diferentes formulários foram encontradas nas categorias ”ve´ıculos”e ”celulares”do site de ecommerce TodaOferta.com. Curiosamente, alguns desses sites como eBay e TodaOferta também permitem que usuários entrem com informações utilizando descrições genéricas em texto livre. Isso se justifica pelo fato de que muitas vezes os usuários receiam usar interfaces baseadas em formulários. Por outro lado, quando os usuários deixam de preencher os dados de forma estruturada nos formulários, inviabilizam que estes dados sejam processados e utilizados diretamente por serviços como busca, mineração, recomendação e integração entre ofertas.

Propomos neste trabalho um arcabouço chamado iForm que utiliza uma abordagem probabil´ıstica apoiada por técnicas de Recuperação de Informação (RI) que opera estimando a afinidade de segmentos do texto de entrada com campos de um formulário. Isto é realizado levando em consideração a similaridade entre os segmentos do texto e os valores tipicamente utilizados para preencher o campo em submissões anteriores do formulário. De fato, nossa abordagem não se baseia nas caracter´ısticas do texto, mas sim, nas caracter´ısticas dos campos dos formulários e seus valores.

Diferente de abordagens tradicionais para extração de informação de texto livres [Lafferty et al., 2001, Califf and Mooney, 1999], nossa abordagem não necessita de uma fase de treino para rotular os textos, pois simplesmente utiliza os valores previamente submetidos ao formulário. Para desenvolvedores utilizarem nossa abordagem, nenhum esforço extra será necessário além de modelar os formulários. Do ponto de vista dos usuários, além de economizar esforço utilizando nossa abordagem, usuários serão aptos a verificar a corretude dos resultados obtidos com o iForm, e corrigir poss´ıveis erros, através do formulário preenchido pelo método.

2. Trabalhos relacionados

Várias abordagem propostas na literatura recente têm tratado o problema de prover alternativas mais intuitivas para usuários acessarem banco de dados web do que interfaces baseadas em for mulário. As soluç ões vão desde a tradução de consultas baseadas em palavras chaves em con sultas baseadas em formulário [Calado et al., 2002] ou comandos SQL [Agrawal et al., 2002,

1_{http://www.craigslist.org/} 2_{http://www.google.com/base}

(3)

Figura 1. Vis ˜ao geral de uma simples interface baseada em formul ´ario (a) e o iForm (b).

Mesquita et al., 2007], até interfaces de linguagem natural para banco de dados [Li et al., 2005] [Androutsopoulos et al., 1995] e requisições de serviço [AlMuhammed and Embley, 2007] (por exemplo, buscar e marcar uma consulta com um dentista).

Diferente do iForm, essas abordagens necessitam de um cuidadoso e longo processo de configuração para os projetistas da interface e um conhecimento avançado das especificações da linguagem aceita pela interface. Além disso, estas abordagens são adequadas somente para especificação de consultas enquanto nossa abordagem é também adequada para povoar banco de dados Web que são acess´ıveis apenas através do uso de uma interface baseada em formulários.

3. Vis˜ao Geral

Nesta seção, apresentamos uma visão geral do iForm e sua relação com as interfaces baseadas em formulário como ilustrada pela Figura 1. Antes de utilizar o iForm, consideramos que os usuários utilizem uma interface similar àquela apresentada na Figura 1a, digitando valores nos campos para interagir com o banco de dados. Os valores manualmente submetidos neste pro cesso, nos permitem construir os léxicos, que armazenam os termos utilizados para preencher cada campo. Uma interface baseada em formulários com o iForm, como ilustrado na Figura 1b, permitirá que usuários forneçam documentos de texto livre ou partes desse documento como entrada, e o iForm extrairá os valores para preencher o formulário através do casamento do conteúdo dos textos de entrada com o léxico de cada campo. Para facilitar a discussão, docu mentos de texto livre ou partes desses documentos serão chamadas de texto de entrada daqui para frente.

Para extrair os valores dos campos no texto de entrada, primeiramente o texto é dividido em segmentos e então estimamos a afinidade para cada segmento com o seu respectivo campo. Intuitivamente o valor da afinidade é 1 se o segmento é encontrado como um valor no dom´ınio do campo (conjunto de todos os valores poss´ıveis para o campo) e 0, caso contrário. Como essa solução é intratável em muitos casos, tentamos computar a afinidade estimando o quão frequente são os termos que compõem o segmento nos valores de um campo. Para isso, contamos o conjunto de termos representativos para cada campo, isto é, a maioria dos valores no dom´ınio do campo apresenta pelo menos um termo desse conjunto. Na prática, consideramos que o ´ındice léxico contém termos representativos suficientes para identificar os valores.

Usuários podem querer verificar o formulário preenchido pelo método e realizar correções necessárias antes de submeter os dados. Então, o iForm automaticamente atualiza os léxicos melhorando a qualidade da extração. Vale ressaltar que o léxico é constru´ıdo com valores sub metidos por várias interaç ões dos usuários com o formulário. Dessa forma, é esperado que os

(4)

léxicos cresçam rapidamente em relação a diversidade e ao número de termos para cada campo.

4. Experimentos

Nesta seção, apresentamos uma avaliação experimental do iForm utilizando um formulário com diversas caracter´ısticas. Conduzimos dois conjuntos de experimentos. No primeiro, utilizamos anúncios de emprego para comparar o iForm com CRF [Lafferty et al., 2001], o estado da arte em extração de dados. E no último experimento, avaliamos nosso método com formulários reais de diferentes estruturas para submissões de anúncio/oferta de Carros e ofertas de telefones celulares.

4.1. Comparac¸˜ao com CRF

Neste experimento, comparamos o iForm e o CRF [Lafferty et al., 2001] para a tarefa de ex trair segmentos de um texto de entrada e preencher um formulário. Retiramos da coleção RISE Jobs _{[RISE, 1998] um subconjunto de 100 anúncios de emprego que foram manualmente ro} tulados. Esses anúncios de emprego formam um conjunto de treino adequado para o CRF, pois esse método necessita que os exemplos de valores a serem extra´ıdos apareçam dentro do contexto que ocorram. Assim, não podemos utilizar os 350 anúncios restantes da coleção Jobs [RISE, 1998], pois os valores extra´ıdos são encontrados separadamente do anúncio em que ocorrem. Do mesmo conjunto de 100 documentos, retiramos os segmentos rotulados para si mular submiss ões a interface baseada em formulário de modo que crie os léxicos para o iForm. Note que diferente do CRF, iForm não necessita de textos de entradas detalhados para treino.

Depois testamos ambas abordagens utilizando um conjunto distinto de 50 documentos, dos quais os resultados da extração estavam dispon´ıveis na coleção Jobs [RISE, 1998], permi tindo verificar automaticamente os resultados. Para todas as comparações relatadas, utilizamos o teste de Wilcoxon [Wilcoxon, 1945] e o Student’s TTest [Anderson and Finn, 1996] para determinar se a performance foi estatisticamente significativa. Em todos os casos, tiramos con clusões apenas de resultados que forem significativos em pelo menos 5% para ambos os testes. Valores não significativos foram omitidos.

De acordo com os resultados apresentados na tabela 1, iForm teve uma medidaf sig nificativamente superior em 7 campos, enquanto CRF teve uma medidaf significativamente superior em apenas 1 campo, como indicado pelos números em negrito. A baixa qualidade obtida pelo CRF é explicado pelo fato de que segmentos a serem extra´ıdos de textos livros de entrada, como os de anúncio de empregos, podem não aparecer em um contexto regular, o que é requisito importante para o CRF. No caso do iForm, esse contexto é menos importante, pois são consideradas caracter´ısticas relacionadas aos campos ao invés de caracter´ısticas do texto de entrada_{. Além disso, o iForm foi concebido para aprender as caracter´ısticas relacionadas ao} campo através das submissões anteriores. Como vimos, para aplicar o CRF a esse problema, um trabalho intensivo para preparar os dados de treino de uma amostra representativa do texto de entrada é necessário.

4.2. Experimentos com formul´arios reais

Para avaliar o desempenho de nossa abordagem em cenário reais, testamos o iForm em diferen tes formulários de distintos websites. Primeiro avaliamos nossa abordagem com um formulário de Anuncio de Carros do site http://www.classifiedads.com, um formulário real de m últiplos campos com 8 listas de seleção, 8 caixas de texto e 29 caixas de marcação (check boxes) – um total de 45 campos. O segundo website, http://www.todaoferta.com é um popular site de anúncios brasileiro. Do TodaOferta.com, realizamos experimentos com um

(5)

Campo iForm CRF TTest Wilcoxon State 0.87 0.79 1.00% 1.00% Language 0.84 0.66 1.00% 1.00% Required Degree 0.82 0.00 3.00% 1.00% Country 0.71 0.85 5.00% Title 0.71 0.44 1.00% 1.00% City 0.70 0.54 1.00% 1.00% Desired Degree 0.57 0.25 Platform 0.49 0.5 1.00% 1.00% Recruiter 0.44 0.21 Company 0.43 0.09 1.00% 1.00% Application 0.34 0.36 Salary 0.33 0.23 2.00% 3.00% Area 0.11 0.23 M´edia 0.57 0.39 1.00% 1.00%

Valores por submiss˜ao 0.58 0.42 1.00% 1.00%

Tabela 1. Medidaf por campo e medidaf por submiss ão para o experimento de comparaç ão com o CRF.

formulário de ve´ıculos, que contem 5 caixas de texto e 30 caixas de marcação – um total de 35 campos, e o formulário de celulares que consiste em 2 caixas de texto e 42 caixas de marcação – um total de 44 campos.

Para o TodaOferta.com, utilizamos ofertas reais submetidas durante Outubro de 2008 para cada interface para criar os léxicos. Os testes foram realizados utilizando outras 50 ofertas para cada interface, distintas das utilizadas para criar os léxicos. O resultados estão presentes na Tabela 2.

Uma verificação detalhada sobre as ofertas submetidas por usuários nessa interface, revelou que, na maioria dos casos, usuários simplesmente copiam e colam especificações de celulares do web site dos fabricantes, ocasionando uma alta uniformidade nos anúncios de texto livre submetidos as caixas de texto. Isto explica os excelentes resultados obtidos pelo iForm e corrobora nossa afirmação relativa ao frequente reuso de textos ricos em dados para preencher formulários na web.

5. Considerações finais

Neste trabalho apresentamos um framework chamado de iForm que utiliza valores de dados impl´ıcitos dispon´ıveis em documentos de texto livre. Propomos um novo método baseado em RI para identificar valores impl´ıcitos em documentos de textos livres e preencher o formulário utilizando os valores. Testamos nossa abordagem com instâncias representativas do problema e alcançamos melhores resultados que o CRF, o estado da arte em modelo de extração de dados. Nossos experimentos demonstram que nossa abordagem é capaz de lidar com diferentes tipos de campos de entrada como, caixas de texto, caixas de marcação (check boxes), listas de seleção (pulldown lists e radio buttons).

Acreditamos que nosso framework é adequado por três razões: (1) qualquer interface baseada em formulário pode ser melhorada com o iForm, basta adicionar um léxico para cada campo do formulário; (2) iForm é livre de treino, pois apenas necessita de submissões anteriores para construir tais léxicos e (3) usuários podem facilmente verificar a corretude dos resultados

(6)

Tipo de Campo # Campo Precisão Revocação MedidaF

Caixa de Texto 5 89.00% 76.00% 0.82

Caixa de Marcac¸˜ao 30 78.00% 78.00% 0.78

M´edia 80.00% 77.90% 0.79

(a) Ve´ıculos

Tipo de Campo # Campo Precisão Revocação MedidaF

Caixa de Texto 2 93.00% 68.00% 0.79

Caixa de Marcac¸˜ao 42 99.00% 99.00% 0.99

M´edia 99.00% 97.00% 0.98

(b) Telefone Celulares

Tabela 2. Resultados por campo de ofertas do TodaOferta.

obtidos pelo iForm (corrigindo poss´ıveis erros) no preenchimento do formul´ario.

Referˆencias

Agrawal, S., Chaudhuri, S., and Das, G. (2002). DBXplorer: A system for keywordbased search over relational databases. In Proceedings of the International Conference on Data Engineering, pages 5–16.

AlMuhammed, M. and Embley, D. (2007). OntologyBased Constraint Recognition for Free Form Service Requests. In Proceedings of the 23rd International Conference on Data Engi neering (ICDE 2007), pages 366–375.

Anderson, T. and Finn, J. (1996). The New Statistical Analysis of Data. Springer.

Androutsopoulos, I., Ritchie, G., and Thanisch, P. (1995). Natural Language Interfaces to Databases–An Introduction. Natural Language Engineering, 1(1):29–81.

Calado, P., da Silva, A. S., Vieira, R. C., Laender, A. H. F., and RibeiroNeto, B. A. (2002). Searching web databases by structuring keywordbased queries. In CIKM ’02: Proceedings of the eleventh international conference on Information and knowledge management, pages 26–33, New York, NY, USA. ACM.

Califf, M. E. and Mooney, R. J. (1999). Relational learning of patternmatch rules for informa tion extraction. pages 328–334. American Association for Artiﬁcial Intelligence.

Lafferty, J. D., McCallum, A., and Pereira, F. C. N. (2001). Conditional random ﬁelds: Probabi listic models for segmenting and labeling sequence data. pages 282–289. Morgan Kaufmann Publishers Inc.

Li, Y., Yang, H., and Jagadish, H. V. (2005). Nalix: an interactive natural language interface for querying xml. pages 900–902. ACM.

Mesquita, F., da Silva, A. S., de Moura, E. S., Calado, P., and Laender, A. H. F. (2007). Labra dor: Efﬁciently publishing relational databases on the web by using keywordbased query interfaces. Inf. Process. Manage., 43(4):983–1004.

RISE (1998). Rise: A repository of online information sources used in information extrac tion tasks. [http://www.isi.edu/infoagents/RISE/index.html] Information Sciences Institute / USC.