Extração de Informação x Recuperação de Informação

2.3. Uma visão geral das principais áreas de conhecimento

2.3.3. Extração de Informação

2.3.3.1. Extração de Informação x Recuperação de Informação

A Recuperação de Informação (RI) tem como objetivo selecionar um subconjunto de documentos a partir de uma coleção de documentos baseada em uma consulta [4].

A Extração de Informação tem como objetivo selecionar informação relevante de um documento ou de um conjunto de documentos, através da aplicação de padrões (regras) de extração no documento processado para identificar a informação relevante a ser extraída [19].

A diferença entre a EI e a RI é que a primeira extrai informações específicas e relevantes dos documentos, enquanto que a segunda recupera documentos. Portanto, as duas técnicas são complementares e quando combinadas podem produzir ferramentas interessantes para o processamento de textos [40].

A RI e a EI não diferem somente nos seus objetivos, elas também diferem nas técnicas normalmente utilizadas. As áreas de conhecimento que influenciam a EI são o processamento de linguagem natural e sistemas baseado em regras enquanto que as que influenciam a RI são a teoria da probabilidade e a estatística [40].

2.3.3.2. Abordagens para a Extração de Informação

A escolha da abordagem a ser utilizada em um sistema de extração de informação depende do tipo de texto a ser dado como entrada. Os textos podem ser classificados segundo o seu nível de estruturação: estruturado, semi- estruturado ou desestruturado. O texto estruturado apresenta regularidade no formato de apresentação das informações. Essa regularidade é facilmente compreendida por sistemas de EI, permitindo que cada elemento de interesse seja identificado com base em regras uniformes, que consideram marcadores textuais como delimitadores, e/ou ordem de apresentação dos elementos. Um exemplo de texto estruturado poderia ser um formulário preenchido. Os textos semi- estruturados são aqueles que apresentam alguma regularidade na disposição dos dados. Alguns dados do texto podem apresentar uma formatação, enquanto que outras informações aparecem de forma irregular. É o caso de uma primeira página de um artigo que, em geral, não segue um formato rígido, permitindo variações na ordem e na maneira com que as informações são apresentadas. Por exemplo, quando o artigo tem mais de um autor, os e-mails no mesmo domínio, geralmente são informados de uma vez, separados por vírgula e entre chaves. Os textos desestruturados, por exemplo, textos em linguagem natural, são aqueles que não exibem regularidade na apresentação dos dados. Neste caso, os dados a serem extraídos não são facilmente detectados, a menos que se tenha um conhecimento lingüístico sobre eles.

Tradicionalmente os sistemas de extração de informação utilizam os sistemas baseados em processamento da linguagem natural ou programas extratores (wrappers). Os sistemas baseados em processamento da linguagem natural são utilizados quando a entrada são textos semi-estruturados ou desestruturados. Enquanto que os programas extratores são utilizados quando a entrada são textos estruturados ou semi-estruturados. Os sistemas de extração de informação definem regras de extração, que podem ser feitas manualmente, por especialistas de domínio ou com diferentes graus de automação.

57 Um típico sistema de EI baseado em processamento da linguagem natural (Figura 12) possui três fases: processamento de texto, construção de regras e aplicação de regras [16]. A fase de processamento de texto tem o objetivo de aplicar o PLN em um conjunto de documentos (corpus1). A fase de construção de regras tem o objetivo de construir regras de extração a partir da análise de um conjunto de documentos. A fase de aplicação de regras tem o objetivo de extrair informação relevante de um conjunto de documentos processados.

Figura 12: Processo da Extração de Informação

O processamento de texto envolve a aplicação de técnicas de PLN, como tokenização, divisão de sentenças, análise morfo-lexical e resolução de co- referencias já apresentadas na subseção 2.3.1.2.

A fase construção de regras tem o objetivo de desenvolver regras de extração que pode ser feita manualmente por especialistas de domínio ou automaticamente, através de algoritmos de AM.

As regras de extração são usualmente declarativas. A condição é expressa em formalismo baseado em lógica ou na forma de expressões regulares. E a conclusão explora como identificar no texto o valor que preenche o “template”. Por exemplo, a condição é expressa através de uma expressão regular que extrai o que estiver depois da expressão “expression of” e a conclusão explora que o

58 “Interaction_Target” tem que ser preenchido com o que foi extraído a partir da condição como mostra a Figura 13.

Figura 13: Exemplo de regra de extração

A condição da regra de extração pode checar a presença de um dado item léxico ou a categoria sintática ou a dependência sintática das palavras. Por isso é necessário que a fase processamento de texto seja realizada antes da aplicação das regras de extração.

A fase aplicação de regras tem o objetivo de extrair a informação relevante em um documento ou em um conjunto de documentos através da aplicação das regras construídas na fase anterior.

Existem duas abordagens para a fase construção de regras: a baseada em Treinamento Automático e a baseada na Engenharia de Conhecimento.

A abordagem baseada em Treinamento Automático, como mostra a Figura 14, utiliza técnicas de AM permitindo que o sistema aprenda os padrões (regras) de extração de forma automática. Inicialmente um corpus anotado é submetido a um algoritmo de aprendizagem de máquina para treinamento. Depois do algoritmo treinado, as regras de extração são geradas através de um classificador. Então, o classificador é aplicado em um corpus para que possam ser identificadas as sentenças ou parte delas que casem com as regras de extração geradas. Quando ocorrer o casamento das regras de extração com as sentenças ou parte delas a informação relevante é extraída do corpus. A vantagem dessa abordagem é a geração das regras de forma automática. A desvantagem é o esforço manual na anotação do corpus.

Figura 14: Abordagem baseada em Treinamento Automático

A abordagem baseada na Engenharia de Conhecimento, como mostra a Figura 15, é caracterizada pela construção manual das regras de extração por um especialista de domínio. A construção das regras é realizada através da observação de expressões regulares em um corpus. É um processo iterativo, pois inicialmente o especialista de domínio desenvolve as regras e em seguida ele aplica essas regras no corpus para extrair a informação relevante. Dependendo dos resultados, o especialista de domínio altera as regras e efetua novos testes e esse processo é feito até que o especialista de domínio alcance resultados satisfatórios. Após as regras serem construídas e testadas elas são aplicadas no corpus para identificar as sentenças ou parte delas que casem com as regras de extração. Quando ocorrer o casamento, a informação relevante é extraída do corpus. A vantagem dessa abordagem é a alta precisão das regras de extração, que se deve ao fato delas serem criadas manualmente pelo especialista de domínio. A desvantagem é o esforço manual na construção dessas regras.

A abordagem baseada em Treinamento Automático e a abordagem baseada na Engenharia do Conhecimento exigem um especialista de domínio para a sua aplicação. Na segunda abordagem o especialista de domínio também tem que possuir o conhecimento do formalismo adotado para a representação das regras de extração. Enquanto que na primeira abordagem o trabalho do

60 especialista de domínio consiste em anotar o corpus de treinamento. É requerido um grande volume de documentos anotados para que seja gerado um classificador com efetividade razoável. A precisão dos resultados obtidos com a segunda abordagem é superior que a precisão dos resultados obtidos com a aplicação da primeira abordagem. Entretanto, o processo de desenvolvimento da segunda abordagem é muito lento, sujeita a erros e com um alto custo.

Figura 15: Abordagem baseada na Engenharia do Conhecimento

Os programas extratores (wrappers) exploram a regularidade apresentada nos textos estruturados ou semi-estruturados para extrair a informação relevante a partir das regras de extração, previamente definidas. Os wrappers podem ser construídos utilizando a abordagem baseada na Engenharia de Conhecimento ou a abordagem baseada em Treinamento Automático.

No documento UM PROCESSO INDEPENDENTE DE DOMÍNIO PARA O POVOAMENTO AUTOMÁTICO DE ONTOLOGIAS A PARTIR DE FONTES TEXTUAIS (páginas 55-60)