Marcação semântica de páginas web apoiada por parsers de dependências gramaticais

(1)

Faculdade de Ciˆencias

Departamento de Inform´atica

MARCAC

¸ ˜

AO SEM ˆ

ANTICA DE P ´

AGINAS WEB

APOIADA POR PARSERS DE DEPEND ˆ

ENCIAS

GRAMATICAIS

R ´uben Alberto Mendes Sim˜oes dos Reis

MESTRADO EM ENGENHARIA INFORM ´

ATICA

Especialização em Sistemas de Informação

(2)

(3)

Faculdade de Ciˆencias

Departamento de Inform´atica

MARCAC

¸ ˜

AO SEM ˆ

ANTICA DE P ´

AGINAS WEB

APOIADA POR PARSERS DE DEPEND ˆ

ENCIAS

GRAMATICAIS

R ´uben Alberto Mendes Sim˜oes dos Reis

DISSERTAC

¸ ˜

AO

Projecto orientado pelo Prof. Doutor Ant´onio Horta Branco

MESTRADO EM ENGENHARIA INFORM ´

ATICA

Especialização em Sistemas de Informação

(4)

(5)

Gostaria de agradecer aos meus pais Lu´ıs Reis e Ana Simões, aos meus avós maternos Lu´ıs Lopes e L´ıcia Mendes, à minha namorada Mónica Magalhães, ao meu cachorro Nilo, aos meus amigos António, Freire, David, Serra, Sérgio, Fábio, Marcos, Ricardo, Coelho, à malta das quintas-feiras de Futebol e claro, aos elementos do Grupo NLX João Silva, Roda Del Gáudio, Francisco Costa, Sara Silveira, S´ılvia Pereira, Marcus Guelpeli, Clara Pinto, Catarina Carvalheiro, Sérgio Castro e Patr´ıcia Gonçalves por todo o apoio e ajuda que me deram ao longo deste trabalho.

Gostaria também de agradecer ao meu professor orientador António Horta Branco por toda a paciência e ajuda, e à Fundação da Ciência e Tecnologia pelo financiamento deste trabalho.

O meu sincero Obrigado a todos iii

(6)

(7)

Com o crescimento exponencial da informação na Web, torna-se necessário cada vez mais que o acesso à informação não só seja rápido, como eficiente. A procura por informação através da ocorrência de palavras-chave é o método usado pelos motores de busca na web mais conhecidos. Contudo a busca por informação na Web pode ser opti-mizada usando uma representação semântica da informação pela qual se procura.

Este trabalho apresenta o desenvolvimento de uma ferramenta para a anotação semântica de páginas Web escritas em Português, apoiada por Analisadores de Dependências Gra-maticais. Essa ferramenta recebeu o nome de Marcador Semântico e tem a capaci-dade de atribuir uma representação semântica a frases inseridas num texto e deixar essa representação semântica registada na linguagem de marcação RDF/XML.

Neste trabalho, também é documentado uma ferramenta Web, adicionada ao repo-sitório de ferramentas on-line do grupo NLX, da Faculdade de Ciências Universidade de Lisboa. Esta ferramenta, chamada de LX Dep Parser, é uma Analisador de De-pendências Gramaticais e tem a finalidade de devolver ao utilizador uma representação das dependências gramaticais entre as palavras da frase.

Palavras-chave: Semˆantica, Parser, Dependˆencias, RDF/XML, NLX v

(8)

(9)

With the exponential growth of the information in the Web, it becomes increasingly necessary that access to information be not only fast, but efficient. The search for in-formation by means of the occurrences of keywords is the method used by Web search engines. However, the search for information on the Web can be optimized using a se-mantic representation of the information that is being sought.

The present work presents a tool for semantic annotation of Web pages written in Portuguese, supported by Dependency Parsers. This tool, named Marcador Semˆantico, has the ability to provide a semantic representation for a number of sentences ocurring in a text, and encode the semantic representation of these sentences in the markup lan-guage RDF/XML. This work also presents a web tool, added to the repository of online tools of the NLX group, the Faculty of Sciences, University of Lisbon. This tool, called LX Dep Parser, is a Grammatical Dependency Parser and aims at returning to the user a representation of grammatical dependencies among the words of the input sentence.

Keywords: Semantic, Parser, Dependency, RDF/XML, NLX vii

(10)

(11)

Lista de Figuras xiii Lista de Tabelas xv 1 Introdução 1 1.1 Motivação . . . 1 1.2 Contribuição . . . 1 1.3 Estrutura do documento . . . 2 1.4 Parsing de Dependências . . . 2 1.5 Formato CoNLL . . . 4 1.6 Projectividade . . . 7 1.7 Relações Semânticas . . . 8

1.7.1 Etiquetas Gramaticais versus Etiquetas Semˆanticas . . . 13

1.8 Considerac¸˜oes Finais . . . 16

2 Selecção do Parser de Dependências 17 2.1 Introdução . . . 17

2.2 Malt Eval . . . 18

2.3 ISBN Dependency Parser . . . 19

2.3.1 Execuc¸˜ao . . . 22

2.3.2 Avaliac¸˜ao . . . 25

2.4 KSDEP / LRDEP . . . 25

2.4.1 Execuc¸˜ao . . . 28

2.4.2 Avaliac¸˜ao . . . 29

2.5 DeSR Dependency Parser . . . 29

2.5.1 Execução . . . 32 2.5.2 Avaliação . . . 32 2.6 MST Parser . . . 33 2.6.1 Execução . . . 37 2.6.2 Avaliação . . . 38 2.7 Malt Parser . . . 39 ix

(12)

2.8 Considerações Finais . . . 46 3 LX Parser de Dependências 49 3.1 Introdução . . . 49 3.2 Funcionamento . . . 51 3.2.1 Servidor Local . . . 53 3.2.2 Pipeline . . . 55 3.3 Considerações Finais . . . 57 4 Marcador Semântico 59 4.1 Introdução . . . 59

4.1.1 Resource Description Framework . . . 61

4.1.2 Corpus . . . 63 4.2 Representação Semântica . . . 64 4.3 Funcionamento . . . 67 4.3.1 LX-Suite . . . 67 4.3.2 Pipeline . . . 67 4.3.3 Etiquetador . . . 69 4.3.4 RDF/XML Writer . . . 75 4.4 Considerações Finais . . . 84 5 Conclusão 85 5.1 Comentários Finais . . . 85 5.2 Trabalho Futuro . . . 87 A Triplos de algumas Frases do Corpus de Dependências 89

B Documento RDF/XML 103

Bibliografia 133

(13)

(14)

(15)

1.1 Anotação dos relações semânticas das palavras na frase: “O João

com-prou uma carroc¸a.” . . . 3

1.2 Ilustração do grafo de dependências da frase: “A Maria tem razão.” . . . . 6

1.3 Anotação retirada do corpos TuBa-D/Z treebank. Tradução: “Para esta alegação, Beckmeyer não forneceu nenhuma prova.” . . . 8

1.4 Anotação das relações gramaticais das palavras na frase: “O João com-prou uma carroça.” . . . 11

1.5 Anotação das relações gramaticais das palavras na frase na voz activa: “O cão perseguiu o João.” . . . 14

1.6 Anotação das relações gramaticais das palavras na frase na voz passiva: “O João foi perseguido pelo cão.” . . . 14

1.7 Anotação dos papéis semânticas das palavras na frase na voz activa: “O cão perseguiu o João.” . . . 15

1.8 Anotação dos papéis semânticas das palavras na frase na voz passiva: “O João foi perseguido pelo cão.” . . . 15

3.1 A interface da ferramenta Web LX Dep Parser . . . 50

3.2 Diagrama do funcionamento do MST Parser . . . 51

3.3 Diagrama da ferramenta Web LX Dep Parser . . . 52

4.1 Um exemplo de um triplo em RDF que convencionalmente ´e definido pela ordem: sujeito, predicado, objecto. . . 62

4.2 Exemplo de uma etiqueta semˆantica M-LOC e ARG0 . . . 64

4.3 Frase com uma conjunc¸˜ao coordenativa . . . 66

4.4 Diagrama da ferramenta Marcador Semˆantico . . . 68

4.5 Exemplo de relação semântica de modificador de Modo. . . 71

4.6 Exemplo de uma relação de dependência gramatical de predicado. . . 72

4.7 Exemplo de uma conjunc¸˜ao coordenativa. . . 72

4.8 Exemplo da relação semântica “ARG1”. . . 72

4.9 Exemplo da relação semântica “ARG0”. . . 72

4.10 Grafo RDF/XML que define a camisola azul de tamanho 38. . . 76

4.11 Grafo RDF/XML da frase: “A Maria tem raz˜ao.” . . . 82 xiii

(16)

(17)

1.1 Formato CoNLL 2006 . . . 5 1.2 Grafo de dependˆencias em formato CoNLL 2006, da frase: “A Maria tem

raz˜ao.” . . . 6 1.3 Tabela com as etiquetas gramaticais presentes no corpus de dependˆencias

do Grupo NLX. . . 11 1.4 Tabela com as etiquetas semˆanticas presentes no corpus de dependˆencias

do Grupo NLX. . . 14

(18)

(19)

Introduc¸˜ao

1.1 Motivac¸˜ao

As exigências na procura de informação tornam-se cada vez maiores num mundo em que essa informação está em constante crescimento. A representação semântica da informação presente na Web é poss´ıvel e torna-se cada vez mais necessário pois com o rápido cresci-mento dessa informação, passa a existir uma necessidade do ser humano em ter um acesso eficiente à informação que procura.

Na área do Processamento da Linguagem Natural, para que seja poss´ıvel trabalhar com a semântica de um texto, é necessário uma representação semântica desse mesmo texto de modo a que seja poss´ıvel efectuar algum tipo de processamento sobre esse tipo de informação.

Nos últimos anos têm merecido um acrescido interesse, modelos de parsing dos quais resultem estruturas de informação que representem a semântica de textos escritos numa linguagem natural. Este interesse é facilmente justificado dado que a criação destas es-truturas de informação que contêm a representação semântica de um dado texto apresenta uma boa eficiência em termos de complexidade computacional e também em termos de taxa de acerto.

Assim sendo, a estrutura que contém a representação semântica de um dado texto será a chave que tornará poss´ıvel melhorar os dispositivos de busca de informação na Web.

1.2 Contribuic¸˜ao

Esta dissertação documenta um projecto de Engenharia Informática do Mestrado em En-genharia Informática do Departamento de Informática da FCUL,1, realizou uma ferra-menta capaz de obter uma estrutura de informação semântica a partir de um dado texto na L´ıngua Portuguesa, e efectuar a extracção da representação semântica a partir da es-trutura de informação semântica desse mesmo texto. Essa ferramenta foi denominada de

1_{Faculdade de Ciˆencias Universidade de Lisboa}

(20)

Marcador Semˆantico.

Para ser poss´ıvel gerar uma representação semântica de um dado texto, utilizei um tipo de ferramenta chamada de analisador (parser) de dependências. A estrutura de informação criada pelo parser de dependências para cada frase do texto é também conhecida por grafo de dependências, onde cada palavra se relaciona com outra palavra através de uma função gramatical ou semântica.

Esse tipo de relações gramaticais e/ou semânticas entre as palavras de uma frase, serão registados na linguagem RDF/XML, com a finalidade de motores de busca ou agentes artificiais poderem analisar, comparar e processar este tipo de informação. Uma vez que interessa registar a relação semântica entre duas palavras, a linguagem RDF/XML será utilizada, pois sendo que esta linguagem é orientada a triplos (triplos esses que são constituidos por: Sujeito, Predicado, Objecto) iremos querer registar duas palavras (que correspondem ao Sujeito e Objecto do triplo), com uma relação “Predicado”.

A ferramenta Marcador Semântico, capaz de registar a representação semântica de um texto, constitui uma inovação dentro da área que é o Processamento da Linguagem Natural uma vez que este tipo de ferramentas é inexistente.

´

E importante referir que o contributo para o reposit´orio de ferramentas Web do Grupo NLX, foi efectuado com mais uma ferramenta chamada de LX Dep Parser, que possui o objectivo de devolver um grafo de dependˆencias para uma dada frase inserida por um utilizador.

1.3 Estrutura do documento

Este documento est´a estruturado da seguinte forma:

• Cap´ıtulo 1 - Para além da “Motivação” e “Contribuição”, neste cap´ıtulo será abor-dado o conceito de parser de dependências bem como um dos formatos (CoNLL) que este tipo de ferramentas utiliza, assim como o conceito de projectividade que pode surgir ou não, nos grafos de dependências.

• Cap´ıtulo 2 - Neste cap´ıtulo, serão descritos os parsers de dependências dispon´ıveis e qual o parser escolhido para concretizar a ferramenta Marcador Semântico e LX Dep Parser.

• Cap´ıtulo 3 - Neste cap´ıtulo ser´a descrita a ferramenta LX Dep Parser.

• Cap´ıtulo 4 - Ser´a explicada neste cap´ıtulo, a ferramenta Marcador Semˆantico.

1.4 Parsing de Dependˆencias

Um parser de dependências é uma ferramenta que recebe como input um ficheiro de texto escrito numa linguagem natural, e devolve um grafo de dependências que contém as

(21)

Figura 1.1: Anotação dos relações semânticas das palavras na frase: “O João comprou uma carroça.”

func¸˜oes gramaticais entre as palavras das frases desse texto.

Através de um modelo produzido pelo treino, com um corpus de frases e suas estru-turas de dependências, o parser de dependências procede à tarefa de parsing sobre o texto dado como input. O resultado básico consiste em calcular arcos de dependências entre pa-res de palavras e pa-respectivas etiquetas gramáticas. Os arcos de dependências e pa-respectivas etiquetas gramáticas e/ou semânticas constituirão o grafo de dependências gramaticais da frase em questão.

Segundo [8], as gramáticas e teorias de gramáticas podem ser classificadas de acordo com a unidade básica da estrutura da frase que consideram: o sintagma (“Phrase Structure Grammar”) ou a dependência gramatical entre duas palavras (“Dependency Grammar”). Os parsers de Gramáticas Sintagmáticas devolvem uma estrutura baseada nos constituin-tes da respectiva frase de entrada, enquanto que um parser de dependências devolve as funções gramaticais e/ou semânticas entre palavras dessa frase, na forma de um grafo de dependências:

Na Figura 1.1, pode ser observado o resultado de uma frase analisada através de um parser de dependências, em que as relações entre as palavras (arcos de dependências) são:

• “O” ´e especificador de Jo˜ao (Specifier - SP).

• “João” é o primeiro argumento do verbo comprou (Argument 1 - ARG1). • “comprou” é o núcleo da frase (Root - ROOT).

• “uma” ´e o especificador de carroc¸a (Specifier - SP).

• “carroça” é o segundo argumento do verbo comprou (Argument 2 - ARG2). • “.” é a pontuação final da frase (Punctuation - PUNCT).

Este grafo de dependências pode ser visto como uma árvore de dependências em que o núcleo (palavra de onde sai o arco de dependência) possui um ou mais filhos (palavras para onde o arco de dependência aponta).

Este tipo de grafos, para representarem uma estrutura de dependências deverão sempre ser bem formados. Um grafo de dependências é bem formado se e só se:

(22)

• Se o grafo for ligado, ou seja, se a partir do núcleo da frase é poss´ıvel chegar a todos os restantes nós (palavras).

• Todo o n´o, excepto a raiz, tiver um n´o “pai”. • O grafo for ac´ıclico.

Os parsers de dependências recebem frases de texto como input. A estas frases, deverá estar agregada informação morfo-sintáctica para auxiliar o parser de dependências nas suas decisões de parsing, de modo a constituir o grafo de dependências de uma dada frase.

Na próxima secção explicar-se-á um formato generalizado para codificar estruturas de dependências gramaticais, usado por este tipo de ferramentas.

1.5 Formato CoNLL

Os parsers de dependências gramaticais efectuam a tarefa de parsing que consiste em cal-cular os grafos de dependências de cada frase fornecida no input, podendo esse mesmo input estar em vários formatos. No entanto existe um formato em particular que foi gene-ralizado para este tipo de ferramentas, chamado de CoNLL. CoNLL (Conference on Na-tural Language Learning)2 é uma conferência que se realiza anualmente onde se abordam vários tópicos relacionados com a aprendizagem automática aplicada ao Processamento em Linguagem Natural.

Esta conferência tem vindo a decorrer ao longo dos anos, desde 1997, tendo a última conferência ocorrido em Fevereiro de 2009. A Conferência de 2010 está marcada para dias 15 e 16 de Julho, a decorrer em Uppsala, na Suécia.

Esta conferência está classificada como a décima-sétima mais importante,3na área da Inteligência Artificial. Com o decorrer das várias edições desta conferência, um dos temas que foi sendo definido foi a concepção de analisadores de dependências para que fosse poss´ıvel a análise de dependências gramaticais e respectiva etiquetação de uma frase.

Como tal, foi definido um formato de input para os analisadores de dependências gramaticais desta conferência, em que o ficheiro de input contém: frases separadas por uma linha em branco, cada palavra ou s´ımbolo (por exemplo pontuação) da frase numa linha sendo que cada linha contém dez colunas, separadas por uma espaçamento tabular (Tab). O formato CoNLL 2006 é explicado com o aux´ılio da Tabela 1.1.

Em termos pr´aticos, tomando em conta a seguinte frase: A Maria tem raz˜ao.

2

http://ifarm.nl/signll/conll/

3_{http://www.cs-conference-ranking.org/conferencerankings/topicsii.}

(23)

Número do Campo: Nome de Campo: Descrição:

1 ID Contador de palavras, de acordo com a sua or-dem (da esquerda para a direita) de ocorrˆencia na frase. Comec¸a com o valor 1 para cada nova frase.

2 Form Forma da palavra ou s´ımbolo de pontuação. 3 Lemma Lema da palavra, ou uma sublinha se não

esti-ver dispon´ıvel.

4 CPOSTAG Etiqueta morfo-sint´actica de alta granulari-dade, em que o conjunto de etiquetas depende da linguagem natural em quest˜ao.

5 POSTAG Etiqueta morfo-sintáctica de baixa granulari-dade, em que o conjunto de etiquetas depende da linguagem natural em questão. Se não estiver dispon´ıvel, é dada a etiqueta morfo– sintáctica de alta granularidade.

6 FEATS Conjunto não organizado de caracter´ısticas sintácticas e/ou morfológicas (dependendo da linguagem natural) separadas por uma barra vertical (—), ou uma sublinha se não estiver dispon´ıvel.

7 HEAD Head (núcleo) do s´ımbolo corrente, que é iden-tificado por um inteiro. De referir que depen-dendo da anotação original do treebank, po-derá haver vários s´ımbolos com um ID igual a zero.

8 DEPREL Relação de dependência com a Head. O con-junto de dependências depende da linguagem natural em questão. De referir que dependendo da anotação original do treebank, a relação de dependência pode ser uma etiqueta atribu´ıda, proveniente da anotação original do treebank, ou ser simplesmente ’ROOT’.

9 PHEAD Head (núcleo) projectiva do s´ımbolo corrente, que ou é representado por um inteiro (zero clu´ıdo), ou por uma sublinha, se estiver in-dispon´ıvel. De notar que ao depender da anotação original do treebank, poderá existir vários s´ımbolos com um ID de 0. A estrutura de dependência resultante da coluna PHEAD, é projectiva (embora tal caracter´ıstica não es-teja dispon´ıvel em todas as l´ınguas).

10 PDEPREL A relação de dependência da PHEAD, ou uma sublinha se não estiver dispon´ıvel. O con-junto de relações de dependências depende, da l´ıngua em questão. De notar que se depen-der da anotação do treebank original, a relação de dependência pode conter algum significado, ou então ser representado por ’ROOT’

(24)

1 A DA DA fs 2 SP 2 Maria PNM PNM 3 ARG1 3 tem TER V V 0 ROOT 4 raz˜ao RAZ ˜AO CN CN gs 3 ARG2 5 . PNT PNT 3 PUNCT

Tabela 1.2: Grafo de dependˆencias em formato CoNLL 2006, da frase: “A Maria tem raz˜ao.”

Figura 1.2: Ilustração do grafo de dependências da frase: “A Maria tem razão.” No formato CoNLL 2006, o grafo de dependências desta frase (com os arcos de de-pendência e respectivas etiquetas gramaticais atribu´ıdas) ficaria como está mostrado na Tabela 1.2. A descrição do conteúdo de cada coluna encontra-se na Tabela 1.1.

Em que a ilustração do grafo de dependências com base na frase acima em formato CoNLL 2006 ficaria de acordo com a Figura 1.2.

Uma vez que só são utilizadas etiquetas morfo-sintácticas de granularidade fina no corpus de dependências do NLX que usámos para este trabalho, é colocada a mesma etiqueta morfo-sintáctica de uma palavra nos campos quatro e cinco.

Será este o formato do corpus de dependências com etiquetas gramaticais e semânticas que será usado para treinar o parser de dependências, por forma a que o parser devolva um grafo de dependências, para que seja poss´ıvel proceder a uma extracção da representação semântica de uma frase (consequentemente de um texto) e para que posteriormente se registe essa mesma representação semântica do texto, em linguagem RDF/XML.

´

E importante referir que as colunas ID, FORM, CPOSTAG, POSTAG, HEAD e DE-REL devem conter valores significativos em vez de, por exemplo, sub-linha, aquando do treino dos parsers de dependˆencias gramaticais.

Também importa referir que os últimos dois campos, se referem à projectividade de uma frase. A finalidade destas colunas seria a de serem preenchidas pelo parser de de-pendências em questão, na tarefa de parsing, caso a frase a ser analisada fosse projectiva. Contudo, não foi verificado o preenchimento destas duas colunas após a tarefa de par-sing, utilizando os parsers de dependências gramaticais analisados no Cap´ıtulo dois. Uma vez que estas duas colunas não apresentam quaisquer tipo de contributo para a tarefa de parsing dos parsers de dependências gramaticais, os corpus de treino em formato CoNLL 2006 terão estas duas colunas preenchidas com uma sub-linha.

(25)

As duas colunas ”PHEAD“ e ”PDEPREL“, referem-se à projectividade de uma frase, como anteriormente referido. Como tal, passaremos então a explicar o conceito de ”pro-jectividade“ na próxima secção.

1.6 Projectividade

Um grafo de dependências de uma frase é uma representação lingu´ıstica adoptada por um grande número de teorias de gramática e formalismos lingu´ısticos, que partilham um número de pressupostos sobre estruturas sintácticas. Um grafo de dependências é constitu´ıdo por nós lexicais, em que cada nó é dependente de um outro nó (excepto se for a raiz). Um grafo/árvore de dependências deve ser segundo [14]:

• Ac´ıclico • Conectado • Projectivo

Existem várias definições de projectividade, mas uma vez que todas elas são equivalentes, passei a utilizar a definição de [14], definindo a projectividade em termos de adjacência (ou seja em termos da posição relativa entre as palavras, de uma dada frase).

• Um grafo de dependências é projectivo se e só se cada nó dependente (palavra) for adjacente ao seu núcleo (Head).

• Dois n´os (palavras) n e n0

são adjacentes no grafo se e só se todo o nó n00que ocorre no grafo entre n e n0, for “dominado” por n ou por n0. Este dom´ınio entende-se por exemplo, como o caso em que um nó m ocorra entre n e n0, mas que o seu núcleo seja n00. Se n00 tiver como núcleo n ou n0, então considera-se que m é dominado por n ou n0, o que significa que existe projectividade no grafo de dependências em questão.

Exemplos de frases não projectivas podem ser encontradas facilmente na l´ıngua alemã. Na Figura 1.3 podemos observar um exemplo de uma frase “não projectiva”, escrita na l´ıngua alemã.

Analisando o arco de dependência na Figura 1.3, que envolve os nós 1 (“Fur”) e 8 (“Na-chweis”), podemos observar que o nó 6 (“bisher”) que se encontra dentro do arco de dependência formado entre o nós 1 e 8. No entanto, o nó 6 depende do nó 9 (“geliefert”). Nó este (9 - “geliefert”) que está fora do arco de dependência formado pelos nós 1 e 8. O que de acordo com a definição de projectividade escrita anteriormente, torna esta frase não projectiva (que em caso geral se caracteriza por existir nos grafos de dependências, cruzamento entre os arcos). Para finalizar, realizei uma experiência para verificar a eficiência

(26)

Figura 1.3: Anotação retirada do corpos TuBa-D/Z treebank. Tradução: “Para esta alegação, Beckmeyer não forneceu nenhuma prova.”

de algoritmos de parsing projectivos ([14], [19]) sobre grafos de dependências projecti-vos. Para tal, foram exclu´ıdas as frases não projectivas do corpus de dependências do NLX (cento e quatorze frases não projectivas), e utilizou-se um algoritmo projectivo de parsing e um algoritmo não projectivo de parsing:

• Com o parser de dependências MST, foi verificado que (correndo o parser com as definições por omissão) num teste “Ten Fold Cross Validation”, com o algoritmo de parsing não projectivo foi obtido o valor de 0.8909 para a métrica LAS, decorridos 3106 segundos de treino e parsing da ferramenta, enquanto que com o algoritmo projectivo foi obtido o valor de 0.8922 para a métrica LAS, decorridos 2769 segun-dos de treino e parsing da ferramenta.

• Com o parser de dependências Malt, foi verificado que (correndo o parser com as definições por omissão) num teste “Ten Fold Cross Validation” com o algoritmo não projectivo “Convigton Non Projective” foi obtido o valor de 0.8871 para a métrica LAS, decorridos 533 segundos de treino e parsing da ferramenta, enquanto que com o algoritmo projectivo “Nivre - arc standard” foi obtido o valor de 0.8902 para a métrica LAS, decorridos 238 segundos de treino e parsing da ferramenta.

(Nota: o tipo de teste “Ten Fold Cross Validation”, a métrica de avaliação LAS, MST Parser e Malt Parser serão conceitos devidamente explicados, no Cap´ıtulo 2.)

1.7 Relações Semânticas

Como referido, para que seja poss´ıvel construir o Marcador Semântico a fim de se extrair a representação semântica de um dado texto (e posteriormente registar a semântica das páginas web escritas na L´ıngua Portuguesa em linguagem RDF/XML) será necessário um parser de dependências através do qual se obtém o grafo de dependências, para cada frase de um dado texto.

Este grafo de dependências terá de ter definidos os arcos de dependências, bem como as respectivas etiquetas gramaticais e semânticas, entre as palavras de uma frase. Para que os grafos de dependências (parse final de uma dada frase) contenham principalmente as relações semânticas entre as palavras, é necessário que o corpus usado para treinar o

(27)

parser de dependências contenha os arcos de dependências definidos com as respectivas etiquetas semânticas.

A diferença entre as etiquetas gramaticais e as etiquetas semânticas está no tipo de relação que se estabelece entre as palavras dentro de uma frase, sendo que as etiquetas gramaticais expressam relações gramaticais entre os constituinte de uma frase.

O termo “relação gramatical” é um conceito que tem definições um pouco variadas, mas bastante semelhantes.

Para um futuro esclarecimento, segundo [10], uma oração (como por exemplo, uma frase simples: “O João comprou uma carroça.”) contém dois termos importantes: o Predicado (“comprou uma carroça.”), que é uma sequência de constituintes formado por um predi-cador e respectivo(s) argumento(s), ou constituinte(s), interno(s); e o Sujeito (“O João”) que se relaciona directamente com o Predicado.

Segundo [1], o termo relação gramatical refere-se às propriedades morfo-sintácticas que relacionam um argumento com uma oração, como por exemplo, o Sujeito ou Objecto Directo. Termos alternativos como ”função sintáctica“, ou ”papel sintáctico“ podem ser usados evidenciando o facto que as relações gramaticais são definidas pela forma como argumentos (constituintes) estão integrados sintacticamente numa oração, por exemplo, funcionando como Sujeito, Objecto Directo, etc. Seja qual for a terminologia, o conceito de ”relação gramatical“ mantém-se.

Uma definição semelhante é apresentada por [6], que defende que os constituintes de uma combinação de palavras desempenham certas funções sintácticas na frase a que pertencem.

Assim, numa oração (ou frase simples), o SV (Sintagma Verbal - a expressão que tem como constituinte central o verbo e que denota uma propriedade ou relação, dinâmica ou não dinâmica) tem a função sintáctica de predicado e o SN ou a F constituinte imediato da frase (Sintagma Nominal ou Frase - a expressão nominal/frásica a que é atribu´ıdo tal predicado), tem a relação gramatical de sujeito.

Outra definição de ”relação gramatical“, segundo [10], considerando as seguintes fra-ses:

• (a) O jornalista contou as novidades aos amigos. • (b) A novidade aos amigos o jornalista contou.

(1a) é uma frase básica do português que pode caracterizar-se sintacticamente, numa primeira abordagem, como uma sequência em que:

• cada constituinte tem uma dada relac¸˜ao gramatical; • os constituintes ocorrem segundo uma dada ordem linear.

(28)

Esta caracterização sintáctica reporta-se à forma final das frases. Em l´ınguas como o português, a relação gramatical dos constituintes é o principal factor que determina a ordem da sua ocorrência.

Passemos então a descrever as relações gramaticais, segundo [10], referidas anterior-mente, bem como outras relações gramaticais: Objecto Directo e Complemento Obl´ıquo, para um melhor entendimento das relações gramaticais entre constituintes, numa dada frase:

• Sujeito - Trata-se da relação gramatical central a que é dada maior proeminência sintáctica, em frases básicas como a frase na Figura 1.4.

Tipicamente realiza-se fora do predicado, sendo, no entanto, determinado pelo verbo.

Deste modo, o constituinte da frase na Figura 1.4) “O Jo˜ao” ´e o sujeito gramatical da frase.

• Predicado - De um modo geral, uma oração consiste numa frase simples em que (considerando a frase da Figura 1.4) o predicado contém pelo menos um elemento verbal. Assim na frase: “O João comprou uma carroça” o Predicado “comprou uma carroça.” é constitu´ıdo por um verbo (“comprou”) e por um argumento interno (“uma carroça”).

Um predicado para al´em de ser constitu´ıdo por um verbo, pode tamb´em ser cons-titu´ıdo por:

– Objecto Directo - Têm esta relação gramatical os argumentos internos direc-tos de verbos (de dois ou três lugares como, por exemplo, os verbos “dar”, “oferecer”). Como tal, podemos observar na frase da Figura 1.4, a relação de Objecto Directoque envolve “uma carroça” é atribu´ıda pelo verbo “comprou”. – Objecto Indirecto - O constituinte que tem esta relação gramatical é tipica-mente argumento interno do verbo (de dois ou três lugares como, por exemplo, os verbos “dar”, “oferecer”). Considerando a seguinte frase: “O João ofere-ceu um CD ao Pedro.“, podemos ver que o constituinte ”ao Pedro“ é o Objecto Indirectoda frase.

– Complemento Obl´ıquo - As relações gramaticais que se estabelecem com o verbo através do aux´ılio de preposições (por exemplo, ”na“, ”com“, ”em“), são chamadas de “obl´ıquas”. Veja-se por exemplo a frase: “O João pôs o livro na estante”. O Complemento Obl´ıquo da frase requisitado pelo verbo é “na estante”.

– Modificador - Um modificador é um constituinte cuja presença na frase não é obrigatória, ou seja, não é exigido por nenhum outro constituinte, mas que estando presente na frase pode modificar verbos, nomes (por exemplo), ou até

(29)

Etiqueta gramatical Significado C Complemento DO Objecto Directo IO Objecto Indirecto M Modificador

N Relação de palavras de nome próprio OBL Complemento Obl´ıquo

PRD Predicador SJ Sujeito SP Especificador COORD Coordenação PUNCT Pontuação

Tabela 1.3: Tabela com as etiquetas gramaticais presentes no corpus de dependˆencias do Grupo NLX.

Figura 1.4: Anotação das relações gramaticais das palavras na frase: “O João comprou uma carroça.”

mesmo, toda uma frase. Considerando a seguinte frase: “Os Pol´ıcias traba-lham, sem fardas.”, o modificador do verbo trabalham ´e “sem fardas”.

No entanto, considerando a Tabela 1.3, as etiquetas gramaticais adoptadas ilustram informação gramatical a dois n´ıveis: a um n´ıvel básico, que traduz relações entre as pala-vras dentro de um constituinte (SP, C, N, PRD, COORD, PUNCT), e a um n´ıvel superior, que apresenta as relações entre constituintes, (SJ, OBL, IO, DO).

Com algumas das relações gramaticais descritas anteriormente e com base na frase na Figura 1.4 anotada apenas com as etiquetas gramáticas, é poss´ıvel observar as relações gramaticais entre as palavras da frase:

• “O” - Especificador de João (Specifier - SP). • “João” - Sujeito do verbo comprou (Subject - SJ). • “comprou” - Núcleo da frase (Root - ROOT). • “uma” - Especificador de carroça (Specifier - SP).

• “carroça” - Objecto directo do verbo comprou (Direct Object - DO). • “.” - Pontuação final da frase (Punctuation - PUNCT).

(30)

Já etiquetas semânticas definem relações semânticas que permitem caracterizar o tipo de relação semântica decorrente do relacionamento entre os constituintes de uma frase.

O termo “relação semântica”, segundo [11], refere que as relações gramaticais como Sujeito e Objecto Directo nem sempre correspondem de uma maneira natural às relações semânticas existes entre um verbo e os sintagmas nominais (seus argumentos), isto é, en-tre um verbo e os sintagmas nominais por ele seleccionados.

Os argumentos de um verbo têm uma determinada interpretação semântica (ou papel temático) relacionada com a própria interpretação do verbo que os selecciona. Às relações semânticas é também atribu´ıdo o nome de “papéis temáticos” pois estas relações pres-supõem a existência de uma relação semântica central - o Tema - sendo que, toda a frase possui um Tema.4

A anotação do corpus de dependências do Grupo NLX com etiquetas semânticas (Ta-bela 1.4), teve por base [12], em que as relações semânticas definidas são as seguintes:

• Argumento - Aplica-se a palavras que s˜ao argumento de um nome, adjectivo ou verbo. X representa o n´umero do argumento que uma palavra constitui nome, ad-jectivo ou verbo.

Por exemplo: “O Jo˜ao partiu.”

• Agente causativo de verbos com alternância causativa - Aplica-se ao causador da acção do verbo.

Por exemplo: “O pirata afundou o barco.”

• Modificador de Localização - Aplica-se a localizações espaciais, quer f´ısicas, quer abstractas.

Por exemplo: “O Pedro mora na av. da Liberdade”, “O Pedro referiu-se ao inci-dente, no seu discurso”

• Modificador de Extensão - Aplica-se a strings que determinem uma extensão, so-bretudo numérica. Engloba medidas, percentagens, quantificadores e termos com-parativos.

Põe exemplo: “O desemprego subiu 15%”; “A melancia pesava 2kg”; “O atleta correu 2 metros”; “A Maria engordou bastante no último mês”; “o Pedro gastou mais do que o previsto”

• Modificador de Adv´erbio - Engloba todas as strings que n˜ao se possa incluir nas restantes etiquetas.

Por exemplo, genitivos como “a casa da Maria”

• Modificador de Causa - Indica a causa/razão da acção.

Por exemplo: “A Maria chumbou porque errou todas as perguntas do teste”

(31)

• Modificador Temporal - Localiza a acção na linha do tempo e engloba Frequência, Duraçãoe Repetição.

Por exemplo: “O crime aconteceu em 1980”; “O exame realizou-se a semana pas-sada”; “O Pedro est´a sempre a queixar-se”.

• Modificador de Fim - Aplica-se a todas as strings que indiquem o objectivo ou propósito da acção descrita.

Por exemplo: “O Pedro comprou um carro para poder viajar ao fim-de-semana”. • Modificador de Modo - Aplica-se a strings que especifiquem a forma/modo como uma acção é praticada ou decorre. Devem ser strings que respondam à pergunta “Como?”

Por exemplo: “O Pedro falou pausadamente”; “A Maria caiu das escadas de forma aparatosa.”

• Modificação de Direcção - Aplica-se a referências direccionais, podendo englobar tanto a “Fonte/Origem” como o “Destino” da deslocação.

Por exemplo: “O comboio fez a primeira viagem para o Alentejo”; “O Pedro ´e natural de Lisboa”; “O Pedro deu um passo em frente e parou.”

• Modificador de Predicação Secundária - Aplica-se manualmente em casos de predicados secundários (sobretudo com verbos no partic´ıpio passado), e a estruturas predicativas (resultativas, por exemplo)

Por exemplo : “O Pedro trabalha na TAP como comiss´ario de bordo”; “A Ana encontrou o assassino j´a morto”;

• Modificador de Ponto de Vista - Aplica-se em strings que expressem posição ou ponto de vista do autor do enunciado. Não fazem parte da estrutura predicativa. Por exemplo: “Na minha opinião”; “a meu ver”

Considerando a Figura 1.1 com etiquetas gramaticais e semânticas, é poss´ıvel observar que as palavras “João” e “carroça” denotam entidades relacionadas debaixo da relação de-notada pelo verbo “comprou”. Por outras palavras, o verbo da frase “comprou” define que a entidade João (primeiro argumento) adquiriu a entidade carroça (segundo argumento).

No fundo, as etiquetas semânticas definem as relações estabelecidas entre os vários constituintes da frase, ao n´ıvel do significado da mesma. Por outro lado, as etiquetas gramaticais ilustram relações sintácticas entre os constituintes, mas não possibilitam por si só, estabelecer relações semânticas entre os mesmos.

1.7.1 Etiquetas Gramaticais versus Etiquetas Semˆanticas

Um bom exemplo para mostrar que com um corpus que apenas contenha etiquetas gra-maticais se torna mais dif´ıcil capturar a semˆantica de uma frase s˜ao as frases na voz activa

(32)

Etiqueta gramatical Significado ARGX Argumento

ARGA Agente causativo de verbos com alternˆancia causativa M-ADV Modificador de Adv´erbio

M-MNR Modificador de Modo M-LOC Modificador Locativo

M-PRED Modificador de Predicação Secundária M-TEM Modificador Temporal

M-EXT Modificador de Extens˜ao M-PNC Modificador de Fim M-CAU Modificador de Causa

M-POV Modificador de Ponto de Vista M-DIR Modificação de Direcção

Tabela 1.4: Tabela com as etiquetas semˆanticas presentes no corpus de dependˆencias do Grupo NLX.

Figura 1.5: Anotação das relações gramaticais das palavras na frase na voz activa: “O cão perseguiu o João.”

e na voz passiva.

Consideremos as frases na Figura 1.5 e Figura 1.6 anotadas com os arcos de dependˆencias e respectivas etiquetas gramaticais (apenas).

Podemos observar, numa análise geral, que na frase na voz activa (Figura 1.5) a pala-vra “cão” é o Sujeito da frase, e que a palapala-vra “João” é o Objecto Directo da mesma frase. No entanto, considerando a frase na voz passiva (Figura 1.6) que possui o mesmo signifi-cado que a frase na voz activa, podemos constatar que as palavras “cão” e “João” possuem relações gramaticais diferentes. Na frase na voz passiva, a palavra “João” é o Sujeito da frase, e a palavra “cão” é o Complemento Obl´ıquo da mesma frase. É importante referir

Figura 1.6: Anotação das relações gramaticais das palavras na frase na voz passiva: “O João foi perseguido pelo cão.”

(33)

Figura 1.7: Anotação dos papéis semânticas das palavras na frase na voz activa: “O cão perseguiu o João.”

Figura 1.8: Anotação dos papéis semânticas das palavras na frase na voz passiva: “O João foi perseguido pelo cão.”

que apesar da proposição “por” (Figura 1.6) depender do verbo “perseguido” com a eti-queta gramatical “OBL”, esta preposição actua como um elo de ligação entre o verbo e a palavra “cão”, sendo que “cão” como já referido, é o complemento obl´ıquo da frase. Se considerarmos as mesmas frases com os arcos de dependências e respectivas etiquetas gramaticais e também semânticas, na voz activa (Figura 1.7) e na voz passiva (Figura 1.8), podemos ver que a palavra “cão” se relaciona com o verbo contendo a mesma etiqueta semântica (ARG1) em ambas as frases, e que a palavra “João” se relaciona com o verbo contendo a mesma etiqueta semântica (ARG2) em ambas as frases.

Com este tipo de etiquetas semânticas que definem os arcos de dependências entre as palavras de uma frase, é poss´ıvel retirar a mesma informação semântica entre duas frases com ordem de palavras diferentes, mas possuidoras do mesmo significado.

Contudo interessa referir que apenas o corpus de dependências com as etiquetas grama-ticais estava dispon´ıvel aquando da busca por o melhor parser de dependências para a L´ıngua Portuguesa. Acontece que o processo de adicionar as etiquetas semânticas ao corpus de dependências ainda decorria. Assim sendo, no próximo cap´ıtulo em que será explicado detalhadamente a busca pelo melhor parser de dependências para a l´ıngua por-tuguesa, o corpus de dependências usado para treinar e avaliar o resultado deste tipo de ferramentas, conterá os arcos de dependências definidos apenas com etiquetas gramati-cais.

No Cap´ıtulo 4 em que será explicada a ferramenta de anotação semântica de pagi-nas web (Marcador Semântico), o corpus de dependências usado já conterá os arcos de dependências definidos com as etiquetas gramaticais e semânticas.

(34)

1.8 Considerac¸˜oes Finais

Neste cap´ıtulo apresentou-se a “Motivação” e a “Contribuição” desta dissertação. Foram também explicados alguns conceitos que derivam da utilização de ferramentas de parsing de dependências, tais como a “Projectividade” e um formato de input aceite por este tipo de ferramentas, chamado de “CoNLL”.

Explicou-se também a importância das etiquetas semânticas na secção Relações Semânticas. No próximo cap´ıtulo, descrever-se-á os parsers de dependências encontrados, assim como o parser de dependências escolhido, que será usado para a concretização das ferra-mentas LX Dep Parser e Marcador Semântico.

(35)

Selecção do Parser de Dependências

2.1 Introduc¸˜ao

Uma vez que será necessário obter um grafo de dependências a partir de uma frase, para se poder extrair a semântica da mesma frase, efectuou-se uma busca por parsers de de-pendências. Efectuada a busca, deu-se in´ıcio a um processo de escolha do melhor parser de dependências para a l´ıngua Portuguesa.

Os Parsers de Dependências que fossem treináveis com um corpus, que contivesse frases escritas na L´ıngua Portuguesa anotadas com as dependências de cada palavra da respectiva frase, seriam os de maior interesse. Assim sendo, após uma pesquisa realizada, os Parsers de Dependências encontrados foram os seguintes:

• ISBN Dependency Parser • MST Parser

• DeSR Dependency Parser • Malt Parser

• KSDEP

O processo de busca realizado por parsers de dependências, teve como alvo a mail-ling list Corpora (mailmail-ling list que é frequentada por pessoas que pertencem à área de Processamento da Linguagem Natural1. Esta procura também fora efectuada nos moto-res de busca do Google e Yahoo, e também em repositórios como: Language Tecnology World,2 que é um dos serviços mais abrangentes da World Wide Web, que possui um vasto reportório de tecnologias directamente envolvidas na área da Linguagem Humana.

1_{http://gandalf.aksis.uib.no/corpora/} 2_{beta.lt-world.org}

(36)

O repositório3Associação Internacional de Lingu´ıstica Computacional, que envolve pes-soas dentro da área da Linguagem Natural e Computacional, também foi outra fonte desta busca.

No processo de escolha do melhor parser de dependências para a L´ıngua Portuguesa, as cinco ferramentas encontradas foram submetidas a um teste chamado de “Ten Fold Cross Validation” (Validação Cruzada de Dez Partições).

De referir que nem todos os parsers de dependências possuem ferramentas de avaliação, pelo que foi necessário encontrar um única ferramenta de avaliação, para avaliar o resul-tado do teste “Ten Fold Cross Validation”.

Passemos então a descrever a ferramenta de avaliação utilizada assim como o teste “Ten Fold Cross Validation”, sendo que depois seguir-se-á uma sucinta descrição sobre os parsers de dependências encontrados, de modo a revelar e esclarecer qual o parser de dependências que foi escolhido.

2.2 Malt Eval

Como método de avaliação dos parsers de dependências, foi utilizado um tipo de teste chamado de “Ten Fold Cross Validation” (Validação Cruzada de Dez Partições).

Neste tipo de testes (em que pode ser usado um qualquer número de partições para avaliacao, mas que por norma, são utilizadas dez partições), a amostra original dos dados é partida, sob um determinado critério, em dez partições. Deste modo, nove partições irão ser usadas como dados de treino pelo parser, enquanto a restante partição ira ser usada como dados de teste, também pelo parser. A análise/processamento do parser sobre esta ultima partição (corpus dourado), será comparada com a mesma partição guardada para ser analisada/processada pelo parser. Com esta comparação, e levando em conta as métricas descritas anteriormente, será calculada a taxa de acerto do parser, relativamente aos dados analisados/processados.

Este teste será repetido tantas vezes quanto o número de partições (dez vezes).

De modo a calcular a taxa de acerto dos vários parsers de dependências, seria ideal encon-trar um avaliador único para os resultados de parsing dos vários parsers de dependências pois nem todos os parsers possuem um avaliador integrado.

Assim sendo, a ferramenta de avaliac¸˜ao Malt Eval foi utilizada para avaliar os resultados de todos os parsers.

Malt Eval é uma ferramenta freeware, escrita em Java, para avaliação de árvores de de-pendências que oferece várias métricas de avaliação e permite também a visualização das árvores de dependências. É uma ferramenta flex´ıvel na medida em que permite escolher um elevado número de parâmetros que são facilmente configuráveis

(37)

As métricas usadas para a avaliação dos parsers de dependências, cujo valores variam entre 0 e 1 (ou entre 0% e 100%), foram:

• Unlabeled Attachment Score (UAS) - Um token (s´ımbolo/palavra) será contado com sucesso se o arco de dependências entre duas palavras da frase processada pelo parser de dependências estiver correcto em relação ao corpus dourado.

• Labeled Attachment Score (LAS) - Um token (s´ımbolo/palavra) será contado com sucesso se o arco de dependências e a etiqueta semântica entre duas palavras da frase processada pelo parser de dependências estiverem correctas em relação ao corpus dourado.

• Label Right (LA) - Um token (s´ımbolo/palavra) será contado com sucesso se a etiqueta semântica do arco de dependências entre duas palavra da frase processada pelo parser de dependências estiver correcto em relação ao corpus dourado. Esta métrica servirá de informação adicional uma vez que esta não é costume usar esta métrica em avaliações deste tipo de ferramentas.

As linhas de comandos para correr o Malt Eval s˜ao:

java -jar MaltEval.jar -s parsedSentences -g goldSentences --Metric X

• -s parsedSentences - As frases cujos arcos de dependências e respectivas etiquetas semânticas foram calculadas pelo parser de dependências. Este ficheiro deverá estar em formato CoNLL 2006

• -g goldSentences - As frases cujos os arcos de dependências e respectivas etiquetas semânticas são anotadas à partida. Este ficheiro, em formato CoNLL 2006 será levado como base de comparação pela ferramenta Malt Eval.

• –Metric X - O tipo de métrica a ser usada na avaliação/comparação.

2.3 ISBN Dependency Parser

O ISBN Parser [21, 23] foi desenvolvido em parceria por Ivan Titov e James Henderson, da Universidade de Geneva e da Universidade de Edimburgo, respectivamente.

´

E um parser probabil´ıstico que usa modelos probabil´ısticos baseados num histórico de decisões tomadas que prevê as derivações mais prováveis para a análise de dependências. O modelo probabil´ıstico usado é um modelo baseado em “Incremental Sigmoid Belief Networks”.

(38)

Uma Belief Network (rede de crença) é um grafo ac´ıclico dirigido que codifica de-pendências estat´ısticas entre duas varáveis. Cada variável Si contida no grafo, tem

asso-ciada uma probabilidade de distribuic¸˜ao

P (Si|P ar(Si)) (2.1)

sobre os seus valores, dados os valores dos seus parentes Par(Si) no grafo.

Uma “Sigmoid Belief Network” são “Bayesian Network” que possuem variáveis binárias e probabilidades de distribuição condicionais, na forma de uma função log´ıstica sigmóide:

P (Si = 1|P ar(Si)) = σ(

X

Sj∈P ar(Si)

JijSj) (2.2)

onde Si representa as variáveis, P ar(Si) são as variáveis das quais depende Si, σ denota

a função sigmoid log´ıstica, e Jij será o peso para o arco que irá da variável Si, para a

vari`avel Sj.

Para se usar as “Sigmoid Belief Network” de modo a que seja poss´ıvel processar sequências longas de dados, tais como, uma sequência de decisões de uma parser

(D1, . . . , Dm_{), as “Sigmoid Belief Network” s˜ao extendidas para uma forma de}

“Dyna-mic Bayesian Network”.

Numa “Dynamic Bayesian Network”, um novo conjunto de variáveis é instanciado para cada posição da sequência de decisões, mas os arcos e pesos dos arcos mantém-se inalte-rados em todas as posições da sequência.

“Incremental Sigmoid Belief Networks” diferem das “Sigmoid Belief Network” dinâmicas na medida em que permite que o modelo criado seja modificado (arcos e pe-sos dos arcos, por exemplo) incrementalmente, através da análise de cada decisão da sequência de decisões.

Para executar a função de parsing sobre uma determinada frase, o ISBN Parser utiliza um algoritmo que consiste numa pilha S que defini o estado corrente do parser e uma fila I que conterá as palavras do input que ainda estão por analisar, e a estrutura de dependência parcialmente constru´ıda, a partir de decisões anteriores constru´ıdas por decisões anterio-res do parser.

O algoritmo comec¸a com a pilha S vazia e termina quando a fila I ficar vazia. Este algo-ritmo utiliza quatro tipos de decis˜ao:

• Left-Arcr - cria o arco de dependˆencia entre a pr´oxima palavra da fila (wj) e a

palavra wi no topo da pilha, seleccionando a etiqueta r para o arco entre wi e wj.

A palavra wi ´e retirada (pop) da pilha.

• Right-Arcr - cria o arco de dependˆencia entre a palavra no topo da pilha wi, e a

próxima palavra wj na fila, seleccionando a etiqueta r para a relação/arco entre wi

(39)

• Reduce - retira do topo da pilha S, a palavra wi

• Shiftwj - muda a palavra wj da fila, para a pilha.

O modelo de probabil´ıstico utilizado pelo ISBN Parser utiliza um modelo proposto em [13], utilizando parsing probabil´ıstico que usa um método de “previsão de palavra”, con-tido na acção “Shift” do parser. Esta predição da palavra é baseada em etiquetas morfo-sintácticas e em etiquetas gramaticais de granularidade fina, que são disponibilizadas no corpus de treino. Predição essa que começa pelas etiquetas gramaticais de granularidade fina da palavra desconhecida, passando pela etiqueta morfo-sintética, e finalizando com a própria palavra. Os autores do ISBN Parser afirmam que esta abordagem lhes permitirá diminuir o efeito de esparssez, evitando uma normalização (overfiting) das palavras no vocabulário.

O modelo probabil´ıstico baseado em histórico, do ISBN Parser, decompõe a probabi-lidade de um parse de acordo com as decisões tomadas pelo parser, através da seguinte formula:

P (T ) = P (D1, . . . , Dm) = Y

t

P (Dt|D1_{, . . . , D}t−1₎

(2.3) onde T é o parse e D1_{, . . . , D}m _{é a sequência das decisões tomadas pelo parser.}

Cada decisão Dtdo ISBN Parser, para um determinado parse, pode ser dividida numa sequência de decisões elementares:

P (Dt|D1_{, . . . , D}t−1_{) =}Y

k

P (dt_k|h(t, k)) (2.4) onde h(t, k) denota um hist´orico de decis˜oes tomadas anteriormente.

Resumindo, desde que existe palavras a serem analisadas na fila I, para um dado es-tado S0, é tomada uma sequência de decisões em que para cada decisão, são levadas em conta decisões tomadas anteriormente.

Decis˜oes anteriores essas que s˜ao escolhidas consoante a estrutura de Dependencia (parse) que ate ao momento foi constru´ıda.

Esta nova sequência de decisões definida para o estado actual, levara o parser para um novo estado S00, que terminara a sua execução, caso não exista mais palavras na fila I. De referir que após o processo de parsing, é utilizado uma variante do algoritmo “beam search” descrito em [22], de modo a determinar qual o parse mais provável. O algoritmo beam search é um algoritmo de busca heur´ıstica. É uma optimização do algoritmo de busca “best-first”. O algoritmo de busca “best-first” é um grafo de busca que ordena todas as soluções parciais (estados) de acordo com uma heur´ıstica, na tentativa de prever qual a solução parcial que mais se aproxima da solução final (estado alvo). No algoritmo ”beam search“, apenas um número pré definido de melhor soluções parciais é mantido.

(40)

De seguida mostra-se resultados obtidos na conferência ”CoNLL-2007 shared task“. Estes resultados são o fruto de treinar o ISBN Parser e analisar o mesmo, com vários corpora de diversas linguagens. Conjuntos esses que possuem entre dois mil a cinco mil tokens.

De referir que nestas experiências foram utilizados “cortes de frequência’. Estes cortes de frequência servem para ignorar uma palavra, lema ou uma caracter´ıstica, que ocorra menos que o valor atribu´ıdo, para o corte de frequência. O corte de frequência com valor 20 foi usado para as l´ınguas Chinesa e Grega. Para as restantes linguagens, o corte de frequência utilizado foi de 5, uma vez que os autores do ISBN Parser notaram que um corpus de treino com um maior número de palavras, lemas e caracter´ısticas de palavras, diminu´ıam a eficiência do parser.

A tabela seguinte demonstra os resultados de avaliação com corpus de várias l´ınguas, na conferência CoNLL de 2007:

L´ıngua LAS UAS ´ Arabe 0,7410 0,8320 Basco 0,7550 0,8190 Catalão 0,8740 0,9340 Chinês 0,8210 0,8790 Checo 0,7790 0,8420 Inglês 0,8840 0,8970 Grego 0,7350 0,8120 Húngaro 0,7790 0,8220 Italiano 0,8230 0,8630 Turco 0,7980 0,8620

2.3.1 Execuc¸˜ao

Dos cinco parsers de dependências aqui apresentados, este será o que apresenta menos facilidades de interacção.

Para o correcto funcionamento deste parser, é necessário executar uma série de passos (de notar que os comandos apresentados de seguida são executados em Linux):

• ./prepare data FREQ CUTOFF UNKN FREQ CUTOFF

PROJECT PATH TRAINING FILE VALIDATION FILE OTHER FILES: Este comando preparar´a uma directoria onde todos os ficheiros que o parser precisa para treinar e analisar ser˜ao colocados:

– PROJECT PATH a directoria a ser criada onde serão gerados ficheiros de “configuração” para treino e parsing.

– FREQ CUTOFF é um inteiro que indica que caso uma palavra, lema, eti-queta morfo-sintáctica, no conjunto de treino, ocorra em menor número de vezes que FREQ CUTOFF, será ignorado.

(41)

– UNKN FREQ CUTOFF é também um inteiro caso um item desconhecido (palavra, lema, etiqueta-morfo-sintáctica) ocorra, no corpus de treino, em me-nor número de vezes do que o UNKN FREQ CUTOFF, este item será “fundido” com outro item menos frequente, da mesma categoria.

– TRAINING FILE representa o ficheiro (corpus) em formato CoNLL 2006, que ser´a usado para treinar o parser. O ficheiro indicado por TRAINING FILE ser´a convertido para o formato CoNLL.ext.

– VALIDATION FILE ´e um sub-conjunto do TRAINING FILE que dever´a conter pelo menos dois mil tokens.

– OTHER FILES s˜ao outros ficheiros em formato CoNLL 2006, a serem even-tualmente analisados pelo parser, que ser˜ao convertidos para o formato CoNLL.ext.

• Num segundo passo, é necessário assegurar que o tamanho das estruturas corres-ponde aos parâmetros do treebank, ou seja, é necessário configurar no ficheiro idp io spec.h, que está na directoria PROJECT PATH, alguns campos como, por exemplo, MAX CPOS SIZE, pois se treinarmos este parser com o corpus de pendências do Grupo NLX, iremos ter mais do que trinta (valor definido por de-feito) etiquetas morfo-sintácticas (Part-of-Speach Tags).

Será necessário também copiar os ficheiros parser.par, parser.ih e parser.hh da di-rectoria sample para a didi-rectoria PROJECT PATH. Também é necessário indicar no ficheiro parser.par, o correcto caminho dos ficheiros de treino e validação criados pelo script ./prepare data.

• De seguida poder-se-´a treinar este parser executando o comando: ./idp -train PROJECT PATH/parser.par

onde se chama o executável “idp”, com a opção “-train”, indicando o ficheiro de configuração parser.par.

• No passo seguinte é necessário converter o(s) ficheiro(s) de teste (OTHER FILES), que serão analisados (parsing), para o formato CoNLL.ext. Formato esse que não será mais do que um formato CoNLL 2006 com valores numéricos afectos a cada palavra de modo a serem usados pelo parser, no processo de parsing.

O utilizador pode fazer a converção dos ficheiros a analisar logo no in´ıcio da criação da directoria com o script prepare data ou então utilizando o script:

conll2ext PROJECT PATH TRAINING FILE.conll FILE TO CONVERT.conll

(42)

onde:

– PROJECT PATH é a directoria que fora criada com o script prepare data. – TRAINING FILE.conll é o mesmo ficheiro de treino que fora usada na criação

da directoria PROJECT PATH.

– FILE TO CONVERT.conll ser´a o ficheiro que queremos fornecer ao parser. Este ficheiro ser´a convertido para o formato conll.ext, para posteriormente ser analisado.

• De seguida podemos proceder ao parsing utilizando o comando:

./idp -parse PROJECT PATH/parser.par TEST FILE OUT FILE: – PROJECT PATH/parser.par o ficheiro de configurac¸˜ao presente na

directo-ria PROJECT PATH.

– TEST FILE ser´a o ficheiro para analisar convertido para o formato CoNLL.ext no passo anterior.

– OUT FILE é o resultado do parser após parsing do ficheiro TEST FILE. • O próximo passo será o de converter o resultado do parser (já com os arcos de

dependência e respectivas etiquetas semânticas calculadas). Para tal utilizar-se-á o comando:

ext2conll PROJECT PATH test.conll parser res.conll.ext parser res.conll.proj

– PROJECT PATH directoria criada. – parser res.conll.ext o resultado do parser.

– parser res.conll o resultado do parser em formato CoNLL 2006, com projec-tividade.

• Para terminar este ISBN parser vem acompanhado de um avaliador que corre com o seguinte comando:

./eval07.pl -g gold std.conll -s parser res.conll – -g gold std.conll o corpus dourado em formato CoNLL 2006.

– -s parser res.conll o ficheiro analisado e reconvertido para o formato CoNLL 2006.

(43)

2.3.2 Avaliac¸˜ao

Após uma experimentação com este parser e seguindo todas as instruções, não foi poss´ıvel obter resultados com este parser de dependências. Começando pela interface (entenda-se por comandos in(entenda-seridos de modo a correr a ferramenta) esta não é de todo intuitiva, sendo o parser, dentro de estes cinco parsers recolhidos, o mais dif´ıcil de trabalhar. São precisos muitos passos até se conseguir efectuar o parsing, desde criar uma directoria com ficheiros de treino e teste, até desconverter o resultado de parsing (de conll.ext para conll) para serem avaliados. Por outras palavras, certos passos na execução de este parser deveriam ser “fundidos” para facilitar a tarefa ao utilizador. Para além da conversão dos ficheiros de treino e teste em formato CoNLL para um formato CoNLL.ext, é necessário criar ficheiros de validação para o treino desta ferramenta. Como já fora descrito, estes ficheiros de validação deverão conter no m´ınimo dois mil s´ımbolos (tokens), ou seja, frases em formato CoNLL 2006 do ficheiro de treino que perfaça os dois mil tokens. Também se pode colocar o próprio ficheiro de treino como ficheiro de validação, mas isso leva-nos a um treino com uma duração a rondar as cinco horas4_.

O mais importante é que a “robustez” do funcionamento desta ferramenta não parece ser a melhor, pois o ficheiro de teste que será analisado pelo parser não deverá conter etiquetas morfo-sintácticas que não ocorram no ficheiro de treino, pois caso contrário a preparação/conversão (com os scripts ./prepare ou ./convert) não terminará com sucesso. Mesmo corrigindo esta questão são encontrados problemas durante a execução do parser ao efectuar o parsing sobre os ficheiros de teste, não sendo poss´ıvel que se conclua com sucesso o parsing.

2.4 KSDEP / LRDEP

O parser de dependências probabil´ıstico KSDEP [24, 20], é um parser desenvolvido por Kenji Sagae e Jun’ichi Tsujii, das universidades de Tokyo e Manchester, respectivamente. O KS/LR Dep Parser define-se como uma variante do algoritmo de parsing LR, para parsing de dependências, sendo também aplicado um algoritmo de procura “best-first” de modo a ir ao encontro da generalização do parsing probabil´ıstico de dependências.

Um algoritmo de parsing LR, é um parser que lê o input da esquerda para a direita, produzindo um resultado final chamado de “Rightmost derivation”, baseado numa dada gramática. Um LR parser é baseado num algoritmo que tem como base de decisão uma tabela de parsing (parser table), que é uma estrutura de dados que contém informação sintáctica sobre a linguagem, que se encontra a ser parsada. Como tal, o termo LR parser diz respeito a uma classe de parsers que possuem a capacidade de processar quase todas as linguagens, desde que seja fornecida uma tabela de parsing, gerada por um “parser generator”.

(44)

O parsing do algoritmo LR, comparando com outros algoritmos de parsing como por exemplo o LL parsing, consegue manipular um maior número de l´ınguas e consegue também uma melhor descrição sobre erros, ou seja, entre vários erros que possam surgir, o algoritmo LR consegue detectar erros de sintaxe, quando o input não corresponde à gramática, com a maior celeridade poss´ıvel, contrastando com o algoritmo LL que devido ao backtracking, torna a localização do erro de sintaxe, bastante mais dif´ıcil.

Voltando ao KS Dependency Parser, este parser como já fora referido, utiliza uma variante do algoritmo LR, entendida por um algoritmo “best-first”. A variante do LR parser não utiliza uma tabela de parsing para determinar qual o passo a tomar, no processo de parsing. Ao invés, é utilizado um classificador para determinar as acções de mudança e redução, com informação derivada do input. Informação essa que também estaria presente numa tabela de parsing (os ficheiros no topo da pilha, e os restantes itens da string de input). A variante do algoritmo LR que constitui o KS Dependency Parser, funciona com base em duas estruturas de dados: uma pilha S que contém sub-árvores da árvore de dependências final, para um dado input, e uma fila Q que contém as palavras de um dado input. De referir que S é inicializado sem nenhum valor, e Q é inicializado com as palavras do input.

Este algoritmo executa duas acções principais: mudança (shift) e redução (reduce). Quando uma acção de mudança é concretizada, uma palavra é transferida do in´ıcio da fila Q, para o topo da pilha S (representando uma árvore com apenas um nó, a própria palavra). Quando uma acção de redução é efectuada, os dois elementos no topo da pilha S (s1 e s2), são extra´ıdos e um novo item é colocado em S. Este novo item representa o

arco de dependˆencia entre s1e s2e respectiva etiqueta.

O parsing termina quando a fila Q estiver vazia (ou seja, quando todas as palavras tiverem sido processadas), e a pilha S contiver apenas uma árvore (a árvore final de dependências). Se a fila Q estiver vazia, e a pilha S não estiver vazia e não for poss´ıvel realizar mais acções de redução, o parsing termina e o input é rejeitado.

Com este modelo determin´ıstico descrito anteriormente, os autores do KS DEP proce-dem a uma extensão da variante do algoritmo LR acima descrita, tornando o KSDEP um parser probabil´ıstico, por outras palavras, ao invés do classificador retornar uma acção para o parser executar, o classificador retorna uma série de acções a tomar com as corres-pondentes probabilidades, sendo que a probabilidade de uma árvore como resultado de parse, é o produto das probabilidades das acções tomadas aquando a sua derivação.

De modo a encontrar o parse mais provável de acordo com o modelo probabil´ıstico LR, é necessário uma estratégia de “best-first”, que implica uma extensão do algoritmo determin´ıstico descrito anteriormente.

(45)

Tirepresenta um estado do parser que cont´em uma pilha Si, uma fila Qie uma

probabili-dade Pi. Com o algoritmo “best-first”, é criada uma “heap” H que contém vários estados

do parser (T0. . . Tm).

Estes estados estão ordenados em H de acordo com a probabilidade de cada um. H é inicializado de modo a conter um estado T0 que contém: uma pilha S0, uma fila Q0e uma

probabilidade associada P0 = 1.0.

O algoritmo “best-first” entra num ciclo que só termina quando H estiver vazio. A cada iteração é obtido o estado Tcurrent a partir de H. Se Tcurrent corresponde ao estado final

(onde Qcurrent é vazio e Scurrent contém apenas um item), é retornado o item de Scurrent

que consiste na estrutura de Dependencia da frase de input. Se Tcurrentn˜ao corresponder

ao estado final, é obtido uma lista de acções do parser (act0. . . actn) em que cada acção

cont´em uma probabilidade associada (P act0. . . P actn).

Para cada acção actj do parser na lista obtida, é criado um novo estado do parser Tnew

aplicando actj a Tcurrent, ajustando a probabilidade de Tnew(Pnew= Pcurrent∗ P actj).

No final, o estado Tnew ´e inserido em H. Assim que cada novo estado criado a partir

de cada acção do parser, tiver sido inserido em H, o algoritmo avança para a próxima iteração.

Para a conferencia CoNLL 2007, os autores de KS Dependency Parser, treinaram três modelos LR com o KSDEP Parser, em que cada input é analisado usando os três mode-los LR individualmente, obtendo como resultado três estruturas de dependências para um dado input que são depois combinadas para formar a árvore/grafo de dependências final. Esta combinação das estruturas de dependências resultantes dos três modelos LR, é feita através de acordo com o esquema de combinação “maximum-spanning-tree”, onde cada dependência proposta por cada um dos três modelos possui o mesmo peso.

Dos três modelos LR treinados, o primeiro foi treinado com um classificador de entropia máxima para determinar as acções a tomar pelo parser e suas probabilidades, o segundo usou também o classificador baseado em entropia máxima, mas com o parsing realizado de “trás-para-frente”, ou seja, a string de input é invertida antes de se proceder ao parsing, pois observado que o procedimento de combinar vários parsers finais, poderá ser benéfico. O último modelo descrito, foi treinado com o classificador support vector machines. De referir que os autores treinaram este último modelo com o classificador em modo deter-min´ıstico, uma vez que não foi observado melhorias nos resultados finais (taxas de acerto) com o classificador support vector machines em “modo” probabil´ıstico.

A seguinte Tabela representa os resultados obtidos no conferencia CoNLL de 2007, com a combinação dos três modelos LR, para as dez l´ınguas diferentes:

(46)

L´ıngua LAS UAS ´ Arabe 0,7471 0,8404 Basco 0,7464 0,8119 Catalão 0,8816 0,9334 Chinês 0,8469 0,8884 Checo 0,7483 0,8127 Inglês 0,8901 0,8987 Grego 0,7358 0,8351 Húngaro 0,7953 0,8351 Italiano 0,8391 0,8768 Turco 0,7591 0,8272

2.4.1 Execuc¸˜ao

De modo a correr este parser será necessário treiná-lo para um modelo ser criado e usado no parsing de frases em formato CoNLL 2006.

Para se proceder ao treino deste parser, deve-se executar a seguinte linha de comando: ./ksdep -t TRAIN FILE

• -t opc¸˜ao para treinar.

• TRAIN FILE o ficheiro para treinar o parser, em formato CoNLL 2006. J´a o comando para analisar ser´a o seguinte:

./ksdep -m MODEL FILE INPUT FILE • -m opc¸˜ao para carregar um modelo previamente treinado. • MODEL FILE o modelo a ser carregado.

• INPUT FILE o ficheiro a ser analisado, em formato CoNLL 2006.

Também existem outras opções d´ısponiveis a serem usados com o executável ./ksdep: • -i define o parâmetro de regularização (valores inteiros menores que 1.0 poderão

provocar “overfit”)

• -m esta opc¸˜ao a ser usada no treino define o nome do modelo

• -b define a “beam width”. Para efectuar um parsing determin´ıstico basta utilizar o valor 1.

• -it define o número de iterações para o treino. A cada cem iterações é guardado para o disco uma versão do modelo de treino.