Desambiguação automática da flexão verbal em contexto

(1)

Faculdade de Ciˆencias

Departamento de Inform´

atica

Desambigua¸c˜

ao Autom´

atica da Flex˜

ao Verbal em

Contexto

Pedro Lopes Mendes Martins

Mestrado em Engenharia Inform´

atica

(2)

(3)

Faculdade de Ciˆencias

Departamento de Inform´

atica

Desambigua¸c˜

ao Autom´

atica da Flex˜

ao Verbal em

Contexto

Pedro Lopes Mendes Martins

DISSERTAC

¸ ˜

AO

Disserta¸c˜

ao orientada pelo Prof. Dr. Ant´

onio Horta Branco

Mestrado em Engenharia Inform´

atica

(4)

(5)

Pedro Lopes Mendes Martins, aluno no

30101 da Faculdade de Ciências da Uni-versidade de Lisboa, declara ceder os seus direitos de cópia sobre o seu Relatório de Projecto em Engenharia Informática, intitulado ”Desambigua¸cão automática da flexão verbal em contexto”, realizado no ano lectivo de 2007/2008 à Faculdade de Ciências da Universidade de Lisboa para o efeito de arquivo e consulta nas suas bibliotecas e publica¸cão do mesmo em formato electrónico na Internet.

FCUL, 29 de Outubro de 2008

António Horta Branco, supervisor do projecto de Pedro Lopes Mendes Martins, aluno da Faculdade de Ciências da Universidade de Lisboa, declara concordar com a divulga¸cão do Relatório do Projecto em Engenharia Informática, intitulado ”De-sambigua¸cão automática da flexão verbal em contexto”.

(6)

(7)

Este documento descreve o trabalho realizado no âmbito da disciplina de Projecto em Engenharia Informática do Mestrado em Engenharia Informática da Faculdade de Ciências da Universidade de Lisboa.

O trabalho desenvolvido explora novas abordagens para o problema de desam-bigua¸cão da flexão expressa por uma forma verbal em contexto.

Em vez de tentar criar de raiz novos métodos para atacar este problema, podemos olhar para tarefas similares e usar os métodos que costumam ter bons resultados nessas tarefas aplicando-os à tarefa de desambigua¸cão da flexão expressa por uma forma verbal em contexto.

Em trabalho anterior foi usado um método que costuma ter bons resultados numa tarefa similar, etiqueta¸cão automática. Essa abordagem ficou aquém do valor base dado pelo algoritmo de atribui¸cão do valor de flexão mais frequente. Como tal, no presente trabalho exploram-se outros métodos usados num problema que também tem caracter´ısticas similares à desambigua¸cão da flexão expressa por uma forma verbal em contexto, a saber, a desambigua¸cão da acep¸cão de palavra.

Primeiro será explicado o enquadramento em que o trabalho se insere e a mo-tiva¸cão para a sua realiza¸cão (Cap´ıtulo 1).

Em seguida será exposto o problema em pormenor, dando já algumas linhas condutoras quanto às formas de o abordar e resolver (Cap´ıtulo 2).

No Cap´ıtulo 3 vamos rever o que foi feito em trabalhos anteriores quanto a tarefas iguais ou similares assim como os seus resultados.

Finalmente apresentaremos uma descri¸cão detalhada da implementa¸cão da abor-dagem explorada e os resultados obtidos, comparando-os com os anteriores (Cap´ıtulo 4), terminando com um cap´ıtulo final de conclusões (Cap´ıtulo5).

PALAVRAS-CHAVE:

Processamento de linguagem natural, Desambigua¸cão, Flexão verbal, Aprendizagem automática, Lingua portuguesa.

(8)

(9)

This document describes the work undertaken in the scope of the course Projecto de Engenharia Informática, of the post-graduation course Mestrado em Engenharia Informática da Faculdade de Ciências da Universidade de Lisboa.

This document presents the work developed to explore new approaches concern-ing the disambiguation of verbal inﬂection values.

Instead of trying to create new methods, we tried to look at tasks similar to the disambiguation of a verbal inﬂected value and take advantage of the best methods in use for those tasks.

In previous work, some methods known for having good results in a similar task, automatic tagging of text, were used. However these methods lagged behind the baseline method of simply using the most frequent value. So, in order to try to overcome that barrier, we try a diﬀerent approach based on the most promising methods frequently used in other similar task, the methods used in word sense disambiguation.

First, the framework and motivation for the development of this work will be explained in (Chapter 1).

Next, this topic will be detailed by providing some clues on how we can try to solve it (Chapter 2).

In Chapter 3, we will take an overview at previous work for the same task or similar ones.

Finally, we will present a fully detailed description of the implementations for our approaches to the problem, as well as a detailed description of the results and a comparison to previous work (Chapter 4), and we will close this document with a ﬁnal conclusion chapter (Chapter 5).

KEYWORDS:

Natural language processing, Disambiguation, Verbal inﬂection, Machine-Learning, Portuguese Language.

(10)

(11)

Gostaria de agradecer a algumas pessoas que foram importantes para a realiza¸c˜ao deste trabalho.

Agrade¸co ao meu orientador, o Prof. Ant´onio Branco, pela disponibilidade e por todos os conselhos e ensinamentos que me transmitiu.

Aos membros do Grupo NLX, por me terem proporcionado um ambiente de trabalho fant´astico, em especial ao Jo˜ao Silva pela ajuda com o LA

TEX. `

A FCT, pelo ﬁnanciamento atribu´ıdo aos projectos nos quais estive integrado. `

A minha fam´ılia e amigos por me terem apoiado e incentivado quando mais precisei.

Ao Daniel Sousa pelos bons conselhos.

Um agradecimento especial `a Teresa por ter sido sempre o meu porto seguro.

(12)

(13)

(14)

(15)

´Indice

Lista de Figuras xii

Lista de Tabelas xiv

1 Introdu¸c˜ao 1

1.1 Enquadramento . . . 1

1.2 Motiva¸c˜ao . . . 1

1.3 Objectivos . . . 2

1.4 Organiza¸c˜ao do documento . . . 2

2 Flexão e desambigua¸cão verbal 3 2.1 Flexão verbal . . . 3

2.2 Conjuga¸c˜ao e lematiza¸c˜ao . . . 5

2.2.1 LX-Conj e LX-Lem . . . 5

2.2.2 Outras ferramentas . . . 6

2.3 Desambigua¸c˜ao verbal em contexto . . . 7

2.4 Desambigua¸c˜ao verbal como tarefa de etiqueta¸c˜ao . . . 8

2.4.1 Tarefa de etiqueta¸c˜ao morfossint´actica . . . 8

2.4.2 Abordagens populares . . . 9

2.5 Desambigua¸cão verbal como tarefa de desambigua¸cão da acep¸cão de palavra . . . 10

2.5.1 Tarefa de desambigua¸c˜ao da acep¸c˜ao de palavra . . . 11

2.5.2 Abordagens populares . . . 11

3 Estado-da-arte 13 3.1 Avalia¸c˜ao e conjunto de dados . . . 13

3.1.1 Caracteriza¸c˜ao do corpus . . . 14

3.1.2 Medidas de avalia¸c˜ao . . . 17

3.2 Heur´ıstica de m´axima verosimilhan¸ca . . . 17

3.3 Modelos de Markov escondidos . . . 19

3.4 Trabalhos relacionados . . . 20

(16)

4 Desambigua¸c˜ao de flex˜ao verbal: uma abordagem DAP 22

4.1 Aplica¸c˜ao do classiﬁcador Naive Bayes . . . 22

4.2 Aplica¸cão do classificador SVM . . . 25 4.3 Pré-processamento . . . 26 4.3.1 O formato .arff . . . 28 4.3.2 O formato .dat . . . 34 4.3.3 Aglomerados . . . 35 4.3.4 Cl´ıticos . . . 37

4.3.5 Classes aberts vs. Classes fechadas . . . 39

4.3.6 Implementa¸c˜ao . . . 40

4.4 Conjuntos de dados . . . 40

4.5 Avalia¸c˜ao . . . 42

4.5.1 Abordagens exploradas . . . 42

4.5.2 Estudo do espa¸co de resultados . . . 64

4.5.3 Compara¸c˜ao com trabalhos anteriores . . . 69

5 Conclus˜ao e trabalho futuro 72

Acr´onimos 74

´Indice remissivo 74

Bibliografia 75

(17)

(18)

Lista de Figuras

3.1 Número de ocorrências de formas verbais por grau de ambiguidade. . 16 3.2 Propor¸cão de ocorrências no corpus de formas verbais lexicalmente

amb´ıguas por tipo de ambiguidade. . . 17 3.3 Modelo de Markov Escondido - representa¸c˜ao temporal. Extra´ıda da

Wikipedia . . . 19

4.1 Discriminante linear. Extra´ıda de (Agirre e Edmonds, 2006). . . 26 4.2 Discriminante linear com margem de erro. Extra´ıda de (Agirre e

Edmonds, 2006). . . 26 4.3 Precisão média por número de instâncias de treino nos modelos, só

para instâncias amb´ıguas. . . 65 4.4 Precisão média por número de instâncias de treino nos modelos, com

curva suavizada através de interpola¸cão, só para instâncias amb´ıguas. 66 4.5 Desvio de padrão por número de instâncias de treino nos

mode-los, com curva suavizada através de interpola¸cão, só para instâncias amb´ıguas. . . 67 4.6 Precisão média acumulada à medida que aumenta o número de instâncias

de treino, só para instâncias amb´ıguas. . . 68 4.7 Número de modelos por número de instâncias de treino no modelo. . 69

(19)

(20)

Lista de Tabelas

2.1 Todas as combina¸cões de flexão para formas verbais simples . . . 4 2.2 Modo e tempos verbais dos verbos auxiliares e o seu correspondente

verbo composto. . . 5

4.1 Tabela com valores de desempenho para contexto de t´opicos usando toda as instˆancias. . . 62 4.2 Tabela com valores de desempenho para contexto local usando todas

as instˆancias. . . 62 4.3 Tabela com valores de desempenho para contexto de t´opicos mais

contexto local para todas as instˆancias. . . 63 4.4 Algoritmos A e B de (Nunes, 2007) e Algoritmo A+A+L. Valores nas

condi¸cões de avalia¸cão do presente trabalho usando todas as instâncias. 63 4.5 Tabela com valores de desempenho para contexto de tópicos, apenas

instˆancias amb´ıguas. . . 63 4.6 Tabela com valores de desempenho para contexto local, apenas instˆancias

amb´ıguas. . . 64 4.7 Tabela com valores de desempenho para contexto de t´opicos mais

contexto local, apenas instˆancias amb´ıguas. . . 64 4.8 Algoritmos A e B de (Nunes, 2007) e Algoritmo A+A+L. Valores

nas condi¸cões de avalia¸cão do presente trabalho, apenas instâncias amb´ıguas. . . 64

(21)

(22)

Cap´ıtulo 1

Introdu¸c˜

ao

Ao ler um texto em l´ıngua portuguesa deparamo-nos várias vezes com situa¸cões em que precisamos de desambiguar formas verbais, quando estas são amb´ıguas. No entanto se virmos escrita, ou nos pronunciarem, uma forma verbal amb´ıgua totalmente desprovida de contexto, não somos capazes de, dentro das várias poss´ıveis flexões que a forma pode expressar, escolher a correcta.

Por outro lado, se tivermos contexto, somos capazes de decidir que ﬂex˜ao expressa uma forma verbal com relativa facilidade.

Nos próximos pontos vamos explicar porque nos interessa abordar esta tarefa de desambigua¸cão da flexão verbal.

1.1 Enquadramento

Este projecto foi realizado no âmbito da disciplina de Projecto em Engenharia In-formática do Mestrado em Engenharia InIn-formática da Faculdade de Ciências da Universidade de Lisboa.

O tema enquadra-se no trabalho desenvolvido no grupo de investiga¸c˜ao NLX.1

Neste grupo foram desenvolvidas várias ferramentas para a etiqueta¸cão morfos-sintáctica automática de texto. A etiqueta¸cão de formas verbais encontradas num texto, com os seus tra¸cos e lemas, é um dos desafios dessa tarefa. Para algumas for-mas verbais, essa etiqueta¸cão inclui escolher os tra¸cos e lefor-mas expressos na ocorrência em causa, ou seja desambiguar a acep¸cão flexional da forma verbal.

1.2 Motiva¸c˜

ao

Em trabalho anterior (Nunes, 2007), este tema foi abordado de duas maneiras, uma abordagem baseada na ocorrência mais frequente de flexão para uma forma verbal (os valores obtidos por este método são tidos como o valor base de compara¸cão), e

1

http://nlx.di.fc.ul.pt/

(23)

outra abordagem baseada num método usado em tarefas de etiqueta¸cão automática. No entanto, apesar de mais sofisticado, esse método não ficou aquém do valor base de compara¸cão.

Tendo isto em conta, vem à ideia que talvez com outro tipo de abordagens se consiga obter valores acima do valor base de compara¸cão, nomeadamente com as abordagens usadas noutro problema similar, a desambigua¸cão da acep¸cão de palavra.

1.3 Objectivos

O objectivo deste trabalho é procurar um método de desambiguar as formas verbais com melhor desempenho que os conhecidos até agora. Isto será feito através de métodos ainda não explorados para este problema espec´ıfico, mas com os melhores resultados num problema similar, a desambigua¸cão da acep¸cão de palavra.

1.4 Organiza¸c˜

ao do documento

Este documento est´a organizado da seguinte forma:

• Cap´ıtulo 2 - Apresenta uma descri¸cão detalhada do tema da flexão verbal e respectiva desambigua¸cão, bem como poss´ıveis abordagens ao problema.

• Cap´ıtulo 3 - Relata o trabalho previamente realizado para problemas iguais ou semelhantes a este, com os quais podemos comparar este trabalho.

• Cap´ıtulo 4 - Apresenta a implementa¸cão e avalia¸cão das experiências levadas a efeito.

• Cap´ıtulo 5 - Apresenta as conclus˜oes tiradas do trabalho realizado e poss´ıvel trabalho futuro em rela¸c˜ao a este tema.

(24)

Cap´ıtulo 2

Flex˜

ao e desambigua¸c˜

ao verbal

2.1 Flex˜

ao verbal

De acordo com a descri¸cão em (Bergström e Reis, 2004), “A flexão é a varia¸cão de uma palavra que permite exprimir através de certos elementos categorias gramati-cais.” A flexão pode ser nominal ou verbal. Não cabendo ser exaustivo aqui vamos apenas abordar a parte a que esta tese diz respeito, a flexão verbal.

Consultando de novo (Bergström e Reis, 2004), tem-se que “Um verbo é uma palavra de forma variável que exprime o que se passa, isto é, um acontecimento representado no tempo.”

Ao flexionar, um verbo pode alterar a sua forma para expressar diferentes val-ores dos tra¸cos de número, pessoa, modo, tempo e aspecto. Os partic´ıpios têm caracter´ısticas de verbo e de adjectivo, flexionando em género e número. Vou ap-resentar em promenor apenas os caracter´ısticas que são usadas na etiqueta¸cão do CINTIL.1

A categoria n´umero tem como valores singular e plural. Singular quando tipi-camente se refere a uma s´o entidade e, plural, quando tipitipi-camente se refere a mais do que uma entidade.

A categoria pessoa está relacionada com a pessoa gramatical da expressão que serve de sujeito ao verbo. Existem três valores poss´ıveis dentro desta categoria: 1a

pessoa, 2a _{pessoa e 3}a _{pessoa. Estes podem variar conforme o n´}_{umero, dando origem}

a seis valores poss´ıveis. Assim temos, por exemplo, em termos de pronomes pessoais: para a 1a _{pessoa o eu (singular) e n´os (plural); para a 2}a _{pessoa o tu (singular) e o}

v´os (plural); e ﬁnalmente para a 3a _{pessoa o ele/ela (singular) e eles/elas (plural).}

Tamb´em nesta categoria pode entrar a 2a _{pessoa de cortesia, que em termos de}

pronomes pessoais se pode realizar através de você/vocês.

A categoria modo tem por valores indicativo, conjuntivo e imperativo. Este ´

ultimo pode dividir-se em afirmativo e negativo (Cunha e Cintra, 1986, page 378).

1

O corpus descrito na sec¸c˜ao 3.1.1.

(25)

Modo Tempo Pessoa/Número Género/Número Polaridade Indicativo presente

pretérito perfeito pretérito mais-que-perfeito pretérito imperfeito

futuro do presente futuro do pret´erito

1a , 2a e 3a singular 2a de cortesia singular 1a , 2a e 3a plural 2a de cortesia plural N/A N/A Conjuntivo presente pret´erito imperfeito

futuro do presente 1a , 2a e 3a singular 2a de cortesia singular 1a , 2a e 3a plural 2a de cortesia plural N/A N/A Imperativo N/A 1a , 2a e 3a singular 2a de cortesia singular 1a , 2a e 3a plural 2a de cortesia plural N/A Afirmativa Negativa Infinitivo N/A 1a , 2a e 3a singular 2a de cortesia singular 1a , 2a e 3a plural 2a de cortesia plural N/A N/A

Partic´ıpio N/A N/A masculino

singular feminino singular

masculino plural feminino plural

N/A

Ger´undio N/A N/A N/A N/A

Tabela 2.1: Todas as combina¸cões de flexão para formas verbais simples

Segundo alguns autores, estes valores podem indicar a atitude da pessoa que fala em rela¸cão ao facto que enuncia. Também nesta categoria, e para manter a coerência com trabalho anterior em que o presente projecto se insere, vamos considerar as formas nominais do verbo: infinitivo, que pode ser pessoal (flexionado) ou impessoal (não flexionado), gerúndio e partic´ıpio.

A categoria tempo contribui para indicar o momento em que ocorre a situa¸cão expressa pelo verbo. Para esta categoria, existem três valores principais presente, pretérito - que se pode dividir em pretérito perfeito, pretérito-mais-que-perfeito e pretérito imperfeito - e futuro - que se pode dividir em futuro do presente e futuro do pretérito ou condicional.

Cada valor de modo pode ser conjugado com diferentes combina¸c˜oes de valores de tempo.

Podemos assim ver o leque de possibilidades que a flexão verbal permite. Nem to-das as combina¸cões são poss´ıveis. Na tabela 2.1 podemos ver a lista de combina¸cões poss´ıveis para as formas verbais simples do português.

Aos elementos deste conjunto de possibilidades passaremos, daqui em diante, a chamar tra¸cos ﬂexionais, ou simplesmente tra¸cos.

Quanto às formas verbais compostas, os seus tra¸cos são obtidos injectivamente através das formas simples usando a tabela 2.2.

(26)

Cap´ıtulo 2. Flex˜ao e desambigua¸c˜ao verbal 5

Verbo auxilar Tempo composto

indicativo, presente indicativo, pretérito perfeito composto indicativo, pretérito imperfeito indicativo, pretérito mais-que-perfeito composto indicativo, pretérito mais-que-perfeito indicativo, pretérito mais-que-perfeito anterior

indicativo, futuro presentei indicativo, futuro do presente composto indicativo, futuro pret´erito indicativo, futuro do pret´erito composto

conjuntivo, presente conjuntivo, pretérito perfeito conjuntivo, pretérito imperfeito conjuntivo, pretérito mais-que-perfeito

conjuntivo, futuro conjuntivo, futuro composto infinitivo pessoal infinitivo pessoal pret´erito infinitivo impessoal infinitivo impessoal pret´erito

gerúndio gerúndio pretérito

Tabela 2.2: Modo e tempos verbais dos verbos auxiliares e o seu correspondente verbo composto.

2.2 Conjuga¸c˜

ao e lematiza¸c˜

ao

Por conven¸cão, assume-se que o lema de um verbo é a sua forma infinitiva não flexionada.

Como vimos na seçcão anterior, o lema de um verbo apresenta um conjunto de possibilidades de flexão bastante elevado. Ao processo que leva o lema mais os tra¸cos de flexão a uma forma flexionada que exprime esses tra¸cos para esse lema chama-se de conjuga¸cão.

Ao processo inverso que leva de uma forma ﬂexionada ao seu lema chama-se de lematiza¸c˜ao.

A conjuga¸cão não é uma fun¸cão injectiva do conjunto dos tra¸cos para o conjunto das formas flexionadas. Por exemplo, se conjugarmos o verbo ser na 1a _{pessoa do}

Pret´erito Imperfeito e na 3a_{pessoa do mesmo tempo verbal obtemos a mesma forma}

era. Contudo, este processo não deixa de ser uma fun¸cão ao passo que a lematiza¸cão não é uma fun¸cão. Neste último, para uma dada forma verbal isolada de qualquer conteúdo de ocorrência pode não ser possivel determinar um único tra¸co de flexão e/ou lema.

Tomando o exemplo anterior, se quisermos lematizar a forma verbal era, temos duas possibilidades de tra¸cos como resultado. Neste caso h´a ambiguidade quanto aos tra¸cos. Por outro lado, por exemplo, a forma fui pode lematizar para o lema ser ou ir. Aqui h´a ambiguidade quanto ao lema.

´

E a necessidade de se determinar lema e tra¸cos associados à ocorrência de qualquer forma verbal em contexto que move este projecto. Como determinar a verdadeira acep¸cão flexional para cada forma verbal especialmente quando esta é amb´ıgua?

2.2.1 LX-Conj e LX-Lem

No grupo de investiga¸c˜ao onde o presente trabalho se insere (NLX), foram desen-volvidas ferramentas para lidar com os processos descritos anteriormente. Assim

(27)

temos o LX-Conj2

para lidar com a conjuga¸c˜ao e o LX-Lem3

para lidar com o pro-cesso de lematiza¸cão. É de salientar que o processo de lematiza¸cão engloba não só reduzir a forma ao seu lema ou lemas, mas também determinar a informa¸cão acerca dos tra¸cos que levam esses lemas à forma em questão.

O LX-Lem não faz desambigua¸cão. Ao invés, dá todas as possibilidades de lema/tra¸cos para a forma verbal introduzida.

Incorporado num conjunto de ferramentas denominado LX-Suite,4

que anota au-tomaticamente texto, existe um módulo que atribui um lema e os tra¸cos verbais a uma forma verbal que ocorra num texto, sendo que esta informa¸cão faz parte da an-ota¸cão do LX-Suite. Este módulo realiza a tarefa de desambigua¸cão utilizando uma heur´ıstica de máxima verosimilhan¸ca,5

em conjunto com o LX-Lem, que consegue resultados surpreendentemente bons dada a sua simplicidade.

Por sua vez, o LX-Conj permite obter a forma do verbo relevante. Isto é, a partir do lema e dos tra¸cos dados, permite obter a instância flexionada correspondente.

Estas ferramentas, são potencialmente úteis para o problema a ser abordado nesta disserta¸cão. Vamos ver mais à frente como se podem articular para ajudar a abordá-lo.

2.2.2 Outras ferramentas

Para al´em destas ferramentas desenvolvidas no grupo NLX, existem outras ferra-mentas que desempenham o mesmo papel ou parecido.

Para a conjuga¸cão verbal, existem bastantes ferramentas para o português: Conjuga-me,6 PRIBERAM,7 MorDebe,8 INSITE,9 Conjugue10 Porém, ao contrário do LX-Conj, não permitem conjugar com cl´ıticos, não apresentam as formas compostas nem são de input aberto, ou seja, não permitem conjugar neologismos ou palavras desconhecidas do léxico do sistema.

CONVER,11

Conjugador da Universidade Federal de Pernambuco, Recife12

e Lin-gua::PT,13

também não permitem conjuga¸cão com cl´ıticos nem apresentam formas compostas mas gera as formas para neologismos.

2 http://lxconj.di.fc.ul.pt 3 http://lxlem.di.fc.ul.pt 4 http://lxsuite.di.fc.ul.pt 5 Ver o ponto 3.3 6 http://www.conjuga-me.net/ 7 http://www.priberam.pt/dlpo/ajuda/ajuda conjugacaoverbos.aspx 8 http://www.iltec.pt/mordebe/ 9 http://linguistica.insite.com.br/cgi-bin/conjugue 10 http://www.fpepito.org/utils/conjugue.php 11 http://www.inf.ufrgs.br/ emiliano/conver/ 12 http://www.cin.ufpe.br/ tradutor/conjugad.htm 13

(28)

Tanto quanto nos foi poss´ıvel apurar, s´o existem estes conjugadores para o Por-tuguˆes.

Também não foram encontrados lematizadores automáticos para o Português, além do LX-Lem.

As ferramentas que dispomos para apoiar a nossa tarefa, quer para a conjuga¸cão quer para a lematiza¸cão (sem desambigua¸cão), são pois estado-da-arte.

2.3 Desambigua¸c˜

ao verbal em contexto

Antes demais, apresentamos aqui os três tipos de ambiguidade poss´ıveis para a flexão verbal.

Primeiro temos a ambiguidade de lema:

consumo -> consumir -> consumar

Temos tamb´em ambiguidade de tra¸cos:

deram -> Pret´erito Perfeito do indicativo, 3a

pessoa, plural -> Pret´erito mais-que-perfeito do indicativo, 3a

pessoa, plural

E por ´ultimo a ambiguidade de tra¸cos e lema:

virei -> vir, Futuro do indicativo, 1a

pessoa, singular -> virar, Pret´erito Perfeito do indicativo, 1a

pessoa, singular

Como foi dito anteriormente, para uma dada forma verbal, o LX-Lem devolve os seus lemas e tra¸cos poss´ıveis. Mas como tem apenas acesso à forma verbal isolada de qualquer contexto de ocorrência, não consegue fazer qualquer inferência para a desambiguar, ou seja, para decidir qual dos lemas/tra¸cos deve ser retido. Nem os seres humanos conseguiriam fazê-lo!

Para o conseguirmos fazer, precisamos de contexto. No contexto estão as pistas que nos levam a perceber se uma forma verbal instancia este ou aquele lema, e expressa estes ou aqueles tra¸cos. Por exemplo, tomando a forma for só por si, não se consegue dizer se esta pertence ao verbo ir ou ao verbo ser, nem se está na 1a

pessoa ou na 3a _{pessoa do singular no futuro do conjuntivo. Mas se nos derem a}

frase “Se ele for ao jogo.”, sabemos que a forma verbal for representa a 3a _pessoa

do singular do futuro do conjuntivo do verbo ir.

Para um ser humano, fazer esta desambigua¸cão é fácil, mas como desenvolver uma aplica¸cão que consiga fazer esta tarefa, de preferência com os mesmos n´ıveis de acerto?

(29)

Talvez com inúmeras regras de co-ocorrência que explorem informa¸cão lingu´ıstica associada automaticamente às palavras em redor seja poss´ıvel avan¸car. No entanto, isso parece uma tarefa de grande magnitude e, se conseguirmos avan¸car na resolu¸cão do problema com menos esfor¸co e resultados de qualidade equiparável, seria útil explorar esta última via.

Uma abordagem bastante explorado noutros problemas semelhantes baseia-se nos métodos estat´ısticos e/ou de aprendizagem automática. Será que através de vários exemplos de treino se consegue extrair/simular/emular os resultados a obter com as tais regras com os métodos estatisticos, de maneira que a percentagem de erro seja m´ınima e aceitável?

Nas próximas seçcões vamos debru¸car-nos sobre estas abordagens com métodos estat´ısticos.

2.4 Desambigua¸c˜

ao verbal como tarefa de etiqueta¸c˜

ao

Uma poss´ıvel abordagem ao problema da desambigua¸cão verbal em contexto é en-cará-lo como uma tarefa de etiqueta¸cão. Vamos primeiro descrever o que é uma tarefa de etiqueta¸cão e depois apresentar algumas abordagens populares, para a resolu¸cão deste problema.

2.4.1 Tarefa de etiqueta¸c˜

ao morfossint´

actica

Etiqueta¸cão morfossintática é uma tarefa que consiste em atribuir etiquetas com a categoria morfossintáctica a cada ocorrência de um lexema em contexto. Por exemplo, para se decidir qual a etiqueta de classe gramatical que se vai atribuir a um dado lexema num dado contexto, vejamos um exemplo concreto: Na frase Eu como o bolo a palavra Eu seria etiquetada como um pronome pessoal, como seria etiquetado como um verbo, o como um artigo e bolo como um nome comum.

Mas este processo também não escapa a ter de lidar com a ambiguidade e no exemplo: Não há nada como o mar a forma como seria agora etiquetada como um advérbio. Por exemplo:

Eu/PRS#gs1 como/V o/DA#ms bolo/BOLO/CN#ms .*//PNT

N~ao/ADV h´a/V nada/IND#ms como/ADV o/DA#ms mar/MAR/CN#ms .*//PNT

Para mais informa¸c˜oes sobre este tema, veja-se (Silva, 2007).

No nosso caso, a etiqueta a ser atribuida a um dado lexema (previamente eti-quetado como verbo) seria o conjunto formado pelo lema e pelos tra¸cos verbais. Por exemplo:

(30)

Ou seja, seria uma segunda camada de etiqueta¸cão. Há pois a possibilidade de os métodos usados na etiqueta¸cão poderem dar bons resultados também para o nosso problema.

A grande diferen¸ca para o nosso problema é que na etiqueta¸cão morfossintáctica o número de etiquetas é bastante menor que o conjunto de tra¸cos/lema dos verbos para o português. Assim, para o nosso problema seria preciso uma quantidade bastante maior de dados de treino para cobrir o leque de possibilidades de modo a obter um bom classificador do que para um etiquetador da classe gramatical, por exemplo. Para além disso, as classes gramaticais formam um conjunto fechado, ao passo que se admitirmos neologismos,14

o conjunto de etiquetas (lema/tra¸cos), pela parte do lema, ´e potencialmente inﬁnito.15

2.4.2 Abordagens populares

As técnicas de aprendizagem automática baseiam-se em algoritmos que permitam ao computador “aprender” através de extra¸cão automática de dados, por métodos computacionais e estat´ısticos.

A aprendizagem pode ser supervisionada ou n˜ao supervisionada.

Os m´etodos supervisionados requerem um corpus etiquetado, ou revisto manual-mente, para que haja informa¸c˜ao para suportar o funcionamento do algoritmo.

Os métodos não supervisionados não requerem um corpus etiquetado, no entanto revelam resultados inferiores aos métodos supervisionados.

A ideia ´e o computador saber atribuir a etiqueta baseado no que econtrou antes, e na quantidade de dados com a qual foi “treinado”. Assim, usando o exemplo do ponto anterior, em Eu como o bolo o lexema como ser´a etiquetado como verbo se nos dados com que o computador foi treinado esse lexema apareceu como verbo num contexto parecido,16

ie. com alguma palavra Eu, o, bolo, ou com palavras diferentes mas com as mesmas categorias gramaticais, se as estivermos a tomar em considera¸c˜ao.

Os programas de etiqueta¸cão automática, como por exemplo, TnT (Brants, 2000) que se baseia em modelos de Markov escondidos usando trigramas para etiquetar os lexemas, ou MXPOST (Ratnaparkhi, 1996) que usa um modelo de máxima en-tropia, atribuem sempre etiquetas, mesmo quando o lexema não ocorreu no corpus de treino. Se o número de classes for fechado e relativamente pequeno como no caso

14

todas as ferramentas no NLX s˜ao abertas a novas palavras

15

com as limita¸c˜oes de tamanho razo´aveis pelo senso comum e regras gramaticais

16

com um dado factor de semelhan¸ca superior `as outras etiquetas que ocorreram para como no treino

(31)

de etiqueta¸cão da classe gramatical, sabe-se à partida que a etiqueta está no con-junto de etiquetas recolhidas no treino17

e com o contexto pode ainda ser poss´ıvel acertar na etiqueta correcta.

No entanto, para o nosso caso, isso pode não acontecer. Por exemplo, se a palavra comunico ou qualquer forma do verbo comunicar não ocorreu no corpus de treino, não é possivel, com estes etiquetadores, saber que o lema desta palavra é comunicar. Existe no entanto um lematizador (Chrupa la, 2006) que funciona como uma tarefa de etiqueta¸cão que usa um método para contornar este problema baseado no conceito de shortest edit script. Esse método consiste em aprender que certas termina¸cões lematizam para uma termina¸cão, isto é, no exemplo anterior comunico lematizaria para comunicar18

se houvesse outras palavras com a termina¸cão em ico, que tivessem ocorrido no treino, a lematizar com a termina¸cão icar. No entanto esta ferramenta não se aplica ao nosso problema que requer lematiza¸cão verbal19

e tra¸camento verbal.20

Talvez pudéssemos adaptar esta abordagem para também atribuir os tra¸cos, con-catenando os tra¸cos ao lema no corpus de treino, mas isso seria aumentar o número de classes a atribuir e, consequentemente, seria preciso um corpus de treino maior para cobrir mais exemplos de cada classe, conseguindo assim obter resultados pelo menos tão bons quanto os resultados sem os tra¸cos. Claro que isto pode depender de muitos outros factores, como a composi¸cão do corpus, e como tal não é linear uma aprecia¸cão a priori ajustada.

Como vamos ver no Cap´ıtulo 3, em (Nunes, 2007) foi usada uma abordagem baseada na etiqueta¸cão automática usando a ferramenta TnT, não conseguindo no entanto passar o valor base de compara¸cão, para além de não se adequar a parte da tarefa, nomeadamente a lematiza¸cão, o que nos leva a querer experimentar outro tipo de abordagens.

2.5 Desambigua¸c˜

ao verbal como tarefa de

desam-bigua¸c˜

ao da acep¸c˜

ao de palavra

Também podemos encarar o problema de desambigua¸cão verbal em contexto como uma tarefa de desambigua¸cão da acep¸cão de palavra (word sense disambiguation). Esta tarefa consiste em decidir, de entre um leque de acep¸cões poss´ıveis para uma palavra, qual a acep¸cão expressa no contexto em que a palavra está a ocorrer. Vamos descrever a tarefa de desambigua¸cão da acep¸cão de palavra com mais pormenor e depois falar de algumas maneiras de atacar o problema.

17

Dado um conjunto de treino razoavelmente grande

18

De notar que se trata apenas de um exemplo hipot´etico.

19

Isto poderia n˜ao ser um problema se houvesse um filtro para funcionar apenas para os verbos

20

(32)

2.5.1 Tarefa de desambigua¸c˜

ao da acep¸c˜

ao de palavra

A mesma palavra pode ter diferentes significados em diferentes contextos. Vamos considerar o exemplo de bateria. Esta palavra pode significar um instrumento mu-sical, um artefacto de guerra, ou uma pilha eléctrica. A tarefa de desambigua¸cão de acep¸cão de palavra consiste em decidir segundo o contexto, qual dos significados é expresso pelo lexema.

Também esta tarefa se assemelha ao nosso problema. Podemos encarar a sequência de lema e tra¸cos verbais como “a acep¸cão da palavra” relativa à ocorrência de um verbo num dado contexto.

Na desambigua¸cão da acep¸cão de palavra, o conjunto de classes que se pode atribuir não é fechado, tal como no nosso caso. Uma palavra pode ter inúmeros significados. Embora se saiba pelas entradas no dicionário qual o número máximo de significados de cada uma das palavras, esse número não é inalterável pois novos significados e novas palavras podem surgir.

2.5.2 Abordagens populares

A tarefa de desambigua¸cão da acep¸cão de palavra tem aspectos comuns com a tarefa de etiqueta¸cão. A diferen¸ca reside nas regras a combinar com os métodos usados para os adaptar ao problema. Por exemplo, no problema de etiqueta¸cão podem-se juntar regras que eliminem à partida algumas combina¸cões de sequências de classes gramaticais que não são poss´ıveis, ou no problema de desambigua¸cão da acep¸cão de palavra uma consulta a uma ontologia, como a WordNet,21

pode permitir relacionar as palavras do contexto e a palavra a ser desambiguada com uma medida de “distância semântica” entre os nós das entradas correspondentes ás palavras na ontologia.

Tal como na tarefa de etiqueta¸cão, os métodos com melhores resultados são os métodos supervisionados de aprendizagem automática. De entre estes sobressaem alguns algoritmos que costumam ter os melhores desempenhos para a desambigua¸cão de acep¸cão de palavra (Agirre e Edmonds, 2006).

O classiﬁcador Na¨ıve Bayes baseia-se no Teorema de Bayes assumindo in-dependˆencia entre os atributos.22

O Teorema de Bayes consiste em relacionar a probabilidade condicional e marginal de dois eventos aleatórios. Supondo dois eventos A e B, a rela¸cão é expressa pela fórmula

P (A|B) = P (B |A)P (A) P (B )

21

http://wordnet.princeton.edu/

22

(33)

onde P(A) é a probabilidade marginal de A, sem conhecimento prévio de B. P(A|B ) é a probabilidade condicional de A dado o evento B. P(B |A) é a probabili-dade de B dado A. P(B ) é a probabiliprobabili-dade marginal de B e funciona como constante de normaliza¸cão.

O classificador dos k -vizinhos mais próximos consiste em guardar exemplos de treino, depois os novos exemplos são classificados de acordo com os k -vizinhos mais próximos segundo uma métrica de distância préviamente escolhida, tipicamente a distancia de Hamming.

O classificador Listas de Decisão consiste em criar regras do tipo (condi¸cão, classe, peso). Os exemplos de treino servem para definir o peso de se classificar um novo exemplo dada a ocorrência de uma certa condi¸cão. A lista é ordenada por ordem decrescente dos pesos. Para classificar novos exemplos, a lista é percorrida até se encontrar o peso mais alto que coincide com o novo exemplo.

Outro classificador é o AdaBoost, que consiste em combinar classificadores mais fracos, moderadamente precisos, para se obter um classificador com alta precisão.

O algoritmo de Support Vector Machines (SVM) baseia-se no princ´ıpio de Minimiza¸cão do Risco Estrutural da teoria de aprendizagem estat´ıstica (Vapnik, 1998). De uma forma geral os algoritmos de SVM aprendem uma discriminante lin-ear que separa os exemplos negativos dos exemplos positivos com margem máxima. Segundo (Agirre e Edmonds, 2006), o algoritmo SVM é o que tem melhores resultados, sendo que o AdaBoost melhora quando o número de exemplos por classe aumenta, embora a diferen¸ca não aumente significativamente. Todos os algoritmos estudados neste livro são executados sobre as mesmas condi¸cões de teste.

Segundo Pederson e Mihalcea (2005), que analisa vários testes feitos em diversos trabalhos, indica por sua vez que em geral o Na¨ıve Bayes obtém melhores resultados ou ao n´ıvel do estado da arte. O mesmo é testado por vários autores como é dito em (Pederson e Mihalcea, 2005, página 90).

Assim, dado que a abordagem ao problema que nos interessa como tarefa de etiqueta¸cão já foi explorada sem se conseguir ultrapassar os resultados do valor base de compara¸cão,23

para além de não abranger a totalidade do problema, vamos apostar em explorar uma abordagem de tipo desambigua¸cão da acep¸cão da palavra, focando os algoritmos que em princ´ıpio terão melhores resultados, Na¨ıve Bayes e SVM.

23

Abordagem explicada no ponto ponto 3.2. Algoritmo de máxima verosimilhan¸ca é tido como a base de compara¸cão do problema.

(34)

Cap´ıtulo 3

Estado-da-arte

Neste cap´ıtulo vou descrever os resultados que foram alcan¸cados até agora no que diz respeito à tarefa de desambigua¸cão de flexão verbal em contexto e que se encontram publicados na literatura relevante.

Vou come¸car por descrever como costuma ser feita a avalia¸cão neste tipo de prob-lemas e apresentar a caracteriza¸cão do léxico, depois apresentarei a caracteriza¸cão do corpus usado na avalia¸cão, o que dará uma ideia de como a ambiguidade do léxico se traduz num exemplo concreto.

Em seguida apresentarei algoritmos já explorados para este problema ou proble-mas semelhantes, come¸cando pelo algoritmo que define o valor base (Heur´ıstica de máxima verosimilhan¸ca) passando depois a outros.

3.1 Avalia¸c˜

ao e conjunto de dados

Para se aplicar métodos estat´ısticos, torna-se necessário um conjunto de dados de treino, conhecido como corpus de treino. Este corpus pode encontrar-se anotado com etiquetas que veiculam informa¸cão lingu´ıstica associada às expressões que ocor-rem no texto (suportando aprendizagem automática supervisionada) ou não anotado (suportando aprendizagem automática não supervisionada). Tipicamente, a dizagem supervisionada leva a resultados superiores aos que se obtêm com apren-dizagem não supervisionada, quer se encare a desambigua¸cão verbal como uma tarefa de etiqueta¸cão (Silva, 2007, página 51), quer como uma tarefa de desambigua¸cão da acep¸cão de palavra (Agirre e Edmonds, 2006, página 14). Visto que dispomos de um corpus etiquetado1

vamos focar este trabalho em métodos supervisionados. O conjunto de dados de treino serve para o computador “aprender” a tarefa. Através do processamento dos exemplos no corpus de treino, são estimados parâmetros estat´ısticos relevantes que o computador usa para procurar classificar novos casos apresentados. Para se avaliar o desempenho deste procedimento de decisão

au-1

O corpus descrito no ponto 3.1.1

(35)

tomática, é preciso determinar se a classifica¸cão está correcta ou não. Isto pode ser conseguido se tivermos exemplos para testar que, em ocasião prévia, tenham sido correctamente anotados manualmente. Assim podemos comparar a anota¸cão correcta com a anota¸cão automática produzida pelo algoritmo de classifica¸cão.

Por conseguinte, é comum dividir-se o conjunto de dados anotados em corpus de treino e corpus de teste, usando-se maior quantidade de dados para o corpus de treino. Assim podemos obter uma medida de quão boa é a classifica¸cão automática. Em todos os resultados obtidos por mim ou obtidos previamente coloca-se a questão de o conjunto de dados utilizado ser ou não apropriado para a execu¸cão da tarefa e em que medida a existência de diferentes corpora para dom´ınios espec´ıficos poderia ajudar ou não esta tarefa.

Para o nosso caso, se todo o texto for, por exemplo, um discurso na primeira pessoa, dificilmente vamos conseguir classificar novos exemplos com boa taxa de acerto noutras pessoas verbais. No entanto, e aqui podem surgir resultados de avalia¸cão enganadores, se os exemplos de teste vêm do mesmo corpus vamos ter medidas de desempenho elevadas, apesar desse poss´ıvel enviesamento.

3.1.1 Caracteriza¸c˜

ao do corpus

Seguindo o que é comum na literatura, e face à escassez de conjuntos de dados de treino e teste, o estudo da adaptabilidade do corpus à nossa tarefa não costuma ser feito e não vai ser feito no presente trabalho.

Deixamos aqui no entanto alguma informa¸cão sobre o corpus que está à nossa dis-posi¸cão, e cuja constitui¸cão está em linha com a constitui¸cão que é tipico encontrar para corpora usados em processamento de linguagem natural.

O corpus ´e composto por 689.1262

lexemas anotados, cada um verificado manual-mente por especialistas em lingu´ıstica. A anota¸cão inclui informa¸cão sobre a classe morfossintáctica, sobre o lema e a flexão das classes abertas, sobre expressões multi-palavra pertencentes à classe dos advérbios e às classes fechadas, e sobre nomes próprios multi-palavra.

Este corpus inclui 63.4% de texto recolhido de artigos, jornais e revistas. O resto do corpus ´e essencialmente constitu´ıdo por textos liter´arios.3

O corpus ´e composto por excertos como este:

Com/PREP[O] tiros/TIRO/CN\#mp[O] de/PREP[O] ca¸cadeira/CAC¸ADEIRA/CN\#fs[O] ,*//PNT[O] um/UM\#ms[O] desconhecido/DESCONHECIDO/CN\#ms[O] sem/PREP[O] motivo/MOTIVO/CN\#ms[O] aparente/APARENTE/ADJ\#ms[O]

abateu/ABATER/V\#ppi-3s[O] uma/UM\#fs[O] fam´ılia/FAM´ILIA/CN\#fs[O]

2

De notar que apenas me refiro `a parte escrita, o corpus divide-se em duas partes, escrita e oral. No presente trabalho iremos usar apenas a parte escrita

3

(36)

Cap´ıtulo 3. Estado-da-arte 15

inteira/INTEIRO/ADJ\#fs[O] .*//PNT[O]

Cada lexema pode ter cinco campos distintos, a forma ortográfica (e.g. ca¸cadeira), o lema (CAÇ ADEIRA),4

a categoria morfossintáctica (CN), a informa¸cão sobre tra¸cos de flexão (fs) e informa¸cão sobre expressões multi-palavra ([0]).

Pegando num lexema referente a um verbo deste excerto - abateu/ABATER/V#ppi-3s[O] - o primeiro campo abateu representa a forma ortográfica, ABATER representa o lema. Quanto à informa¸cão morfossintáctica, primeiro vem a categoria gramatical. Depois, separado por um ’#’, vêm os tra¸cos que levam o lema à forma flexionada, que ocorre no texto original. Por último, entre parêntesis rectos, vem a informa¸cão relativa ao lexema fazer parte ou não de uma entidade nomeada e, se sim, de que modo.5

Para a nossa tarefa de desambigua¸cão da flexão verbal vamos precisar ape-nas do conteúdo de três campos: a forma ortográfica (abateu), o lema (ABATER) e os tra¸cos de flexão (ppi-3s).

Em (Branco et al., 2007) o problema da ambiguidade verbal foi quantiﬁcado. Com o conjugador verbal,6

geraram-se todas as formas ﬂexionadas para os lemas conhecidos.7

Estes últimos perfazem um total de 11.350 entradas que deram origem a 816.830 formas conjugadas. Destas formas, apenas 598.651 são formas únicas, diferentes entre si quando se ignora o conjunto de tra¸cos de flexão que expressam.

Como foi explicado anteriormente na seçcão 2.1, a ambiguidade associada à flexão verbal pode ser de três tipos. Ambiguidade de lema, de tra¸cos, ou de ambos os tipos. Tendo isto em conta, (Branco et al., 2007) determinaram que das 598.651 formas verbais únicas, 438.064 são não amb´ıguas, sendo 73.18% dessas formas únicas. As formas verbais amb´ıguas nos tra¸cos são 159.376, ou seja 26.62%. Apenas 141 formas têm ambiguidade de lema, o que representa 0.02% das formas. A ambiguidade de lema e tra¸co afecta 1.070 formas verbais, representando 0.18%.

No corpus que vou utilizar ocorrem 85.6428

formas verbais, etiquetadas como V, VAUX, INF, INFAUX, GER, PPT, PPA, INFAUX e GERAUX. VAUX etiqueta os verbos auxiliares, como por exemplo tinha sido em que o verbo ter na sua forma tinha está a auxiliar o verbo ser na sua forma sido. INF etiqueta os infinitivos, como por exemplo ser em que a forma ortográfica é igual à forma lematizada. Contudo, os infinitivos podem ser flexionados em género e número. INFAUX etiqueta os infinitivos auxiliares, como por exemplo ter sido em que a forma infinitiva do verbo ter está a auxiliar o verbo ser na sua forma sido. GER etiqueta os gerúndios, como por exemplo tornando, e GERAUX os gerúndios

aux-4

apenas se este puder ser diferente da forma ortogr´afica em resultado da flex˜ao.

5

valores possiveis para os campos de informa¸c˜ao morfossint´actica encontram-se em http://lxcorpus.di.fc.ul.pt/cintilwhatsin.html#pos

6

http://lxconj.di.fc.ul.pt

7

Sem incluir formas com cliticos inerentes e formas de verbos compostos

8

(37)

iliares, como por exemplo tendo sido em que o verbo ter na sua forma do gerúndio tendo está a auxiliar o verbo ser na sua forma sido. PPT etiqueta os partic´ıpios passados em tempos compostos, como por exemplo sido em tendo sido, etiquetando PPA os partic´ıpios passados que não ocorrem em tempos compostos, como por ex-emplo reflectida em luz reflectida que é um partic´ıpio passado do verbo reflectir. V etiqueta as restantes ocorrências de formas verbais.

Destas 85.642 ocorrências, 57.968 são lexicalmente amb´ıguas. Por sua vez, es-sas 85.642 ocorrências são ocorrências de 15.640 formas únicas, entre as quais se encontram 7.637 formas únicas lexicalmente amb´ıguas.

De notar que apenas 2.6% do total de formas únicas do léxico ocorre no corpus. Porém, quase metade das formas únicas que a´ı ocorrem são amb´ıguas. Sendo que são aproximadamente 68% as formas amb´ıguas do total de ocorrências no corpus. Na Figura 3.1 apresenta-se a distribui¸cão das formas verbais por grau de ambiguidade, isto é, por n´ıvel de diferentes leituras lexicalmente adm´ıssiveis por forma verbal. Verifica-se que o grau de ambiguidade diminui com o aumento de frequência.

Figura 3.1: N´umero de ocorrˆencias de formas verbais por grau de ambiguidade.

Em suma, e no que tem impacto para a tarefa de desambigua¸cão: quase metade dos tipos que têm instâncias no corpus são amb´ıguos; e cerca de 68% das ocorrências de formas verbais carecem de desambigua¸cão em contexto. Para quantificar por tipo de ambiguidade, ver Figura 3.2.

De notar que nesta estat´ıstica n˜ao s˜ao consideradas formas verbais com cl´ıtico ou compostas.

(38)

Figura 3.2: Propor¸c˜ao de ocorrˆencias no corpus de formas verbais lexicalmente amb´ıguas por tipo de ambiguidade.

3.1.2 Medidas de avalia¸c˜

ao

Neste tipo de problemas, é costume usar dois tipos de avalia¸cão: a precisão e a abrangência.

A precisão é uma medida de exactidão do algoritmo. No nosso contexto pode ser definida como o número de exemplos correctamente classificados a dividir pelo número total de exemplos classificados.

A abrangência é uma medida de quão completo é o algoritmo, isto é, uma medida dos casos que ficam por classificar correctamente. No nosso contexto é definida como o número de exemplos correctamente classificados a dividir pelo número total de exemplos a classificar.

Podemos também juntar estas duas medidas numa só, conhecida como medida-f que combina as outras duas medidas com igual peso segundo a fórmula

2(precisão.abrangência) precisão + abrangência.

Esta medida é depois usada para comparar os diversos algoritmos, já que é uma medida sobre todos os aspectos do algoritmo.

3.2 Heur´ıstica de m´

axima verosimilhan¸ca

A primeira abordagem “natural” a este problema e a que pode permitir definir o valor base de compara¸cão é usar uma heur´ıstica de máxima verosimilhan¸ca. Esta heur´ıstica consiste em extrair o lema e tra¸cos verbais mais frequentes para cada forma

(39)

verbal presente no corpus de treino. Depois, para cada forma verbal encontrada no corpus de teste, ´e atribu´ıda a etiqueta mais frequente para essa forma.

Em trabalho anterior (Nunes, 2007, pag. 65-66) utilizou-se este algoritmo sobre um corpus de 260.000 lexemas.

Este algoritmo mesmo sendo bastante simples conseguiu uma precisão de 95.92% e uma abrangência de 68,68% perfazendo uma medida-f de 80.02% para o corpus usado, incluindo as formas não amb´ıguas.

Foi feita uma extensão a este algoritmo com o objectivo de aumentar a abrangência. Como tal, a nova versão do algoritmo deveria ser capaz de classificar também as formas verbais não encontradas no corpus de treino. Para tal, usou-se o lemati-zador verbal nas formas verbais desconhecidas no corpus de treino. Das poss´ıveis acep¸cões da forma verbal desconhecida devolvidas pelo lematizador, descartam-se as que tenham lemas desconhecidos se houver candidatos com lemas conhecidos; e descartam-se as que tenham lemas pouco frequentes se houver lemas muito fre-quentes. Depois seleciona-se a acep¸cão que tiver os tra¸cos mais frequentes, depois selecciona-se a que tiver o lema mais frequente. Caso apenas existam lemas descon-hecidos, seleciona-se a que contém o lema com a termina¸cão “-ar”, em seguida “-er” e por último “-ir”. Em qualquer destes passos, se apenas sobrar uma possibilidade o processo é interrompido e devolve-se esse candidato como solu¸cão proposta.

Passos do algortimo:

(1) Se a forma verbal foi vista no corpus de treino atribui-se o par lema e tra¸cos mais frequente.

(2) Caso contrário usa-se o lematizador para obter as flexões poss´ıveis para a forma verbal. Até restar apenas uma solu¸cão:

(3) Descartam-se lemas desconhecidos se houver lemas conhecidos.

(4) Descartam-se lemas pouco frequentes se houver lemas muito fre-quentes.

(5) Escolhe-se a flex˜ao com os tra¸cos mais frequentes.

(6) Escolhe-se a flex˜ao com o lema mais frequente.

(7) Escolhe-se o lema que contenha a termina¸c˜ao em ar”, depois “-er” e por ´ultimo “-ir”.

(40)

Com esta extensão, (Nunes, 2007) obteve uma precisão de 96.06% e a abrangência aumentou significativamente para 95.79% fazendo uma medida-f de 95.92%.9

O mel-hor resultado até então para este problema. A diferen¸ca entre o valor de precisão e o valor da abrangência deve-se ao facto de alguns lexemas em que a forma ortográfica está errada. Quando usados como entrada no lematizador, a ferramenta não con-segue lidar com eles visto essa forma ortográfica ser imposs´ıvel de acordo com as regras gramaticais.

3.3 Modelos de Markov escondidos

Também em (Nunes, 2007), foram usados modelos de markov escondidos para atacar a tarefa de lematiza¸cão como uma tarefa de etiqueta¸cão.

Os modelos de Markov escondidos baseiam-se na transi¸cão entre vários estados escondidos. Cada estado tem associado uma probabilidade para cada transi¸cão poss´ıvel e pode emitir, de um conjunto de sinais observáveis, alguns desses sinais com uma probabilidade respectiva. O desafio é determinar os parâmetros escondidos através dos observáveis, em particular determinar os estados entre os quais se deram as transi¸cões que originaram os sinais observados.

Assim temos uma variável aleatória x(t) que representa o estado escondido no instante de tempo t, com x(t) ∈ {x1, x2, x3, . . .}, conjunto que representa os vários

estados poss´ıveis, e temos outra variável aleatória y(t) que representa o sinal emitido pelo estado x(t) no mesmo instante t, com y(t) ∈ {y1, y2, y3, . . .}. A variável x(t)

depende exclusivamente do valor da variável escondida x(t-1), ou seja da variável x no instante anterior t-1, esta propriedade é chamada de propriedade de Markov. A variável observável y(t) depende da transi¸cão entre dois estados, x(t-1) para x(t), isto é, a variável x no mesmo instante t. Abaixo apresentamos um esquema gráfico do que foi explicado.3.3

Figura 3.3: Modelo de Markov Escondido - representa¸c˜ao temporal. Extra´ıda da Wikipedia

9

Os valores apresentados são para as tarefas de desambigua¸cão de lema e tra¸cos, incluindo formas não amb´ıguas.

(41)

Nunes (2007) usou uma abordagem de etiqueta¸c˜ao baseada em modelos de Markov escondidos com a ferramenta TnT para a tarefa de atribui¸c˜ao de tra¸cos. Esta abordagem obteve uma medida-f de 94.47%.

No entanto esta experiência não cobre a totalidade da tarefa em questão, visto que não atribui lemas, devido ao que foi explicado em 2.4.2 relativamente a esta abordagem. Sendo com isto apenas aplicável aos verbos que tenham ambiguidade de tra¸cos. Nunes (2007) aproveita a etiqueta¸cão morfossintáctica feita préviamente que para alguns verbos tem os tra¸cos inerentes na etiqueta, deste modo a desambigua¸cão quanto a tra¸cos apenas é feita para um subconjuncto dos verbos.

3.4 Trabalhos relacionados

Não tenho, até à data, conhecimento de trabalho feito nesta tarefa especifica, sem ter em conta o trabalho previamente realizado no NLX. No entanto existem alguns trabalhos feitos em tarefas relacionadas que passo a citar.

Chrupa la (2006) reporta um f-score de 91.21% para a tarefa de lematiza¸cão no Português usando o classificador SVM com a abordagem de Shortest Edit Script. Não é limitado aos verbos, mas também não faz tra¸camento verbal.

(Moreno-Sandoval e Guirao, 2006), que reportam uma taxa de acerto de 96.8% para a lematiza¸cão e 96.7% para a etiqueta¸cão do português, apenas etiqueta os verbos como V ou AUX, não fazendo qualquer desambigua¸cão quanto aos tra¸cos verbais. Esta é a principal fonte de ambiguidade do nosso problema. Ver Figura 3.2. Escudero et al. (2000) usam dois métodos para fazer desambigua¸cão de acep¸cão de nomes e verbos. O primeiro é o Naive Bayes que, para os verbos permite obter uma taxa de acerto (Accuracy) de 64.8%, usando como atributos um contexto semel-hante ao contexto local10

, e 63.4% usando como atributos um contexto semelhante à combina¸cão do contexto de tópicos11

com o contexto local. O outro método tes-tado é chamado de abordagem baseada em exemplos ”Exemplar-based approach” e baseia-se no algoritmo dos k-vizinhos-mais-próximos. Este último consegue mel-hores resultados. Nomeadamente 66.4% para a primeira modela¸cão de atributos (contexto local) e 67.0% para a segunda (contexto de tópicos com contexto local).12

Neste trabalho, o valor base de compara¸cão usa uma medida de acep¸cão mais fre-quente, que para o corpus usado e só contando com os verbos tem uma taxa de acerto 48.7%.

Em (Agirre e Edmonds, 2006) compara vários algoritmos para fazer desam-bigua¸cão da acep¸cão de nomes e verbos. O resultado base, que consiste na atribui¸cão

10

Descrito no pr´oximo cap´ıtulo

11

Descrito no pr´oximo cap´ıtulo

12

(42)

da acep¸c˜ao mais frequente, ´e de 46.49% para os verbos.13

Este trabalho reporta que a melhor abordagem é permitida pelo algortimo de Support Vector Machines, con-seguindo uma Accuracy de 67.54%, usando uma combina¸cão de atributos que inclui uma variante do Contexto de tópicos mais a mesma versão do contexto local usada no presente trabalho.

Tanto (Agirre e Edmonds, 2006) como (Escudero et al., 2000) são expêriencias controladas, sobre um conjunto definido de verbos e nomes, não fazem qualquer processamento para lidar com palavras desconhecidas.

De notar que quando se fala nestes trabalhos em desambigua¸cão da acep¸cão de um verbo, o tema é ligeiramente diferente do problema do presente trabalho. Em (Escudero et al., 2000) e (Agirre e Edmonds, 2006) a acep¸cão prende-se com o significado que o verbo pode ter,14

o estado de coisas que este expressa. No presente trabalho, a desambigua¸cão prende-se com os tra¸cos de flexão verbal que a forma verbal expressa e em parte com o estado de coisas expressa, já que também realiza lematiza¸cão verbal.

Vejamos um exemplo, a palavra bater em termos de significado pode expressar o bater na mesa, bater em retirada, o bater card´ıaco, etc. É esta desambigua¸cão que é feita nos trabalhos acima mencionados, a tendo por base os conceitos associados a cada verbo na ontologia verbal WordNet.

Resumindo, a nossa tarefa tem por objectivo desambiguar os verbos quanto à informa¸cão de tra¸cos de flexão e parcialmente quanto ao tipo de evento (já que também realiza lematiza¸cão). As tarefas mencionadas atrás apenas desambiguam os verbos quanto ao tipo de evento.

13

O corpus usado ´e o mesmo de (Escudero et al., 2000).

14

(43)

Cap´ıtulo 4

Desambigua¸c˜

ao de flex˜

ao verbal:

uma abordagem DAP

Como discutimos em cap´ıtulos anteriores, a abordagem da tarefa de desambigua¸cão da flexão verbal como problema de etiqueta¸cão já foi explorada em trabalho anterior. Neste trabalho, vamos procurar explorar uma abordagem com base nas técnicas de desambigua¸cão da acep¸cão da palavra (DAP)1

para executar essa tarefa.

Em resultado da experiência documentada na literatura e discutida na seçcão 2.5.2, iremos explorar o classificador Naive Bayes (seçcão 4.1) e o classificador SVM (seçcão 4.2). Por serem os que têm permitido alcan¸car os melhores resultados na tarefa DAP em geral.

4.1 Aplica¸c˜

ao do classificador Naive Bayes

Feita a escolha de usar o classificador Naive Bayes, houve que escolher como este iria ser usado. Houve que escolher se implementávamos a nossa versão do classificador, ou se tirávamos partido de uma implementa¸cão já feita e disponibilizada para uso geral.

Decidimos usar a conhecida ferramenta Weka,2

que inclui uma implementa¸cão do classificador Naive Bayes. Esta ferramenta é bastante usada no meio académico, facto que lhe traz bastante credibilidade como ferramenta estável e largamente tes-tada. Com essa seguran¸ca, fica assim ultrapassado o problema da implementa¸cão do algoritmo correspondente.

Cabe então, antes de mais, explicar com maior detalhe este classificador, segundo a descri¸cão usada para a implementa¸cão do mesmo no Weka. O classificador Naive Bayes assume que para uma dada classe, os atributos são condicionalmente indepen-dentes entre si e que nenhum atributo escondido ou latente influencia a classifica¸cão.

1

Word sense disambiguation (WSD).

2

http://www.cs.waikato.ac.nz/ml/weka/

(44)

Cap´ıtulo 4. Desambigua¸cão de flexão verbal: uma abordagem DAP 23

Segundo (Mitchell, 1997), estas assun¸cões geram algoritmos bastante eficientes quer para a classifica¸cão quer para a aprendizagem. Vejamos. Seja C uma variável aleatória que expressa a classe de uma instância e X o vector de variáveis aleatórias que expressam os valores dos atributos observáveis. Seja c a representa¸cão de uma classe em particular, e x a representa¸cão de um valor observável em particular. Dado um caso de teste x a classificar, basta usar a regra de Bayes para calcular a probabilidade de x pertencer a cada classe c, o que permitirá encontrar a classe com probabilidade maior em ordem a tomar uma decisão quanto à classifica¸cão desse caso de teste é justamente por se escolher essa classe com maior probabilidade.

p(C = c|X = x) = p(C = c)p(X = x|C = c) p(X = x)

Na f´ormula acima, X = x representa o evento em que X1 = x1∧ X2 = x2∧ · · · ∧

Xk = xk. O evento ´e a conjun¸c˜ao dos valores dos atributos, e sendo estes assumidos

como condicionalmente independentes entre si, obtemos

p(C = c|X = x) = p(^ i Xi = xi|C = c) =Y i p(Xi = xi|C = c)

que ´e simples de computar para os casos de teste e de estimar para os casos de treino (Mitchell, 1997).

Tipicamente não se estima a distribui¸cão no denominador na primeira equa¸cão, já que é apenas um factor de normaliza¸cão. Em vez disso, ignora-se o denominador e normaliza-se de forma a que a soma de p(C = c|X = x) sobre todas as classes é um.

Para o classificador Naive Bayes, os atributos discretos e númericos são tratados de maneira diferente. Cada atributo discreto é modelado por um número real entre 0 e 1, representando a probabilidade de o atributo X ter um valor x quando a classe é c. Por seu lado, os atributos númericos são modelados por uma distribui¸cão de probabilidade cont´ınua sobre a janela de valores poss´ıveis desses atributos.

Como vimos, o classificador Naive Bayes permite atribuir uma classe a um ex-emplo de teste. Temos então de decidir quais vão ser as nossas classes. Como vamos modelar o nosso problema para conseguir usar o este classificador?

Intuitivamente, se estamos a tentar desambiguar o lema e os tra¸cos de um verbo, a classe a atribuir vai ser um tuplo desses mesmos valores, o valor do lema e os valores dos tra¸cos. Como já foi referido anteriormente, notar que como algumas etiquetas morfossintácticas, apresentam informa¸cão inerente sobre os tra¸cos do verbo, estas serão inclu´ıdas com os tra¸cos.

(45)

Não é prático porém treinar o classificador para o conjunto total de valores poss´ıveis pois isto daria origem a uma enorme quantidade de classes poss´ıveis. De acordo com a estimativa de (Branco et al., 2007), apenas tomando em considera¸cão cerca de 11.000 verbos(lemas) atestados do léxico do português, esse conjunto teria mais de 800.000 valores. Isso seria também desaconselhável por outra ordem de razões, nomeadamente porque para cada caso de teste, para a esmagadora maioria de tuplos, o lema no tuplo lema:tra¸cos nada teria a ver com a forma verbal desse mesmo caso de teste ou seja, não seria um lema admiss´ıvel para essa forma verbal. De igual modo, para os valores dos tra¸cos de flexão, estar-se-ia a admitir como poss´ıveis valores de tra¸cos, que não podem ser expressos pelo sufixo flexional presente no caso de teste.

Assim, para aliviar este problema e também para garantir que os valores do tuplo lema:tra¸cos representam uma classe poss´ıvel para a forma verbal do caso de teste em questão, vamos construir classificadores para cada forma verbal que ocorra no corpus de treino. Desta forma alivia-se o processamento já que para cada classificador o número de classes poss´ıveis é bastante menor.

Como atributos, usamos o contexto da frase. Mais à frente explicarei este uso do contexto na obten¸cão de atributos para o classificador.

Assim, temos como atributo discreto a classe representada por lema:tra¸cos. A probabilidade de uma variável nominal (como é o caso) ter um certo valor é igual à sua frequência relativa na amostra, isto é, o número de vezes que o valor ocorreu nos exemplos dividido pelo número total de exemplos relevantes.

Para os atributos cont´ınuos, a distribui¸cão de probabilidade cont´ınua costuma ser representada por uma fun¸cão gaussiana, segundo a fórmula g(x; µ, σ) = √1

2πσe −(x−µ)2_2σ2

. No nosso caso n˜ao vamos ter atributos cont´ınuos.

Vamos mostrar então um exemplo, aplicado ao nosso caso concreto, para ilustrar como são estimados os parâmetros relevantes.

Supondo que se trata da forma verbal fui, temos como valores de classe ir:v#ppi-1s e ser:v#ppi-ir:v#ppi-1s. Para efeitos de compreensão e simplifica¸cão do exemplo, vamos supor que apenas temos dois atributos de variável discreta, a ocorrência da palavra X1 e a ocorrência da palavra X2, que podem ter o valor 0, indicando a ausência da

palavra, ou 1, indicando a presen¸ca da palavra na frase.

Tendo em conta os seguintes cinco casos de treino: {1s, 0, 0), (ir:v#ppi-1s, 0, 1), (ir:v#ppi-(ir:v#ppi-1s, 1, 1), (ser:v#ppi-(ir:v#ppi-1s, 1, 1), (ser:v#ppi-(ir:v#ppi-1s, 1, 0)}.

(46)

Cap´ıtulo 4. Desambigua¸cão de flexão verbal: uma abordagem DAP 25 p(C = ir : v#ppi − 1s) = 3/5 p(X1 = 1 |C = ir : v#ppi − 1s) = 1/3 p(X1 = 0 |C = ir : v#ppi − 1s) = 2/3 p(X2 = 1 |C = ir : v#ppi − 1s) = 2/3 p(X2 = 0 |C = ir : v#ppi − 1s) = 1/3

e de forma an´aloga para a outra classe, ser:v#ppi-1s.

Em resumo, o classificador Naive Bayes é uma abordagem simples e eficaz ao problema de indu¸cão. A complexidade deste classificador em n casos de treino e k atributos é O(nk ), complexidade temporal, e O(k ), complexidade espacial.

4.2 Aplica¸c˜

ao do classificador SVM

Como foi dito anteriormente, a op¸cão por utilizar este classificador na nossa tarefa de desambigua¸cão de flex ao verbal resulta da análise comparativa favorável apre-sentada em (Agirre e Edmonds, 2006) para a tarefa DAP em geral. Neste livro, refere-se que a implementa¸cão a´ı utilizada foi o SV Mlight_{. Este é no entanto um}

classificador binário, isto é separa linearmente os exemplos negativos e positivos. A nossa tarefa requer porém que a classifica¸cão tenha vários valores poss´ıveis e como tal um classificador binário não é suficiente.

Existe no entanto uma ferramenta feita pelo mesmo autor do SV Mlight_,

entit-ulada de SV Mmulticlass_{, que como indica o nome, tem suporte para v´arias classes.}

Assim como fizemos para o Naive Bayes, também para o SVM iremos usar uma implementa¸cão já usada e testada.

O classificador SV Mmulticlass_{é uma implementa¸cão do multi-class Support Vector}

Machine (SVM) descrito em (Crammer e Singer, 2001)

Como foi dito anteriormente, de uma forma geral os algoritmos de SVM apren-dem uma discriminante linear que separa os exemplos negativos dos exemplos posi-tivos com margem m´axima. Ver ﬁgura 4.1

A margem é definida pela distância da discriminante linear ao exemplo negativo e positivo mais próximos.

As linhas a tracejado s˜ao os chamados vectores de suporte.

Nem sempre é poss´ıvel tra¸car um vector que separe linearmente os exemplos negativos dos positivos, ou mesmo que seja poss´ıvel, às vezes é preferivel deixar alguns exemplos errados no treino de modo a conseguir uma separa¸cão que trará melhores resultados. Ver figura 4.2

(47)

Figura 4.1: Discriminante linear. Extra´ıda de (Agirre e Edmonds, 2006).

Figura 4.2: Discriminante linear com margem de erro. Extra´ıda de (Agirre e Ed-monds, 2006).

h(x) = (

+1 se (w · X) + b ≥ 0 −1 caso contr´ario

Sendo x o exemplo a classiﬁcar, w o vector que vai da linha discriminante ao exemplo x e b a distancia da linha discriminate `a origem.

Para aplicar este algortimo binário a um problema com um número finito de valores de classe não binários, podemos dividir o problema em vários problemas binários. Normalmente isto é feito de duas maneiras, ou se compara cada classe com todas as outras, e neste caso é atribuida a que tiver o valor mais alto, ou se comparam todas as classes entre si e a que tiver mais “victórias” é a escolhida.

Para o classiﬁcador SVM, model´amos o problema da mesma maneira que foi feito para o Naive Bayes. Ou seja, com tuplos de lema:tra¸cos como classes, us-ando o contexto, para obter atributos3

e criando modelos para cada forma verbal individualmente.

4.3 Pr´

e-processamento

Seguindo o que é habitual em aprendizagem automática, dividimos o corpus em dois peda¸cos, o nosso objecto de treino e teste é o corpus descrito na seçcão 3.1.1. 90%

3

(48)

Cap´ıtulo 4. Desambigua¸cão de flexão verbal: uma abordagem DAP 27

do corpus fica para treino do classificador e 10% do corpus para efectuar os testes. Decidimos também escolher os 10% de teste de frases alternadas do corpus total. Isto é, em vez de tirar um bloco de 10% do in´ıcio, fim ou meio do corpus, vamos na extra¸cão alternando entre nove frases consecutivas reservadas para o treino, e uma décima para o teste.

A por¸cão do corpus usada para treino contém 77029 instâncias de formas verbais a que corresponde 15786 tipos de formas únicas e 17596 são tipos de tuplos da forma verbal com o seu lema e os seus tra¸cos. Por seu lado, a por¸cão do corpus usada para teste contém 8613 formas verbais das quais 3923 são tipos de formas únicas e 4176 são tipos de tuplos da forma verbal com o seu lema e os seus tra¸cos.4

A etiqueta¸cão morfossintáctica do corpus faz distin¸cão entre diversas categorias verbais, o que ajuda a circunscrever as ocorrências verbais, para as quais é pre-ciso fazer desambigua¸cão. Em particular, as ocorrências etiquetadas como GER, GERAUX, PPA ou PPT apenas precisam de ser desambiguadas quanto ao lema já que os tra¸cos estão inerentes nessas classes gramaticais. Destes lexemas apenas os etiquetados com PPA requerem etiqueta¸cão de tra¸cos de flexão, por exemplo, a palavra passada quando etiquetada como PPA terá os tra¸cos fs - feminino singular. Estes tra¸cos são no entanto atribu´ıdos num fase de etiqueta¸cão prévia através de um módulo de tra¸camento nominal (Silva, 2007).

No entanto, para que possamos avaliar a desambigua¸c˜ao verbal como uma tarefa global independente do tagset usado,5

vamos usar a etiqueta¸c˜ao realizada pelo eti-quetador apenas para saber quais dos lexemas s˜ao verbos.6

Assim, e como j´a foi visto anteriormente, a classe gramatical dos verbos entra em conjunto com os tra¸cos no campo tra¸cos nos tuplos das classes lema:tra¸cos. Por exemplo, para a forma verbal tendo, temos duas classes:

ter:ger

tender:v#pi-1s

Ger é a etiqueta morfossintáctica e para além disso contém informa¸cão sobre os tra¸cos do verbo, neste caso indica que o verbo se encontra na forma temporal do gerúndio. Como tal, o tra¸co referentes a esta entrada será ger.

A etiqueta V não tem qualquer informa¸cão sobre os tra¸cos verbais. No entanto também não interfere na classifica¸cão. Não sobrespecifica nem subespecifica a classe. Por uma questão de comodidade, vamos manter a etiqueta no tra¸co, sendo este v#pi-1s.

4

Estas contagens j´a incluem as formas com cl´ıticos.

5

Para todos os verbos, e n˜ao apenas para os que no nosso caso foram etiquetados com certas etiquetas

6

O etiquetador ser´a usado tamb´em para determinar outras classes abertas para efeito de se delimitar o contexto a usar nos classificadores.