• Nenhum resultado encontrado

4 Resolução de anáforas pronominais

4.4 Comparação entre as abordagens explanadas

em processamento de linguagem natural haverá apenas uma transferência do problema para um nível mais alto de abstração sem com isso resolvê-lo. Senso comum, intuição, variáveis sócio- culturais e outros componentes do conhecimento de mundo são muito evasivos e vagos para serem tratados adequadamente pela linguística computacional [Lef03].

4.4

Comparação entre as abordagens explanadas

Cada abordagem descrita acima possui características próprias relativas a como o fenômeno da anáfora é visto. Uma comparação foi realizada neste trabalho para possibilitar a análise dos pontos positivos e negativos de cada abordagem de acordo com as peculiaridades de cada uma. Foram definidos 5 fatores importantes para a avaliação de um algoritmo de resolução de anáforas:

1. Identificar o corpus sobre o qual o algoritmo foi testado e seus resultados foram obtidos. As características de um corpus podem influenciar na resolução de anáfora. Textos mais cultos, mais rebuscados ou até em forma de poesia dificultam o processo de resolução de anáfora. Conter somente textos específicos de um determinado domínio do conheci- mento demonstra uma certa especificidade do algoritmo para um determinado domínio de conhecimento. Por outro lado, um corpus bem abrangente, contendo textos variados é capaz de informar sobre o comportamento do algoritmo em casos gerais.

2. O objetivo da aplicação ao utilizar o algoritmo e como se dá o caso de sucesso. Alguns algoritmos podem interpretar os casos de sucesso de maneira diferenciada. Isto se dá pela variedade de utilização do Processamento de Linguagem Natural. Os resultados devem ser comparados observando-se adequadamente a que objetivo eles se referem.

3. A taxa de acerto que o algoritmo alcançou durante os testes é um item quantitativo obser- vado para a avaliação do algoritmo. A taxa de acerto é a quantidade de casos em que o algoritmo obteve sucesso em seu objetivo dividido pela quantidade de casos analisados. 4. As vantagens do algoritmo. Que pontos podem ser considerados positivos no algoritmo e

que o diferenciam dos outros.

5. As desvantagens do algoritmo. Quais características podem ser observadas como negati- vas no algoritmo.

Algoritmo de Lappin e Leass utiliza um sistema de pesos atribuídos de acordo com a es- trutura sintática da sentença. Apenas conhecimento sintático é utilizado para a resolução de

4.4 Comparação entre as abordagens explanadas 71

anáforas [Coe06].

• corpus testado: Os corpora foram todos anotados pelo parser morfossintático PALA- VRAS. Foi utilizado um corpus literário, jornalístico e jurídico.

• objetivo da aplicação: Encontrar o antecedente anafórico de pronomes pessoais e prono- mes recíprocos ou reflexivos. A resolução é considerada correta caso o sintagma apresen- tado pelo algoritmo seja o sintagma anotado no corpus como antecedente anafórico ou está contido nele.

• taxa de acerto: Foram um total de 1218 pronomes analisados e 428 resolvidos correta- mente. Uma taxa de acerto de 35,14%.

• vantagens: O fato do algoritmo utilizar somente conhecimento sintático é uma vantagem do ponto de vista de eficiência computacional. Outra vantagem do algoritmo é poder ser utilizado para a resolução de pronomes pessoais e pronomes recíprocos ou reflexivos, englobando maior variedade de pronomes.

• desvantagens: Não considera o fator semântico da relação anafórica. Taxa de acerto muito baixa no caso analisado.

Algoritmo de Mitkov utiliza conhecimento sobre o domínio das sentenças e pouco conhe- cimento sintático. Insere o conceito de indicadores de preferências textuais na seleção do ante- cedente anafórico.

• corpus testado: Testado em um corpus formado por manuais técnicos de computadores escrito em inglês e anotado manualmente em relação aos sintagmas nominais, anáforas pronominais, gênero e número.

• objetivo da aplicação: Identificar o antecedente anafórico de pronomes.

• taxa de acerto: De um total de 223 pronomes anafóricos marcados manualmente o algo- ritmo acertou a identificação do antecedente anafórico em 200 casos, fazendo uma taxa de acerto de 89,7%.

• vantagens: Algoritmo leve que não exige demasiado conhecimento sintático ou semântico e com boa taxa de sucesso.

4.4 Comparação entre as abordagens explanadas 72

• desvantagens: Muito influenciado pelo domínio literário do texto analisado. Manuais técnicos de computadores são textos muito formais que repetem a estrutura das senten- ças e as relações anafóricas. Pela natureza probabilística da abordagem, qualquer texto menos formal e consequentemente que repete menos as mesmas estruturas das sentenças, produziria uma queda na taxa de acerto.

Algoritmo Centering trata a anáfora como elemento que mantém a coesão textual. O sin- tagma principal da sentença (foco) é tratado como um elemento que preferencialmente é refe- renciado na sentença seguinte.

• corpus testado: corpus jurídico analisado morfossintaticamente pelo parser PALAVRAS. • objetivo da aplicação: Identificar e resolver anáforas pronominais.

• taxa de acerto: De um total de 302 anáforas anotadas no corpus foram identificadas cor- retamente 282 anáforas e resolvidas corretamente 154. Com uma taxa de acerto de 51%. • vantagens: Utilização de regras gramaticais abrangentes. Taxa de acerto razoável mesmo

em um corpus complexo como o utilizado.

• desvantagens: O algoritmo é baseado na manutenção da coesão textual, portanto textos menos cultos provavelmente terão uma taxa de acerto reduzida.

Algoritmo de Leffa utiliza pouco conhecimento sintático e uma função semântica de vali- dação.

• corpus testado: corpus de 10.000.000 de palavras de texto expositivo em língua inglesa, anotado sintaticamente e semanticamente.

• objetivo da aplicação: Descobrir o gênero do antecedente anafórico para a correta tradu- ção do pronome em inglês “they”.

• taxa de acerto: Em 1400 ocorrências do pronome “they” foi identificado o gênero correto do antecedente anafórico em 98% dos casos.

• vantagens: Algoritmo muito simples, utilizando apenas o paralelismo sintático e a ocor- rência de anomalias semânticas. Ótima taxa de acerto.

4.4 Comparação entre as abordagens explanadas 73

• desvantagens: O objetivo da aplicação foi muito simplificado em relação a resolução de anáforas pronominais. Mesmo que o antecedente anafórico fosse escolhido erroneamente mas possuísse mesmo gênero do antecedente anafórico correto, o algoritmo obteria su- cesso em seu objetivo.

Analisando as abordagens apresentadas, percebe-se que a utilização de conhecimento se- mântico pode melhorar a resolução de anáforas pronominais. O conhecimento semântico é capaz de acrescentar informações que podem distinguir entre sintagmas que possuem a mesma inclinação a serem escolhidos como antecedentes anafóricos, além disso é possível evitar que anomalias semânticas sejam formadas, como por exemplo um animal ser apontado como o antecedente anafórico de um pronome que está ligado a um verbo cuja ação é estritamente exe- cutada por humanos. Poucas abordagens atuais utilizam este tipo de conhecimento por não ter-se uma definição conclusiva sobre como o significado de um sintagma é atribuído. Uma abordagem muito dependente dos textos utilizados para teste possuem um melhor resultado, mas são dificilmente portáveis para outros domínios do conhecimento. Já uma abordagem mais genérica quanto ao domínio do conhecimento necessita tratar as anáforas de modo igualmente abrangente, evitando regras que beneficiam as formas mais frequentes de anáforas e descartando alguns tipos delas. Entende-se então que um processo de resolução de anáfora pronominal deve contemplar todas as formas em que tais anáforas possam aparecer e além disso contar com in- formações sintáticas e semânticas, não sendo atrelado ao domínio dos textos analisados, para se obter sucesso na escolha do antecedente anafórico.

74

5

Uma nova abordagem para a