• Nenhum resultado encontrado

resolução de anáforas pronominais

5.4 Análise dos resultados

5.4

Análise dos resultados

O algoritmo desenvolvido com base em informações sintáticas obteve uma taxa de acerto sobre os textos utilizados em torno de 44,5%. Esta taxa está em conformidade com a aplica- ção dos trabalhos atuais em resolução de anáforas [Coe06] e [ACC+04]. Influenciados pela abordagem inferencialista em Processamento de Linguagem Natural de Pinheiro [PPFF10] foi desenvolvido então um algoritmo que recebe do algoritmo sintático os quatro candidatos mais prováveis de serem o antecedente anafórico do pronome e sobre eles atua mais dois critérios semânticos de escolha.

O primeiro critério semântico desenvolvido se refere ao Cálculo de Relacionamento Infe- rencial de Pinheiro e relaciona cada candidato a todos os sintagmas ligados ao pronome em questão. O resultado de cada relacionamento é somado e é atribuído este valor ao candidato. O segundo critério semântico desenvolvido relaciona os candidatos ao verbo a qual o pronome está diretamente relacionado. Os verbos foram descritos em função dos rótulos das relações existentes entre os conceitos. Cada rótulo indica uma forma em que um conceito pode ser utili- zado. Dessa forma os rótulos relativos a um verbo formam um grupo de possibilidades de uso do verbo.

Quando comparamos as formas em que um conceito representado por um verbo pode ser utilizado com as formas em que um conceito representado por um sintagma nominal pode ser utilizado estamos nos referindo as possibilidades das formas em que o sintagma pode ser uti- lizado em conjunto com tal verbo. Se há uma quantidade maior de usos em comum entre um sintagma e um verbo, então entende-se que tal sintagma seja utilizado em conjunto com o verbo em questão. Na prática se o conceito representado pelo verbo “X” é descrito como “X Lo- calizado em Y” então o verbo “X” tem como característica semântica que ele representa uma ação que está localizada em um certo local “Y”. Quando comparamos este conceito represen- tado pelo verbo “X” com um conceito representado por um sintagma que possui várias relações rotuladas por “Localizado em” entende-se que as formas de uso do verbo estejam bem rela- cionadas as formas de uso do sintagma e por consequência o verbo está bem relacionado ao sintagma. Assim, foram contabilizados quantos relacionamentos através dos rótulos descritos para cada verbo os candidatos possuem. Quanto mais relacionamentos, mais próximo está o candidato do verbo e por consequência também do pronome.

Após a utilização destes dois critérios semânticos sobre os quatro candidatos selecionados na fase sintática é escolhido o candidato com maior pontuação recebida na fase semântica e este é apontado com o antecedente anafórico do pronome. A utilização do algoritmo sintático-

5.4 Análise dos resultados 94

semântico obteve uma taxa de acerto de 77,1%.

Os textos utilizados para os testes foram obtidos dos testes do SIA [PPFF10] denominada “Coleção Dourada” e dos primeiros trechos dos corpora Bosque e Amazônia e estão disponível no endereço eletrônico:

https://docs.google.com/Doc?docid=0ARGXRjw55R-PZGRucGM5bWhfMTVoaHQ4OHFoYw&hl=en

Não foi possível, no tempo proposto para o fim do trabalho, comparar os resultados obtidos no algoritmo desenvolvido aqui com os resultados obtidos nos algoritmos apresentados em trabalhos paralelos diante de um mesmo conjunto de textos. Esta impossibilidade se deu pela indisponibilidade dos conjuntos de textos utilizados pelos outros trabalhos ou pela ausência de textos em português de domínio comum e que houvesse sido analisado pelo parser PALAVRAS no formato CG-dependency, que é o utilizado pelo algoritmo desenvolvido neste trabalho. Com isto tentou-se contornar este problema através da utilização de textos bem variados de domínios de conhecimentos amplos e que traduzissem a prática linguística de uma comunidade como textos de um blog, descrições de crimes e textos jornalísticos de diversas áreas.

Note que apesar dos conceitos e suas relações estarem representados no sistema, a atribui- ção de significado é sempre realizada através das inferências realizadas com estes conceitos e as bases de conhecimento armazenadas são extraídos diretamente da prática linguística.

De acordo com o uso dos conceitos e de como eles são articulados conhece-se o significado das sentenças e das palavras. Entende-se assim, que o significado é dado em função do uso das sentenças, de forma pragmática. Abre-se um novo caminho para a resolução de problemas na área de PLN através de informações semânticas inferencialistas.

Esta nova abordagem para a resolução de anáforas pronominais utilizando um algoritmo parte sintático e parte semântico mostra que a parte semântica é importante para obtenção de melhorias em relação aos resultados já alcançados.

95

6

Conclusão

Este trabalho mostra como ocorre uma relação anafórica entre um pronome pessoal e um sintagma nominal. Fica claro que as anáforas incluem aspectos muito importantes da linguagem natural, incluindo o fato delas serem entendidas semanticamente (e pragmaticamente) através do conhecimento acumulado que a mente humana possui. Como uma anáfora é, em essência, um elemento textual que relaciona conceitos, a resolução de uma anáfora está intrinsecamente ligada ao entendimento das relações entre os conceitos [Mon94].

No capítulo 1 entende-se que a linguagem pode ser entendida pragmaticamente. Brandom [Bra00] descreve uma forma de entender as relações entre os termos e o significado dos termos com base na estrutura global do discurso. Em outras palavras, o significado de cada parte do texto está ligada ao significado do texto como um todo. Não é possível construir o significado de uma sentença a partir da junção dos significados particulares de cada termo componente da sentença. Brandom argumenta que os conceitos só são entendidos a partir do todo, esboçando uma abordagem top-down que ganha força ao tratar os conceitos dentro de uma rede de con- ceitos interligados por premissas e conclusões. Entende-se também que o significado de um texto está ligado a uma rede semelhante a dos conceitos porém formada por sentenças que se interligam por arestas rotuladas de premissas e condições. O entendimento de um texto então se completa ao compreender quais são as premissas de cada sentença e quais as conclusões advindas da enunciação de uma sentença.

Como a atribuição de significado está atrelado à construção da rede inferencial dos con- ceitos articulados nas sentenças e sendo esta rede inferencial determinada pela prática linguís- tica de uma determinada comunidade, pode-se então denominar tal significado de pragmático. Baseando-se nessa linguística pragmática Pinheiro [Pin9a] inicia a construção de um modelo baseado em redes inferenciais de conceitos e sentenças, o SIM (Semantic Inferencialism Mo- del). O SIM admite que entender os conceitos só é possível quando primeiro se conhece como eles funcionam na prática. O modelo ainda descreve como representar os conceitos sem con- tudo representar o seu significado. Os conceitos são armazenados em linguagem natural e são interligados por precondições e pós-condições existentes na prática linguística e armazenados