• Nenhum resultado encontrado

Análise parcial para a compressão de orações

semânticas ou ontológicas (Aussenac-Gilles e Jacques, 2006; Aguado de Cea et al., 2009). Para além disso, baseia-se na seguinte assunção:

As relações semânticas podem expressar-se do mesmo modo do que as depen- dências sintácticas

Uma relação semântica presente numa oração pode, frequentemente, ser representada atra- vés de uma ligação de dependências entre duas entidades, inclusive se houver elementos com informação extra que podem tornar a oração muito complexa do ponto de vista linguístico. Esta informação extra não representa a relação semântica, mas pode especificar o significado dos termos relacionados, ou introduzir conhecimento não relevante para a relação. Entre os padrões mais frequentes que expressam cada relação, podem encontrar-se variações do mesmo padrão base, do qual diferem pela existência de modificadores, adjuntos, ou estruturas de co- ordenação, por exemplo. Uma vez que estes padrões têm uma alta precisão, torna-se crucial encontrar um modo de os fazer mais genéricos, para ampliar a sua abrangência. Com este fim, é utilizada a seguinte estratégia:

1. Compressão da oração: é aplicada uma gramática parcial que estabelece dependên- cias sintácticas entre os elementos com informação adicional (modificadores, adjuntos, pontuação, etc.). A gramática mantém unicamente os núcleos das dependências, pro- duzindo assim uma estrutura linguística simplificada.

2. Extracção de padrões: são extraídos padrões léxico-sintácticos, posteriormente simpli- ficados através da aplicação do algoritmo longest common string (página 71). Final- mente, os padrões simplificados são transformados em regras genéricas de extracção semântica, adicionadas a uma gramática de dependências.

A combinação de regras standard de dependências com regras genéricas de extracção semântica permite que o sistema incremente a abrangência sem perder precisão.

7.3.

Análise parcial para a compressão de orações

Um dos pontos de maior importância da estratégia apresentada consiste na simplificação de orações com o objectivo de extrair informação mais facilmente. Para isto, são utilizadas gramáticas e parsers de DepPattern.

110 Capítulo 7. Extracção de Relações com Base em Regras

As gramáticas básicas desta suite contêm regras para diferentes fenómenos linguísticos, desde a modificação nominal a estruturas mais complexas como coordenação ou aposição. Porém, o processo de simplificação só requer um certo tipo de dependências, aquelas que comprimem uma oração mantendo o seu significado básico. Assim, seguindo outras estra- tégias para a compressão de orações (Molina et al., 2011), foram modificadas as gramáticas por defeito, utilizando unicamente aquelas regras que identificam os seguintes constituintes subordinados e satélites:

– Pontuação (pontos de interrogação, aspas, vírgulas, etc.) – Coordenação de nomes comuns e adjectivos

– Frases nominais, adverbiais e adjectivais

– Complementos preposicionais, perífrases verbais e aposições – Orações negativas (onde o verbo herda a informação de negação)

Uma vez executado o parser, os dependentes identificados por essas regras são elimina- dos. Assim, é obtida uma estrutura comprimida que não contém satélites nem modificadores. Nos exemplos 7.1 e 7.2 podem ver-se dous casos de análise parcial, onde os elementos no início das setas são os dependentes e os núcleos ocupam a posição final.1

Nick_Cave nasceu em a pequena cidade de Warracknabeal

spec

adjn cprep term

(7.1)

Nick_Cave ( nascido em a cidade de Warracknabeal )

punct

punct

spec cprep term

(7.2) Tendo em conta que só os núcleos de cada dependência se mantêm, o processo de com- pressão das duas orações anteriores vai produzir uma única estrutura simplificada. Note-se

1 Aqui, spec significa especificador; adjn, adjunto; cprep, complemento preposicional; term, termo e punct

7.3. Análise parcial para a compressão de orações 111

que os núcleos de frases nominais com entidades mencionadas em complementos preposi- cionais (“cidade de LOC”, “região do LOC”, etc.) herdam a informação a informação dos nomes próprios dependentes, pelo que nos exemplos, “cidade” representa uma localização específica:

<Nick_Cave nasceu/nascido em cidade>

As regras semânticas genéricas são depois aplicadas sobre estas estruturas simplificadas. Por exemplo:

Se um nome de pessoa é Núcleo, um nome de localização é Dependente e o verbo nasceré um Relator, os dous nomes (pessoa e localização) encontram-se numa relação de LocaldeNascimento

Esta regra pode ser proposta para cobrir tanto os dous exemplos anteriores como mui- tos outros. Para além disso, a análise sintáctica previne a aplicação desta regra em orações como 7.3, onde o núcleo da primeira frase nominal não é um nome de pessoa, mas um nome comum (filho).

O filho de Nick_Cave nasceu em o Brasil

spec cprep term spec

(7.3) Assim, neste tipo de orações (e noutros como orações negativas), as regras semânticas não extrairão pares incorrectos como LocaldeNascimento, Nick Cave – Brasil, mas permiti- rão extrair o local de nascimento de “o filho de Nick Cave”.

<filho nasceu em Brasil>

O formalismo gramatical de DepPattern permite que os analisadores mantenham os de- pendentes de uma regra depois da sua aplicação. Deste modo, se quisermos adicionar vários conjuntos de regras para extrair diferentes relações, o sistema só precisaria de uma única execução sobre o corpus.

Em suma, a compressão de orações realizada através da análise sintáctica parcial simpli- fica as estruturas linguísticas mas mantém a sua informação básica. Assim, a adição de regras semânticas genéricas (convertidas desde padrões léxico-sintácticos) no fim das gramáticas de dependências, permite que o parser incremente a abrangência do processo de extracção.

112 Capítulo 7. Extracção de Relações com Base em Regras

Oração: “Nick Cave nasceu na cidade de Warracknabeal”

Polaridade: Nick Cave LocaldeNascimento Warracknabeal, positivo Padrão:<X nasceu_VB em_PS DT cidade_NC de_PS Y>

Figura 7.1: Exemplo de uma oração, a polaridade dos termos relacionados e o padrão léxico-sintáctico.