• Nenhum resultado encontrado

Os frames e a FrameNet

No documento francineferreiravaz (páginas 70-87)

Este capítulo se inicia com uma explanação acerca da teoria da Semântica de frames, que é a base do projeto FrameNet. Os detalhes desse projeto também serão abordados neste capítulo, dentre eles, os principais conceitos associados a ele e os procedimentos para a criação de frames e anotação de sentenças nos corpora.

3.1- A Semântica de Frames

O termo “Semântica de Frames” se refere a um programa de pesquisa em semântica empírica e a um framework descritivo que será usado para representar o resultado dessa pesquisa. A Semântica de Frames oferece uma nova forma de postular princípios para a criação de novas palavras e sintagmas, para acréscimo de sentido às palavras já existentes e para a junção dos significados dos elementos de um texto de acordo com o sentido geral deste. Já o termo frame se refere a um sistema de conceitos relacionados de tal maneira que, para compreender qualquer um deles, é preciso entender toda a estrutura na qual ele se encaixa; quando um dos elementos dessa estrutura é introduzido no texto ou na conversação, todos os outros ficam automaticamente disponíveis. Esse termo é usado para englobar um conjunto de conceitos presentes na literatura de compreensão de linguagem natural, como esquema, script, cenário, modelo cognitivo e outros (FILLMORE, 1982).

A Semântica de Frames origina-se da semântica empírica tradicional e não da Semântica Formal. A sua visão não é incompatível com os trabalhos e resultados dessa última, mas difere fundamentalmente da Semântica Formal ao enfatizar a continuidade ao invés da descontinuidade entre língua e experiência.

Nessa visão, as palavras representam categorias de experiências, e cada uma dessas categorias é baseada em uma situação motivacional associada ao contexto do conhecimento e a uma experiência. Em relação ao sentido das palavras, as pesquisas da Semântica de Frames podem ser vistas como um esforço para compreender quais foram as razões apresentadas por uma comunidade de falantes para criar uma categoria representada por uma palavra e para explicar o sentido dessa palavra através da apresentação e esclarecimento dessa razão.

As relações entre frame e palavra são muito similares também às distinções de Langacker (1987) entre base e perfil (profile). Para clarear esses conceitos, Langacker dá o exemplo da palavra “hipotenusa”, cujo sentido não é possível entender sem compreender o conceito de triângulo retângulo. A descrição das características relevantes do triângulo retângulo é uma descrição do frame no qual a palavra hipotenusa é definida. Nas palavras de Langacker, triângulo retângulo é a base, e hipotenusa é o perfil.

Para a maioria das propostas de pesquisas léxicas comuns, não será necessário reduzir a descrição de frames a seus últimos primitivos, mas sim, expressar, ao final, a noção de frame em alguma linguagem de representação formal que permitirá traçar inferências válidas a cerca da representação semântica da sentença, ou que poderá servir como um mecanismo preciso para o desenvolvimento de uma representação cumulativa do conteúdo do discurso em andamento. Mas para uma proposta de pesquisa lexicográfica comum, a linguagem usada para descrever a semântica de frames pode ser limitada ao nível necessário para revelar aos usuários humanos as características semânticas essenciais das palavras estudadas e etiquetar todos os argumentos e contrastes que precisam estar associados a elas.

De fato, os frames semânticos aos quais fazemos referência podem, geralmente, se associar a entidades e experiências que não estão precisamente formalizadas no geral, como, por exemplo, algumas experiências universais de espécie (raiva, sono, reconhecimento de co-específicos, etc.), interações com o ambiente (respostas a gravidade, reconhecimento de tipos naturais, proteção para condições do tempo, etc.), e universais culturais que são pressupostos, mas não explicados, na descrição do sentido das palavras como sorriso, comida, morte, dor, gato, etc.

No desenvolvimento das descrições da semântica de frames, é necessário identificar, primeiramente, fenômenos, experiências ou cenários, representados pelo significado das palavras alvo, e as sentenças nas quais elas ocorrem. Depois, identificam-se e criam-se etiquetas para aquelas partes ou aspectos associados a sentidos específicos das expressões linguísticas. Assim, definimos os elementos de frame.

Um elemento de frame é simplesmente um participante regular, característica ou atributo do tipo de situação descrita pelo frame. Assim elementos de frame de casamento incluem, por exemplo, noivo, noiva, padrinho, madrinha, cerimônia. Elementos de frame não são obrigatórios, existe casamento sem padrinho, mas precisam ter características regulares recorrentes.

Palavras Frames Noiva, noivo, casamento, divórcio, noivo,

padrinho, madrinha, lua de mel, marido, mulher

Casamento

Pensão, corte de divórcio, ex-marido, ex- mulher

Divórcio Semana, mês, ano, estação, Segunda à

Domingo, Janeiro à Dezembro, dia, noite, manhã, tarde

Ciclo do calendário

Momento, velocidade Movimento

Morno, quente, frio, temperatura, termômetro

Temperatura Tabela 3.1: Elementos de Frame (GAWRON, 2008, p. 7)

Além disso, nos frames existem elementos que podem ser intercambiáveis, ou seja, um frame pode estar ligado a outros frames por compartilhamento de participantes ou até mesmo por participantes que atuam em outros frames. Eles podem ser componentes de uma interpretação.

Segundo Gawron (2008), os frames podem se relacionar por especialização, por exemplo, existe um subframe ciclo de calendário que inclui os dias da semana, por perspectivação, isto é, a relação entre dois frames A e B, na qual A é visto como instância de B, assim como, por definição, o frame de casamento é usado pelo frame de divórcio.

Em semântica de frames, todos os sentidos das palavras são relativos ao frame, no entanto, o sentido de uma palavra não ativa um frame inteiro. Palavras diferentes selecionam diferentes aspectos do contexto de um perfil. Algumas vezes, esses aspectos são apenas mutuamente exclusivos devido ao tipo de circunstância descrita para participantes distintos, como mulher e homem em um frame de casamento. No entanto, alguns significados das palavras não se diferenciam no que eles perfilam, mas sim em como eles perfilam. Em alguns casos, as palavras se diferenciam na perspectiva.

Consideremos o verbo “arriscar”, discutido em Fillmore e Atkins (1998), que permite vários tipos de participantes dentro de um único espaço gramatical.

a) John arriscou ser repreendido. b) John arriscou seu carro.

c) John arriscou um passeio na pista de esqui avançada.

O frame do verbo “arriscou” tem três participantes diferentes, (a) uma coisa ruim que pode acontecer, (b) uma coisa valiosa que pode ser perdida e (c) uma atividade

que pode levar ao acontecimento de uma coisa ruim. Todas podem acontecer na posição de objeto direto, como mostrado acima. Como existem três relações diferentes, uma teoria que associasse significados lexicais a relações marcaria três sentidos diferentes. No entanto, a semântica de frames descreve como um único frame com três perfilamentos diferentes, o que se torna possível graças à associação da estrutura do frame com as opções de perfilamento que a língua oferece.

Tradicionalmente, discussões sobre a interface léxico semântico / sintático começam com um conjunto de regras pré-definidas. Segundo Gawron (2008), isso é o que motiva, por exemplo, o trabalho de Chomsky (1981 apud GAWRON, 2008). No entanto, o primeiro afirma que a vantagem da semântica de frames é que, em muitos sentidos, é interessante olhar o pré-relacional, as fundações fora das quais os papéis das relações são abstratos, ou seja, o domínio dos frames.

De acordo com Gawron (2008), a sintaxe da linguagem humana nos força a linearizar os participantes dos eventos ao qual estamos nos referindo. No entanto, na semântica de frame, parece ser diferente. Os sentidos lexicais parecem estar ligados aos mesmos tipos de schemata que organizam nossas percepções e interpretações do mundo social e físico. Nesses schemata, participantes não são nem linearizados nem unicamente individualizados, e o mapeamento dentro de um regime linear da sintaxe é restrito, mas indeterminado. Assim, nós, frequentemente, vemos palavras individuais com opções de quem são realmente seus participantes e de como eles são realizados ou palavras estreitamente relacionadas com possibilidades de realizações distintas para os mesmos participantes. Os frames oferecem um modelo tanto específico como flexível o suficiente para acomodar esses fatos, enquanto oferecem a promessa de um terreno seguro para a descrição lexicográfica e um relato para a compreensão de texto.

Para Fillmore (1988), a descrição do frame semântico que se procura desenvolver precisa ser integrada com a teoria do léxico dentro da qual a informação semântica e gramatical aparecem juntas. Cada item lexical, ou sintagma idiomático, pode ser associado dentro do que chamamos de descrição de valência, uma descrição que especifica, em termos semânticos e sintáticos, o que a expressão requer dos seus constituintes e dos seus contextos e como contribui para a estrutura que o contém. O sistema mais desenvolvido de descrição de valências leva em consideração a gramática e o significado dos verbos. Um exemplo claro envolvendo semanticamente verbos relacionados com valências diferentes pode ser oferecido pelo domínio das transações comerciais (tabela 3.2).

Comprador Vendedor Mercadoria Dinheiro Comprar Suj (de) Obj-D (por) Vender (para) Suj Obj-D (por) Trocar (Obj-I) Suj (por) Obj-D Gastar Suj Vazio por/em Obj-D Pagar Suj [Obj-I] [por] Obj-D Pagar Suj (para) por Obj-D Custar (Obj-I) Vazio Suj Obj-D

Tabela 3.2: A valência semântica e sintática (na voz ativa) de verbos do frame de transação comercial (FILLMORE, 1992, p.79)

Examinando as relações semânticas entre palavras, assim como a polissemia da estrutura das palavras, encontram-se frequentemente, em alguns dos seus sentidos secundários, palavras com propriedades semânticas e distribucionais de outras palavras determinadas (ou classe de palavras). Pode-se dizer que ela herda algumas das propriedades gramaticais, no uso, das palavras associadas.

Fillmore (1992) afirma que os dicionários padrões não estão equipados para apresentar uma organização polissêmica, porque eles não oferecem um meio de acessar detalhes de frames conceptuais dados. Uma representação mais apropriada pode ser oferecida em um dicionário digital baseado em frame com as propriedades citadas acima.

3.2- A FrameNet

O projeto FrameNet, em desenvolvimento desde 1997, é liderado pelo Professor Charles Fillmore, no International Computer Science Institute (ICSI), em Berkeley, na Califórnia. De acordo com Ruppenhofer et al. (2010), o objetivo do projeto é criar “um recurso lexical on-line baseado na semântica de frames e suportado por evidência de corpus”. Dessa forma, torna-se possível documentar as possibilidades semânticas e sintáticas de cada palavra (valências) e de cada sentido dessa palavra através da anotação de frases exemplares e análise de resultados.

Segundo os dados disponíveis no site oficial do projeto (www.framenet.icsi.berkeley.edu) (Figura 3.1), o banco de dados já contém mais de dez

mil unidades lexicais e mais de 960 frames anotados e exemplificados através de 170.000 sentenças. Esses dados, referentes somente à língua inglesa, são liberados ao público (já está na terceira versão) e utilizados também por outros pesquisadores que estão ampliando esse projeto para outras línguas como o espanhol, o alemão, o chinês, o japonês e o português (Projeto FrameNet Brasil liderado pela professora Margarida Salomão, na UFJF, desde 2009, figura 3.2). Segundo Salomão (2009, p.5),

Na conclusão deste trabalho, estaríamos nos aproximando do sonho do “dicionário ideal”, no qual cada um de nós, ao consultar uma palavra, seríamos remetidos imediatamente para o frame que ela evoca, com todos os respectivos Elementos componentes; veríamos, além disso, uma listagem de todas as valências desta palavra, suas possibilidades combinatórias sintáticas e semânticas, ilustradas por exemplos correspondentes. A consulta ainda nos ofereceria um conjunto de outras palavras que evocam o mesmo frame e o conectaria com outros frames semanticamente relacionados.

Figura 3.1: Página do Projeto FrameNet americano (https://framenet.icsi.berkeley.edu/fndrupal/)

Uma outra aplicação desse projeto é auxiliar o trabalho de rotulação semântica de texto corrido para aplicação no Processamento de Linguagem Natural, o que facilitaria a comunicação homem-máquina, e geraria uma grande transformação no modo como a informação é armazenada e acessada no mundo tecnológico. O exemplo mais claro disso seria uma maior eficiência nas buscas eletrônicas, já que a web deixaria de ser organizada sintaticamente (grande quantidade de informação e busca com resultados insatisfatórios) e passaria a ser organizada semanticamente, usando mecanismos capazes de capturar o significado das informações.

Existem duas categorias que são frequentemente usadas no Projeto e por isso necessitam de ser definidas mais objetivamente: as unidades lexicais e as anotações. Entende-se por unidade lexical (LU, lexical unit em inglês) o par formado por uma palavra e o seu significado. Cada significado diferente de uma palavra faz com que ela seja associada a um frame diferente. O conceito de frame define uma estrutura conceitual que descreve uma situação em particular, objetos e eventos com seus participantes e propriedades. Os frames podem ser evocados tanto por substantivos, adjetivos, quanto por advérbios e preposições. Por exemplo, o frame de comunicação descreve uma ação que envolve um Comunicador que transmite uma Mensagem a um Destinatário e é evocado por palavras como destinatário, tema, assunto, tópico. Os elementos que participam desse frame (comunicador, destinatário, mensagem e outros) são chamados de elemento de frame (EF).

Em relação às anotações, de acordo com Ruppenhofer et al. (2010), torna-se necessário definir dois tipos: a anotação lexicográfica e a de texto corrido. A lexicográfica é aquela que se concentra numa unidade lexical em particular e busca sentenças que a contenham em diferentes textos do corpus, selecionando, posteriormente, algumas para serem anotadas. Essa é a forma de anotação mais comum na FrameNet. Já na anotação de texto corrido, o texto inteiro é anotado para todas as ULs que ele contém. Nos dois tipos de anotação, declara-se cada palavra de uma sentença como alvo, seleciona-se o frame em relação ao qual o alvo deve ser anotado e o elemento de frame apropriado depois se anota os constituintes relevantes, que fazem parte da valência desse uso. A anotação desses elementos é feita, graficamente, em, pelo menos, três camadas que representam a função semântica, isto é, o Elemento de frame que corresponde (por exemplo, Comunicador) a sua descrição sintática, isto é, o Tipo de Sintagma (por exemplo, SN), e a sua Função Gramatical (por exemplo, Externo).

Segundo Salomão (2009), as categorias que resultam da anotação provêm da definição do frame. Assim sendo, os Elementos de frame (EF) são específicos de cada frame e as categorias sintáticas, Tipo de Sintagma (TS) e Função Gramatical (FG) fazem parte da análise gramatical, que, apesar de não declarada formalmente, é seguida pelo projeto, ou seja, os pressupostos das teorias sintáticas construcionistas e não derivacionais, como por exemplo, a Teoria da Sintaxe mais simples, HPSG (Head- Driven Phrase Structure Grammar) e, em especial, da Gramática das Construções.

Se o tipo semântico básico dos EFs não for largamente constante na sua utilização, é necessário criar um EF distinto. Os EFs são classificados como nucleares, periféricos e extra-temáticos. Segundo Ruppenhofer et al. (2010), um elemento nuclear é aquele que instancia um componente conceptual necessário ao frame, tornando-o único e diferente dos demais. Por exemplo, no frame de Comunicação, o comunicador, o meio, o tópico e a mensagem são nucleares de acordo com a FrameNet do inglês. Existem algumas propriedades formais que determinam quais elementos de frame são nucleares. Assim sendo, um Elemento de Frame será nuclear:

 Quando tiver de estar claramente especificado;

 Se recebe uma interpretação definida quando é omitido. Por exemplo, na frase “João chegou”, o local aonde ele chegou deve estar subentendido;  Quando o seu sentido não puder ser previsto nem pela sua forma e nem por

uma preposição marcada, pois sua interpretação irá depender inteiramente do complemento. Nesse caso, torna-se necessário definir dois corolários:

o Um EF que não tem uma marca formal tem que ser nuclear. Dessa forma, quando os EFs forem sujeitos ou objetos em uma frase ativa simples terão que ser nucleares, pois essas funções são mais proeminentes comunicativamente e menos previsíveis formalmente; o Um EF que tem marca idiossincrática formal deve ser nuclear. Por

exemplo, a preposição “de” no verbo “depende de” assume um sentido (em contato com ou suportado por) que se repetirá em muitos outros frames, no entanto, quando representa um EF que marca lugar não define esse EF como nuclear;

Elementos de frame periféricos são aqueles que não introduzem eventos independentes, distintos ou adicionais em relação ao evento principal reportado. São responsáveis por noções como tempo, espaço, modo, meio, grau e não caracterizam um

frame único. Além disso, podem ser instanciados em qualquer frame semântico que seja apropriado.

Elementos de frame extra-temáticos são aqueles que combinam muitos outros frames, trazendo-os para o seu escopo ou elaborando descrições de participantes ou de lugares. Assim, os EF extra-temáticos não fazem parte do frame no qual eles aparecem. São EF de um outro frame abstrato que os utiliza e utiliza também o alvo que eles modificam como argumento.

Os EF extra-temáticos (ET) introduzem uma cena independente e são introduzidos por elementos particulares e construcionais que evocam frames distintos. Dessa forma, o frame original do EF extra-temático não precisa ser evocado por uma unidade lexical. Ele pode ser simplesmente evocado construcionalmente. Diferente dos EFs nucleares e periféricos, os EFs extra-temáticos não têm uma compreensão específica para um frame.

A FrameNet descreve vários EF extra-temáticos (ETs de tempo, lugar, duração, espaço e outros) com o objetivo de listar seus significados e usos, identificar as estruturas gramaticais que os realizam e explicitar o contraste que há entre ETs e EFs.

Algumas vezes, apesar de descritos, os EFs não aparecem nas sentenças escolhidas para anotação. No entanto, apesar da sua omissão, ela deve ser indicada já que oferece informação relevante. O EF identificado mostra qual é o papel semântico que o elemento ausente deveria ocupar. Existem três tipos de omissão focadas na instanciação nula do verbo na qual o fenômeno é mais clara:

 Instanciação nula definida (anafórica) (IND): o elemento ausente pode ser compreendido no contexto linguístico ou do discurso, como, por exemplo, “Sai cedo”, em que o EF pode ser recuperado através da desinência verbal. Outros exemplos seriam os casos anafóricos e catafóricos;

 Instanciação nula indefinida (INI): a natureza (ou pelo menos o tipo semântico) do elemento ausente pode ser compreendida pela interpretação convencional, sem necessidade de identificar um referente de discurso específico: “Há necessidade de comunicar o fato a polícia”, na qual o EF Comunicador é omitido;

 Instanciação nula construcional (INC): a ausência do elemento é licenciada pela construção gramatical na qual a palavra aparece como, por exemplo, a omissão do agente em frases passivas: “Ele foi preso”.

Os EFs estão relacionados ao frame. Os frames podem se relacionar de muitas maneiras. Nessas relações, um deles (o menos dependente ou mais abstrato) é chamado de superframe, e o outro (o mais dependente ou menos abstrato) é chamado de subframe. Algumas dessas relações são (Ruppenhofer et al., 2010):

Herança: é uma das relações mais fortes entre frames. Dessa forma, tudo que for verdade para o frame-pai (EF, tipos semânticos, relações entre frames e entre EFs) será verdade para o frame-filho;

 Perspectiva: o uso dessa relação indica a presença de pelo menos dois pontos de vista diferentes que podem ser adotados em relação ao frame neutro. Desse modo, o frame-filho oferece uma perspectiva particular do frame-pai;

Subframe: existem frames complexos que fazem referência a sequências de estados e transições que podem ser descritos separadamente como outros frames. Assim, os frames separados são vistos como subframes dos frames complexos;

Precedência: é a relação entre dois subframes de um frame complexo, responsável pelo acréscimo de uma informação cronológica, que pode ser linear ou cíclica;

 Causativo_de e Incoativo_de: não é uma relação de herança, mas uma relação bastante sistemática entre frames de Estado, de Mudança de estado e de Causar mudança de estado. Frames que participam nessa relação como Causativos são herdeiros do frame de Ação Transitiva, como Incoativos são herdeiros do frame Evento e como Estado são herdeiros do de Estado ou Atributo Gradual;

Uso: uma parte da cena evocada pelo frame-filho se refere ao frame-pai. É possível que um frame use mais de um frame;

Veja também: existem grupos de frames que são tão semelhantes que precisam ser cuidadosamente diferenciados, comparados e contrastados. Assim, na definição do frame de um membro representativo, existe uma referência que compara os frames para deixar clara a diferença entre eles.

Salomão (2009) resume as características da base de dados criada pelo Projeto da seguinte maneira:

Uma lista de frames é apresentada com suas definições e com seu conjunto de elementos de frame (EL), classificados, definidos e exemplificados com sentenças anotadas retiradas do corpus;

 Uma lista de Unidades lexicais (ULs), seguida da sua função sintática (communicate.v), está associada a cada frame, sendo possível acessar também seu contexto de ocorrência mais frequente com exemplos de

No documento francineferreiravaz (páginas 70-87)

Documentos relacionados