• Nenhum resultado encontrado

OS DESAFIOS DA ANOTAÇÃO DE UM CORPUS DA LINGUAGEM DO FUTEBOL COM FRAMES SEMÂNTICOS

N/A
N/A
Protected

Academic year: 2021

Share "OS DESAFIOS DA ANOTAÇÃO DE UM CORPUS DA LINGUAGEM DO FUTEBOL COM FRAMES SEMÂNTICOS"

Copied!
9
0
0

Texto

(1)

OS DESAFIOS DA ANOTAÇÃO DE UM CORPUS DA LINGUAGEM DO FUTEBOL COM FRAMES SEMÂNTICOS

Rove Chishman Anderson Bertoldi João Gabriel Padilha Diego Spader de Souza

Universidade do Vale do Rio dos Sinos (UNISINOS)

Introdução:

O propósito deste trabalho é discutir os principais desafios encontrados na anotação de um corpus de linguagem do futebol. Para a anotação do corpus, foram utilizados os frames semânticos desenvolvidos no âmbito do projeto Kicktionary (Schmidt 2009). O Kicktionary é uma base de dados lexicais multilíngue em alemão, francês e inglês que descreve a linguagem do futebol segundo os princípios da Semântica de Frames (Fillmore 1982, 1985). Neste trabalho, são discutidos como a linguagem metafórica do futebol, os verbos suporte e a polissemia dos itens lexicais interferiram no processo de anotação do corpus com frames semânticos.

Considerando-se que o Kicktionary é uma base de dados lexicais da linguagem do futebol em inglês, alemão e francês, para a anotação semântica do corpus em português foi necessário, primeiramente, um trabalho de busca de equivalentes para as unidades lexicais do português. Após encontrar um equivalente em inglês, era possível consultar a base de dados do Kicktionary e verificar qual frame a unidade lexical em inglês evocava. Ressalta-se, neste trabalho, que as diferenças encontradas foram mais de estrutura linguística e de léxico que diferenças conceptuais entre as línguas. Uma vez que as regras do futebol são universais, os frames puderam ser utilizados sem maiores dificuldades para a anotação de corpus em português.

A Semântica de Frames e a FrameNet:

A Semântica de Frames nasce a partir de um conceito muito discutido na década de 70, o frame (Minsky 1974; Goffman 1974). Inicialmente, Fillmore (1975) faz uma distinção entre os conceitos de “cena” e “frame”. O conceito de cena era visto como um

(2)

conceito abrangente que englobava não apenas cenas visuais, mas experiências corporais, sociais e culturais. O conceito de frame, por sua vez, era visto como um sistema de escolhas linguísticas, incluindo palavras e regras gramaticais, associadas à determinada instância prototípica de uma cena.

Apesar de os textos clássicos sobre Semântica de Frames datarem da década de 1980 (Fillmore 1982, 1985), as suas raízes podem ser encontradas já na década de 1960. Em seu artigo The case for case (Fillmore 1968), Fillmore estuda os papéis semânticos que seriam universais. Para isso, ele adota a posição de Tesnière (1959), que afirma que a divisão sujeito/predicado não é apropriada para descrever a língua. É então que surge a estrutura de casos (case frame) com os seis casos, ou papéis semânticos, que dariam origem a todo o estudo de papéis temáticos: agentivo, instrumental, dativo, factivo, locativo e objetivo.

Fillmore (1977) demonstra através do evento de transação comercial que os verbos comprar, vender e custar representam diferentes perspectivas do mesmo evento. O vendedor cede a mercadoria em troca de dinheiro e o comprador cede o dinheiro em troca da mercadoria. Um evento como transação comercial marca a troca de posse de dois bens: o dinheiro passa da posse do comprador para o vendedor e a mercadoria passa da posse do vendedor para o comprador. A análise da relação de perspectiva no evento de transação comercial já apresenta um primeiro esboço do que será, posteriormente, chamado de “elementos de frame” pelo Projeto FrameNet. Esses elementos de frame vêm substituir a proposta de casos (Fillmore 1968).

A distinção entre cena, como estrutura cognitiva, e frame, como estrutura linguística, é posteriormente abandonada (Fillmore 1982, 1985). Segundo Fillmore (1982, p.111), “Pelo termo ‘frame’ eu tenho em mente qualquer sistema de conceitos relacionados de tal forma que para entender qualquer um deles você tem que entender toda a estrutura na qual ele se encaixa (...)”. Para a Semântica de Frames, as palavras têm a capacidade de “evocar” todo um conhecimento de mundo que é organizado através de uma estrutura cognitiva chamada de frame: “Um frame é evocado pelo texto se alguma forma ou padrão linguístico é convencionalmente associado com o frame em questão (Fillmore 1985, p.232)”.

Fillmore e Atkins (1992) apresentam o primeiro exercício de análise semântica baseada em frames e apontam a futura criação de um dicionário on-line baseado em

(3)

frames. A partir do estudo de unidades lexicais que expressam risco, como risk (risco), danger (perigo) e hazard (risco), Fillmore e Atkins propõem onze categorias para descrever os participantes do frame Risk. Essas categorias são: chance (oportunidade), harm (dano), victim (vítima), valued object (objeto de valor), risky situation (situação de risco), deed (ação, feito), actor (ator), intended gain (ganho pretendido), purpose (propósito), beneficiary (beneficiário) e motivation (motivação).

A Semântica de Frames inspirou o desenvolvimento da FrameNet (Fillmore, Johnson e Petruck 2003). A FrameNet é uma base de dados lexicais que descreve o significado dos itens lexicais relacionando-os a frames. Os itens lexicais na FrameNet são tratados como “unidades lexicais”. A unidade lexical é o emparelhamento de uma forma (palavra) com um significado. Cada significado de uma palavra está relacionado a um frame distinto. A FrameNet, por exemplo, apresenta três unidades lexicais para o verbo acuse. Cada unidade lexical evoca um frame distinto: Judgment, Judgment_communication e Notification_of_charges.

A FrameNet descreve os conceitos relacionados a cada frame como “elementos de frame.” Esses elementos são apontados como papéis situacionais, e não como papéis semânticos, tal como previsto pela gramática de casos (Fillmore 1968). Conforme Fillmore e Baker (2010), os elementos de frame representam propriedades ou entidades que podem ou devem estar presentes em qualquer instância de um frame. A FrameNet diferencia os elementos de frame em “centrais”, “periféricos” e “extratemáticos.”

Segundo Fillmore e Baker (2010), a distinção entre esses tipos nem sempre é clara. De uma forma geral, elementos de frame que são obrigatoriamente expressos são centrais. Os elementos de frame periféricos expressam em geral funções de adjuntos, expressando tempo, lugar ou modo. A diferença entre elementos centrais e periféricos depende da necessidade de complementação da unidade lexical. Os elementos de frame extratemáticos introduzem informação referente a outro frame, como o propósito motivador de algum evento ou ação. Os elementos de frame periféricos e extratemáticos são agrupados na FrameNet sob a denominação de elementos não-centrais. Para exemplificar, o frame Commercial_transaction possui como elementos de frame centrais: BUYER (comprador), GOODS (bens), MONEY (dinheiro) e SELLER (vendedor).

(4)

O Kicktionary:

O Kicktionary reativa a distinção entre cenas e frames. Os frames congregam as unidades lexicais do Alemão, do Francês e do Inglês, e as cenas representam os cenários típicos relacionados a cada frame. A cena Pass (passe), por exemplo, congrega 11 frames: Pass (passe), Pass_Back (devolver passe), Mark (marcar), Being_Free (estar livre), Control (controlar), Connect (conectar), Flick_On (flick on), Intercept (interceptar), Bad_Pass (passe ruim), Pass_Combination (combinação de passe) e Supply_Pass (fornecer passe). Segundo Schmidt (2009), o frame é a entidade estrutural usada para agrupar expressões linguísticas que compartilham uma perspectiva em comum sobre uma certa cena conceitual.

Diferentemente da FrameNet, o Kicktionary não separa os elementos de frame em centrais e não-centrais. O frame Pass, por exemplo, apresenta doze elementos de frame: PASSER (JOGADOR_QUE_PASSA), TARGET (ALVO), RECIPIENT (JOGADOR_QUE_RECEBE), SOURCE (FONTE), DIRECTION (DIREÇÃO), BALL (BOLA), PART_OF_BODY (PARTE_DO_CORPO), DISTANCE (DISTÂNCIA), MOVING_BALL (BOLA_EM_MOVIMENTO), PASS (PASSE), SHOT (CHUTE) e PATH (TRAJETÓRIA). A seguir, são apresentadas duas sentenças anotadas com elementos de frames, coletadas da base de dados do projeto Kicktionary, para ilustrar a anotação de sentenças com as unidades lexicais evocadoras do frame Pass:

(1) [Gilewicz PASSER] played [the ball BALL] [to Ivica Vastic RECIPIENT] who was

tackled as he lined up a shot.

(2) With ten minutes left [Vranješ PASSER] passed [to substitute Ivan Leko RECIPIENT] just outside the area.

Neste trabalho, discutem-se os desafios e peculiaridades de se utilizar as etiquetas semânticas desenvolvidas no contexto do projeto Kicktionary para a anotação de textos da linguagem do futebol em português.

(5)

O objetivo deste trabalho foi avaliar a aplicabilidade das etiquetas semânticas desenvolvidas no contexto do projeto Kicktionary para a anotação de um corpus representativo do léxico futebolístico em português brasileiro. Para tanto, foram adotadas as seguintes etapas metodológicas: (a) criação de um corpus especializado, (b) desenvolvimento de um manual de anotação contendo a tradução de todas as cenas e frames do Kicktionary, (c) segmentação do corpus em sentenças e (d) análise e anotação manual das sentenças por pares de anotadores.

O corpus deste estudo é composto por 100 textos contendo descrições de partidas de futebol. Os textos foram coletados de sites de clubes brasileiros em dias subsequentes às partidas de campeonatos como a Copa do Brasil ou a Copa Libertadores. Esses textos foram divididos em 11 pacotes, conforme o site do qual foram totalizando 3307 sentenças.

A partir de uma apreciação inicial do corpus, percebeu-se a complexidade das sentenças a serem anotadas. As sentenças apresentavam muitos verbos suporte e expressões metafóricas evocando frames. As dificuldades aqui reportadas não apresentam diferenças “conceptuais” entre os momentos de uma partida de futebol descritos em português brasileiro e inglês, uma vez que as regras do esporte, bem os acontecimentos contidos nessa prática são internacionalmente difundidos. O que foi percebido é que essas duas línguas valem-se de diferentes construtos para se referirem aos mesmos eventos. As diferenças, portanto, dão-se no nível “lexical”.

Ilustrando uma dessas dificuldades encontradas durante o processo de anotação, pode-se citar a falta de equivalentes diretos no inglês para o item lexical bicicleta. O mesmo ocorre com o item lexical bomba, nominal que faz referência um chute mais potente do que o normal. Seu equivalente indireto, ou seja, uma construção metafórica com esse sentido de “chute potente” é o nominal thunder (trovão), uma metáfora que, conforme pudemos perceber até este ponto, não faz parte do léxico futebolístico do português brasileiro.

Percebeu-se a grande recorrência das cenas Chute, Gol e Passe. Assim, optou-se por anotar primeiramente apenas parte do corpus. Então, selecionaram-se as 1000 primeiras sentenças do corpus para anotação, primeiramente, dessas três cenas mais recorrentes.

(6)

Para a anotação das sentenças, primeiramente, foram identificados o evocador de frame na sentença e o frame evocado. Em seguida, os principais sintagmas da sentença foram anotados com elementos de frame, conforme exemplo (3).

(3) Em seguida, [Ricardinho JOGADOR_SUBSTITUÍDO] foi substituído [pelo estreante

Neto Berola SUBSTITUTO] [Cena: Substituição/Frame: Substituir].

Os arquivos, manualmente anotados, foram inseridos no software SALTO (Burchardt et al 2006) para que, assim, obtivessem-se os arquivos em formato .xml, tornando possível sua aplicabilidade computacional. É esse tipo de arquivo que permite a leitura através de máquinas das informações manualmente inseridas no processo de anotação. A figura 1 exemplifica o uso da ferramenta SALTO para anotação de frames semânticos.

Figura 1: Anotação de frames com a ferramenta SALTO

As metáforas do futebol:

As metáforas no corpus de linguagem do futebol são os casos que requerem especial atenção dos anotadores. Nesses casos, para se identificar o frame evocado, é necessário interpretar o significado metafórico da expressão linguística. Como se pode ver nos exemplos (4) e (5), as unidades lexicais roubar, que evoca um frame de roubo, e

(7)

cortar, que evoca um frame de corte, são utilizadas, metaforicamente, para expressar uma interceptação.

(4) [Camacho INTERCEPTADOR] roubou [grande bola BOLA] [no meio

LOCAL_DA_INTERVENÇÃO] e deixou Diego Maurício livre para chutar colocado, mas a bola passou raspando a trave. [Cena: Passe/Frame: Interceptar]

(5) Mas a [zaga INTERCEPTADOR] cortou. [Cena: Passe/Frame: Interceptar]

Os verbos suporte:

O corpus também apresentou uma grande quantidade de verbos suporte, como nos exemplos (6) e (7). No caso dos verbos suporte, o evocador de frame não é o verbo, como habitual, mas um substantivo. Nos exemplos (6) e (7), o item lexical passe incorpora o elemento de frame ao evocador de frame.

(6) [Ramirez JOGADOR_QUE_PASSA] fez [o passe PASSE] [para Battión JOGADOR_QUE_RECEBE]. [Cena: Passe/Frame: Fornecer_passe]

(7) [O autor do primeiro gol JOGADOR_QUE_PASSA] deu [passe milimétrico PASSE] [para Adriano JOGADOR_QUE_RECEBE] apenas tocar na saída do goleiro

chileno e fazer 2 a 0 aos 13. [Cena: Passe/Frame: Fornecer_passe]

A polissemia:

A polissemia dos itens lexicais também representou um desafio para a anotação. Nos exemplos (8) e (9), pode-se ver diferentes sentidos para o verbo tocar. No exemplo (8), tocar é usado no sentido de chutar. Já no exemplo (9), tocar é usado no sentido de passar.

(8) Aos sete minutos, [Tardelli JOGADOR_QUE_RECEBE] recebeu [ótimo passe PASSE] de [Muriqui JOGADOR_QUE_PASSA] e tocou na saída do goleiro para fazer o terceiro gol: Galo 3 x 1. [Cena: Passe/Frame: Dominar]

(8)

(9) [O Furacão JOGADOR_QUE_PASSA] tentou tocar mais a [bola BOLA] para tirar a velocidade do Timão, mas não adiantou. [Cena: Passe/ Frame: Passe]

Considerações finais:

O processo de anotação relatado neste trabalho representa a primeira etapa de um projeto lexicográfico que tem como objetivo a criação de um dicionário bilíngue do domínio do futebol. Os desafios enfrentados na anotação de um corpus monolíngue sobre a linguagem futebolística levam a reflexões acerca da criação de léxicos bilíngues para o domínio desse esporte: a partir das dificuldades relatadas no que tange aos equivalentes de tradução, percebeu-se a necessidade – assim como a importância – da complementação dos dados oferecidos pelo projeto pioneiro por meio da adição das unidades lexicais representativas da linguagem futebolística em português brasileiro. Vale ressaltar que o trabalho de desenvolvimento de léxicos computacionais bilíngues necessita encontrar equivalências para expressões metafóricas e para as expressões com verbos suporte, conforme se ilustrou aqui por meio de exemplos do corpus de estudo. Além dessas questões, um dicionário bilíngue do futebol necessitará encontrar equivalência para a polissemia: exemplos como Wagner Love tocou para Ronaldinho e Tardelli tocou para o fundo da rede apresentam o verbo tocar em duas acepções distintas. No primeiro caso, e o mais recorrente no corpus de estudo, tem-se a t

ransferência da posse de bola de um jogador para outro do mesmo time, enquanto no segundo exemplo, menos recorrente, o mesmo verbo alude a uma situação em que um jogador chuta em direção ao gol adversário, sucedendo nessa ação e marcando um gol para sua equipe.

Este trabalho contou com o financiamento das agências CAPES, CNPq e FINEP, através do Edital Nº. 001/2010, MCT/CNPq/FINEP – Programa Nacional de Doutorado (PNPD) e FAPERGS – Programa de Complementação de Bolsas de Pós-Doutorado – Processo 1612/12-1.

Referências bibliográficas:

BURCHARDT, A., ERK, K., FRANK, A. KOWALSKI, A., PADÓ, S. e PINKAL, M. (2006). “SALTO – A Versatile Multi-Level Annotation Tool” in: Proceedings of the 5th

(9)

International Conference on Language Resources and Evaluation LREC 2006. Genova: ELRA, pp.517-520.

GOFFMAN, E. (1974). Frame Analysis. Nova York: Harper.

FILLMORE, C. J. (1968). “The case for case”, in: BACH, E. e HARMS, R. T. (Eds.) Universals in Linguistic Theory, vol. 67. Nova York: Holt, Rinehart and Winston, pp.1-88.

FILLMORE, C. J. (1975). “An alternative to checklist theories of meaning”, in: Proceedings of the first annual meeting of the Berkeley Linguistics Society. Berkeley: Berkeley Linguistics Society, pp.123-131.

FILLMORE, C. J. (1977). “Scenes-and-frames semantics”, in: ZAMPOLLI, A. (Ed.). Linguistic Structures Processing: Fundamental Studies in Computer Science, nº. 59. Amsterdã: North Holland Publishing, p.55-88.

FILLMORE, C. J. (1982). “Frame semantics”, in: Linguistics in the Morning Calm. Seul: Hanshin Publishing Co., pp.111-137.

FILLMORE, C. J. (1985). “Frames and the semantics of understanding.” Quaderni di Semantica, vol.6, nº.2, pp. 222-254.

FILLMORE, C. J. e ATKINS, B. T. (1992). “Toward a frame-based lexicon: The semantics of RISK and its neighbors”, in: LEHRER, A. e KITTAY, E.F. (Eds.). Frames, fields and

contrasts: New essays in semantic and lexical organization. Hillsdale/Nova Jersey: Erlbaum,

pp. 75-102.

FILLMORE, C. J. e BAKER, C. (2010). “A frames approach to semantic analysis”, in: HEINE, B. e NARROG, H. (Eds.). The Oxford Handbook of Linguistic Analysis. Oxford: Oxford University Press, pp.313-339.

FILLMORE, C. J., JOHNSON, C. R. e PETRUCK, M. R. L. (2003). “Background to FrameNet.” International Journal of Lexicography, vol.16, nº.3, pp. 235-250.

MINSKY, M. (1974). A framework for representing knowledge. Artificial Intelligence Memo Nº. 306. Cambridge, MA: Massachusetts Institute of Technology, 1974.

SCHMIDT, T. (2009). “The Kicktionary – a multilingual lexical resource of football language”, in: BOAS, H. C. (Ed.). Multilingual FrameNets - Methods and Applications. Berlim/Nova York: Mouton de Gruyter, pp. 101-132.

Referências

Documentos relacionados

O objetivo deste trabalho foi realizar o inventário florestal em floresta em restauração no município de São Sebastião da Vargem Alegre, para posterior

Autores como Abreu (2011) e Chicon (2005), reconhecem a pesquisa-ação como adequada para o processo de mudanças nas práticas pedagógicas de professores de Educação

La asociación público-privada regida por la Ley n ° 11.079 / 2004 es una modalidad contractual revestida de reglas propias y que puede adoptar dos ropajes de

Neste estágio, assisti a diversas consultas de cariz mais subespecializado, como as que elenquei anteriormente, bem como Imunoalergologia e Pneumologia; frequentei o berçário

As análises serão aplicadas em chapas de aços de alta resistência (22MnB5) de 1 mm de espessura e não esperados são a realização de um mapeamento do processo

Nesse contexto, o presente trabalho tem como objetivo realizar testes de tração mecânica e de trilhamento elétrico nos dois polímeros mais utilizados na impressão

O relatório encontra-se dividido em 4 secções: a introdução, onde são explicitados os objetivos gerais; o corpo de trabalho, que consiste numa descrição sumária das

Finally,  we  can  conclude  several  findings  from  our  research.  First,  productivity  is  the  most  important  determinant  for  internationalization  that