• Nenhum resultado encontrado

Ferramentas e suas funcionalidades para o estudo

PARTICIPOU JÁ COMO PRESENCIAL EM 2007 BRAGANÇA

TEMA 1.9 EXTRAÇÃO DE PALAVRAS-CHAVE EM TEXTOS DE LÍNGUA PORTUGUESA PARA CRIAÇÃO AUTOMÁTICA DE

2. Ferramentas e suas funcionalidades para o estudo

Em contexto de design de curso, conforme Flowerdew (1993:231), as ferramentas de análise de corpus como os concordanciadores, na listagem das frequências das palavras nos textos e a disponibilidade de seus contextos, podem fornecer dados para: a) seleção de itens lexicais; b) fornecimento de contexto para os itens lexicais selecionados.

A seleção de itens lexicais para ensino pode ser feita por meio de ferramentas que listam as frequências e fazem a comparação com algum tipo de modelo de referência, a partir de critérios paramétricos, ou listas de itens a excluir. O fornecimento do contexto para os itens lexicais está relacionado à localização de cada item e seus contextos em uma janela fixa de palavras ou caracteres, tanto da esquerda como da direita. Processamentos adicionais podem calcular o grau de associação entre os itens lexicais e determinar os padrões mais típicos para determinado item lexical.

O estudo proposto, tendo em vista seus objetivos, mantém o foco de discussão apenas na seleção de itens lexicais. As ferramentas básicas para tanto, encontradas em concordanciadores, são: a lista de frequência das palavras e a lista de palavras-chave. A funcionalidade de tais ferramentas é recriada em linguagem de programação Python para adaptações.

Com o objetivo de fornecer exemplos ilustrativos do potencial de análise e utilidade das ferramentas para o contexto de análise de texto para seleção de itens lexicais para o ensino e criação de material didático, na perspectiva de utilidade para professores de línguas, apresentamos, nas seções a seguir, trechos de análises de textos em língua portuguesa, nos gêneros bula de remédio e horóscopo.

2.1. Lista de palavras

A lista de palavras é uma listagem ordenada por frequência de todas as formas que ocorrem em um texto ou conjunto de textos, corpus. A partir da lista de frequência, podemos definir quais são as palavras mais importantes ou representativas de uma determinada seleção.

No contexto de ensino e preparação de materiais didáticos baseados em corpus, a ideia é a de que palavras que possuem uma ocorrência maior são mais importantes, visto que há uma probabilidade maior de serem encontradas em diferentes contextos ou situações, assim, úteis para o aprendiz. Por exemplo, para um aprendiz inicial de língua estrangeira, aprender palavras mais frequentes é extremamente importante.

A análise de frequência das palavras pode fornecer uma ideia geral do que existe em um corpus ou texto, possibilitando uma filtragem das formas que merecem maior atenção. Dependendo do objetivo de análise (estudo do corpus, registro, gênero ou

texto), o foco pode estar voltado para as palavras de conteúdo (substantivos, adjetivos, advérbios e verbos), visto que as palavras gramaticais (artigos, preposições, conjunções) podem figurar em muitos outros textos.

Como exemplo, em parte de uma lista de frequência de um gênero específico para ilustrar uma possível análise, recortaram-se as 25 primeiras palavras da lista de frequência de um corpus formado por bulas de remédio.

Tabela 01 – Palavras mais frequentes de um corpus de bulas de remédio

No recorte feito, fica visível a predominância de palavras gramaticais, embora algumas palavras de conteúdo importantes também se destaquem (‘MG’, ‘PACIENTES’,

‘DEVE’, ‘TRATAMENTO’ e ‘DOSE’). Tais palavras podem ser consideradas representativas do gênero bula de remédio no corpus estudado, levando em consideração os dados de frequência.

Ao analisar a ocorrência das palavras gramaticais, podemos tentar identificar quais palavras se destacam em relação ao tipo de corpus, texto, gênero ou registro a que pertencem. Geralmente, a palavra mais frequente (número um da lista) em textos de língua portuguesa é a preposição ‘DE’. Se alguma outra palavra gramatical ocupar essa posição, será uma ocorrência marcada e merecedora de verificação.

Assim, podemos verificar, na lista, ocorrências que são típicas e não típicas, não só em relação ao registro ou gênero, mas também em relação ao que geralmente ocorre ou é esperado ocorrer. Por exemplo, em um corpus de horóscopo, a palavra ‘VOCÊ’ ocorre logo entre as primeiras da lista, na sexta posição, o que não é típico na maioria das vezes em listas de corpora em língua portuguesa. Vejamos a lista:

Tabela 02 – Palavras mais frequentes de um corpus de horóscopo

Como podemos ver, as listas de frequência fornecem dados úteis para a seleção e descoberta de possíveis palavras-chave, tanto em relação a palavras de conteúdo como palavras gramaticais. Porém, há a necessidade de filtrar os dados de frequência por meio de análise.

2.2. Palavras-chave

Outra maneira de fazer um recorte em relação às palavras que devem ser analisadas é a extração de palavras-chave. Muitas vezes, a lista de palavras-chave fornece uma filtragem mais apurada das palavras que se destacam em corpus ou texto. As palavras- chave podem revelar uma série de informações importantes sobre o texto ou conjunto de textos em análise. É possível observar e identificar, dependendo do objetivo de seleção, palavras que resumem os temas e ideias principais de um texto, termos técnicos de determinada área, entre outras possibilidades, como na tabela a seguir:

Tabela 03 – Palavras-chave de um corpus de horóscopo

A palavra que possui o valor de chavicidade mais alto é ‘VOCÊ’, uma palavra considerada gramatical. O comum é que palavras lexicais (de conteúdo) estejam no topo da lista de palavras-chave. Uma possível explicação sobre a quebra de tal expectativa

e o grande uso desse pronome seria a necessidade de identificar e estabelecer uma relação mais próxima com o leitor nos textos de horóscopo.

Ainda em relação à lista de palavras-chave, podemos observar a ocorrência das palavras que identificam os signos no horóscopo (‘ÁRIES’, ‘TOURO’, ‘CAPRICÓRNIO’...), elementos da Astrologia (‘LUA’, ‘LUNAR’, ‘ECLIPSE’, ‘VÊNUS’, ‘SATURNO’), pistas sobre a temática (‘RELACIONAMENTOS’, ‘EMOCIONAL’, ‘VIDA’, ‘SENTIMENTOS’, ‘CORAÇÃO’, ‘AMOR’, ‘TRABALHO’), pistas sobre a estrutura interna dos textos em relação à característica de conselho e prescrição (‘PROCURE’, ‘CUIDE’, ‘APROVEITE’).

Basicamente, as observações realizadas estão simplesmente baseadas na identificação de padrões, agrupamento dos padrões em categorias/funções e levantamento de hipóteses para confirmação em análises mais detalhadas. Mais uma vez, a questão da padronização parece essencial na análise de dados de corpus.

De certa forma, essa análise pouco aprofundada dos dados já traz uma série de possibilidades de uso prático. Por exemplo, para o ensino do gênero, temos informações importantes para selecionar o que ensinar em relação à temática e à estrutura do texto. Para escrever um horóscopo, a temática predominante parece ser a vida amorosa, relacionamentos e um pouco sobre a vida profissional, trabalho. Sabemos também que fatos da Astrologia são citados (‘A lua em marte...’), fonte base das informações que determinam a personalidade e as relações dos signos. Outra informação a ser incluída na produção seria o caráter de prescrição/conselho (‘você deve aproveitar esta fase...’).

Todas essas informações de análise podem ser aproveitadas por professores na criação de atividades que privilegiem a língua em uso, um aspecto relevante dos benefícios de utilização de corpus para o ensino. Especificamente, tais informações podem ser extraídas por programas com interface mais amigável, que escondam grande

parte da complexidade de análise de frequência e estatística, trazendo apenas os dados prontos para o uso.

Outline

Documentos relacionados