• Nenhum resultado encontrado

Software linguístico-computacional Unitex-PB

3.2 Ferramentas de pesquisa

3.2.1 Software linguístico-computacional Unitex-PB

O Unitex (PAUMIER, 2002), assim como a metodologia do Léxico-Gramática, foi programado durante projetos do LADL na França. Trata-se de um software livre e plurilíngue, que tem como principal funcionalidade o processamento de um corpus textual, permitindo a busca por expressões regulares em textos com milhões de palavras em tempo real. Designado Unitex-PB (quando utiliza os recursos linguísticos disponíveis para o português brasileiro), esse software possibilita ao usuário a realização de serviços que envolvem: a construção de dicionários eletrônicos, a aplicação de tabelas do Léxico-Gramática, o alinhamento de textos, o gerenciamento de ambiguidades por meio da construção de autômatos de estado finito e a busca por expressões regulares e redes de transição recursiva (RTN).

Essa ferramenta conta com recursos linguísticos – dicionários e gramáticas – que permitem a realização de buscas e análises de dados textuais, por meio de operações que fornecem diversas informações morfossintáticas, como categorias gramaticais (substantivo, adjetivo, verbo e advérbio) e etiquetas morfológicas (lema, gênero, número, grau, pessoa, tempo e modo). Na atualidade desta tese, o Unitex possui recursos para mais de 20 línguas: inglês, francês, alemão, grego, português europeu, italiano, russo e espanhol são algumas delas.

Baseando-se em léxicos computacionais já existentes, como o léxico construído para o ReGra26, Muniz (2004) elaborou dicionários compatíveis com o formalismo empregado no Unitex para o português do Brasil e este projeto ficou conhecido como ‘Projeto Unitex-PB’.

Os recursos linguísticos, aos que referenciam o parágrafo anterior, são representados por meio de grafos simples de autômatos de estados finitos, conhecidos também como gramáticas locais. Para mais, o conjunto de dicionários eletrônicos do Unitex utiliza um formalismo27 que permite mostrar as entradas lexicais simples e compostas de uma língua, associadas a informações gramaticais e regras de formação de flexões. Especificamente, os dicionários e gramáticas são recursos concebidos para a utilização em operações automáticas de processamento textual e, para isso, o Unitex conta com uma interface completa, que permite a seus usuários elaborar, testar e aplicar gramaticais locais facilmente a um texto.

Foram exatamente esses recursos que tornaram possíveis a realização das tarefas de caráter investigativo (1) e (2), que estão topicalizadas logo em seguida, nesta ordem: busca por novas variantes-suporte e busca por construções conversas inéditas. Ambas as pesquisas complementam de forma direta o estudo preliminar de Calcia (2016) que, na época de sua realização, utilizou o Unitex-PB para mapear as possíveis variantes dos verbos receber e levar, apenas. Outrossim, aquele estudo deixa claro que a ferramenta linguístico-computacional em destaque não fora utilizada para pesquisar novas ocorrências de CVS, mas sua utilização foi necessária para legitimar as construções recenseadas pelos trabalhos anteriores.

(1) Busca pelas extensões dos verbos-suporte elementares

Retomando um pouco da abordagem apresentada outrora no Capítulo 2 (Seção 2.6), as variantes são verbos que apresentam as mesmas propriedades sintáticas dos Vsup elementares, porém com algumas diferenças de estilo que são notadas através do aspecto semântico e até mesmo sob um olhar pragmático da construção. Por exemplo, a construção (86) transmite a mesma informação passada pela construção (87) – de que o estádio passou (ou passará) por uma

26 Revisor gramatical desenvolvido pelo NILC (Núcleo Interinstitucional de Linguística Computacional) em parceria com a ITAUTEC (empresa brasileira fabricante de equipamentos de Tecnologia da Informação, encerrada no ano de 2013). Disponível em: http://nilc.icmc.usp.br/nilc/projects/regra.htm.

27 Formalismo concebido pelo LADL (Laboratoire d’Automatique Documentaire et Linguistique) para o francês, nomeado de DELA (Dictionnaire Electronique du LADL). Tornou-se um padrão de dicionários eletrônicos utilizados pela rede de pesquisa europeia RELEX (Rede internacional de laboratórios especializados em Linguística Computacional). Em dicionários do tipo DELA, as entradas lexicais são formalizadas da seguinte maneira: entrada flexionada,forma canônica.Classe+traços:flexão.

reforma – mas com uma sutil diferença do ponto de vista estilístico. Nesse sentido, é possível dizer que o verbo receber possui uma certa neutralidade em relação ao verbo ganhar.28

(86) O estádio de futebol recebeu uma reforma da Prefeitura de São Paulo.

(87) O estádio de futebol ganhou uma reforma da Prefeitura de São Paulo.

Diante disso, esta etapa tem como objetivo a identificação dos verbos que podem ser classificados como variações dos verbos elementares, não apenas conversos, mas também dos verbos standard. Baseando-se nos substantivos predicativos já coletados, foi confeccionado um grafo de busca para a identificação de combinações lexicais e padrões sintáticos; esses grafos auxiliam a pesquisa na da ferramenta Unitex-PB, dando ao linguista autonomia para modelar e agrupar construções que possuem características sintáticas comuns, de forma que seja possível visualizar e, consequentemente, descrever sua estrutura.

Figura 4: Grafos de busca do Unitex

Fonte: elaborada pela autora.

A Figura acima representa um grafo que foi aplicado ao corpus para que os possíveis verbos que ainda não haviam sido recenseados fossem encontrados. Nele estão contidas as informações gramaticais de uma sequência de palavras submetida à investigação pelo corpus, portanto, ao delimitar esse padrão de pesquisa, o grafo busca por estruturas sintáticas que correspondem a esse encadeamento. Na prática, outros grafos também foram confeccionados

28 Grosso modo, isso quer dizer que o verbo ganhar não pode ser utilizado em todas as ocorrências que se utiliza o verbo receber, mas este pode ser utilizado em todas as ocorrências que admitem o verbo ganhar.

para a realização da pesquisa (com pequenas modificações estruturais), porém o reproduzido pela Figura 4 apresentou resultados mais satisfatórios, tornando-se um grafo de referência.

Um processo muito semelhante foi praticado em Calcia (2016), que utilizou grafos proporcionais a este para alcançar outro objetivo com menores proporções, como já havia sido dito anteriormente. No presente estágio da pesquisa, o resultado bruto obtido passou por uma limpeza semiautomática que sucedeu em construções ou sequências de palavras menos ruidosas, pelas quais pode-se gerar os modelos de construções standard (prestar depoimento, fornecer um empréstimo, lançar uma afirmação, firmar um trato, destinar um recurso, entre outras) e conversas (passar por um abuso, adquirir um prêmio, enfrentar um aborto, herdar uma alcunha, entre outras).

(2) Busca pelas ocorrências de construções inéditas

Uma segunda etapa teve a função de encontrar novas construções, sobretudo as conversas, a partir do resultado obtido pela etapa anterior, ou seja, utilizando as variantes-suporte como os itens que originam a pesquisa. Neste caso, não foi necessária a confecção de um grafo de busca, pois a ferramenta Unitex-PB permite que a pesquisa seja feita por meio de

‘expressões regulares’, pelas quais também fornecem resultados muito satisfatórios.

Resumidamente, apesar de ser uma tarefa semiautomática e, portanto, árdua e exaustiva, essa operação é considerada mais simples em comparação ao processo realizado anteriormente.

Sem grandes mistérios, todas as variantes foram, individualmente, subordinadas ao mecanismo de busca e os resultados obtidos passaram por uma limpeza manual para que apenas as construções nominais fossem corretamente selecionadas. Por meio da figura representada abaixo, pode-se observar um exemplo de tela de concordância do resultado da busca pela variante contar com. O software faz um recorte no corpus e destaca na cor azul as ocorrências do elemento lexical em questão, que pode ser pesquisado individualmente em todas as conjugações gramaticais ou em uma cadeia sequencial de palavras em código.

Figura 5: Tela de concordância sintática do Unitex

Fonte: elaborada pela autora.

Em seguida, os dados obtidos foram confrontados com os dados que já haviam sido recenseados em etapas anteriores e os resultados repetidos passaram por um descarte, também de maneira manual e sistemática. Como consequência desta última etapa de obtenção dos dados, integraram-se a listagem, com as devidas modificações gramaticais, as seguintes estruturas lexicais: standard(formular uma anotação, dar despacho, fazer uma emenda, estabelecer implicações, emitir uma licitação, realizar desenvolvimento, entre outras) e conversas (receber andamento, receber arras, ganhar gorjeta, receber coroação, receber despacho, etc.).