ASPECTOS TEÓRICOS DA LEXICOMETRIA (SOFTWARE IRAMUTEQ)

4. LEXICOMETRIA JURÍDICA: ANÁLISE DO DISCURSO NAS CONDENAÇÕES

4.2 ASPECTOS TEÓRICOS DA LEXICOMETRIA (SOFTWARE IRAMUTEQ)

84 involving as it does only modest stakes, for the usual 33–40 percent contingent fee (POSNER, 2013, p. 362-363)²⁰⁹²¹⁰

Portanto, aventar os impactos da influência do pragmatismo no âmbito judicial brasileiro, isso vinculado ao pensamento jurídico decisório no âmbito das sentenças em improbidade, torna-se oportuno no próximo Capítulo, até mesmo para identificar (se possível) se importar-se o modelo do pragmatismo jurídico de maneira equivocada ou não.

85 os receios de uma pesquisa de cunho subjetivo, e a manutenção da cientificidade utilização de dados, torna-se uma prioridade na utilização de softwares, de forma que possibilita aos pesquisadores o foco no processo da técnica em vez do significado dos dados²¹⁴.

De tal modo que, afirma Salvador²¹⁵ que o uso de programas em análises textuais é um modo do qual não se pode desviar e que elucidou novos desafios para os pesquisadores, que necessitam aprender a utilizá-los de maneira efetiva em suas pesquisas.

Depreende-se então que o pesquisador é o elemento decisivo para o uso adequado dos softwares em pesquisas qualitativas, por considerar que cada programa contém recomendações de uso específicas, as quais precisam ser dominadas pelo pesquisador.

Assim, a segurança e a qualidade da pesquisa têm por escopo a análise textual, cujo programa escolhido e utilizado na pesquisa foi o IRAMUTEQ, que significa - Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires, criado em 2009 por Pierre Ratinaud, e se trata de um programa de apoio à análise de dados qualitativos de uma pesquisa científica²¹⁶.

É um software gratuito de código fonte aberto²¹⁷, licenciado por GNU GPL (v2) que permite fazer análises estatísticas sobre corpora (plural de corpus²¹⁸) textuais e sobre tabelas indivíduos/palavras²¹⁹. No ano de 2009, Ratinaud o desenvolveu na língua francesa, mas atualmente possui dicionários completos em outras línguas. Portanto, inicialmente utilizado no

214 SALVADOR PTCO, Chiavone FBT, Bezerril MS, Martins JCA, Fernandes MID, Santos VEP. Softwares de análise de dados qualitativos utilizados nas pesquisas da enfermagem. Texto Contexto Enferm [Internet].

2019; 28: e20180304. Pág. 3. Disponível em: http://dx.doi.org/10.1590/1980-265X-TCE-2018-0304 Acesso em 15/06/2020. Os autores explicitam ainda que: “os dados de natureza qualitativa são eminentemente textuais, ou seja, compostos por palavras cujo significado é necessário compreender a partir de seu contexto de produção, de modo que a análise dos mesmos é reconhecida por ser complexa. Por pautar-se em subjetividades, o percurso histórico dos estudos qualitativos é marcado por diversos preconceitos e desafios, sobretudo no que concerne ao rigor metodológico e confiabilidade de seus processos de análise. Com isso, os pesquisadores têm se preocupado em produzir interpretações qualitativas válidas, confiáveis e objetivas ao longo dos anos.”

215 Ibid. P. 8.

216 SAVIATI, Maria Elisabeth. Manual do aplicativo IRAMUTEQ (versão 0.7, Alpha 2 e R versão 3.2.3).

Planaltina, 2017. P. 4

217 Ou seja, pode ser alterado e expandido por meio da linguagem Python.

218 O conceito e os fundamentos do corpus serão tratados mais adiante.

219 LOUBÈRE, L.; RATINAUD, P. Documentation IRAMUTEQ 0.6 alpha 3 version 0.1. 2014. P. 3

86 Brasil em 2013, ocasião em que se compôs o dicionário em língua portuguesa, garantindo análises estáveis no âmbito do Brasil²²⁰.

O IRAMUTEQ caracteriza-se como um método informatizado para análise de textos, que busca apreender a estrutura e a organização do discurso, informando as relações entre os mundos lexicais mais frequentemente enunciados pelo sujeito²²¹.

O programa adota a premissa que as palavras usadas em contexto similares estão associadas a um mesmo mundo lexical. Realiza, portanto, análises quantitativas de dados textuais pautadas em contextos e classes de conteúdo com base na similaridade de vocabulário.

Os tipos de análises realizadas pelo programa são: a) Análises lexicográficas clássicas; b) Especificidades e Análise Fatorial de Correspondência (AFC); c) Método da Classificação Hierárquica Descendente (CHD); d) Análise de similitude; e) Nuvem de palavras²²².

Um conjunto de textos, portanto, constitui um corpus de análise. Para submissão do corpus à análise do tipo Classificação Hierárquica Descendente, ele deve constituir-se num conjunto textual centrado em um tema. O material textual deve ser monotemático, pois a análise de textos sobre vários itens previamente estruturados ou diversos temas resulta na reprodução da estruturação prévia dos mesmos²²³.

Portanto, corpus é um conjunto de textos construídos pelo pesquisador e que forma o objeto de análise. Por exemplo, em uma pesquisa documental da área jurídica o corpus poderia ser um conjunto de leis que foram publicados em determinado período.

As análises dependerão do tipo de dados, que são corpus textuais ou tabelas. No caso de corpus textual são admissíveis as análises Estatísticas textuais, Classiﬁcação Hierárquica Descendente (CHD), Análises de similitude, Nuvem de palavras, Análise de especificidades e Análise fatorial de correspondência. Ao passo que, no caso das tabelas são possíveis a Classiﬁcação Hierárquica Descendente, CHD por matrizes de distância, Análises de similitude, Nuvem de palavras; Descrição e qui-quadrado²²⁴.

220 CAMARGO, B.V.; JUSTO, A.M. IRAMUTEQ: um software gratuito para análise de dados textuais.

Temas em Psicologia, v. 21, n. 2, 2013. P. 513-518

221 LOUBÈRE, L.; RATINAUD, P. Documentation IRAMUTEQ 0.6 alpha 3 version 0.1. 2014. P. 12.

222 SAVIATI, Maria Elisabeth. Manual do aplicativo IRAMUTEQ (versão 0.7, Alpha 2 e R versão 3.2.3).

Planaltina, 2017. P. 19

223 Ibid., 2005, P. 513-518.

224 SAVIATI, Maria Elisabeth. Manual do aplicativo IRAMUTEQ (versão 0.7, Alpha 2 e R versão 3.2.3).

Planaltina, 2017. P. 29

87 Oportuno se faz pontuar que o tratamento comum a todas as análises é a lematização e a propriedades chaves. Seguem os conceitos abaixo:

Lematização: é o processo, efetivamente, de deflexionar uma palavra para determinar o seu lema (as flexões chamam-se lexemas) Por exemplo, as palavras gato, gata, gatos, gatas são todas formas do mesmo lema: gato.

Igualmente, as palavras tiverem, tenho, tinha, tem são do mesmo lema ter. E bom, melhor e ótimo são lexemas do lema bom. No IRAMUTEQ existem regras próprias de lematização. Os verbos são convertidos ao infinitivo, os substantivos ao singular e os adjetivos ao masculino singular. O IRAMUTEQ realiza a lematização a partir dos dicionários, sem realizar a desambiguação.

Propriedades chave: permite escolher a classe gramatical das palavras a serem analisadas. Essa opção é importante para se eliminar palavras que não são chave para indexação do corpus, tais como preposições e artigos e outras que o usuário julgar necessárias. A maior parte das análises sobre o corpus vão diferenciar as palavras ativas, suplementares e eliminadas. Somente as formas ativas participam em certas análises como as classificações (SAVIATI, 2017, p. 30). ²²⁵

As pesquisas lexicográficas clássicas ou estatísticas textuais são análises que executam estatísticas simples sobre o “corpus” textual, de forma que ocorrem à execução dos procedimentos de identificação e reformatação das unidades de texto, e de identificação da quantidade de palavras, frequência média e hápax²²⁶, de pesquisa no vocabulário e redução das palavras com base em suas raízes (formas reduzidas), de criação do dicionário de formas reduzidas do corpus, e de identificação das formas ativas e suplementares.

Como resultados, o IRAMUTEQ fornece: “o número de textos e segmentos de textos, ocorrências, frequência média das palavras, bem como a frequência total de cada forma; e sua classificação gramatical, de acordo com o dicionário de formas reduzidas”²²⁷.

As Especificidades – ao proceder com a tabulação dos dados, associa textos com variáveis, possibilitando a análise da produção textual em função das variáveis de caracterização. Procedendo especificamente a associação do corpus às variáveis que o pesquisador tem por objeto de análise, de modo que a base de dados é repartida de acordo com a variável elegida. Ao passo que, a Análise Fatorial de Correspondência (AFC) é uma

225 SAVIATI, Maria Elisabeth. Manual do aplicativo IRAMUTEQ (versão 0.7, Alpha 2 e R versão 3.2.3).

Planaltina, 2017, P. 30.

226 São palavras com frequência igual a um.

227 Ibid. P. 33.

88 representação gráfica dos dados para contribuir com a visualização da proximidade entre classes ou palavras²²⁸.

Os métodos executados nesta análise giram em torno do cálculo das frequências e os valores de correlação qui-quadrado²²⁹ de cada palavra do corpus, a partir da frequência pré-definida; e a execução da análise fatorial de correspondências (AFC) numa tabela de contingência que cruza as formas ativas e as variáveis²³⁰.

O método de Reinert propõe uma classificação hierárquica descendente segundo o método descrito por Reinert (1987) ²³¹. Este método busca obter classes de Segmentos de Texto (ST) que, ao mesmo tempo, apresentam vocabulário semelhante entre si e vocabulário diferente das ST das outras classes. Essa análise é fundamentada na proximidade léxica e na ideia que palavras empregadas em contexto parecido estão associadas ao mesmo padrão léxico, tornando-se elementos de mundos mentais específicos ou sistemas de repretornando-sentação. Os tornando-segmentos de texto são rotulados de acordo com seu respectivo vocabulário e o conjunto de termos é particionado de acordo com a frequência das raízes das palavras. O sistema procura obter classes formadas por palavras que são significantemente associadas com aquela classe (a significância começa com o qui-quadrado = 2)²³².

A análise de Reinert é considerada por Ratinaud uma das análises mais importantes do IRAMUTEQ, tendo em vista que nela, o programa, ao empregar a lógica de correlação, usa as segmentações do corpus textual, juntamente com a lista de formas reduzidas e o dicionário embutido para apresentar um esquema hierárquico de classes. Ou seja, ocorre o processamento do texto de modo que possam ser identificadas classes de vocabulário, sendo possível induzir quais são os ideais o corpus textual deseja transmitir²³³.

228 Ibid. P. 39.

229 De um modo geral, qui-quadrado se trata de uma medida utilizada dentro dos cálculos estatísticos de divergência entre a distribuição dos dados e uma distribuição esperada ou hipotética, que é geralmente escolhida pelo pesquisador.

230 Ibid. P. 39.

231 Max Reinert, (1987) inventor do software (pago) chamado ALCESTE (Un logiciel d'analyse des données textuelles) desenvolveu estudos a nível interpretativo, procedendo à significação das classes, ao estudar a literatura francesa considerou cada classe como uma noção de "mundo", enquanto um quadro perceptivo-cognitivo com certa estabilidade temporal associado a um ambiente complexo.

232 Ibid. P. 46

233 Essa análise é feita a partir de uma lógica estatística processada por computador e aplicada de forma lexical.

89 A análise de similitude é baseada na teoria dos grafos cujos resultados auxiliam no estudo das relações entre objetos de um modelo matemático. Tal análise apresenta um grafo que representa a ligação entre palavras do corpus textual, que proporciona inferir-se a estrutura de construção do texto e os temas de relativa importância, a partir da coocorrência entre as palavras. Isto auxilia o pesquisador na identiﬁcação da estrutura da base de dados (corpus), distinguindo as partes comuns e as especiﬁcidades, além de permitir verificá-las em função das variáveis descritivas existentes²³⁴.

A análise por meio de nuvem de palavras mostra um conjunto de palavras agrupadas, organizadas e estruturadas em forma de nuvem. Neste procedimento, as palavras são apresentadas com tamanhos diferentes, ou seja, as palavras maiores são aquelas que detêm maior importância no corpus textual, a partir do indicador de frequência ou outro escore estatístico escolhido. Trata-se de uma análise lexical mais simples, porém, bastante interessante, na medida em que possibilita rápida identiﬁcação das palavras-chaves de um corpus, isto é, a rápida visualização de seu conteúdo, pois as palavras mais importantes estão mais perto do centro e graficamente são escritas com fonte maiores²³⁵.

4.3 LEXICOMETRIA APLICADA À ÁREA JURÍDICA: ANÁLISE DO DISCURSO DO

No documento UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIÊNCIAS SOCIAIS APLICADAS PROGRAMA DE PÓS-GRADUAÇÃO EM DIREITO MESTRADO EM DIREITO (páginas 84-89)