O ambiente de programação R - Procedimentos de análise automática

2.3 Procedimentos de análise automática

2.3.2 O ambiente de programação R

O ambiente R compreende uma linguagem computacional livre46 que, dentre diversas funções, pode ser utilizada para se extrair e manipular dados estatísticos. Inicialmente desenvolvido pelos pesquisadores Ross Ihaka e Robert Gentleman, ambos vinculados ao departamento de Estatística da Universidade de Auckland, Nova Zelândia, este vem sendo aprimorado gradativamente por contribuições oriundas de diversas instituições de pesquisa.

O ambiente configura-se como uma eficiente ferramenta de análise de dados numéricos e categóricos, sendo capaz de processá-los a partir de uma gama de modelos estatísticos. Também permite a aplicação de testes de significância e a execução de funções dos mais variados tipos e níveis de complexidade.

Este largo rol de possibilidades disponibilizado pelo R se deve à sua lógica de processamento própria de linguagens de programação, o que permite ao pesquisador ampla manipulação nos parâmetros de análise e tratamento estatístico de dados.

A Figura 11 apresenta a tela de exibição inicial do pacote R:

FIGURA 11 – Tela inicial do pacote estatístico R

Para o processamento dos dados desta pesquisa, fez-se necessária uma prévia manipulação dos arquivos a serem processados pelo ambiente, bem como o desenvolvimento de um parâmetro com comandos para serem por este executados automaticamente. Tais procedimentos estão descritos na subseção 2.3.2.1.

2.3.2.1 Preparação dos arquivos e script para extração de dados no R

Os arquivos contendo os textos de cada um dos quatro subcórpora foram agrupados por tipo, somando assim 32 (8 tipos textuais x 4 subcórpora). Devido a limitações técnicas de reconhecimento de caracteres em textos com extensão .txt, cada um destes arquivos foi convertido em planilha eletrônica do programa Microsoft

etiquetas (conforme já previsto no parâmetro de correspondências exposto no Quadro 14 da subseção 2.3.1).

Em seguida, a coluna contendo os lemas de cada palavra etiquetada também foi excluída, uma vez que estes elementos não configuraram como objeto de análise desta pesquisa. Em substituição a estas, duas outras colunas foram criadas: uma contendo o rótulo do respectivo tipo textual e outra explicitando o subcórpus (IO, PT, PO ou IT) correspondente.

A Figura 12 apresenta um exemplo de configuração de planilha eletrônica no programa Microsoft Excel©:

FIGURA 12 – Configuração de planilha eletrônica para processamento no ambiente de programação

Uma vez formatados os 32 arquivos do córpus, criou-se manualmente uma sequência de comandos (script)47 para leitura e processamento destes pelo R. Este script foi capaz não apenas de extrair, por subcórpus e tipo textual, a frequência absoluta total (em tokens) de cada uma das dez classes de palavra, mas também de aplicar testes de significância estatística (a partir destas frequências) exclusivamente para a análise das conjunções.

Este parâmetro foi delineado de forma que os dados pudessem ser processados conforme a seguinte ordem:

- Reconhecimento das 32 planilhas eletrônicas;

- Leitura e extração dos dados de cada planilha a partir do reconhecimento de cada palavra (token), de sua correspondente etiqueta morfossintática e de seu referido tipo textual e subcórpus;

- Correspondência das etiquetas morfossintáticas entre os tagsets do inglês e do português e agrupamento destas em dez classes de palavras (conforme parâmetro exposto no Quadro 14 da subseção 2.3.1);

- Extração da frequência absoluta de palavras (tokens) de cada classe gramatical por tipo textual e por subcórpus;

- Extração da frequência absoluta da classe de palavra conjunção por tipo textual e por subcórpus;

- Aplicação do teste de significância estatística Qui-quadrado de aderência (goodness-of-fit) de Pearson a partir da frequência absoluta total da classe de palavra

conjunção por subcórpus;

- Aplicação do teste de significância estatística post hoc Z a partir das frequências absolutas da classe de palavra conjunção por tipo textual (distribuídas nos 4 subcórpora);

47_{O script completo para a leitura automática dos arquivos, levantamento dos dados quantitativos e}

A Figura 13 contém uma representação gráfica do resultado (output) de parte dos dados gerados pelo script criado para esta pesquisa:

FIGURA 13 – Representação gráfica dos resultados gerados na interface do ambiente de programação R

Conforme já elencados no parâmetro para processamento dos dados quantitativos, o teste Qui-quadrado de aderência (goodness-of-fit) e o teste post hoc Z48 foram utilizados para verificar se as distribuições das frequências absolutas das conjunções se mostraram ou não significativas em cada tipo de texto e subcórpus do Klapt!. Através do primeiro teste, foi possível observar se foi significativa a frequência total das conjunções em cada um dos quatro subcórpora. Mais especificamente, o teste apenas apontou se houve ou não desvios significativos da ocorrência geral esperada para as conjunções ou se a frequência observada se fez dentro de uma distribuição prevista.

Cabe mencionar que ambos configuram-se como testes de significância não paramétricos, pois não requerem distribuições normais (que se aproximam da média) para as amostras. Ainda que estes sejam úteis para se testar hipóteses em amostras de maior extensão, seus resultados possuem menor poder de generalização se comparados aos resultados auferidos por testes paramétricos, que demandam distribuições normais para as amostras.

Entretanto, este não indicou em quais tipos textuais estes desvios se mostraram significativos. Para tal averiguação, utilizou-se o teste post hoc Z, que revelou se as distribuições de todas as frequências de conjunções em cada tipo textual e subcórpus se mostraram significativamente acima ou abaixo das distribuições esperadas. Desta forma, ambos foram decisivos para a verificação das hipóteses formuladas para a frequência de conjunções. Ainda, a comparação entre estas distribuições foi importante para que fossem selecionadas amostras de textos para a etapa seguinte de análise.

Percorridos os procedimentos para análise automática desta pesquisa, apresenta- se na seção 2.4 a metodologia de seleção das amostras, de anotação manual e escrutínio semiautomático empreendida para a análise trinocular de conjunções em subcórpus combinado composto por amostras de textos selecionadas com base nos testes de significância estatística aplicados no córpus desta pesquisa.

No documento Relações coesivas e estruturais: um estudo de conjunções em córpus paralelo e comparável no par linguístico inglês - português brasileiro (páginas 91-96)