• Nenhum resultado encontrado

ANÁLISE DA EXTRAÇÃO DOS SINTAGMAS NOMINAIS NO CORPUS

4 APRESENTAÇÃO E ANÁLISE DOS RESULTADOS

4.2 ANÁLISE DA EXTRAÇÃO DOS SINTAGMAS NOMINAIS NO CORPUS

O período de publicação de todas as teses analisadas corresponde a aproximadamente 4,5 anos (de fev./2008 a ago./2012), sendo que, para cada programa de pós-graduação analisado, o período médio foi de 2,3 anos entre a tese mais antiga e a mais recente. O intervalo médio31 entre as publicações na BDTD/UFMG para cada programa foi

de 2,5 meses, conforme a Tabela 10.

Tabela 10 - Datas de publicação das teses analisadas na BDTD/UFMG

Seção do corpus Publicação da Tese no BDTD/UFMG Período analisado (anos) Média de intervalo entre publicações (meses) Data mais

antiga Data mais recente

A 26/02/2010 28/02/2012 2,0 1,0 B 26/02/2008 25/11/2011 3,7 2,9 C 08/07/2010 27/02/2012 1,6 1,5 D 26/02/2008 09/11/2011 3,7 3,8 E 24/02/2011 17/08/2012 1,5 1,8 F 19/02/2009 12/09/2011 2,6 3,9 G 30/11/2009 14/12/2011 2,0 3,1 H 26/02/2010 07/04/2011 1,1 1,9 Todos 26/02/2008 17/08/2012 4,5 0,6 Média do corpus 2,3 2,5

Fonte: Adaptado de BDTD/UFMG, 2012.

Pelo período médio de todas as teses de uma mesma seção do corpus ser de 2,3 anos, considera-se que as descrições linguísticas feitas aqui são sincrônicas, ou seja, foi considerado que todas as teses fizeram parte de um mesmo momento histórico social dos respectivos programas de pós-graduação.

A listagem completa de todas as teses analisadas no corpus, com suas respectivas datas de publicação na BDTD/UFMG, assim como título e autor, estão no APÊNDICE HH.

4.2 Análise da extração dos sintagmas nominais no corpus

31 Para alguns programas, algumas teses dentro do período não foram analisadas: umas por não

estarem disponíveis integralmente na BDTD/UFMG, outras por seus autores não poderem ser contactados.

Para a extração dos SNs, foram realizados, como descritos anteriormente, os processos de: escolha das teses, solicitação de confirmação de participação do autor da tese na pesquisa, obtenção da tese em PDF, conversão para o formato texto, retirada das partes pré e pós-textuais, demarcação entre início, desenvolvimento e conclusão. Todos esses processos foram realizados manualmente e duraram cerca de quatro meses, contando com a participação de terceiros.

Para a extração dos SNs, foram utilizadas as ferramentas Ogma, macros no Microsoft Word e macros no Microsoft Excel, como também descrito anteriormente. Durante o uso destas ferramentas, pôde-se calcular com precisão os tempos gastos em horas e minutos. Na Tabela 11, a seguir, é possível verificar que a média de tempo para a extração foi de aproximadamente 81,8% somente para a ferramenta Ogma.

Tabela 11 - Tempo de processamento para extração dos sintagmas nominais

Tempo (hora:min.) A B C D E F G H Total Total (%) 1º Processamento do Ogma 03:32 00:53 02:14 00:36 00:58 00:25 00:50 00:24 09:52 60,1% Processamento de Macro do Word 00:30 00:13 00:25 00:14 00:09 00:11 00:13 00:05 02:00 12,2% 2º Processamento do Ogma 01:02 00:21 00:55 00:18 00:17 00:08 00:22 00:11 03:34 21,7% Processamento de Macro do Excel 00:31 00:03 00:14 00:02 00:02 00:01 00:04 00:02 00:59 6,0% Total Tempo 05:35 01:30 03:48 01:10 01:26 00:45 01:29 00:42 16:25 100,0% Quantidade de Teses (unid.) 24 16 13 12 10 8 8 7 98 Média de tempo portese (hora:min.) 00:13 00:05 00:17 00:05 00:08 00:05 00:11 00:06 00:10 Fonte: Elaborado pelo autor.

A média de tempo de processamento para a extração dos SNs foi de dez minutos por tese. Podemos objetivar que o tempo de processamento é proporcional à quantidade de sintagmas nominais extraídos, sendo que a média aproximada foi de 1 (um) minuto para cada 1.000 (mil) extrações, conforme pode ser visto na Tabela 12, a seguir:

Tabela 12 - Média de tempo de processamento por 1.000 sintagmas nominais extraídos

Corpus processamento Tempo total de (hora:min.)

Quantidade total de sintagmas nominais

extraídos

Média de tempo por 1.000 sintagmas nominais extraídos (min.:seg.) A 05:35 344.576 00:58,3 C 03:48 207.746 01:05,8 G 01:29 96.631 00:55,3 B 01:30 91.599 00:59,0 D 01:10 79.560 00:52,8 E 01:26 69.429 01:14,3 H 00:42 57.714 00:43,7 F 00:45 48.436 00:55,7 Todos 16:25 995.691 00:59,4

Fonte: Elaborado pelo autor.

As seções do corpus que apresentaram maiores médias de tempo por tese, apresentadas na Tabela 11, também foram aquelas que apresentaram as maiores médias de SNs extraídos por tese, conforme pode ser visto a seguir no Gráfico 7.

Fonte: Elaborado pelo autor.

Podemos considerar tradicionalmente a existência das ciências naturais e das ciências sociais em um nível mais generalista. Embora haja uma tendência de superação dessa dicotomia32 (SANTOS, 1996), pôde-se perceber, no Gráfico 7, que nas seções do

corpus de programas de pós-graduação mais relacionados às ciências sociais houve uma

quantidade acima da média de SNs extraídos, assim como, em todas as seções do corpus relacionadas às ciências naturais, essa quantidade foi abaixo da média. Para Dubois et al. (1973), há uma concepção distinta de estruturas33 para as ciências humanas e para as

ciências mais relacionadas aos sistemas lógicos e matemáticos, existindo para estas uma maior autorregulação, na medida em que permanecem mais estáveis temporalmente34. Tal

estabilidade é considerada aqui como fator primordial para a constatação da maior objetividade35 das teses relacionadas às ciências naturais considerando-se o seu menor uso

em quantidade de SNs.

Em relação à quantidade de SNs, dentre as principais pesquisas referenciadas aqui e que realizaram extração de SNs na língua portuguesa, assim como a presente pesquisa, podemos citar Kuramoto (1999) e Souza (2005), que utilizaram artigos científicos da Ciência da Informação nos seus corpora; Maia (2008) que utilizou artigos científicos também da Ciência da Informação e textos jornalísticos de outras áreas; e ainda Corrêa et

al. (2011) que utilizaram resumos de teses e dissertações nas áreas de Direito, Computação

e Nutrição. Neste momento, podemos comparar inicialmente a quantidade de SNs extraídos entre todas essas pesquisas conforme Tabela 13, a seguir:

32 Para Santos (1996), todo conhecimento científico-natural é científico-social, sendo que esta última preferiu “a compreensão do mundo à manipulação do mundo” (ibidem, p. 71).

33 “Uma estrutura é um sistema caracterizado por noções de totalidade, de transformação, de autorregulação” e “se definem por uma série de relações entre os elementos; não é nem o elemento nem o todo, mas suas relações que constituem a estrutura, e o todo não é senão o seu resultado” (DUBOIS, 1973, p. 247).

34 Ainda para Dubois et al.(1973) um sistema linguístico está em constante transformação e ocorre de acordo com o comportamento linguístico dos integrantes de uma comunidade linguística.

35 A objetividade de um texto, assim como as características determinadas por influências culturais, como a disparidade entre as tradições anglo-americanas e francesas; podem ser melhor analisadas com a Teoria dos Gêneros Textuais. Essa análise está fora do escopo dessa pesquisa em Ciência da Informação e é indicada para trabalhos futuros pela Linguística.

Tabela 13 - Comparação de extração de sintagmas nominais entre pesquisas

Pesquisas Documentos Quant. de Documentos Tipo de Extração Modo de Extraídos SNs Média de SNs por Documento Kuramoto (1999) 15 artigos científicos manual 8.818 588

Souza (2005) 60 artigos científicos automática 76.739 1.279

Maia (2008) 210 artigos científicos (50) e textos

jornalísticos (160) automática 153.386 730 Corrêa et al.

(2011) 30 resumos de teses e dissertações automática 951 32

Esta Pesquisa 98 teses automática 995.691 10.160

Fonte: Elaborado pelo autor.

A quantidade de SNs extraídos nesta pesquisa corresponde a aproximadamente 6,5 vezes mais que a maior quantidade de SNs extraídos em pesquisas anteriores. Esse fato deve-se ao tipo de documento escolhido (tese), com o principal propósito da análise da distribuição de relevância (apresentada ainda neste mesmo capítulo), e a quantidade amostral utilizada para representar todas as áreas de conhecimento da UFMG.

Na Ciência da Informação, podemos comparar com precisão a diferença de tamanho médio, em quantidade de SNs, de um artigo científico, 1.279 (SOUZA, 2005, p. 127), e uma tese, 12.079 (valor apresentado aqui anteriormente), sendo este 9,4 vezes maior que o primeiro. É irresistível salientar aqui a curiosa coincidência numérica entre os dois valores, que são diferentes entre si apenas por um zero no meio de um deles.

Assim como em outras pesquisas, durante a extração de SNs, ocorreram extrações automáticas que não resultaram propriamente em SNs devido a falhas nos processos de extração. Corrêa et al. (2011) explicitaram uma taxa de erros de extração através do Ogma de 42%. Devido à pequena quantidade de SNs extraídos em tal pesquisa, os autores puderam constatar manualmente a efetividade de cada resultado da extração.

Para esta pesquisa, os erros puderam ser contatados em dois momentos de forma automática: através da retirada de stopwords residuais (APÊNDICE C) com o uso de

inconsistentes do próprio Ogma36, usando-se para isso macros do Microsoft Excel

(especificamente a sub-rotina LimpaSintagmaErroSlxTral no APÊNDICE F).

A taxa de erros encontrada aqui foi bem inferior (3,5 vezes menor) que a encontrada por Corrêa et al. (2011), conforme pode ser visto na % total de extrações excluídas na Tabela 14, a seguir:

Tabela 14 - Quantidade de exclusões de extrações de sintagmas nominais do Ogma

Seção do corpus Sintagmas Nominais Extraídos pelo Ogma Excluídos por Stopwords residuais Excluídos por inconsistência no próprio Ogma Considerados nesta pesquisa % total de extrações excluídas A - Educação: Conhecimento e Inclusão Social 387.825 34.477 8.772 344.576 11,2% B - Ciência Animal 105.499 12.269 1.631 91.599 13,2% C - Letras: Estudos Literários 232.788 18.267 6.775 207.746 10,8% D - Engenharia Metalúrgica e de Minas 92.151 11.330 1.261 79.560 13,7% E - Química 83.635 13.020 1.186 69.429 17,0% F - Bioquímica e Imunologia 54.532 5.140 956 48.436 11,2% G - Ciência da Informação 109.712 10.884 2.197 96.631 11,9% H - Medicina (Pediatria) 64.815 5.671 1.430 57.714 11,0% Total 1.130.957 111.058 24.208 995.691 12,0%

Fonte: Elaborado pelo autor.

Uma análise manual em cada um dos SNs extraídos, como realizada por Corrêa

et al. (2011), provavelmente chegaria a uma taxa de erros de extração superior aos 12,0%

encontrados aqui. No entanto, dada a dimensão dessa análise para a quantidade aproximada de 1,1 milhões de SNs extraídos, mesmo que feita de forma estatisticamente amostral, e à baixa relevância para os objetivos fins desta pesquisa, tal taxa ficou limitada aos dados obtidos de forma automática.

36 O Ogma pode gerar uma lista dos sintagmas nominais em um texto através da opção “-s” assim como pode gerar uma análise da estrutura de cada sintagma nominal em um texto através da opção “-tral”. Para as duas saídas, pôde-se constatar que alguns sintagmas nominais presentes em decorrência da saída “-s” não constavam na saída de “-tral”, sendo verificados que eram erros de extração. Tais erros foram movidos para uma planilha com o nome padrão para cada seção do corpus denominada A.ERROS.

A seção do corpus que apresentou maior taxa de erros foi a correspondente ao programa de pós-graduação em Química, que possui como característica de seu sistema linguístico o uso de fórmulas químicas. No entanto, os fatores que influenciaram na sua elevada taxa de erros aqui foram: a elevada presença de números que foram descartados como stopwords residuais e o recorrente uso de expressões em inglês. Tais fatores foram constatados por uma exploração de leitura pelo autor nos resultados das extrações feitas pelo Ogma.

A seção do corpus que apresentou menor taxa de erros foi a correspondente ao programa de pós-graduação em Letras – Estudos Literários, que podemos considerar o mais metalinguístico dentre os outros programas. Ou seja, como afirma Dubois et al. (1973) aquele que usa a própria língua como objeto de seu discurso fazendo assim um distanciamento maior de outros sistemas linguísticos mais especialistas, como o lógico- matemático, que são mais passíveis de incorrerem em erros de extração em processadores de linguagem natural, que usam como base um dicionário geral da língua, como o Ogma.

Para o objetivo principal desta pesquisa, foi considerada para cada SN extraído a sua posição estrutural correspondente às partes de introdução, desenvolvimento e conclusão. Dentre essas, a de desenvolvimento conteve 82,7% dos SNs, enquanto as outras duas dividiram o restante em 10,1% para a introdução e 7,2% para a conclusão, como pode ser visto no Gráfico 8, a seguir:

Gráfico 8 - Distribuição de sintagmas nominais por partes da tese

Fonte: Elaborado pelo autor.

A maior distribuição de SNs nas partes de introdução e conclusão ocorreu no programa de pós-graduação em Bioquímica e Imunologia, enquanto o programa que

concentrou mais SNs na parte de desenvolvimento foi o de Engenharia Metalúrgica e de Minas. O comportamento linguístico que levou a essas diferenças de distribuição pode merecer uma análise estilística da linguística, na qual é considerada a marca individual do sujeito (DUBOIS, 1973, p. 243) deva ser considerada. Tal análise foge ao escopo dessa pesquisa, por ser necessária uma leitura integral de todas as obras sob um olhar crítico, sendo que o objetivo aqui está relacionado a procedimentos automatizados.

4.3 Análise da seleção dos sintagmas nominais candidatos a

Documentos relacionados