• Nenhum resultado encontrado

A aplicação desse critério ao corpus buscou verificar a viabilidade do mesmo ao contribuir ou não para a seleção de SNs Descritores. Conforme foi exposto no referencial deste trabalho, Lopes (2012) fez uso desse critério para a seleção de conceitos tomando por base os SNs. Na pesquisa dessa autora, esse critério se mostrou eficiente ao eliminar SNs como: “três meses”, “ano 2000”. No entanto, nesse momento buscou-se verificar a eficiência desse critério no corpus utilizado nesta pesquisa, verificando se o mesmo contribuía para a

seleção de sintagmas nominais descritores, eliminando sintagmas que realmente não eram pertinentes e não eliminando sintagmas relevantes. Esse critério elimina os sintagmas que contenham numerais, seja na forma extensa ou por meio de caracteres numéricos (dígitos).

Esse critério foi aplicado em 46% do corpus utilizado nesta pesquisa, correspondendo a exatamente 14 dos 30 documentos analisados. Durante a aplicação desse critério, verificou- se que o mesmo contribuiu para o descarte de SNs como, por exemplo, “três prestações”, “três vias processuais”, “três modos”, “os últimos seis anos”, “essas duas teorias”, “duas ou mais personalidades”, “cinco (5) audiências públicas”, demonstrando assim um comportamento semelhante ao encontrado por Lopes (2012), excluindo sintagmas referentes a datas, períodos, etc. Todavia, um detalhe percebido durante a aplicação desse critério foi que o domínio estudado possui vários sintagmas com números de leis, incisos e artigos, característicos da própria área, em suas estruturas. Assim, nesse momento, verificou-se que o critério em questão descartou sintagmas como “a Constituição Brasileira de 1988”, “o art. 1º da lei 8. 137/1990”, “a lei 8. 137/1990”.

O critério de descarte de SNs que contenham números foi aplicado, em média, a 2% do total de 1781 sintagmas únicos, um percentual bem pequeno, quando comparado com o mesmo critério aplicado por Lopes (2012), onde a autora verificou um percentual de aproximadamente 16% de aplicação desse critério. No entanto, o corpus utilizado na presente pesquisa é bem menor e possui características próprias.

Mais adiante, encontra-se um Quadro resumo de aplicação desse critério, ressaltando a quantidade de SNs descritores e não descritores que atendem ou não o critério. Esse quadro foi elaborado com base na análise individual de cada documento. Levantou-se, também, as taxas de revocação e precisão, refletindo, respectivamente, o percentual de SNs descritores selecionados do total de SNs descritores e o percentual de SNs descritores selecionados do total de SNs selecionados. Esses dados podem ser verificados mais adiante.

Quadro 17 – Quantitativo de SNs descritores e não descritores eliminados pelo critério: descarte de SNs com numerais.

CRITÉRIO DE ELIMINAÇÃO (NUMERAIS) COLEÇÃO TOTAL DE SNs DESCRITORES TOTAL DE SNs não DESCRITORES Percentual de SNs DESCRITORES Quantidade de SNs que não atendem ao

critério 408 1336 23,3%

Quantidade de SNs que atendem ao

critério 15 22 40,5%

TAXAS DE REVOCAÇÃO E PRECISÃO

PRECISÃO: 23,3%

Fonte: desenvolvido pelo autor.

Com base nos dados demonstrados no Quadro 17, verifica-se que esse critério de eliminação alcançou uma boa taxa de revocação, no entanto, a precisão ficou abaixo da média quando da não aplicação que é de 23,75% na análise por sintagma nominal. Como pode ser visto na quarta coluna do Quadro 17, o percentual de SNs descritores que foram eliminados pelo referido critério foi de 40,5%, ou seja, de todos os SNs eliminados por este critério, quase metade deles eram descritores, demonstrando, assim, que o critério não se mostrou tão viável. Se, com a aplicação desse critério, tivessem sido eliminados uma quantidade menor de SNs descritores com a aplicação desse critério, podería-se vê-lo como um critério que ajudou a eliminar SNs não descritores.

Com base nos dados do Quadro 18, mais adiante, procurou-se verificar a existência de algumas características em comum dos 15 SNs descritores (terceira linha e segunda coluna) que foram eliminados por este critério. Mais adiante, segue uma amostra dos SNs descritores que foram eliminados por esse critério.

Quadro 18 – Exemplos de SNs descritores eliminados pelo critério de descarte de SNs com numerais. SNS DESCRITORES QUE FORAM ELIMINADOS COM A APLICAÇÃO DO CRITÉRIO DE

ELIMINAÇAO DE SNs COM NUMERAIS apenas três modos de entidades familiares

art. 5º,§ 2º da Constituição Federal

a administração pública brasileira nos ultimos seis anos

o instituto processual da audiência pública introduzido no direito brasileiro pelas leis nº 9.868/99 e 9.882/99

a audiência pública introduzido no direito brasileiro pelas leis nº 9.868/99 e 9.882/99 o crime de sonegação fiscal em conformidade com o art. 1º da lei nº 8.137/1990 o direito penal de duas velocidades

a constituição brasileira de 1988 Fonte: desenvolvido pelo autor.

No Quadro 18 são expostos alguns SNs descritores que foram eliminados de todos os 15 que foram eliminados neste critério. De todos os 15 SNs descritores eliminados, apenas um se referia a data e dois referiam-se a períodos. Percebe-se que a maior parte dos SNs descritores eliminados se constitui de SNs que possuem números de leis e artigos. Vale ressaltar que essa característica é bem particular de SNs desse domínio específico, o qual faz uso excessivo de números para referenciar leis específicas e artigos de determinadas leis.

Depois de feitas as análises citadas anteriormente, prosseguiu-se com uma análise por documento, onde calculou-se novamente os índices de precisão e revocação, demonstrando essas taxas de cada documento e em seguida de toda a coleção utilizada nesta pesquisa. Mais adiante segue um quadro resumo de aplicação desse critério com os percentuais de revocação e precisão da aplicação do mesmo.

Quadro 19 – Médias de revocação e precisão / Critério: Descarte de SNs com numerais. QUADRO RESUMO DE APLICAÇÃO DO CRÍTERIO DE ELIMINAÇÃO DE SNs

COM NUMERAIS DOCUMENTO QUANTIDADE DE SNs ELIMINADOS PERCENTUAL DE APLICAÇÃO DO CRITÉRIO EM RELAÇÃO SNs UNICOS REVOCAÇÃO PRECISÃO DOC. 1 0 0,0% 100,0% 26,0% DOC. 2 1 2,7% 90,0% 25,0% DOC. 3 0 0,0% 100,0% 21,4% DOC. 4 1 1,0% 92,3% 21,4% DOC. 5 0 0,0% 100,0% 11,1% DOC. 6 0 0,0% 100,0% 54,9% DOC. 7 3 4,2% 100,0% 11,9% DOC. 8 0 0,0% 100,0% 31,3% DOC. 9 5 17,2% 62,5% 75,0% DOC. 10 0 0,0% 100,0% 26,3% DOC. 11 0 0,0% 100,0% 19,4% DOC. 12 0 0,0% 100,0% 18,0% DOC. 13 0 0,0% 100,0% 20,0% DOC. 14 4 6,6% 100,0% 26,7% DOC. 15 3 4,9% 80,0% 13,7% DOC. 16 1 1,3% 100,0% 15,4% DOC. 17 0 0,0% 100,0% 36,2% DOC. 18 2 2,7% 100,0% 35,7% DOC. 19 0 0,0% 100,0% 38,2% DOC. 20 10 12,0% 86,6¨% 17,8% DOC. 21 1 1,2% 100,0% 26,9% DOC. 22 0 0,0% 100,0% 10,2% DOC. 23 0 0,0% 100,0% 25,9% DOC. 24 0 0,0% 100,0% 22,0% DOC. 25 0 0,0% 100,0% 14,2% DOC. 26 4 4,5% 75,0% 7,2% DOC. 27 1 1,1% 94,0% 19,5% DOC. 28 0 0,0% 100,0% 31,5%

DOC. 29 1 1,4% 94,4% 25,3% DOC. 30 0 0,0% 100,0% 17,0% MEDIA 1,2333333 2,0% 96,1% 24,8% DESVIO PADRÃO 2,1922014 3,9% 8,9% 13,7% MEDIANA 0 0,0% 100,0% 21,7%

Fonte: desenvolvido pelo autor.

Com base no Quadro 19, mais especificamente na terceira coluna, tem-se o percentual de aplicação do critério em relação à quantidade de SNs únicos. Esses dados permite ver a existência de uma oscilação de aplicação, onde têm-se documentos com 0,0% de aplicação e outros documentos com 4,0% e 12% de aplicação, entre outros. Os dados expostos na terceira coluna do Quadro 19, bem como também dos quadros dos outros critérios foram levantados mais com o intuito de permitir a visualização de contrates de aplicação de cada critério em documentos distintos.

Por meio do Quadro 19, pode-se perceber a taxa de revocação e precisão dos sintagmas quando da aplicação desse critério de eliminação dos SNs que possuíam numerais. Ao comparar os SNs descritores que não foram eliminados pelo critério de descarte com o total de SNs descritores (com ou sem numerais), verificou-se, em média, uma boa taxa de revocação, chegando a 96,1%. Em contrapartida, a precisão alcançada quando da comparação dos SNs descritores que não foram eliminados pelo critério com o total de sintagmas (descritores ou não), excetuando apenas os excluídos pelo critério, foi, em média, de 24,8%. A média de precisão sem aplicação do critério é de 25%, isso demonstra que a precisão alcançada com esse critério se mostrou semelhante à média de precisão sem uso do critério, não alcançando uma precisão acima da média de 25% na análise por documento.

A aplicação desse critério se mostrou uniforme na grande maioria dos documentos analisados, com ressalva, apenas para o DOC. 9 e o DOC. 26, onde, o referido critério obteve taxas mais baixas de revocação, pois eliminou de forma considerável SNs descritores, como por exemplo, o SN: “a Constituição Federal de 1988”.

Boa parte dos SNs eliminados, como foi mencionado, são sintagmas que possuem em suas estruturas números de leis e incisos. Uma saída para essa questão de descarte dos sintagmas com números em suas estruturas para esse domínio estudado seria a utilização de uma heurística que não descartasse os SNs que contivessem números após as expressões “lei(s)”, “artigo (s)”, “inciso(s)(em algarismo romanos)” e “parágrafos”, tendo em vista que o critério eliminou Sintagmas que possuíam essas características.

Apesar de ter alcançado boas taxas de revocação, considerou-se que esse critério, de modo geral, não se mostrou útil na seleção de SNs descritores, uma vez que alcançou precisões abaixo da média alcançada sem aplicação do critério. Sendo assim, com base nas taxas de revocação e precisão alcançadas tanto na análise por SN quanto por documento, verifica-se que o critério em questão não se mostrou tão útil para a seleção de sintagmas nominais descritores, ao passo que não conseguiu eliminar uma boa quantidade de SNs não descritores e evitar o descarte de SNs descritores. Por fim, pode-se concluir que o critério não é útil para a seleção de SNs, uma vez que, de todas as eliminações com esse critério, 40,5 % eram SNs descritores.

É pertinente mencionar que o comportamento desse critério de forma não tão eficiente, ao passo que eliminou uma boa quantidade de SNs descritores, se deu pelo fato de existir algumas características próprias desse domínio. Isso não significa que esses critérios se comportará da mesma forma em outros domínios, uma vez que nem todas as disciplinas (áreas de conhecimento) fazem uso exacerbado de números como o estudado desta pesquisa.

Nesse domínio específico, as buscas por documentos são feitas muitas vezes com bases em números, ou seja, os usuários fazem buscas por meio de números de leis. Assim, o fato de esse critério eliminar todos os SNs com números , seja na forma por extenso ou por meio de dígitos numéricos, conduziria a uma restrição nas possibilidades de buscas para usuários deste domínio, pois não seria possível que um determinado indivíduo fizsse uma busca, por exemplo, de um documento por meio da expressão “lei 8.112/90”.