• Nenhum resultado encontrado

Definição do universo e seleção da amostra de estudo nº 1

3 ANÁLISE DE CRITÉRIOS DE INDEXAÇÃO AUTOMÁTICA UTILIZADOS

3.2 Identificação dos critérios – Etapa 1

3.2.1 Definição do universo e seleção da amostra de estudo nº 1

O universo de estudo desta pesquisa é caracterizado por artigos técnico- científicos, dissertações, teses e livros sobre indexação automática que apresentam resultados de pesquisas da área. Os documentos deveriam conter, necessariamente,

metodologia de pesquisa e apontamento de resultados conclusivos quanto à pertinência dos critérios de indexação automática utilizados.

Com o objetivo de identificar os principais critérios de indexação automática apresentados na literatura, definiu-se uma amostra desse universo (amostra nº 1) a partir do exame das principais pesquisas nacionais e internacionais sobre o assunto publicadas entre a década de 1950 e o ano de 2008.

Delimitou-se o período indicado visto remontarem da década de 1950 os primeiros estudos sobre indexação automática. Em razão da Segunda Guerra Mundial, o mundo passou a vivenciar o início de um novo contexto informacional, onde registrou-se um crescimento exponencial da produção de documentos impressos. Chamado de “explosão bibliográfica”, esse contexto impulsionou um esforço generalizado em prol do desenvolvimento de tecnologias para o controle dos documentos produzidos, e, posteriormente, com a Web, para a necessidade de tratamento adequado desse material em formato eletrônico. Desde então, o aumento no número de publicações de documentos eletrônicos é crescente, sem perspectiva de que haja um processo inverso do que se observa atualmente. Dessa maneira, esse assunto tornou-se foco de observação de vários pesquisadores, demandando também atenção quanto à sua organização, armazenamento e recuperação, e, como base de todos esses processos, a indexação de documentos textuais.

É digno de observação o fato de que, no processo inicial de seleção do material a ser lido e analisado, não se buscou, necessariamente, documentos publicados a partir da década de 1950. O critério usado na seleção dos textos foi unicamente que estes tivessem a indexação automática como assunto principal, visando ao maior número de documentos possível, para se compor um objeto empírico consistente. Em momento posterior, em que ocorreu a organização e a ordenação cronológica dos textos, observou- se que não foi recuperado um texto sequer que datasse de momento anterior à década de 1950, o que comprova a afirmação de que remontam dessa década os primeiros estudos sobre o assunto.

Para a realização da pesquisa bibliográfica definiu-se a seguinte estratégia de para seleção dos documentos.

1. Delimitação do objetivo principal da pesquisa e de sua finalidade: selecionar documentos que abordem como assunto principal, ou de maneira consistente, a indexação automática de documentos textuais apresentando, de preferência, abordagens metodológicas.

2. Indicação das palavras-chave que utilizadas para delimitação do assunto nos idiomas inglês e português:

Em português:

Algoritmos de radicalização Aquisição de conhecimento

Categorização automática de documentos Categorização de textos

Classificação automática de textos Descoberta de conhecimento

Extração semi-automática de conhecimento a partir de textos Identificação de conglomerados (clustering) de documentos Indexação

Indexação assistida por computador Indexação automática

Indexação automática de textos indexação automática derivativa Indexação automatizada Indexação e resumos indexação manual Indexação semi-automática Linguagem natural Lógica difusa Mineração de textos

Pré-processamento automático de texto Programa para indexação automática Representação de conteúdo

Sintagmas nominais Sistemas de informação

Em inglês:

Abstracting of document texts Analysis of descriptor suffixes

Automatic abstracting Automatic analysis Automatic book indexing Automatic extracting Automatic indexing

Automatic information organization Automatic information retrieval Automatic text analysis

Automatic text indexing Automating survey coding Classification of text automatic Clustering to information system Complex identifiers

Computational linguistics Document retrieval

Generation of machine-readable texts Hybrid approach to faceted classification Indexing

Indexing systems

Indexing with a computer Information extraction

Multiclass text categorization Natural language

Natural-language processing Probabilistic indexing

Random-walk models of term semantics Subject analysis

summarization of machine-readable texts Syntactic approaches

Term associations Text categorization Technology on indexing

3. Determinação dos tipos de documentos que fariam parte da amostra: (1) artigos técnico-científicos; (2) teses e dissertações; (3) trabalhos apresentados em eventos da área; (4) relatórios de pesquisas; (5) conteúdo de sites relevantes; (6) guias de pesquisa; (7) e-book's; (8) livros impressos; (9) capítulos de livros.

4. Seleção das fontes de informação para pesquisa bibliográfica:

Bases de dados

EBSCO – HOST Illumina

SCIENCE CITATION INDEX Scirus

SCIELO

Library and Information Science Abstracts - LISA Science

Scopus

Biblioteca Digital Brasileira de Teses e Dissertações do IBICT Biblioteca Digital de Teses e Dissertações da UFMG

Biblioteca Digital de Teses e Dissertações da UNB Springer

Periódicos

Association for Computing Machinery - ACM

BIBLOS: Revista do Departamento de Biblioteconomia e História Ciência da Informação

DataGramaZero: Revista de Ciência da Informação

Em Questão: Revista da Faculdade de Biblioteconomia e Comunicação / Universidade Federal do Rio Grande do Sul (UFRGS). Faculdade de Biblioteconomia e Comunicação

Encontros Bibli: Revista Eletrônica de Biblioteconomia e Ciência da Informação

Information Processing and Management Information Systems Research

Perspectivas em Ciência da Informação

Revista ACB: Biblioteconomia em Santa Catarina Revista Brasileira de Biblioteconomia e Documentação Revista Digital de Biblioteconomia e Ciência da Informação Science

The Indexer

Anuários

Annual Review of Information Science and Technology - ARIST

5. Delimitação da quantidade da amostra: levantamento exaustivo, acima de 50 documentos.

6. Indicação do formato e do suporte dos documentos selecionados: documentos eletrônicos e impressos, em formato pdf, htm ou doc.

7. Determinação a estratégia de busca: busca booleana (and, not, or). 8. Definição das partes dos documentos a serem consideradas para leitura técnica: título, resumo, palavras-chave, sumário, listas de ilustrações e siglas, prefácio, metodologia, considerações finais, glossário, índice, lista de referências bibliográficas.

9. Análise da amostra selecionada: realizar uma leitura técnica dos documentos e seleção daqueles potencialmente mais relevantes para a pesquisa.

Assim, após realização da pesquisa bibliográfica de acordo com a estratégia indicada, definiu-se a amostra de estudo nº 1 com a composição do conjunto de 103 (cento e três) documentos, referenciados no Anexo A. A partir da análise desta amostra, foi possível a realização dos procedimentos descritos no estágio a seguir.