BETWEEN USERS AND ENTERPRISE INFORMATION: FACETS OF THE SEARCH Leonardo Lacerda Alves

Resumo: Este trabalho objetiva responder quais características da informação corporativa manifestam-se tanto em documentos quanto em expressões de busca de seus usuários. A metodologia é descritiva, aplicada e experimental. A coleção de documentos adotada foi produzida a partir de um repositório corporativo em uso dentro de uma empresa real. Termos foram extraídos do conteúdo de documentos e de expressões de busca de usuários. Os termos foram categorizados e foi aplicada a análise facetada para descobrir facetas comuns, úteis tanto para o conteúdo dos documentos quanto para o conteúdo das expressões de busca. Oito categorias de assuntos são tão frequentes em documentos quanto nas expressões de busca, apresentando alto e positivo coeficiente de correlação de Spearman. A análise facetada constituiu um instrumento útil para a comparação de assuntos presentes em documentos e nas expressões de busca sem que dados sensíveis da empresa fossem expostos. O método empregado neste trabalho também apresenta potencial para reconhecer características locais e gerais da informação corporativa que deem suporte ao desenvolvimento de sistemas automáticos de recuperação de informação corporativa mais eficazes.

Palavras-chave: Análise de domínio. Informação corporativa. Classificação facetada.

Abstract: The paper endeavours to expose the main characteristics of the enterprise information, using documents and queries the employees use to search the documents. A descriptive, applied, and experimental methodology was devised to investigate the enterprise information characteristics by selecting terms from the documents and the queries, by applying facet analysis on the enterprise collection, and comparing the resulting categories and facets from the documents with those from the queries. The subject distributions were compared using the Spearman’s rank correlation. Eight categories were determined by identifying the subjects and their distribution present strong positive coefficient. The adopted method can recognise local and general characteristics of enterprise information to support the development of more efficient enterprise information retrieval systems. The facet analysis was useful for comparing the subjects in documents and user queries with low potential to expose confidential data. Thus, the method can guide and stimulate future work and other companies can become more willing to take part in a research study.

Keywords: Domain analysis. Enterprise information. Faceted classification. 1 INTRODUÇÃO

Empresas detêm um volume expressivo de dados e, para que trabalho e decisões sejam realizados com eficiência, seus atores sociais dependem de uma eficaz recuperação de informação. Como o volume de dados é crescente, a adoção de processos automáticos e semiautomáticos de organização da informação torna-se essencial. Porém, uma parte expressiva da informação corporativa possui utilidade limitada a pequenos intervalos de tempo e para poucos usuários. Além disso, diferentes contextos de trabalho fazem com que a informação apresente atributos diversificados, mesmo em uma só empresa. Caracterizar essa

diversidade é fundamental para dar suporte a melhores serviços de informação.

Identificar características da informação corporativa não é trivial. Dentro de uma empresa há diversidade de necessidades de informação, de fluxos de trabalho, de competências humanas e de recursos tecnológicos. Se em uma única empresa isso é verdade, a tarefa de conhecer o domínio corporativo é ainda mais desafiadora, situação na qual empresas de diferentes portes, atividades econômicas, localidades, estruturas organizacionais e idiomas compartilham de necessidades informacionais aparentemente compatíveis apenas em sua complexidade. Esse é apenas o primeiro grande obstáculo para o desenvolvimento de sistemas padronizados para a indexação e recuperação automáticas de informação corporativa, com custos humanos e tecnológicos menores que o processamento intelectual ou que o desenvolvimento de um sistema diferente para cada unidade organizacional.

Para avançar na direção de um sistema de recuperação de informação corporativa, dois requisitos concomitantes são essenciais. Primeiro, é preciso que sejam conhecidas as características mais comuns pelas quais os usuários buscam a informação dentro da empresa. Segundo, é preciso que sejam conhecidas as características mais comuns da informação em todo o domínio corporativo. Ambos os requisitos dependem de uma profunda análise do domínio corporativo e ajudam no desenvolvimento de sistemas de recuperação de informação corporativos mais eficazes, enquanto o primeiro vai além: reconhece as necessidades específicas e favorece uma fina sintonia dos processos de indexação e recuperação ao contexto particular de cada empresa. Esta pesquisa concentra-se no primeiro requisito.

Este trabalho concentra-se na seguinte pergunta: Quais características da informação corporativa manifestam-se tanto em documentos quanto em expressões de busca de seus usuários? Assim, esta pesquisa objetiva propor um conjunto de facetas que auxiliem na representação do conteúdo organizacional e que possam ser utilizadas como expressões de busca, ou consultas, de seus usuários, fazendo uso de um método que possa ser facilmente repetido em trabalhos futuros. Os usuários desempenham os papeis de autores e receptores das mensagens corporativas, sendo esperado que eles reconheçam, mesmo que inconscientemente, as características mais importantes da informação. Nas empresas, documentos são os veículos mais comuns de mensagens entre os diversos atores sociais. Para realizar trabalho e tomar decisões, esses atores frequentemente recuperam documentos, de sua autoria ou não, fazendo uso de termos em linguagem natural e partindo até mesmo de conselhos e sugestões de colegas de trabalho que passaram anteriormente por aquela necessidade informacional (CHOO et al., 2008; WU et al., 2014). Apesar de útil e desejável, um vocabulário controlado nem sempre está disponível em unidades organizacionais. Assim,

os usuários tendem a levar atitudes e estratégias de busca da Web para o contexto corporativo, o que não funciona plenamente e produz frustração e ineficiência (LIU et al, 2012).

Partindo do pressuposto que há características comuns entre documentos corporativos e expressões de busca de usuários corporativos, em diferentes unidades organizacionais e empresas, a análise de domínio que pode representá-las enfrenta três limitações. A primeira refere-se à resistência de empresas em disponibilizar uma amostra significativa da sua informação, muitas vezes estratégica e sensível, a qual expõe funcionários, parceiros e clientes (BAILEY et al., 2007). A segunda limitação considera a hipótese de que o domínio corporativo não é suficientemente homogêneo para que um único modelo represente todo o domínio (HALEVY et al., 2005). A terceira refere-se à limitação dos métodos quantitativos adotados para reconhecer características da informação principalmente em áreas externas à Ciência da Informação. Tal reconhecimento requer estudos qualitativos aprofundados, históricos e racionais sobre a natureza, propósitos e uso da informação corporativa (HJØRLAND, 2002). Não é trivial contornar as limitações citadas, mas um caminho para reduzi-las é a escolha de procedimentos metodológicos que permitam a adequada avaliação de informação e exponham menos os dados. A análise facetada parece ser um caminho.

A origem da classificação facetada se deu com estudos de Ranganathan (1967) e teve continuidade nos estudos de outros autores da área de Biblioteconomia e Ciência da Informação, apesar do conceito estar em uso crescente também em outras áreas com algumas variações (BROUGHTON, 2006; VICKERY, 2008). As facetas identificadas nesta pesquisa constituem características da informação de uma única empresa, mas favorecem a análise do domínio corporativo na medida em que o método pode ser repetido em outras organizações, usando documentos de diferentes tipos, propósitos e idiomas, e usando consultas em contextos diversos de trabalho. As facetas evidenciadas neste trabalho e em trabalhos futuros poderão ser comparadas sem que os dados sejam expostos, algo que representa uma grande vantagem para as organizações, para o campo de estudo e para os profissionais de informação envolvidos no desenvolvimento de sistemas de recuperação de informação corporativa.

Na seção seguinte são apresentados os fundamentos teóricos e a revisão da literatura sobre análise de domínio, análise facetada e classificação da informação corporativa. Os procedimentos metodológicos são detalhados na seção três, seguida pela apresentação dos resultados e sua discussão, nas seções quatro e cinco. Finalmente, a seção seis apresenta conclusões e limitações deste estudo e aponta algumas direções de trabalhos futuros.

No documento ALÉM DAS NUVENS: EXPANDINDO AS FRONTEIRAS DA CIÊNCIA DA INFORMAÇÃO (páginas 149-152)